الحوار المتمدن - موبايل
الموقع الرئيسي


التنقيب عن المعلومات

محمد عبد الكريم يوسف
مدرب ومترجم وباحث

(Mohammad Abdul-karem Yousef)

2021 / 3 / 29
تقنية المعلمومات و الكومبيوتر


يمكن للمنظمات والمؤسسات الوصول إلى المزيد من البيانات الآن أكثر من أي وقت مضى. ومع ذلك ، فإن فهم وتحليل الكميات الهائلة من البيانات الخاضعة للهيكلة وغير الخاضعة للهيكلة والتي تفيد في تنفيذ التحسينات على مستوى المؤسسة يمكن أن يكون أمرًا صعبًا للغاية بسبب تدفق كم الهائل من المعلومات . وإذا لم يتم التعامل مع هذا التحدي بشكل صحيح ، يمكن أن تقل فوائد جميع البيانات.
التنقيب عن البيانات هو العملية التي تكتشف من خلالها المؤسسات أنماطًا جديدة في البيانات للحصول على رؤى ذات صلة باحتياجات أعمالها ونشاطاتها المختلفة . وهو عملية ضرورية لكل من ذكاء الأعمال وعلوم البيانات. هناك العديد من تقنيات التنقيب عن البيانات التي يمكن للمنظمات استخدامها لتحويل البيانات الأولية إلى رؤى قابلة للتنفيذ. يتضمن ذلك كل شيء بدءا من الذكاء الاصطناعي المتطور إلى أساسيات إعداد البيانات ، وكلاهما يعتبران مفتاح لتعظيم قيمة استثمارات البيانات. هناك عدد من المفاهيم يجب تعلمها أولا منها:

• تنظيف البيانات واعدادها.
• أنماط التتبع.
• التصنيف.
• الروابط.
• البحث والتقصي الخارجي.
• التجميع والربط.
• التراجع.
• التنبؤ.
• الأنماط المتسلسلة.
• شجرة اتخاذ القرار.
• التقنيات الاحصائية .
• التصور المستقبلي.
• شبكة الأعصاب الفرعية .
• تخزين البيانات.
• معالجة الذاكرة طويلة الأجل.
• التعلم الآلي والذكاء الصناعي.
سنتناول بشيء من التفصيل شرحا مبسطا للتنقيب عن البيانات تخص القارئ العادي لا القارئ المتخصص وفقا لما يلي:
تنظيف البيانات وإعدادها:
يعد تنظيف البيانات وإعدادها جزءًا حيويًا من عملية التنقيب عن البيانات . يجب تنقية البيانات الأولية ، وتنسيقها لتكون مفيدة في طرق التحليل المختلفة . ويتضمن تنظيف البيانات وإعدادها عناصر مختلفة لنمذجة البيانات ، وتحويلها ، وترحيلها ، وتكاملها ، وتجميعها. إنها خطوة ضرورية لفهم الميزات والسمات الأساسية للبيانات لتحديد أفضل استخدام لها.
تعتبر القيمة التجارية لتنظيف البيانات وإعدادها بديهية. وبدون هذه الخطوة الأولى ، تكون البيانات إما لا معنى لها بالنسبة للمؤسسة أو لا يمكن الاعتماد عليها من حيث جودتها وموثوقيتها. ويجب أن تكون الشركات قادرة على الوثوق ببياناتها ونتائج تحليلاتها والإجراءات التي تم إنشاؤها واستخلاصها من تلك النتائج.
هذه الخطوات ضرورية أيضًا لضمان جودة البيانات وحوكمتها بشكل المناسبة.
أنماط التتبع:
أنماط التتبع تقنية أساسية للتنقيب عن البيانات. يتضمن تحديد ومراقبة الاتجاهات أو الأنماط في البيانات لعمل استنتاجات ذكية حول نتائج الأعمال. وبمجرد أن تحدد المؤسسة اتجاهًا في بيانات المبيعات ، على سبيل المثال ، هناك أساس لاتخاذ إجراء للاستفادة من هذه الرؤية. وإذا تم رصد أن منتجًا معينًا يتم بيعه أكثر من غيره لمجموعة سكانية معينة ، فيمكن للمؤسسة استخدام هذه المعرفة لإنشاء منتجات أو خدمات مماثلة ، أو ببساطة تخزين المنتج الأصلي لهذه المجموعة السكانية بشكل أفضل ، والعودة إليه ، وتعديله ، وتطويره واستنتاج مستقبليات البيانات وتنبؤاتها.
التصنيف:
تتضمن تقنيات التنقيب في بيانات التصنيف تحليل السمات المختلفة المرتبطة بأنواع مختلفة من البيانات. وبمجرد أن تحدد المؤسسات الخصائص الرئيسية لأنواع البيانات هذه ، يمكن للمؤسسات تصنيف البيانات ذات الصلة أو تصنيفها . يعد القيام بذلك أمرًا بالغ الأهمية في التحديد . على سبيل المثال ، قد ترغب مؤسسات المعلومات الشخصية في حماية أو تنقيح بعض المستندات والرجوع إليها.
الروابط:
الرابط التشعبي هو التنقيب عن البيانات الفنية المتعلقة بالإحصاءات. يشير المصطلح إلى أن بيانات معينة (أو أحداث موجودة في البيانات) مرتبطة ببيانات أخرى أو أحداث تعتمد على البيانات. فقد يكون مشابها لمفهوم التواجد المشترك في التعلم الآلي ، حيث يُشار إلى احتمال حدوث شيء ما مدفوع بالبيانات من خلال وجود حدث آخر.
المفهوم الإحصائي للارتباط التشعبي مشابه أيضًا لمفهوم الترابط. وهذا يعني أن تحليل البيانات يظهر أن هناك علاقة بين حدثين من البيانات: مثل حقيقة أن شراء سندويش الهامبرغر كثيرًا ما يكون مصحوبًا بشراء البطاطس المقلية.

البحث والتقصي الخارجي:
يحدد البحث والتقصي الخارجي أي حالات شاذة في مجموعات البيانات. وبمجرد أن تجد المؤسسات انحرافات في بياناتها ، يصبح من الأسهل فهم سبب حدوث هذه الحالات الشاذة والاستعداد لأي حوادث مستقبلية لتحقيق أهداف العمل بشكل أفضل. على سبيل المثال ، إذا كان هناك ارتفاع في استخدام أنظمة المعاملات لبطاقات الائتمان في وقت معين من اليوم ، فيمكن للمؤسسات الاستفادة من هذه المعلومات من خلال معرفة سبب حدوثها لتحسين مبيعاتها خلال بقية اليوم.
التجميع
التجميع أسلوب تحليلي يعتمد على الأساليب المرئية لفهم البيانات . تستخدم آليات التجميع الرسومات لإظهار مكان توزيع البيانات فيما يتعلق بأنواع مختلفة من المقاييس. وتستخدم تقنيات التجميع أيضًا ألوانًا مختلفة لإظهار توزيع البيانات.
تعتبر مناهج الرسم البياني مثالية لاستخدام تحليلات الكتلة. وتمكن الرسوم البيانية والكتل على وجه الخصوص ، المستخدمين من رؤية كيفية توزيع البيانات بشكل مرئي لتحديد الاتجاهات ذات الصلة بأهداف أعمالهم وتحسينها.
التراجع:
تعد تقنيات التراجع مفيدة لتحديد طبيعة العلاقة بين المتغيرات في مجموعة البيانات ويمكن أن تكون هذه العلاقات سببية في بعض الحالات ، أو ببساطة مرتبطة ببعضها البعض في حالات أخرى. التراجع هو أسلوب مباشر للمربع الأبيض يكشف بوضوح كيفية ارتباط المتغيرات بعضها ببعض. تُستخدم تقنيات التراجع في جوانب التنبؤ ونمذجة البيانات .
التنبؤ:
يُعد التنبؤ جانبًا قويًا للغاية في استخراج البيانات، ويمثل أحد الفروع الأربعة للتحليلات. تستخدم التحليلات التنبؤية الأنماط الموجودة في البيانات الحالية أو التاريخية لتوسيعها في المستقبل. وبالتالي ، فإنه يعطي المنظمات نظرة ثاقبة حول الاتجاهات التي ستحدث بعد ذلك مستقبلا في بياناتهم. هناك عدة طرق مختلفة لاستخدام التحليلات التنبؤية. ويستخدم بعضها تقنيات أكثر تقدما تنطوي على جوانب التعلم الآلي و الذكاء الاصطناعي . ومع ذلك ، لا تعتمد التحليلات التنبؤية بالضرورة على هذه التقنيات فقط - بل يمكن أيضًا جعلها أسهل باستخدام خوارزميات أكثر وضوحًا.
الأنماط المتسلسلة:
تركز تقنية التنقيب عن البيانات على الكشف عن سلسلة من الأحداث التي تحدث في وفق تسلسل معين . وهي مفيدة بشكل خاص لبيانات معاملات التنقيب عن البيانات. على سبيل المثال ، يمكن أن تكشف هذه التقنية عن أنواع الملابس التي من المرجح أن يشتريها العملاء بعد الشراء الأولي لزوج من الأحذية . كما يمكن أن يساعد فهم الأنماط التسلسلية المؤسسات على التوصية بعناصر إضافية للعملاء لتحفيز المبيعات في أنواع محددة ومختارة من السلع.

أشجار القرار:
أشجار القرار هو نوع محدد من النماذج التنبؤية التي تتيح للمؤسسات استخراج البيانات بشكل فعال. ومن الناحية الفنية ، تعد شجرة القرار جزءًا من التعلم الآلي ، ولكنها تُعرف بشكل أكثر شيوعًا باسم تقنية التعلم الآلي للمربع الأبيض نظرًا لطبيعتها المباشرة للغاية.
تمكّن شجرة القرار المستخدمين من فهم كيفية تأثير مدخلات البيانات على المخرجات بوضوح. وعندما يتم الجمع بين نماذج شجرة القرار المختلفة ، فإنها تنشئ نماذج تحليلات تنبؤية تُعرف باسم الغابة العشوائية. تعتبر نماذج الغابة العشوائية المعقدة من تقنيات التعلم الآلي في الصندوق الأسود ، لأنه ليس من السهل دائمًا فهم مخرجاتها بناءً على مدخلاتها. ومع ذلك ، في معظم الحالات ، يكون هذا الشكل الأساسي لنمذجة المجموعات أكثر دقة من استخدام أشجار القرار بمفردها.
التقنيات الإحصائية:
تعد التقنيات الإحصائية في صميم معظم التحليلات المشاركة في عملية التنقيب عن البيانات. وتعتمد نماذج التحليلات المختلفة على مفاهيم إحصائية تنتج قيمًا رقمية قابلة للتطبيق على أهداف عمل محددة. على سبيل المثال ، تستخدم شبكات الأعصاب التفرعية إحصاءات معقدة تستند إلى أوزان ومقاييس مختلفة لتحديد ما إذا كانت الصورة هي كلب أو قطة في أنظمة التعرف على الصور.
تمثل النماذج الإحصائية أحد فرعين رئيسيين للذكاء الاصطناعي. وتكون نماذج بعض الأساليب الإحصائية ثابتة ، بينما يتحسن البعض الآخر الذي يتضمن التعلم الآلي مع مرور الوقت وخير مثال على ذلك التقنيات المستخدمة في الهواتف الذكية.
الرسوم المرئية :
تحويل البيانات إلى رسوم مرئية هي عنصر مهم آخر في استخراج البيانات. وهي تقنية تمنح المستخدمين نظرة ثاقبة للبيانات بناءً على التصورات الحسية التي يمكن للناس رؤيتها. يعد تحويل البيانات إلى رسوم مرئية حالة ديناميكية ومفيدة لتدفق البيانات في الوقت الفعلي وتتميز بألوان مختلفة تكشف عن اتجاهات وأنماط مختلفة في البيانات.
تعد لوحات المعلومات المرئية طريقة فعالة لاستخدام تحويل البيانات إلى رسوم مرئية في الكشف عن رؤى التنقيب عن البيانات. يمكن للمؤسسات أن تبني لوحات المعلومات على مقاييس مختلفة، وتستخدم الرسوم المرئية لتمييز الأنماط في البيانات بشكل مرئي ، بدلاً من مجرد استخدام المخرجات الرقمية للنماذج الإحصائية.
شبكات الأعصاب المتفرعة:
تعد شبكة الأعصاب المتفرعة نوع محدد من نماذج التعلم الآلي التي تستخدم غالبًا مع الذكاء الاصطناعي والتعلم العميق . وقد سميت كذلك لأنها تشبه شبكة الأعصاب المتفرعة وأن لديها طبقات مختلفة تشبه الطريقة التي تعمل بها الخلايا العصبية في الدماغ البشري ، وتعد شبكة الأعصاب المتفرعة واحدة من أكثر نماذج التعلم الآلي دقة في الاستخدام اليوم.
على الرغم من أن شبكة الأعصاب المتفرعة يمكن أن تكون أداة قوية في التنقيب عن البيانات ، يجب على المؤسسات توخي الحذر عند استخدامها لأن بعض نماذج شبكة الأعصاب المتفرعة هذه معقدة بشكل لا يصدق ، مما يجعل من الصعب فهم كيفية تحديد مخرجات شبكة الأعصاب المتفرعة .
تخزين البيانات:
يعد تخزين البيانات جزءًا مهمًا من عملية التنقيب عن البيانات. تقليديا ، يتضمن تخزين البيانات تخزين البيانات المنظمة في أنظمة إدارة قواعد البيانات العلائقية بحيث يمكن تحليلها من أجل الأعمال الذكية ، وإعداد التقارير ، وقدرات لوحة المعلومات الأساسية . اليوم ، توجد مستودعات بيانات سحابية ومخازن بيانات شخصية داخل مخازن بيانات عالمية شبه رسمية أوغير رسمية . و كانت مستودعات البيانات تُستخدم تقليديًا للبيانات التاريخية ، ويمكن للعديد من الأساليب الحديثة توفير تحليل متعمق في الوقت الفعلي للبيانات.
معالجة الذاكرة طويلة المدى:
تشير معالجة تحليل الذاكرة طويلة المدى إلى القدرة معالجة البيانات على مدى فترات زمنية طويلة. والبيانات التاريخية المخزنة في مستودعات البيانات مفيدة لهذا الغرض. وعندما تتمكن إحدى المؤسسات من إجراء التحليلات خلال فترة زمنية طويلة ، فإنها تكون قادرة على تحديد الأنماط التي قد تكون خفية للغاية بحيث يتعذر اكتشافها. على سبيل المثال ، من خلال تحليل الاستنزاف في الموارد على مدى عدة سنوات ، قد تجد المنظمة أدلة خفية يمكن أن تؤدي إلى تقليل الاضطراب في التمويل.
التعلم الآلي والذكاء الاصطناعي:
يمثل التعلم الآلي والذكاء الاصطناعي جزءا من أكثر التطورات تقدمًا في استخراج البيانات. وتقدم الأشكال المتقدمة للتعلم الآلي مثل التعلم العميق تنبؤات دقيقة للغاية عند العمل مع البيانات على نطاق واسع . وبالتالي ، فهي مفيدة لمعالجة البيانات في عمليات نشر الذكاء الاصطناعي مثل مشاهدة الكمبيوتر أو التعرف على الكلام أو تحليلات النصوص المعقدة باستخدام معالجات اللغة الطبيعية. تعد تقنيات التنقيب عن البيانات جيدة لتحديد قيمة البيانات شبه المنظمة وغير المهيكلة سابقا.

التحسين باستخدام أدوات التنقيب عن البيانات
هناك مجموعة واسعة من التقنيات التي تستخدم في التنقيب عن البيانات ومن الضروري أن يمتلك الأدوات المناسبة لتحسين التحليلات على أفضل وجه. ع ادة ، تتطلب هذه التقنيات عدة أدوات مختلفة أو أدوات ذات قدرات شاملة للتنفيذ السليم.
وعلى الرغم من أنه يمكن للمؤسسات استخدام أدوات علوم البيانات مثل أداة أر أو بيثون أو نيمي في تحليلات التعلم الآلي ، ومن المهم ضمان الاستجابة لسلسلة البيانات المناسبة باستخدام أداة حوكمة البيانات. بالإضافة إلى ذلك، تحتاج المؤسسات إلى العمل مع المستودعات مثل مخازن البيانات السحابية من أجل إجراء التحليلات، وكذلك لوحات المعلومات، وتصورات البيانات لتزويد مستخدمي الأعمال بالمعلومات التي يحتاجون إليها لفهم التحليلات. تتوفر الأدوات التي تحتوي كل هذه الميزات ، ولكن من المهم العثور على واحدة أو أكثر من الأدوات التي تناسب احتياجات العمل.

السحابة ومستقبل التنقيب عن البيانات
كان لتقنيات الحوسبة السحابية تأثير هائل على نمو استخراج البيانات وتخزينها. تعد تقنيات السحابة مناسبة تمامًا للسرعة العالية والكميات الضخمة من البيانات شبه المهيكلة وغير المهيكلة التي تتعامل معها معظم المؤسسات اليوم. وتتوسع موارد السحابة المرنة بسهولة لتلبية متطلبات البيانات الضخمة هذه. وبالتالي ، ونظرًا لأن السحابة يمكنها الاحتفاظ بمزيد من البيانات بتنسيقات مختلفة ، فإنها تتطلب المزيد من الأدوات لاستخراج البيانات لتحويل تلك البيانات إلى مادة مفيدة ودقيقة. بالإضافة إلى ذلك ، يتم تقديم أشكال متطورة من التنقيب عن البيانات مثل الذكاء الاصطناعي والتعلم الآلي كخدمات متاحة في السحابة.
من المؤكد أن التطورات المستقبلية في الحوسبة السحابية ستستمر مع زيادة الحاجة إلى أدوات أكثر فاعلية للتنقيب عن البيانات. وفي غضون السنوات الخمس المقبلة ، سيصبح الذكاء الاصطناعي والتعلم الآلي أكثر شيوعًا مما هو عليه اليوم. ومع زيادة معدل نمو البيانات بشكل كبير كل يوم ، تعد السحابة المكان الأنسب لتخزين ومعالجة البيانات الخاصة بالأعمال. وبالتالي ، ستعتمد أساليب التنقيب في البيانات على السحابة أكثر مما تعتمد عليه حاليًا.

الشروع في التنقيب عن البيانات
يمكن للمؤسسات البدء في التنقيب عن البيانات من خلال الوصول إلى الأدوات اللازمة . ونظرًا لأن عملية التنقيب عن البيانات تبدأ مباشرة بعد إدخال البيانات ، فمن الأهمية بمكان العثور على أدوات إعداد البيانات التي تدعم هياكل البيانات المختلفة اللازمة لتحليلات التنقيب عن البيانات. ترغب المنظمات أيضًا في تصنيف البيانات لاستكشافها باستخدام التقنيات العديدة التي تمت مناقشتها أعلاه . وتوجد في هذا الصدد الأشكال الحديثة لتخزين البيانات ، وكذلك العديد من التقنيات التنبؤية والتعلم الآلي / الذكاء الاصطناعي المفيدة.
ستستفيد المؤسسات من استخدام أداة واحدة لجميع تقنيات التنقيب عن البيانات المختلفة. ومن خلال وجود مكان واحد لأداء هذه التقنيات المختلفة لاستخراج البيانات ، يمكن للشركات تعزيز جودة البيانات وتدابير حوكمة البيانات المطلوبة للوصول إلى بيانات موثوقة.








التعليق والتصويت على الموضوع في الموقع الرئيسي



اخر الافلام

.. دعوات في المغرب لتشجيع اعتماد الأدوية المكافئة | #النافذة_ال


.. أستراليا تباشر أعمال بناء تلسكوب تصفه بأنه من الأقوى في العا




.. صباح العربية | رأي الشارع السعودي في التغييرات والتحديثات في


.. صباح العربية | بعد تولي إيلون ماسك.. العصفور الأزرق -تويتر-




.. ريبورتاج: مع ارتفاع الإصابات بفيروس كورونا هل يعود الفرنسيون