التنقيب في البيانات Data Mining

التنقيب في البيانات

 هي عملية بحث محوسب ويدوي عن معرفة من البيانات دون فرضيات مسبقة عما يمكن أن تكون هذه المعرفة. كما ويعرف التنقيب في البيانات على أنه عملية تحليل كمية بيانات (عادة ما تكون كمية كبيرة) لإيجاد علاقة منطقية تلخص البيانات بطريقة جديدة تكون مفهومة ومفيدة لصاحب البيانات. يطلق اسم "نماذج" models على العلاقات والبيانات الملخصة التي يتم الحصول عليها من التنقيب في البيانات. يتعامل تنقيب البيانات عادة مع بيانات يكون قد تم الحصول عليها بغرض غير غرض التنقيب في البيانات (مثلاً قاعدة بيانات التعاملات في مصرف ما) مما يعني أن طريقة التنقيب في البيانات لا تؤثر مطلقاً على طريقة تجميع البيانات ذاتها. هذه هي أحد النواحي التي يختلف فيها التنقيب في البيانات عن الإحصاء، ولهذا يشار إلى عملية التنقيب في البيانات على أنها عملية إحصائية ثانوية. يشير التعريف أيضاً إلى أن كمية البيانات تكون عادة كبيرة، أما في حال كون كمية البيانات صغيرة فيفضل استخدام الطرق الإحصائية العادية في تحليلها.

عند التعامل مع حجم كبير من البيانات تظهر مسائل جديدة مثل كيفية تحديد النقاط المميزة في البيانات، وكيفية تحليل البيانات في فترة زمنية معقولة وكيفية قرار ما إذا كانت أي علاقة ظاهرية تعكس حقيقة في طبيعة البيانات. عادة يتم التنقيب في بيانات تكون جزءاً من كامل البيانات حيث يكون الغرض عادة تعميم النتائج على كامل البيانات (مثلاً تحليل البيانات الحالية لمستهلكي منتج ما بغرض توقع طلبات المستهلكين المستقبلية). من أحد أهداف تنقيب البيانات أيضاً هو اختزال كميات البيانات الكبيرة أو ضغطها بحيث تعبر بشكل بسيط عن كامل البيانات بدون تعميم.

لماذا نحتاج التنقيب

من المعروف ان عملية تجميع البيانات في سجلات بأحجام كبيره مثل ( Data warehouse) قد تحتوي هذه على معارف كبيره والتي قد تكون مفيدة لأصحابها من خلال معرفة العديد من الاحصاءات المطلوبة مستقبلا لذألك نحتاج تقنيات مختلفة للاستفادة وهذا ما نريد من التنقيب في البيانات ,فالتقنيات العادية قد لا تكون مفيدة وغير عمليه في مثل هذه الاحجام الكبيرة من البيانات , لذاك تواجدت تقنيات الذكاء الاصطناعي ومنها data mining لتسهل وتحسن عمليه البحث و الاستنباط

اهداف التنقيب

هناك ثلاثة أهداف للتنقيب في البيانات:
1) من أجل تعليل بعض الظواهر المرئية. مثال:
2) من أجل التثبت من نظرية ما. مثال: التثبت من النظرية التي تقول بأن الأسر الكبيرة تهتم بالضمان الصحي أكثر من الأسر الصغيرة عددا.
3) من أجل تحليل البيانات للحصول على علاقات جديدة وغير متوقعة. مثال: كيف سيكون الانفاق العام إن كان ملازما لعمليات خداع واسعة من قبل البطاقات الائتمانية.

وسائل التنقيب في البيانات

هناك عدة وسائل مختلفة من أجل التنقيب في البيانات. اختيار الوسيلة المناسبة يعتمد على طبيعة البيانات تحت الدراسة وعلى حجمها. يمكن اجراء عملية التنقيب في البيانات بالمقارنة مع سوق البيانات ومخزن البيانات.
بعض من هذه الوسائل هي: (يتبعها وظيفة كل وسيلة)
- الاستدلال المبني على حالات سابقة Case-Based reasoning: التفكير واستخلاص النتائج والقوانين من أمثلة حية و قضايا تم حلها سابقا.
- الكشف عن قانون Rule Discovery: البحث عن منوال معين أو علاقة معينة في جزئية كبيرة من البيانات.
- معالجة الإشارات Signal Processing: ايجاد الظواهر المتشابه مع بعضها البعض
- شبكات عصبونية Neural Nets: تطوير نماذج قابلة لتنبؤ النتائج. هذه النماذج تم تطويرها بناء على أسس تم استنباطها من عقل الإنسان.
- منحنيات غير ثابتة Fractals: تصغير البيانات الكبيرة من دون ضياع المعلومات.

طرق ونسق التنقيب في البيانات

1-طريقة التنبؤ (prediction method) :- استخدام البيانات المتوفرة وتطبيق عليها تقنيات معينه لتحقيق واعطاء قيم مستقبليه ناجحة ...
2-طريقة الوصف (Description method) :- عملية وصف للبيانات المتاحة ومعرفة تصنيفاتها حسب تواجدها والعلاقات بينها
من خلال المحاكاة للروابط الطبيعية ( human interpretable) بمعنى اخر نأخذ الروابط من خلال التفاعل الطبيعي لكي نشرح هذه البيانات ..

كي نفهم ما هو الذي يحصل في التنقيب اريد ان اوضح الفرق بين عملية الاستعلام العاديه على قواعد البيانات العاديه والاستعلام في البيانات المنقبه ..

المثال التالي والذي يوضح الفرق في الاستعلام بين كلا النوعين ..
Data base Query vs. Data mining Query
الاستعلام عن معلومات في سوق تجاري ....
في قاعدة البيانات العادية (Data base)
* الاستعلام عن المعلومات الكاملة للزبائن الذين ينتهي اسمهم الثاني بخالد ..
* الاستعلام عن الزبائن الذين اشتروا بمبلغ اكثر من 1000 دينار في اخر الشهر.
* الاستعلام عن اسماء الزبائن الذين اشتروا الحليب .
* الاستعلام عن كل البطاقات الائتمانية والتي عليها مشاكل .. وهذا يسمى ( classification) التصنيف .
* الاستعلام عن الزبائن الذين لديهم عادات شرائية مماثله .. وهذا يسمى ( clustering ) التجمع او العناقيد .
* الاستعلام عن السلع التي يتم شراءها بشكل تزامني مع الحليب , المقصود في كل عملية شراء يقوم بها الزبائن ..وهذه تسمى ( association rules ) اكتشاف قواعد وعلاقات الارتباط .

تهيئة البيانات ( Data preparation)

تنظيف البيانات :- هنا يتم التخلص من بعض البيانات التي تحتوي على عيوب مان تكون مطبعيه , او بيانات قديمة لا تفيد في الوقت الحالي وغير ذلك . ( data cleaning )
* البيانات المفقودة :- عمليه تنقيب البيانات من اهم متطلباتها ان تكوت البيانات كامله لا تحتوي على قيم مفقودة , وهنالك طرق طبعا لتصحيح هذه البيانات , مثل الوسط الحسابي وغيرها من العمليات ( Missing value ) .
* اشتقاق البيانات :- في بعض الاحيان يستوجب اشتقاق بعض الأعمدة فتساعدنا في الحصول على معلومات مفيدة ( Data derivation ) .
* دمج البيانات :- في بعض الاحيان يتم دمج بعض الأعمدة للحصول على نتائج افضل او الاختصار في البيانات ( Merging Data ) .

تطبيقات التنقيب في البيانات

وسائل التنقيب في البيانات تُستعمل وبنجاح في الكثير من التطبيقات الحقيقة حول العالم.
التطبيقات التالية تشمل بعضا من الأمثلة: (يتبعها مثال لكل تطبيق)
- كتابة تقرير مختصر عن فئة معينة Profiling Populations: تطوير وإنشاء تقارير موجزة عن الزبائن المهمين وعن بطاقات الائتمان.
- تحليل النزعة التجارية Analysis of Business Trend: ايجاد الأسواق ذات قدرات النمو القوية أو الضعيفة.
- التسويق لفئة معينة Target Marketing: ايجاد الزبائن من أجل منح التخفيضات لهم لسبب معين.
- تحليل الاستعمال Usage Analysis: ايجاد منوال معين لاستعمال الخدمات والسلع
- فعالية الحملة Campaign Effectiveness: مقارنة استراتيجيات الحملات مع بعضها البعض من أجل ايجاد أكثرها فعالية وتأثيرا.
- جاذبية السلعة: ايجاد السلع التي تباع مع بعضها البعض.
تطبيقات التنقيب في البيانات بدأت تنمو بصورة كبيرة للأسباب التالية:
1) كمية البيانات الموجودة في مخزن البيانات وسوق البيانات تنمو بصورة أسية (exponential).
ومن أجل ذلك، فإن المستخدم يحتاج إلى أدوات متطورة من مثل التنقيب في البيانات من اجل استخلاص الفائدة والمعرفة من هذه البيانات.
2) الكثير من أدوات التنقيب عن البيانات بدأت تظهر مؤخرا، وكل أداة أفضل من الأخرى.
3) المنافسة الشديدة الموجودة في السوق تدفع الشركات إلى الاستفادة القصوى من البيانات التي بيدها. عمليات التنقيب في البيانات تفعل ذلك تماما.

أمثلة عن أهمية تطبيق تقنيات التنقيب في البيانات

يمكن بيان أهمية تطبيق تقنيات تحري البيانات في مثال بسيط يعرض وضع شركة توزيع، تتلقى طلبات شراء من المواطنين، تُدخل هذه الطلبات في نظام معلوماتي قبل إرسال المواد والبضائع التي تتضمنها هذه الطلبات إلى الزبائن. بعد العمل مدة طويلة بهذه الطريقة، سوف يتوافر لدى هذه الشركة قاعدة معطيات مهمة تحتوي على المعلومات التي تتضمنها طلبات الزبائن في تلك المرحلة، وسوف تكون هذه القاعدة مصدراً مهماً للمعلومات، تستفيد منه الشركة في اتخاذ القرارات المناسبة لعملها، ووضع خططها المستقبلية وتحديد مجموعات الزبائن التي تتعامل معها، ومن ثمّ تصنيفها وفقاً للمناطق السكنية، أو الفئات العمرية، أو المنتجات المطلوبة، أغيرها من المعايير البسيطة أو المركبة. كما تستطيع الشركة دراسة وسائل التسويق والدعاية التي تستخدمها، ومردود هذه الوسائل. فقد تكتشف الشركة أن عدد زبائنها الذين تعرفوا على منتجاتها من الرسائل البريدية التي أرسلتها إلى سكان منطقة سكنية معينة لم يتجاوز نسبة 4٪، وأن الربح الذي حققته من بيع منتجاتها لهذه الشريحة من الزبائن لا يغطي ما أنفقته في إرسال هذه الرسائل، ومن ثمّ لابد من إيجاد وسائل ترويج أكثر ملاءمة مثل الإعلان عن تخفيضات في أسعار بعض المنتجات أو توفير طرق تسديد تناسب مستوى دخلهم. كما يمكن تطبيق تقنيات أكثر تعقيداً مثل الشبكات العصبونية لمحاكاة عملية إرسال الإعلانات بالبريد وتجاوب الزبائن مع هذه الرسائل. تتعلم الشركة من المعلومات المسجلة حول ما جرى في الماضي ما يرشدها بعد ذلك إلى اختيار العناوين التي يمكن أن تتجاوب مع هذه الطريقة في الإعلان.

كذلك يمكن الانتقال إلى مستوى أكثر تعقيداً من دراسة الزبائن والعلاقة التي يمكن أن تكون بين مجموعات الزبائن ومجموعات المنتجات التي تسوقها الشركة؛ فالزبائن الذين يشترون اليوم ملابس لأطفالهم الرضع، قد يشترون بعد عشر سنوات الألعاب الإلكترونية لهؤلاء الأطفال.

يتبين من هذا المثال أهمية معرفة هذه الأنواع من القواعد وتطبيقها لإيجاد فرص تجارية أفضل، ومعرفة مدى فعالية طرق التسويق التي تطبقها وتدقيقها، ومقارنة هذه الوسائل وتحديد ما يناسب شريحة معينة من الزبائن.

لا يقتصر التنقيب في البيانات على التطبيقات من النوع السابق، وإنما يشمل طيفاً واسعاً من النشاطات، فمثل هذا التقنيات تفيد، إذا ما طُبقت على قواعد البيانات التي تحوي معطيات عن المشافي و المرضى الذين يدخلون، والأدوية التي يتعاطونها وطرق العلاج المستخدمة، ومدى استجابة الأمراض لها، والتوزع السكاني للمرضى، وأحوال الطقس في هذه المناطق السكنية، والأعمال التي يمارسها سكانها، ومستواهم التعليمي في معرفة الأمراض التي تصيب فئة معينة منهم، واكتشاف الأوبئة التي تصيب الناس في أوقات معينة واتخاذ الاحتياطات اللازمة لها، وغير ذلك من المعلومات؛ تفيد في اتخاذ قرارات تتعلق بتحسين مستوى الخدمات الطبية التي تقدمها هذه المشافي.

كيفية دراسة البيانات

وهذه الطريقة بالأساس تهمنا لكي نحدد طريقة تعلم هذه البيانات فأما ان تكون :-

*( supervised learning ) التعلم الاشرافي وهنا يكون بوجود هدف منشود والخوارزمية تحاول الوصول به من خلال مجموعه من المتغيرات او المعطيات .او بمعنى اخر ان الخوارزمية المستخدمة تقوم بعمل الربط بين الهدف المنشود والمحدد سابقا مع ما يرتبط مع من الحلول والاقتراحات الموجودة في مسار الحل ( التعلم ) مقارنة المتوقعة مع الهدف المحدد اصلا .( التعلم من خلال امثله)
مثال :- classification
*( Un-Supervised learning ) وهنا تقوم بتجميع البيانات على شكل مجموعات تحتوي على بيانات متشابهة الخصائص
والك لتمييز بعض الاستثناءات بينها .( التعلم من غير معرفه مسبقه عن الحل الصحيح المطلوب)
مثال:- clustering .
كما قلنا سابقا اول خطوه في تنقيب عن البيانات كانت تهيئتها لننتقل لباقي الخطوات

الخطوه الثانيه :- ندرس الحاله ونتعرف عليها وطبعا نحدد هل تمثل تعلم اشرافي او غير اشرافي كما وضحنا في الدرس السابق وهنالك نقاط مهمه يتم الاهتمام بها وسالخصها بنقطتين :-
1:- تحديد او التعريف بالدراسه التي نريد ان نقوم بها ينطوي على تحديد مجال قاعدة البيانات المستخدمه !!!!!!
مثال :- اول مجموعة بيانات لبناء النموذج وقاعدة بيانات اخرى للتحقق من صحة هذا النموذج ومجموعه اخر لايجاد التكهنات او التوقعات لهذا النموذج .. ( التدريب , والتحقق ومجموعة الاختباراو الفحص ) .
2:- تحديد حجم العينة , وذالك لانه ليس بالضروره اجراء عملية التنقيب على كل البيانات الموجوده , فيمكن اختيار مجموعة من الصفوف من خلال عينات عشوائيه .
الخطوه الثالثه :- قراءة البيانات وبناء النماذج
والنموذج يلخص حجم كبير من البيانات من خلال عدة مؤشرات كالاتي :-
من خلال الترددات او التكرارت :- فهو غالبا يظهر حدوث قيمه معينه ويبين كم نسبة التاكد من القيمه المحدثه .
من خلال الوزن او التاثير :- يظهر كيف ان بعض المدخلات تشير الى حدوث المخرجات , اي بمعنى اخر يوضح ان بعض الاعمده مثلا لها اوزان عاليه .. يبين كيف المدخلات المشار اليها تعطي المخرج المطلوب.
من خلال الارتباطات :- بعض المدخلات لها اوزان عاليه عندما تكون مع بعض افضل من اوزانها عندما تكون منفرده .
التمايز او المفاضله :- تبين مدى اهمية اوزان ومعاير بعض المدخلات في المخرجات بالنسبه لغيرها من المدخلات .
من خلال تحديد الاختلاف في الاوزان والمعايير بينها ..
الخطوه الرابعه :- فهم النموذج التالي والذي يمثل مجموعة بيانات اخذت من دراسة لارتفاع ضغط الدم ..

حيث بعض النماذج تمثل على اشكال ومنهجيات مختلفة كالصورة السابقة والتي كانت Decision tree
حيث تم فصل البيانات على اساس صفة العمر .
او مثلا نموذج الشبكة العصبية والذي انتقد على اساس انه الصندوق الاسود لتوسعه في استخدام مبدأ التنبؤ . لنفرض ان احدى البيانات نريد ان نجري لها تنقيب , فمراحل فهم النموذج الذي أنشئ من هذه القاعدة من البيانات تشمل الاتي :-
1-ملخص النموذج: - يظهر الاوزان والترددات والارتباطات المهمة لكي توضح الهدف .
2-توزيع البيانات: -فمن المهم ان تكون البيانات كبيره كفاية لتمثيل العينة .
3- الفحص والمقارنة :-وتنطوي على استخدام التنبؤات التي يحققها النموذج المستخدم ومقارنة النتائج الجديدة بالنتائج المعروفة .
4- التحقق من فشل او نجاح التنبؤ :- معرفة لماذا النموذج فشل او نجح في التنبؤ .
5- ومن ثم تحديد الصفوف التي تعتبر الافضل والاكثر حضا لتحقيق النتائج المرجوة .
الخطوة الخامسة :- التنبؤ ( Prediction ) هي عملية التنبؤ بالنتائج بناءً على البيانات الموجودة .

نماذج التنقيب في البياناتDATA MINING MODELS

·       Neural Networks
·       Genetic Algorithms
·       Agent Technology
·       Decision Trees
·       Hybrid Models
·       Statistics

استخدامات التنقيب في البيانات

في ضوء المفهوم العام للتنقيب في البيانات يبدأ التساؤل عن الفوائد التي يمكن للمنظمات تحقيقها من استخدام التنقيب في البيانات؟ وما هي المنظمات التي بدأت باستثمار هذه التقنية في أنشطتها؟
على فرض أنك تملك متجرا كبيرا يحتوي هذا المتجر على عدد كبير من السلع المختلفة، وهناك عوامل كثيرة تؤثر على عملك، منها “عوامل داخلية” مثل السلع و الأسعار ومهارات الباعة، وعوامل خارجية” مثل وضع الزبون والمنافسة والمؤشرات الاقتصادية. ففي حال أردت الاستعلام عن منتج معين و تربط هذا الاستعلام بالعوامل الداخلية والخارجية فإنك تحتاج إلى التنقيب عن البياناتData Mining للحصول على نتيجة جيدة.
أمثلة عن التنقيب عن البيانات:
في إحدى المتاجر الكبيرة حيث يحتوي هذا المتجر على تنوع كبير من الأطعمة لاحظ الفريق المهتم بالزبائن أن معظم الزبائن الذي يشترون الحليب يشترون الخبز معه مما يمكن التاجر من إعادة ترتيب الأطعمة في المتجر وفقا لما يراه مناسب لزيادة أرباح المتجر, مثلا بوضع الخبز بجانب الحليب.
ليكن لدينا سلسلة من المطاعم وليكن لدينا زبائن يأخذون وجبة بشكل نموذجي, هنا يمكن ان ننقب بيانات شراء الزبائن لتحديد ماهي الوجبة المطلوبة.
بالتنقيب في بيانات متجر لبيع لوازم السفر والرحلات, وجد أن من يشتري أكياس نوم وأحذية سفر وخيمة فسيقوم أيضاً بشراء حقيبة ظهر للسفر.

واحدة من القطاعات المهنية التي بدأت بالاستفادة من هذا المفهوم هي الرعاية الصحية. مع النمو في السجلات الصحية الإلكترونية (السجلات الصحية الإلكترونية)، المزيد والمزيد من التسهيلات وجمع كميات هائلة من البيانات الرقمية للمريض، بالتالي يمكن لمقدمي الرعاية الصحية والباحثين استخدام التنقيب عن البيانات من مخازن هائلة من البيانات لكشف أنماط معرفية كانت مجهولة سابقا ومن ثم استخدام هذه المعلومات لبناء النماذج التنبؤية لتحسين التشخيص ونتائج الرعاية الصحية.

مهنة أخرى استطاعت الاستفادة من التنقيب عن البيانات وهي قطاع تجارة التجزئة. من خلال تطبيق أدوات التنقيب عن البيانات، وسلاسل البيع بالتجزئة أصبحت قادرة على اكتشاف الأيام التي يتوافد المستهلكون فيها بغزارة إلى المحلات التجارية والقيام بالتسوق الخاص بهم، وكيف ينفقون معظم أموالهم؟ وعلى أي من المنتجات المتواجدة يذهب المال؟ كل هذه المعلومات والمعرفة بهذه الأنماط والتي قد يكون الكثير منها غير معروف لديهم، ساعد المخططين على توجيه استثماراتهم بناءً على هذه المعلومات المكتسبة لزيادة إيراداتها في الواقع.

التنقيب في البيانات هو إعادة رؤية للبيانات من منظور جديد ومن هنا تكون القيمة المضافة والذي تعطي بيانات لا يمكن توقعها بالأساليب التقليدية. التنقيب عن البيانات يعطي هذه القيم المضافة في مجالات عددية إذا ما تم استخدامه.

التنقيب في البيانات وأدوات الاستعلام

ثمة فروق واضحة بين تحري البيانات وطرائق الاستعلام ولغات الاستعلام الشائعة التي توفرها معظم نظم إدارة قواعد البيانات، مثل لغة SQL. ففي حين صُممت لغات الاستعلام بهدف تقديم وسائل تمكن مستخدمها من تحديد البيانات التي يود استخراجها من قاعدة ما، واختبار الفرضيات التي وضعها بناءً على البيانات أو القيم المُستخرجة، صممت أدوات التنقيب في البيانات لتضع الفرضيات وتختبرها وتستنتج منها معلومات جديدة. ولتوضيح هذه الفكرة يمكن الموازنة بين هذين المنحيين في المثال الآتي: تريد إحدى شركات تصنيع الحواسيب معرفة معدلات بيع منتجاتها والوسائل الكفيلة بتحسين مردودها. فتبدأ بدراسة كل منتج من منتجاتها لتحديد معدل البيع في بعض مناطق العالم وتوازن بين هذه المعدلات لمعرفة مدى قبول المنتج في تلك المناطق. ولتحقيق ذلك يمكن استخدام إحدى لغات الاستعلام مثل SQL، ثم تدرس العلاقة بين متوسط دخل ا لفرد في كل دولة وعدد المنتجات التي تشتريها تلك الدولة سنوياً وهكذا، وفي كل مرة هناك فرضية يجري إثباتها أو نفيها. أما تقنيات التنقيب في البيانات فإنها تعنى بالإجابة على السؤال الأعم من هذه الأسئلة الفرعية مثل «هل لاقى منتج ما نجاحاً كافياً، وماهي العوائق التي تحول دون الحصول على النجاح المطلوب، وما هي طرق تذليل تلك العقبات؟». لا تتطلب أداة التحري في هذه الحالة أي فرضيات، إنما تقوم بعملية الفرز والتصنيف والتحليل لاكتشاف العلاقات والمعلومات المخفية التي لا يمكن ملاحظتها دوماً.

وعموماً يمكن القول إنه في حال معرفة المطلوب تماماً، يمكن استخدام لغات الاستفسار مثل SQL، أما إذا كان ما يريده المستخدم غير واضح، ولديه فرضيات أو معايير، فلا بد من اللجوء إلى تقنيات تنقيب في البيانات التي صار لها أهمية كبيرة لغموض المطلوب في أكثر الحالات.

تكامل أنظمة دعم القرار مع عملية التنقيب في البيانات

تعد عملية تنقيب في أحد أشكال أنظمة دعم القرار، فهي تستخدم للاستعلام ولاستخلاص المعرفة من مخازن البيانات المتوافرة. تتطلب عملية استكشاف المعرفة ست مراحل:
ـ اختيار البيانات data selection ويجري في هذه المرحلة تجميع المعلومات المراد معالجتها من مخازن البيانات المختلفة ووضعها في مخزن للبيانات.
ـ التصفية cleaning وتتضمن إلغاء التسجيلات المتكررة، وتصحيح أخطاء كتابة سلاسل المحارف، وإضافة المعلومات الناقصة وغيرها.
ـ الإغناء enrichment.
ـ الترميز coding إذ يجري استخدام ترميز وتصنيف موحد للبيانات ذات الدلالة المشتركة والمستوردة من بنوك المعطيات المعنية.
ـ تحري االبيانات.
ـ بناء التقارير reporting.
وتعد المرحلة الخامسة (مرحلة التنقيب في البيانات)مرحلة الاكتشاف الحقيقية.
ويستطيع المنقب عن البيانات data miner الرجوع إلى الخلف خطوة واحدة أو أكثر، فقد يجد حين يكون في مرحلة الترميز أو مرحلة التحري، بأن مرحلة التصفية غير كاملة، أو قد يكتشف معطيات جديدة تغني مجموعات البيانات الموجودة مسبقاً. ومن المستحيل وصف كامل تلوث البيانات data pollution الذي يمكن توقع وجوده في قاعدة البيانات سلفاً، إذ لا يمكن اكتشافه إلا في مرحلة التحري فقط.

التطبيقات العملية للتنقيب في البيانات والصعوبات الناتجة


تجاوزت تقنيات التنقيب في البيانات طور الاختبار ودخلت حيز الاستخدام العملي في الدول المتقدمة. وقد كانت الشركات الكبيرة مثل شركات الهاتف والمصارف أول من طبق تقنيات اكتشاف المعرفة في قواعد البيانات لتحليل ملفات زبائنها. بعد ذلك اتسع مجال استخدام هذه التقنيات ليشمل طيفاً واسعاً من النشاطات مثل شركات التأمين ومراكز دراسة أحوال الطقس والمؤسسات التعليمية والطبية وغيرها.

ومن الملاحظ أن 80٪ من أعمال اكتشاف المعرفة في قواعد المعطيات تقوم على تحضير البيانات، أما 20٪ المتبقية فتقوم على التحري فيها.

وتعد مرحلة تحضير البيانات التي تستخدم الإجراءات والأساليب التقليدية من قواعد البيانات لإدخالها وترميزها، المرحلة الأكثر أهمية ضمن مراحل اكتشاف المعرفة. فمن دون البيانات صحيحة يبقى هناك نقص ما يجب البحث عنه.

ولما كان اكتشاف المعرفة والتنقيب في البيانات محورين جديدين من محاور المعلوماتية التي تتعامل مع معطيات الصناعة المتنامية بوتيرة عالية، مازال هذا العلم يواجه الكثير من المصاعب منها:

ـ عملية اكتشاف المعرفة: هناك حاجة إلى فهم أفضل لعملية اكتشاف المعرفة، إذ يجب تحديد المراحل المختلفة في هذه العملية، والعلاقات بين مختلف الخطوات في أثنائها، كذلك ينبغي وضع دليل يساعد محللي الأعمال ومهندسي التنقيب في البيانات في إنجاز مشاريع اكتشاف المعرفة.

ـ التغيرات والتبدلات في البيانات: إن تبدل البيانات باستمرار، وحفظها في قواعد المعطيات يجعل من عملية اكتشاف المعرفة الشغل الشاغل لأولئك الذين يسعون إلى إيجاد تقانات جديدة للتعامل مع تلك الأشكال المتغيرة، مما يضطرهم إلى إيجاد وسائل إضافية للتأكد من أن عملية اكتشاف المعرفة المستخدمة مازالت فعّالة لدى الانتقال إلى صيغ جديدة للمعطيات، وفي بعض الأحيان تعديل نموذج التحري المستخدم ليتناسب معها.

ـ المحاور المتعددة الاستراتيجيات: أحياناً يكون استخدام نوع واحد من خوارزميات التنقيب في البيانات غير كافٍ للإجابة عن سؤال معقد نوعاً ما. ولذلك تظهر الحاجة إلى توظيف عدة استراتيجيات قائمة على استخدام مجموعة من التقنيات للإجابة عن سؤال واحد.

ـ تدرج عملية اكتشاف المعرفة والتنقيب في البيانات:

يزداد كمّ البيانات بسرعة، وتتطلب قواعد البيانات اليوم استخدام طرائق فعّالة للوصول إلى المعطيات. وهي أيضاً مجبرة على استخدام خوارزميات التنقيب في البيانات، التي يجب تعديلها بما يتناسب مع هذا الكمّ المتزايد من البيانات. كذلك ينبغي توظيف تقنيات لتخليص المعطيات قبل القيام بعملية التنقيب فيها ضمن عملية اكتشاف المعرفة.


===========
التجميع بواسطة مدونة FAB

المراجع

ويكي بيدياwikipedia.org
منتدى الفريق العربي arabteam2000-forum.com
مدونة مبادئ إدارة نظم المعلومات nal111.wordpress.com
منصة المعرفة www.marefa.org

مدونة نسيج blog.naseej.com

تعليقات

المشاركات الشائعة من هذه المدونة

طريقة حساب الغياب المسموح به قبل الحرمان من المقرر

تجربتي في استخراج بطاقة احوال بدل فاقد

انشاء سكربت php لاإدخال البيانات الى قاعدة بيانات mysql