إستضافة و تحليل و معالجة قواعد البيانات

تحليل و معالجة قواعد البيانات

تفسير المعطيات

 

النمذجة

 ماذا يمكنكم أن تقولوا عن كامل التعداد بعد قيامكم بأخذ عينة، وحساب القيم الإحصائية، كالمتوسط؟ العينة هي مجرد تقريب للتعداد ككل, لذا، فإن هذه الإحصائيات تكون أيضاً تقريبية. فإذا أخذتم عينة مختلفة, فستحصلون على قيم مختلفة حتماً. 

أما إذا أخذتم عدد كبير من العينات، ولكن من التعداد المتوزع بشكل طبيعي, فإن معظم متوسطات العينات ستكون قريبة جداً من بعضها البعض. وإذا ما تم رسم هذه المتوسطات بيانياً، فستبدو كمنحني طبيعي، وسيكون المعدل الوسطي لهذه المتوسطات هو أفضل تقدير لمتوسط التعداد ككل. إضافة, يعتمد انتشار توزع العينات على حجم العينة. 

يدعى الانحراف المعياري للتوزع بالخطأ النظامي حيث يقيس نسبة الخطأ الذي يمكن أن يظهر في تقديراتكم، وذلك حسب انتشار توزع العينة. يوفر الانحراف المعياري دليلاً على مدى الامتداد الذي تنحرف فيه متوسطات العينة عن متوسطات التعداد.

 

مجالات الثقة

 الطريقة الوحيدة التي يمكنكم فيها الحصول على قيمة التعداد هي بقياس كل المعطيات في التعداد, مما قد يشكل هدراً للموارد. على أنه من الممكن استخدام عيناتكم لحساب المجال الذي يكون احتمال ظهور قيمة التعداد ضمنه كبير.

 وفي مجال الإحصائيات، فغالباً ما تؤخذ النسبة التالية "95% من المرات"، ويدعى المجال بمجال الثقة، وتكون نسبته هي 95%. تدعى القيم على جانب هذا المجال بحدود الثقة، وتشكل كافة القيم الموجودة بين حدي الثقة مجال الثقة.

 

اختبار الأهمية

 

بعد أن تنتهوا من عملية جمع المعطيات، يتوجب عليكم أن تقوموا بتحليلها. يسمح الاستدلال الإحصائي للمحللين الإحصائيين بمعرفة ما إذا كانت هناك أية علاقة بين متحولين للحصول على أدلة من التعداد الذي تم أخذ العينة منه.

 تعرف طرائق الاستدلال التي تستخدم لقبول أو رفض الأدلة والادعاءات استناداً إلى عينة المعطيات باختبارات الأهمية أو الدلالة.

 لايمكننا في حال من الأحوال التأكد قطعاً (بنسبة 100%) من أن هناك علاقة بين متحولين. وهناك العديد من مصادر الخطأ التي يجب التحكم بها, كأخطاء العينة, وانحياز الباحثين, ومشاكل الوثوقية والصلاحية, والأخطاء البسيطة, إلخ...

 وباستخدام نظرية الاحتمالات, والمنحني الطبيعي، والافتراض بأن هناك علاقة، يصبح بإمكاننا تقدير احتمالات الخطأ. فإذا كان احتمال أن نكون مخطئين صغيراً, فيمكننا القول أن ملاحظاتنا حول العلاقة هامة، وأنها ذات دلالة إحصائية. تعني الدلالة أو الأهمية الإحصائية بأن هناك احتمال كبير بأن نكون على صواب في اكتشاف العلاقة الموجودة بين متحولين.

 لذا، نحتاج بسبب الفروق الموجودة بين المعطيات, إلى تحديد حد مسبق ينذرنا في حال كانت الفروق المكتشفة كبيرة جداً ليتم اعتبارها "هامة أو ذات دلالة إحصائية".

 إن الحد الأكثر شيوعاً هو /5/, حيث يفترض أنه يمكننا تكرار عملية المسح /95/ مرة من أصل /100/ والحصول على نتائج متماثلة في كل مرة. وتكون الخمس مرات التي نتلقى فيها نتائج مختلفة هي نسبة الخطأ المقبول.

 من الصعب على الباحث ان يتأكد بنسبة 100% من أي شيء. ولكي تكون عملية البحث والاستبيان ممثلة للواقع بنسبة 100%, نحتاج إلى نمذجة كل فرد من التعداد المطلوب. تدعى هذه العملية بالمسح الإحصائي. ولكننا نادراً ما نكون قادرين على مسح كافة الأفراد في تعداد كبير. وحتى عندما نستطيع القيام بذلك, فإننا ننمذج نقطة واحدة من الزمن فقط. مثلاً، الأسبوع الذي يحتاجه الأشخاص لإتمام عملية البحث والاستبيان.

 وبدلاً من ذلك, نجعل مستوى الأهمية 95%, ونقبل بحقيقة أننا سنحصل على نسبة خطأ صغيرة, ونقوم بمسح مجموعة أصغر. 

يتم حساب حجم المجموعة الأصغر من المعادلة التي تعطينا عدد الأشخاص الأصغري الذي نحتاجه لنضمن التأكد بنسبة 95% أن عينتنا تمثل التعداد.

 تحتاجون للتأكد من أنكم قد جمعتم ما يكفي من المعطيات لتحديد النزعات وتسجيل المقارنات. فإذا لم تريدوا قليلاً من النتائج الحدية أو البعيدة, التي تؤثر على نتائجكم, يمكنكم أن تجمعوا /30/ بتاً على الأقل من المعطيات للحصول على توزع طبيعي.

 

 فيما يلي خطوات اختبار الأهمية أو الدلالة الإحصائية :

 

1. كونوا فرضية أن التوزع الملاحظ لايختلف عن التوزع النظري؛

 

2. حددوا مستوى الأهمية أو الدلالة, مثلاً 5%؛

 

3. اختاروا واحسبوا اختبار الأهمية أو الدلالة الإحصائية؛

 

4. حللوا وفسروا النتائج.

 

يتم تدوين الفرضيات دائماً بمصطلحات معاملات التعداد, كالمتوسط. وقد تكون الفرضيات البديلة وحيدة الجانب أو ثنائية الجوانب. وتدعي الفرضية وحيدة الجانبان بأن المعامل يكون إما أكبر او أصغر من القيمة المعطاة بالفرضية الفارغة.

وتدعى الفرضية ثنائية الجوانب أن المعامل ببساطة لا يساوي القيمة المعطاة بالفرضية الفارغة؛ أي ان الاتجاه لايهم.

  

طرائق الاختبار

 

نستخدم مستويات الأهمية أو الدلالة عندما نجري اختبارات الأهمية أو الدلالة. فيما يلي بعض اختبارات الأهمية أو الدلالة:

 

·         الاختبار t؛

·         تحليل الفرق (ويدعى أيضا ANOVA, أو الاختبارF)؛

·         مربع-Chi (يرمز له بالرمز X2 , على وزن المربع – المسطح Pie-Square).

 

إلا أننا في هذه الوحدة سنكتفي بشرح اختبار مربع– Chi بالتفصيل.

 

 

الاختبار t

 

نستخدم هذه الاختبار عندما نريد مقارنة متوسطي مجموعتين. فمثلاً, تقرير فيما إذا باعت منطقة ما أكثر من أخرى, أو إذا ما كانت استجابة الرجال تحتلف عن النساء. يحدد الاختبار t فيما إذا ما كانت متوسطات النتائج المختلفة كبيرة بما يكفي لاعتبارها هامة, أو ذات دلالة.

 

تحليل الفرق (ويدعى أيضاً ANOVA, أو الاختبارF)

يماثل هذا الاختبار الاختبار t على أنه يقارن بين متوسطات ثلاث مجموعات أو أكثر، كعدد الكتب التي يقرأها المواطنون عادة في دمشق، وحلب، وحمص، واللاذقية.

 

مربع-Chi (يرمز له بالرمز X2 , على وزن المربع – المسطح Pie-Square)

هذا قياس من قياسات الدلالة أو الأهمية يعتمد على الفروق بين التواترات المتوقعة والواقعة فعلاً.

 

تشمل استخداماتها التجارب الجينية, واحتمالات قذف قطع النقود, والتحقق من تواتر الأحداث, ومقارنة التواترات، أو أصوات الإقتراع. فمثلا يمكنها أن تشير فيما إذا حصل مرشح ما على أصوات أكثر بكثير من مرشح آخر.

 

 


 

اختبار مربع–Chi (Chi-Square)

 يتم تمثيل المعطيات التجارية وتلخيصها غالباً على شكل جداول. وحقيقة أن المعطيات لم تعد تشكل معطيات سطرية قد تعني أنه لا يمكننا اختبار أي علاقة بحساب عامل التعالق.

 يمكننا اختبار مربع-Chi بمعرفة فيما إذا كانت القيم الملاحظة للمعطيات في جدولنا تختلف بشكل كبير عن تلك المتوقعة أو لا في حال لم يكن هناك أي عوامل تحتية تؤثر على نموذج هذه القيم.

 يمكننا مقارنة قيمنا المجدولة (القيم الملاحظة) مع القيم التي توقعنا الحصول عليها (القيم المتوقعة) إذا لم يكن هناك أية علاقة تحتية.

 تتبع إحصائيات الاختبار توزعاً يدعى توزع مربع-Chi Chi-Squared، أو توزع  X2(يستخدم التربيع للتأكيد على أن نتائج الإحصائيات لا يمكن أن تكون سالبة). يتعلق هذا التوزع بالتوزع الطبيعي، ويعتمد على معامل يدعى "عدد درجات الحرية" (df)، وهو معامل يحدد توزع X2 محدد. 

يميل هذا التوزع دوما إلى اليمين وقيمة المتوسط الخاص به تساوي عدد درجات الحرية. يتجه التوزع للقيم الكبيرة للمعامل df باتجاه التوزع الطبيعي. 

بعد حساب إحصائيات الاختبار، تتم مقارنتها مع القيمة الحدية X2 التي تحسب من جداول X2 الإحصائية (يمكن إيجاد هذه الجداول في الكتب التعليمية الإحصائية).

 

إن خطوات إجراء اختبار مربع-Chi هي:

 

1)    تحديد التوزع الذي قد يقدم نموذجا جيدا وذلك بفحص الظروف المطبقة على المعطيات الملاحظة؛

 

2)    تحديد مستوى الدلالة أو الأهمية, مثلا 5%؛

 

3)    وضع الفرضيات الخاصة بكم؛

 

4)    حساب التواترات المقدرة؛

 

5)    تقدير عدد درجات الحرّية (df)؛

 

6)    إيجاد القيم الحرجة لـ X من الجدول؛

 

7)    حساب إحصائيات الاختبار؛

 

8)    معرفة فيما إذا كانت قيمكم ذات أهمية؛

 

9)    الحصول على النتيجة الملائمة وتفسيرها ضمن سياق المشكلة الأصلية.

 

يعتبر اختبار مربع-Chi هام جداً ويعد اختباراً مفيداً في مجال الإحصائيات بشكل خاص، وفي مجال اتخاذ القرار بشكل عام. على أن هناك مشاكل يجب أن تحذروا منها حتماً.

 

فالمشكلة الأساسية هي القيم المتوقعة المنخفضة. تتبع إحصائيات اختبار التوزع X , فالقيم المتوقعة المتوافرة ليست صغيرة جداً. الدليل الذي غالباً ما يتبنى هو أن القيم المتوقعة لأي خلية يجب أن تكون أكبر من 5. فإذا كانت أي قيمة متوقعة أقل من 5، فمن الممكن دمج التصنيفات مع بعضها حتى الوصول إلى هذه القيمة الدنيا. يجب أن يكون هناك 3 أسطر أو 3 أعمدة على الأقل في الجدول حتى يمكن تحقيق هذا.

اختبار مربع-Chi على جدولي متحولات

 

يمكننا استخدام اختبار مربع-Chi لاختبار فروق الأهمية بين القيم الملاحظة والمتوقعة لجدولي متحولات. يعد اختبار مربع-Chi مفيد جداً إذا ما أردنا اختبار فيما إذا كان نموذج المعطيات الملاحظ في جدولنا يختلف بشكل كبير عن المعطيات المتوقعة في حال لم يوجد أي نموذج. غالباً ما تدعى هذه الجداول بجداول الاحتمال، إشارة إلى العلاقة بين المتحولات.

 

تحليل قواعد المعطيات مواقع صور