ماذا تعني الدلالة الإحصائية؟
الدلالة الإحصائية هي احتمال إيجاد انحراف معين عن الفرضية الصفرية – أو انحرافًا أكثر تطرفًا – في عينة.
الدلالة الإحصائية أو الأهمية الإحصائية هي وصف لنتيجة تجربة أجريت عندما تكون القيمة الاحتمالية أقل من مستوى الدلالة. عند القيام بإجراء علمي جيد فإنه غالباً ما يتم اختيار مستوى الدلالة قبل جمع البيانات، وعادةً ما يكون هذا المستوى 0.05. يمكن أيضاً استخدام مستويات دلالة أخرى مثل 0.01، وذلك حسب مجال الاختصاص والاستخدام.
غالبًا ما يشار إلى الأهمية الإحصائية بالقيمة p (اختصار لـ “قيمة الاحتمال”) أو ببساطة p في الأوراق البحثية.
تعني القيمة الاحتمالية الصغيرة أساسًا أن بياناتك غير محتملة في ظل بعض الفرضيات الصفرية. من الاصطلاحات التعسفية إلى حد ما رفض الفرضية الصفرية إذا كانت p <0.05.
مثال 1: تقليب العملات المعدنية.
لدي عملة معدنية وفرضيتي الصفرية هي أنها متوازنة – مما يعني أن لديها فرصة 0.5 في الهبوط. أقوم بقلب عملتي 10 مرات ، مما قد ينتج عنه هبوط من 0 إلى 10 رؤوس. احتمالية هذه النتائج – باحتساب عملاتي المعدنية متوازنة حقًا – موضحة أدناه. *
ضع في اعتبارك أن الاحتمالات هي ترددات نسبية. لذا فإن الاحتمال البالغ 0.24 لإيجاد 5 رؤوس يعني أنه إذا قمت برسم 1000 عينة من 10 تقلبات عملات معدنية ، فإن حوالي 24٪ من هذه العينات يجب أن ينتج عنها 5 رؤوس.
الآن ، 9 من 10 عملات معدنية تقلب في الواقع تتجه إلى الأعلى. يوضح الشكل السابق أن احتمال العثور على 9 رؤوس أو أكثر في عينة من 10 تقلبات عملات معدنية ، p = 0.01. إذا كانت عملتي المعدنية متوازنة حقًا ، فإن الاحتمال هو 1 من 100 لإيجاد ما وجدته للتو.
بناءً على نموذجي من تقلبات العملة N = 10 ، فان الفرضية الصفرية : لم أعد أعتقد أن عملتي كانت متوازنة بعد كل شيء.
مثال 2: اختبار T.
أخذت عينة من 360 شخصًا اختبارًا نحويًا. نود أن نعرف ما إذا كان المشاركون الذكور يسجلون درجات مختلفة عن الإناث. فرضيتنا الصفرية هي أنه في المتوسط ، يسجل المشاركون الذكور نفس عدد النقاط الذي يحصل عليه المستجيبون من الإناث.
يلخص الجدول أدناه الوسائل والانحرافات المعيارية لهذه العينة.
لاحظ أن الإناث سجلت 3.5 نقاط أعلى من الذكور في هذه العينة. ومع ذلك ، عادة ما تختلف العينات إلى حد ما بحسب السكان. السؤال هو:
إذا كانت متوسط الدرجات لجميع الذكور والإناث متساوية ، فما هو احتمال إيجاد هذا الاختلاف المتوسط أو فرق أكثر تطرفًا في عينة من N = 360؟
تتم الإجابة على هذا السؤال عن طريق إجراء اختبار t للعينات المستقلة.
الدلالة الإحصائية لاختبار –T–Test Statistic) T)
ما معنى الاختلافات التي يمكن أن نتوقعها بشكل معقول؟ حسنًا ، هذا يعتمد على
- الانحرافات المعيارية
- أحجام العينة لدينا.
لذلك قمنا بتوحيد متوسط فرقنا البالغ 3.5 نقطة ، مما ينتج عنه t = -2.2
لذا فإن هذه القيمة – إحصائية الاختبار الخاصة بنا – هي ببساطة فرق متوسط العينة المصحح لأحجام العينة والانحرافات المعيارية. ومن المثير للاهتمام ، أننا نعرف توزيع العينات – ومن ثم الاحتمال – لـ t.
الدلالة الإحصائية الطرفية Tailed Statistical Significance ( ذات الطرف او الذيل الواحد )
الدلالة الإحصائية الطرفية هي احتمال إيجاد انحراف معين عن الفرضية الصفرية – أو أكبر – في العينة.
في مثالنا ، p (1-tailed) ≈ 0.014. احتمال العثور على t ≤ -2.2 -المقابل للفرق المتوسط لدينا البالغ 3.5 نقطة- هو 1.4٪. إذا كانت الوسائل السكانية متساوية حقًا وقمنا برسم 1000 عينة ، فإننا نتوقع أن تأتي 14 عينة فقط بفارق متوسط 3.5 نقطة أو أكبر.
باختصار ، تكون نتيجة العينة هذه غير مرجحة للغاية إذا كان فرق متوسط عدد السكان صفرًا. لذلك نحن نرفض فرضية العدم. الخلاصة: ربما لا يحصل الرجال والنساء على درجات متساوية في اختبارنا.
سيقدم بعض العلماء تقارير دقيقة عن هذه النتائج. ومع ذلك ، فإن العيب هنا هو أن منطقنا يشير إلى أننا سنحتفظ بفرضيتنا الصفرية إذا كانت t كبيرة وليست صغيرة. تنتهي قيمة t الكبيرة في الذيل الأيمن لتوزيعنا.
ومع ذلك، فإن القيمة الاحتمالية لدينا تأخذ في الاعتبار فقط الذيل الأيسر الذي انتهت فيه قيمة t (الصغيرة) الخاصة بنا البالغة -2.2. إذا أخذنا في الاعتبار كلا الاحتمالين ، فيجب أن نبلغ p = 0.028 ، الأهمية ثنائية الطرف.
الدلالة الإحصائية الطرفية ذات الطرفين Tailed Statistical Significance
الدلالة الإحصائية الطرفية ذات الطرفين هي احتمال إيجاد انحراف مطلق معين عن الفرضية الصفرية – أو فرضية أكبر – في عينة.
بالنسبة لاختبار t ، من غير المحتمل أن تكون قيم t صغيرة جدًا وكذلك كبيرة جدًا تحت H0. لذلك ، لا ينبغي أن نتجاهل الذيل الصحيح للتوزيع كما نفعل عند الإبلاغ عن قيمة p أحادية الطرف.
إنه يشير إلى أننا لن نرفض فرضية العدم إذا كانت t كانت 2.2 بدلاً من -2.2. ومع ذلك ، فإن كلا من قيم t غير مرجحة بنفس القدر تحت H0.
الاصطلاح هو حساب p لـ t = -2.2 والتأثير المعاكس: t = 2.2. ينتج عن إضافتهم قيمة p ثنائية الذيل: p (2-tailed) = 0.028 في مثالنا. نظرًا لأن التوزيع متماثل حول 0 ، فإن هاتين القيمتين p متساويتان. لذلك يمكننا أيضًا مضاعفة القيمة الاحتمالية أحادية الطرف.
إذن ، هل يجب عليك الإبلاغ عن الدلالة 1-الذيل أو 2-الذيل؟ أولاً ، العديد من الاختبارات الإحصائية – مثل اختبارات ANOVA و chi-square – ينتج عنها فقط قيمة p أحادية الطرف ، وهذا ما ستبلغ عنه. ومع ذلك ، فإن السؤال ينطبق على اختبارات t ، واختبارات z وبعض الآخرين.
لا يوجد إجماع كامل بين محللي البيانات على النهج الأفضل. أنا شخصياً أبلغ دائمًا عن قيم p ثنائية الذيل كلما كان ذلك متاحًا. أحد الأسباب الرئيسية هو أنه عندما ينتج عن بعض الاختبارات قيمة p أحادية الطرف ، فإن هذا غالبًا ما يتضمن تأثيرات في اتجاهات مختلفة.
اختبار T أم اختبار ANOVA؟
لقد قمنا بمقارنة الشباب بالأشخاص في منتصف العمر في اختبار القواعد باستخدام اختبار t.
لنفترض أن أداء الشباب أفضل و نتج عن هذا أهمية 1-الذيل 0.096.
لا تتضمن هذه القيمة الاحتمالية التأثير المعاكس بنفس الحجم : أداء الأشخاص في منتصف العمر أفضل بنفس عدد النقاط. يوضح الشكل أدناه هذه السيناريوهات.
ثم قمنا بمقارنة الشباب ومتوسطي العمر وكبار السن باستخدام ANOVA. كان أداء الشباب أفضل ، وكان أداء كبار السن أسوأ ، بينما كان أداء الأشخاص في منتصف العمر بينهما. نتج عن هذا أهمية 1-الذيل 0.035. تتضمن هذه القيمة الاحتمالية التأثير المعاكس بنفس المقدار.
الآن ، إذا كانت p لـ ANOVA تتضمن دائمًا تأثيرات في اتجاهات مختلفة ، فلماذا لا تقوم بتضمينها عند كتابة تقرير عن اختبار t؟ في الواقع ، يعتبر اختبار t للعينات المستقلة من الناحية الفنية حالة خاصة من ANOVA: إذا قمت بتشغيل ANOVA على مجموعتين ، فستكون القيمة p الناتجة مماثلة للدلالة ثنائية الطرف من اختبار t على نفس البيانات.
وينطبق المبدأ نفسه على اختبار z مقابل اختبار مربع كاي.
الفرضية البديلة
أحيانًا ما يتم الدفاع عن التقرير عن الدلالة الإحصائية أحادية الطرف من خلال الادعاء بأن الباحث يتوقع تأثيرًا في اتجاه معين. ومع ذلك ، لا يمكننا التحقق من ذلك.
ربما تم اختلاق مثل هذه “الفرضيات البديلة” فقط من أجل جعل النتائج أكثر أهمية من الناحية الإحصائية.
ثانيًا ، التوقعات لا تستبعد الاحتمالات , إذا كان شخص ما متأكدًا تمامًا من أن بعض التأثير سيكون له بعض الاتجاه ، فلماذا نستخدم اختبارًا إحصائيًا في المقام الأول؟
الدلالة الإحصائية مقابل الأهمية العملية
إذن ما الذي تخبرنا به “الدلالة الإحصائية” ؟ بشكل أساسي تتحدث الدلالة الإحصائية عن أن بعض التأثيرات ربما لا تكون صفراً في بعض السكان. فهل هذا ما نريد معرفته حقًا؟ هل اختلاف المتوسط أو الارتباط أو أي تأثير آخر “ليس صفراً”؟
نريد حقًا معرفة حجم بعض الاختلاف أو الارتباط أو التأثير الآخر. ومع ذلك ، هذا ليس ما تخبرنا به الدلالة الإحصائية.
على سبيل المثال ، ارتباط 0.1 في عينة N = 1،000 له p 0.0015. هذا ذو دلالة إحصائية عالية: من المحتمل جدًا ألا يكون الارتباط السكاني 0.000 … ومع ذلك ، لا يمكن تمييز ارتباط 0.1 عن 0 في مخطط التشتت. لذلك ربما لا تكون مهمة من الناحية العملية.
بشكل عكسي ، فإن الارتباط 0.5 مع N = 10 له p 0.14 وبالتالي ليس مهمًا من الناحية الإحصائية. ومع ذلك ، يظهر مخطط التشتت علاقة قوية بين متغيراتنا. ومع ذلك ، نظرًا لأن حجم العينة صغير جدًا ، فقد تكون هذه العلاقة القوية محدودة جدًا بعينة صغيرة لدينا: لديها فرصة بنسبة 14 ٪ في الحدوث إذا كان الارتباط السكاني لدينا صفرًا حقًا.
المشكلة الأساسية هنا هي أن أي تأثير له دلالة إحصائية إذا كان حجم العينة كبيرًا بما يكفي.
وبالتالي ، يجب أن يكون للنتائج أهمية إحصائية وعملية على حد سواء حتى يكون لها أي أهمية. تدمج فترات الثقة بشكل جيد بين هاتين المعلومتين ، وبالتالي يمكن القول بأنها أكثر فائدة من مجرد دلالة إحصائية.
عودة إلى فهرس دليل استخدام SPSS