في عام 1989 كتب اثنان من خبراء الطرق الاحصائية في علم النفس هما “رالف رونزو” و”روبرت روزنثال” أمراً يستحق التذكر: “نودّ أن نؤكد أن الرب يحب (0,06) تماماً كحبه لـ(0,05)” [ص 1277].

بالنسبة للباحثين في مجال علم النفس وحقل علوم البايولوجي والعلوم الاجتماعية، كان هذا تصريحاً هزلياً لأن (0,05) هو الكأس المقدسة للدلالة الإحصائية. ولربما من غير المعتاد استعمال لغة دينية عند الكتابة عن الطرق العلمية، لكن الاستعارة مناسبة هنا لأنه ولفترة طويلة كان حصول العلماء على احتمالية (0,05) أو أقل (0,04، 0,027، 0,004) يعني الحصول على فرصة للنشر والنجاح الأكاديمي وخطوة إضافية باتجاه الاستقرار الاقتصادي الذي توفره الوظيفة الثابتة. لكن (0,06) أو حتى (0,055) كانت غير ذات أهمية، فلن يحصلوا على نشر ولا فرصة لتقاعد مريح.

كان كلاً من “روزنو” و”روزنثال” يناقشان اهتمام العلماء المبالغ به بالقيمة الاحتمالية حينما تكون اصغر من 5% أو (p<0.05). وفي آخر رد على “أزمة الاحصاء” في علم النفس، وقعت مجموعة من 72 من علماء إحصاء وعلماء بيولوجيا وعلماء اجتماع على تصريح مطالبين فيه بتغيير المعيار من 0,05 إلى 0,005. وقد يبدو هذا الأمر كقضية تقنية، لكن التغيير المطلوب يحمل آثاراً مهمة على تطور العلم، كما أشعل جدالاً قوياً في المجال. لكن دعوني لا أسبق نفسي ولنخط خطوة للوراء لتبين فيمَ هذا النقاش.

 

المنطق المعاكس للدلالة الاحصائية

جاءت الفكرة من عالم البيولوجيا والاحصاء البريطاني” رونالد فيشر”، الرجل الي أطلق عليه “ريتشارد دوكينز” صفة “أعظم عالم بيولوجيا منذ داروين” [the edge 2011]. اخترع فيشر العديد من التقنيات الاحصائية، من ضمنها تحليل التباين (ANOVA)، ومنذ قيام طلاب البيولوجيا وعلم النفس والكثير من التخصصات الأخرى بتعلم طرق فيشر فقد حل بهم الهلاك.

رونالد فيشر

رونالد فيشر

كان فيشر على علم بعدم إمكانية تأكيد النتائج، إذ لدى العلماء عادة الرغبة بإثبات أن المتغير الذي يتعاملون معه هو المسؤول عن حدث ما. على سبيل المثال، لنتخيل أن عالمة كيمياء تمكنت من تشخيص المركب س، والذي يعمل على تعزيز نمو الشعر لدى الأشخاص الذين يعانون من الصلع بحسب اعتقادها. ستقوم بصنع كريم من المركب س وكريم بلاسيبو (وهمي)، ثم تقوم بإجراء التجربة على متطوعين يعانون من الصلع. وللمفاجأة فإن الأشخاص في مجموعة الدراسة للمركب س ينمو لديهم الشعر أكثر من أولئك في مجموعة البلاسيبو. لو أن هذا الاختبار تم تصميمه واجراءه بشكل مغاير، فهل سيكون من الآمن الادعاء أن المركب س يعزز نمو الشعر؟ بالطبع لا، فلربما كانت نتائج الاختبار محض حظ حسن، وعلاوة على ذلك لما كان بالإمكان إثبات القاعدة مهما كان عدد النتائج الإيجابية للاختبار.

وبفهم ذلك، اقترح فيشر أن نعكس السؤال، الأمر الذي سيسمح للإحصاءات بهزيمة أي شخص. ماذا لو أننا افترضنا العكس: ليس للمركب س أي تأثير على الإطلاق؟ هذه الفكرة هي ما يطلق عليه فيشر أسم “فرضية العدم”، وتعني افتراض أن لا شيء سيحدث ولا تأثير، ثم اقترح أن بإمكاننا تحديد احتمالية حدوث نتائج التجربة بالصدفة البحتة. وهنا يأتي دور ANOVA وبقية الطرق الاحصائية. إذ يقترح فيشر استخدام التجارب الاحصائية لتقدير نوع النتائج المتوقعة تبعاً لمتغيرات عشوائية في البيانات، فلو كان من غير المحتمل حصول نتائج التجربة عن طريق الصدفة، سيكون عندها من حق الباحث رفض فرضية العدم، وسيكون من المنصف الاعتراف بحصول شيء حقيقي. فمثلاً لو وجدت عالمة الكيمياء اثناء تحليل البيانات أن الحصول على نمو الشعر الذي رأته في مجموعة المركب س كانت احتماليته 0,04، أي أنه بالصدفة وحدها يمكننا توقع الحصول على نفس النتائج في 4 من كل 100 تجربة مماثلة، سيكون عندها من المعقول استنتاج أن المركب س فعال حقاً.

وهكذا وُلد “اختبار دلالة نظرية العدم” (Null Hypothesis Significance Test/ NHST)، ولوقت طويل كان هو الحاكم الفعلي في الأرض. إذ اقترح فيشر احتمالية (قيمة P) تساوي 0,05، الأمر الذي عنى أنه لا يمكن للباحثين في مختلف المجالات توقع نشر بحوثهم ما لم يقوموا بإجراء الاختبارات الإحصائية المناسبة التي تفيد أن P)<0,05) (وهو احتمال أن تكون فرضية العدم صحيحة في أقل من 5% من الحالات). أصبحت قيمة (0,05) كحد السكين الذي يقرر النجاح، فأن تكون القيمة P)<0,055) يعني أن النتائج التي حصلت عليها ليست بذات أهمية، فيما كانت القيمة (P<0,048) فرصة للاحتفال. القيمة (P<0,05) ليست رقماً سحرياً، لكنها أصبحت عرفاً مقبولاً. العرف الذي انتقده روزنو وروزنثال وآخرون (مثل كوهين 1990) دون جدوى. إلا أنه يبقى معياراً احفورياً لفصل الجيد عن السيء، لكن ربما ليس لوقت طويل.

الرسم البياني لرونالد فيشر والمعروف بكأس زهرة السوسن الوداء ويظهر شكله شبيهاً بالجرس

الرسم البياني لرونالد فيشر والمعروف بكأس زهرة السوسن الوداء ويظهر شكله شبيهاً بالجرس

تعزيز الأدلة العلمية

الإحصاء هو أحد تلك المجالات التي ابتليت بعدد من الخلافات على مر السنين، لكن الجدل الأخير حول قيمة P جاء نتيجة أزمة قابلية التكرار، وهو اكتشاف أن العديد من التجارب الكلاسيكية –في علم النفس الاجتماعي والمعرفي بشكل أساسي- لا يمكن إعادتها عند المحاولة مرة ثانية. وأدى فقدان الثقة في نتائج التجارب إلى عدد من الإصلاحات، أبرزها “حركة العلوم المفتوحة”، التي كتبت عنها في كانون الأول/ ديسمبر 2016 تحت عنوان “مغزى حالة القوة وكيفية عكسها”. يجعل منهج العلوم المفتوحة من البحث مشروعاً عاماً وتعاونياً أكثر بكثير، كما يجعل من “قرصنة” قيمة P –التلاعب بالبيانات من أجل الحصول على نتيجة مناسبة- أمراً أكثر صعوبة.

ثم في يوليو 2017 كتب 72 من العلماء (بينجامين وآخرون 2017) اقتراحاً لجعل معيار الدلالة أكثر صعوبة عن طريق تحريك 0,05 وتحويلها إلى 0,005 (P<0,005). وهذا من شأنه أن يقدم مساعدة عظيمة في واحدة من القضايا التي يعِدّها المؤلفون سبباً لمشكلة قابلية التكرار أو الخطأ من النوع الأول. حين نقول أن شيئاً ما مهم من الناحية الإحصائية، فنحن نقول ببساطة أنه من غير المرجح أن يكون التغيير الذي تمت ملاحظته قد جاء نتيجة الصدفة، لكنه ليس أمراً مستحيلاً، فبحسب التعريف إن اختيار قيمة الدلالة 0,05 يعني أننا مستعدون لتقبل فرصة لحدوث خطأ بنسبة 5%، كأن نقول بوجود تأثير في الوقت الذي جاءت فيه نتائجنا بفعل التنوع العشوائي الطبيعي. وهذا يُعد نتيجة إيجابية زائفة بشكل ما. فعلى سبيل المثال إذا كان المركب س عديم الفائدة، فإن اختيارنا لدلالة 0,05 يعني أنه في خمسٍ من كل مائة تجربة سنستنتج حدوث شيء لم يكن يحدث فعلاً. وعندما نجري اختباراً واحداً، كما يحدث في أغلب الحالات، كيف سنعرف ما إذا كان هذا الاختبار هو واحد من الحالات الخمس العشوائية التي جعلت المركب س يظهر كمركب فعّال؟

نتائج فحص مركب بين استنتاجات العلماء وحقيقة عمل المركب

إن نقل المعيار الإحصائي إلى 0,005 من شأنه تقليل فرص حدوث الخطأ من النوع الأول، مما يعني أن النتائج التي ستحصل على نشر ستكون موثوقة بشكل أكبر وأكثر قابلية للتكرار. هذا هدف يستحق المحاولة، ولا يوجد حل أسهل من طلب اختبار أقوى ببساطة. لكن تغييراً كهذا لن يكون بلا عواقب. فحين تقلل من فرص حدوث الخطأ من النوع الأول، فأنت تزيد من فرص حدوث خطأ من نوع آخر سيحمل اسم الخطأ من النوع الثاني. والأخطاء من النوع الثاني تأتي عندما يكون التأثير الذي يخضع للدراسة حقيقياً لكن الاختبار يفشل في إظهار ذلك. كأن يكون المركب س فعّال حقاً في إنبات الشعر لكن عن طريق الصدفة يأتي الاختبار بنتيجة (p>0,05) وهذا نوع من النتائج السلبية الكاذبة. التغيير إلى 0,005 الذي اقترحته مجموعة الاثنان وسبعون سيجعل من النتائج السلبية الكاذبة أمراً أكثر شيوعاً، وبالنظر إلى كمية الوقت والكلفة الهائلة التي تتطلبها البحوث الحديثة، فهذا يعني أن النتائج المهمة والتي من شأنها المساهمة في وضع أساسات المعرفة لدينا من المرجح أن تموت في المهد، وبالنتيجة ستتباطأ حركة تقدم العلم.

ولعلهم توقعوا هذا الاعتراض، فقد اقترحت مجموعة الاثنان وسبعون مؤلفاً أن النتائج الواقعة بين القيمة 0,05 التقليدية وقيمة 0,005 الجديدة قد تحصل على نشر أيضاً على أنها “موحية” بدلاً من كونها ذات دلالة إحصائية. علاوة على ذلك، فإن المعيار < 0,005 ستتم إضافته إلى اختبارات الظواهر الجديدة، فيما ستبقى نسخ من الدراسات المنشورة مسبقاً عند القيمة 0,05. لكن من الجليّ أن التغيير سيكون ذا تأثير قوي. وكما اقترح أحدهم في واحدة من مجموعات النقاش على الإنترنت، فإن هذا التغيير من شأنه أن يجعل العديد من مجلات علم النفس أقل سمكاً مما هي عليه الآن. عن نفسي لم أتحقق بعد، لكني متأكد إلى حد ما أن العديد من دراساتي المنشورة ستتطلب إنزال رتبتها تحت فئة “الموحية”.

 

الاستجابة

من المقرر أن يظهر الاقتراح الذي قدمه 72 باحثاً في عدد قادم من مجلة نيتشر للسلوك البشري “Nature Human Behavior”، لكن نسخة قبل النشر التي وُضعت على الإنترنت قد جذبت الكثير من الدعاية والتعليقات المهمة من المجتمع العلمي. الكثير من الباحثين رحبوا بالقيمة 0,005 المقترحة، وكان آخرون قد اقترحوا نفس القيمة في وقت سابق (ريزنيك 2017)، لكن كان هناك بعض الاعتراض أيضاً. يُنظم عالم النفس “دانيال لايكنز” دحض جماعي، فوفقاً لمقال منشور في “vox”، واحدة من الاعتراضات الأساسية للايكنز هي أن هذه العملية ستؤدي لإبطاء العلم. قد تساعد في دعم حركة نشر البحوث العلمية على حساب إحباط طلاب الدراسات العليا وغيرهم من الباحثين من ذوي الموارد المحدودة.

في العادة فإن أكثر طريقة فعالة في زيادة قوة الاختبار الإحصائي وأرجحية الوصول إلى مستوى دلالة حرج مثل <0,005 هي في زيادة عدد المشتركين في دراستك. رغم قدرة الإنترنت على توفير فرص جديدة لجمع كميات كبيرة من بيانات المسح، فعلينا التفكير في الصعوبات التي يواجهها علماء النفس التنموي الذين يدرسون سلوك الرُضّع في المختبر. فعلى الرغم من أهمية هذا البحث، قد ينتهي به الأمر مقتصراً على مراكز محدودة ذات تمويل جيد. يكتب عالم النفس “تيموثي بايتس” في صحيفة “Medium” مُلقياً حجة عامة أكثر في أن تحليل الكلفة والعائد للقيمة الجديدة 0,005 سيأتي قليلاً، وهكذا سيصبح البحث العلمي أكثر كلفة بدون الحصول على فائدة مشتركة، من وجهة نظره.

في النهاية لدينا مسألة التركيز المبالغ به على قضية بعينها. “جون يوانيديس” هو باحث في علم الإحصاء والصحة في جامعة ستانفورد، تُعد ورقته العلمية المنشورة عام 2005 والمعنونة “لماذا تعد أغلب البحوث العلمية المنشورة خاطئة” وثيقة كلاسيكية لحركة إعادة الإنتاج. وهو أيضاً واحد من الموقعين 72 على اقتراح 0,005، لكن يوانيديس يعترف أن الدلالة الإحصائية ليست الطريقة الوحيدة للحكم على صحة الدراسة: “الأهمية الإحصائية [وحدها] لا تنقل الكثير عن المعنى، والأهمية، والقيمة السريرية، والمنفعة [من البحث]” (مقتبس في مقال ريزنيك 2017). فحتى لو أعطى المركب س زيادة كبيرة في نمو الشعر (P<0,005)، فقد لا تكون هذه الزيادة ملحوظة بما يكفي لجعل العلاج يستحق الاستخدام. وفي ظل المعايير الإحصائية المقترحة والأكثر صرامة، فقد يركز الباحثون على الحصول على نتائج تساعدهم في عبور خط الهدف الإحصائي ويتنازلوا عن  مواضيع أكثر أهمية.

 

هل سيحدث الأمر؟

إذن كم من المحتمل أن يتم توسيع المرمى وتبدأ المجلات العلمية بطلب مستوى دلالة (P<0,005)؟ أشك في أن الاحتمالية ضعيفة، وليست ضعيفة بنسبة 5 بالألف، لكنها أقل من 50:50. توجد أسباب جيدة لاعتماد هذا التغيير، لا سيما في وقتنا الحالي حيث تنخفض الثقة في أبحاث العلوم الاجتماعية. لكن لا أظن أن هذا الأمر سيحدث لسببين.

الأول، لأن هذا الجدل جديد نسبياً، وما زال المعترضون يطورون استجاباتهم. ومع استمرار الحوار، أشك في أننا سنسمع الكثير من القلق حول الأخطاء من النوع الثاني –ظواهر حقيقية سيتم تجاهلها لأنها فشلت في تحقيق المعيار P<0,005- وفيما يتعلق بإبعاد الباحثين الجدد عن العمل البحثي، فلا أحد يؤيد ذلك.

لكني أشك أن واحداً من أكبر أسباب الرفض سيكون اقتصادياً بدلاً من القضايا التقنية والمهنية الغامضة. لقد اتضح أن النشر الأكاديمي مربح إلى حد كبير، فهو يمثل تجارة بقيمة 19 مليار دولار حول العالم، وبحسب صحيفة الغارديان فإنه مربح أكثر من صناعة الأفلام والموسيقى (بوراني 2017). جزء كبير من هذا النجاح يأتي من نموذج أعمال يتم فيه الحصول على المنتج –منحة دراسية- مجاناً بشكل أساسي، في الوقت الذي تُباع فيه. والأبحاث التي غالباً ما يكلف إنتاجها ملايين من الدولارات كمنح بحثية ورواتب، تسلم لناشرين مثل ” Elsevier” و”Springer” بلا مقابل. وحتى مراجعة النظراء للمخطوطات المقدمة يتم عادة من قبل باحثين يتبرعون بوقتهم مجاناً.

النشر الأكاديمي هو نوع من حلقات ردود الفعل الارتجالية، يتوجب على الباحثين نشر أعمالهم في مجلات عالية الجودة إذا كانت لديهم الرغبة في تطوير حياتهم المهنية، أما الطلاب والمكتبات الجامعية فيجب عليهم دفع تكاليف اشتراك باهظة لغرض الحصول على هذه البحوث. يتم تهديد النظام الحالي بواسطة موقع “Sci-Hub” وهو أرشيف مقرصن للمنشورات العلمية، كذلك العدد المتزايد من الطلاب الذين ينشرون نسخاً من أعمالهم على الإنترنت (راذي 2017).  في النهاية قد يكون النشر العلمي بأكمله مجانياً ومفتوحاً، لكن حتى مجيء ذلك اليوم ستبقى صناعة النشر جائعة للمزيد من المواد. وكنتيجة لذلك لن يكون احتمال وجود محتوى أقل ومجلات أقل سمكاً فكرة مُرَحّباً بها، وأشك في أن يتم مناقشة هذا الموقف مستقبلاً مع المحررين الذين سيتوجب عليهم اختيار تبني المعيار الجديد من عدمه. فآلهة النشر يحبون 0,05 أكثر من 0,005 بكثير.

المصدر:

“Moving Science’s Statistical Goalposts.” CSI, www.csicop.org/si/show/moving_sciences_statistical_goal_posts.