1-ثبات الاختبار:
"الثبات يشير إلى اتساق الدرجات التي يحصل عليها نفس الأفراد عند إعادة فحصهم بنفس الاختبار في مناسبتين مختلفتين، أو بمجموعتين مختلفتين من البنود المماثلة، أو تحت ظروف اختبارية متغيرة"
الثبات بمعناه الواسع يشير إلى مدى عزو الفروق الفردية في درجات الاختبار إلى فروق حقيقة في امتلاك الخاصية المراد قياسها. والمدى الذي تعزى به إلى درجة الخطأ، فالثبات في أبسط معانيه هو الحصول على نفس الدرجات تقريبا تحث ظروف متعددة، اما إحصائيا فيُعبَر الثبات عن نسبة تباين الدرجة الملاحظة إلى تباين الدرجة الحقيقية، أو معامل الارتباط بين الدرجة الملاحظة والدرجة الحقيقية.
2-طرق تقدير ثبات الاختبار : هناك أربع طرق لتقدير ثبات الاختبار، ثلاثة منها تستخدم في تقدير ثبات الاختبارات التحريرية (اختبارات الورقة والقلم) ، وهي على التوالي :
- طريقة التطبيق وإعادة التطبيق:
- طريقة الصور المتكافئة.
- مختلف طرق الاتساق الداخلي، وتتضمن أيضا طرق التجزئة النصفية
- ثبات تقدير المحكمين
1-2. طريقة التطبيق وإعادة التطبيق: وتسمى أيضا معامل الاستقرار عبر الزمن، تقوم هذه الطريقة على إجراء الاختبار على مجموعة من الأفراد، ثم إعادة تطبيق نفس الاختبار على نفس المجموعة في ظروف مماثلة، وذلك بعد مرور فترة زمنية محددة بين التطبيقين، بعدها نقوم بحساب معامل الارتباط بين درجات المختبرين في التطبيق الأول ودرجاتهم في التطبيق الثاني، وهذا ما نسميه معامل الثبات. تصلح هذه الطريقة في اختبارات السرعة واختبارات القوة، لكن تصبح عديمة الجدوى في حالة الاختبارات التي تهدف إلى قياس التذكر أو التكوينات الفرضية المرتبطة بهذه العملية العقلية. يجب على القائمين على تطبيق الاختبار الانتباه إلى بعض الإجراءات المحيطة بعملية التطبيق ونلخص أهمها:
- التأكد من ملاءمة طريقة تقدير الثبات لطبيعة الاختبار.
- الحرص على توحيد ظروف إجراء الاختبار.
- تفادي أن تكون المدة الزمنية الفاصلة بين التطبيقين طويلة، لما ينجر عنها من تأثيرات (عامل النضج، إمكانية حدوث تدريب...).
والصيغة التالية لمعامل ارتباط بيرسون تسمح لنا بحساب معامل الارتباط:
حيث تعبَر: عن عدد أفراد العينة.
و عن درجات الأفراد في التطبيق الأول.
و عن درجات الأفراد في التطبيق الثاني.
2-2. طريقة الصور المتكافئة: تفترض هذه الطريقة إنشاء صورتين متكافئتين من الاختبار، وهي اختبارات متشابهة إلى حد كبير وليست متطابقة، وحتى تكون الصيغتين متكافئتين يتطلب أن يكون محتواهما متماثلا من حيث عدد البنود وطريقة صياغتها ومستوى صعوبتها ولها نفس نطاق المحتوى (اسماعيل، 2004) ويكون تقدير معامل الثبات في هذه الحالة بتطبيق الصيغتين في على عينة واحدة و في جلسة واحدة، ولتقدير معامل الثبات إحصائيا نعتمد معامل الارتباط بيرسون، حيث تمثل(x) درجات الاختبار الذي نبحث عن ثباته، و(y) الصورة المكافئة له.
3-2. طريقة الاستقرار والتكافؤ: يتسنى لنا في هذه الطريقة الجمع بين مدخلين مع بعضهما في تقدير ثبات الاختبار الذي يعتمد على إجراء الاختبار مرتين، من خلال تطبيق النموذج الأول للاختبار وبعد مدة زمنية (من أسبوع إلى ثلاثة أشهر) نقوم بتطبيق الصيغة أو النموذج الثاني المكافئ للنموذج الأول، (Crocker & Aigina, 2008) ونقوم بعده بتقدير الثبات إحصائيا بالاعتماد على معامل الارتباط بيرسون. غير أن هذه الطريقة تتأثر هي الأخرى بأخطاء القياس للطريقتين السابقتين.
4-2. طرق التجزئة النصفية: يمكن الحصول على تقديرات لثبات الاختبار دون الحاجة إلى القيام بتطبيقين لنفس الاختبار على نفس الأشخاص، أو إيجاد صيغتين متكافئين للاختبار، هذا النوع من الثبات يتم اشتقاقه من تقييم الاتساق الداخلي لفقرات الاختبار، وهناك عدة صيغ لتقدير ثبات الاتساق الداخلي لبنود الاختبار. يكون تطبيق الاختبار في هذه الطريقة مرة واحدة فقط، وبعدها نقوم بتقسيم الاختبار إلى نصفين (جزأين متساويين) وهناك عدة طرق لتقسيم الاختبار إلى نصفين منها طريقة البنود الفردية والزوجية، حيث يتضمن النصف الأول البنود الفردية (5،3،1...) ويتضمن النصف الثاني البنود الزوجية (6،2،4...)، عملية تقسيم الاختبار إلى نصفين تشترط تساوي بنود نصفي الاختبار من حيث الطول والصعوبة ومحتوى البنود، ولخص كل من (Crocker & Aigina, 2008) هذه الشرو في أربع نقاط:
-تقسيم الاختبار إلى نصفين واختيار البنود الفردية لتشكل الاختبار الفرعي الأول، والبنود الزوجية لتشكل الفرعي الآخر.
- ترتيب البنود المشكلة للاختبار وفقا لمستوى صعوبتها ثم اختيار البنود الفردية لتؤلف الاختبار الفرعي الأول والبنود الزوجية لتؤلف الاختبار الفرعي الآخر.
- اختيار بنود كلا النصفين عشوائيا.
- تجزئة الاختبار إلى جزأين بحيث تكون هناك مزاوجة بين بنود كلا الجزأين من حيث المحتوى.
من مميزات هذه الطريقة:
- تشابه ظروف التطبيق في الفقرات الفردية والزوجية كون الاختبار يطبق مرة واحدة فقط.
- لا يوجد أثر لعامل النضج وحدوث التدريب أو تعلم مهارات جديدة
- توفر الجهد والوقت على مصممي الاختبارات.
بعد الانتهاء من الخطوات السابق ذكرها، نقدِّر ثبات الاختبار عن طريق حساب معامل الارتباط بين نصفي الاختبار، وهناك عدة طرق لحسابه:
أ- صيغة Spearman-Brown: تقوم معادلة (سبيرمان براون) على أساس أنه يمكن التنبؤ بمعامل ثبات الاختبار إذا علمنا معامل ثبات نصفه، ذلك معناه إذا استطعنا أن نقسم الاختبار إلى نصفين متكافئين، ويكون المتوسط والتباين للجزء الأول مساويا المتوسط والتباين في الجزء الثاني، كذلك تساوي مستويات السهولة والصعوبة بين الجزأين فإننا إذا طبقنا هذه المعادلة نستطيع أن نتعرف على ثبات الاختبار كله. وتعتمد هذه الصيغة على حساب معامل الارتباط بيرسون بين نصفي الاختبار، ثم إدخال معامل الثبات باستخدام صيغة سبيرمان-براون للحصول على القيمة المصححة لمعامل ثبات الاختبار.
حيث تشير إلى معامل الارتباط المعدل للاختبار الكلي وABإلى معامل ارتباط نصفي الاختبار.
قد لا تصلح طريقة سبيرمان براون لحساب ثبات الاختبار في حالة غياب التكافؤ بين نصفي الاختبار خاصة عند اختلاف قيم التباين بشكل كبير بين النصفين، وكذلك لا تصلح في الاختبارات الموقوتة لأن كثرة الأسئلة المتروكة في آخر كل اختبار تؤثر على الارتباط بين الجزأين.
ب- صيغة Rulon: في ضوء الملاحظات التي سجلت على صيغة Spearman-Brown والمتمثلة في ضرورة تكافؤ نصفي الاختبار من حيث التباينات ومؤشرات الصعوبة والذي يصعب تحقيقه، كما أن غياب هذه الشروط أو تناقصها يعمل على تخفيض قيمة معامل الثبات، اقترح Rulon 1939 طريقة بديلة لتقدير ثبات الاختبار من درجات نصفي الاختبار (Crocker & Aigina, 2008)،.والميزة الأساسية لهذه الطريقة اعتمادها على تباين الفروق بين نصفي الاختبار(D= A-B) حيث تمثلA درجة الفرد على نصف الاختبار الأول وB درجة الفرد على نصف الاختبار الثاني. ويستخدم تباين فروق الدرجات على أنه حساب لتباين الخطأ في الصيغة المحددة لمعامل الثبات:
ج- صيغة Guttman: هي من طرق التجزئة النصفية التي تقوم على التطبيق لمرة واحدة، وتصلح لحساب الثابت عندما لا تتساوى الانحرافات المعيارية لجزئي الاختبار وتصلح أيضا عندما لا تتساوى هذه الانحرافات، وتتلخص هذه الطريقة في المعادلة التالية:
تباين درجات الاختبار الفردي، و إلى تباين درجات الاختبار الزوجي.
و إلى تباين الاختبار الكلي
5-2. طرق تعتمد على التباين المشترك للبنود: تعتمد الطرق التي تتصل بالاتساق الداخلي لحساب الثبات على الاتساق في أداء المختبرين على الاختبار من بند إلى آخر، وبالتالي فهي ليست بحاجة لتطبيق الاختبار أكثر من مرة، أو تقسيمه إلى نصفين متكافئين، وإنما يقسم إلى عدد كبير من الأجزاء، بحيث يتكون كل جزء من بند واحد من بنود الاختبار، وكلما زاد الاتساق بين هذه البنود زاد ثبات الاختبار ككل (أبو ناهية، 1994) وهناك أكثر من معادلة لحساب معامل الاتساق الداخلي، ونذكر ثلاث طرق الأكثر استخداما وانتشارا.
أ-صيغتي 1937Kuder-Richardson: تستخدم في حالة البنود ثنائية التصحيح أو الإجابة (1,0)، وقد اشتقت هذه الصيغة من طرف كيودر-وريتشاردسون (20KR-) (21KR-) كبديل لطرق التجزئة النصفية التي عجزت عن إعطاء نتيجة واحدة لاختبار معين. واتخذت هذه الأسماء من الخطوات المرقمة في الاشتقاق. حيث صيغة هي:
حيث:
ترمز k إلى عدد بنود الاختبار، و إلى مجموع نسب ضرب معامل الصعوبة في معامل السهولة، إلى تباين الاختبار الكلي.
ج- وقد اشتقا Kuder-Richardson طريقة أخرى لحساب الاتساق الداخلي للاختبار أكثر سهولة من الصيغة السابقة، حيث لا تعتمد على حساب مؤشرات السهولة والصعوبة:
حيث:
= متوسط الدرجة الكلية،
= عدد بنود الاختبار،
= تباين الدرجة الكلية للاختبار.
في حالة تتساوى صعوبات بنود الاختبار فان تقديرات الثبات في كلا من الصيغتين (20KR-) و(21KR-) تكون متساوية، في حين أنه عندما تختلف صعوبة البنود فان تقدير الثبات عند استخدام صيغة (21KR-) يكون أقل من القيمة المحسوبة باستخدام الصيغة (Crocker & Aigina, 2008).
د-معامل ألفا Coefficient alpha:
وضعه كرونباخ Cronbach 1951 وطوره فيما بعد كل من (comme Kaiser & Michael, 1975; Novick & Lewis, 1967)، ويمكن اعتبار معامل ألفا كمتوسط لجميع الارتباطات الممكنة ذات الانقسام النصفي ( Julius & Howard , 2010) ويستخدم لحساب الثبات في حالة الاختبارات التي ينتج عن بنودها درجات قيمها متعددة (0, 1 ,2) وهو على النقيض من KR-20 الذي يستخدم في حالة التقسيم الثنائي للإجابة على البنود. يعد معامل ألفا القانون الإحصائي المفضل لتقدير موثوقية الاتساق الداخلي للاختبار ويعتمد على تطبيق مرة واحدة للاختبار. كما يصلح استخدامه في اختبارات الاستجابة المميزة.
صيغة الفا كرونباخ هي:
حيث: rα = معامل الثبات ألفا. = kعدد بنود الاختبار
iσ = تباين كل بند . ∑= مجموع تباينات البنود.
2σ = تباين الدرجات الكلية
و-ثبات تقديرات المحكمين: عندما يتم تقدير درجات الاختبار على أحكام ذاتية، يكون مهم جدا تقويم الاتفاق حينما يقوم أكثر من فرد بتقدير الدرجات، الاختبار في هذه الصيغة يطبق مرة واحدة ويقدَّر فردان كل على حدا درجات الاختبار، ومن ثم يتم حساب الارتباط بين الدرجات التي نحصل عليها، هذا النوع من تقدير الثبات يعكس بدرجة أساسية الفروق التي ترجع على الأفراد الذين يقدِّرون درجات الاختبار. بالإضافة إلى المدخل الارتباطي يمكن أيضا تقويم اتفاق المحكمين بحساب النسبة المئوية من المرات التي يُعيِّن فيها المحكِّمان نفس الدرجات لأداء المختبرين (Reynolds & Livingston, 2013)، ويطلق عليه عادة "اتفاق المحكمين"
3-العوامل المؤثرة على ثبات درجات الاختبار :
-طول الاختبار: ثبات درجات الاختبار له علاقة بعدد البنود، فكلما زاد عدد بنود الاختبار زاد معامل الثبات، فطول الاختبار أحد المظاهر التي تؤثر بالتأكيد على تباين الدرجة الحقيقية والدرجة الملاحظ. فالاختبارات ذات العدد المحدود من الأسئلة(البنود) تكون أكثر تأثرا بعوامل الصدفة (كامل، 1996) فحل مسالة عن طريق الصدفة في اختبار يشتمل على ثلاث مسائل أو أربعة يؤثر على الدرجة الكلية للاختبار، لكن إذا زاد عدد المسائل (البنود) إلى أربعين أو خمسين فإن حل مسألة واحدة بالصدفة لا يظهر لها تأثير واضح وكبير على الدرجة النهائية التي يحصل عليها، وطور Spearman-Brown معادلة تسمح لنا بالتحكم في ثبات الاختبار عن طريق زيادة عدد البنود، والصيغة العامة لهذه المعادلة هي:
بحيث: = عن الثبات المرغوب للاختبار المعدل
الثبات الأصلي للاختبار، و : عدد مرات زيادة عدد البنود.
إنَّ حساب العلاقة بين طول الاختبار ومقدار الثبات يمكِّننا من التعرف بدقة على درجة الثبات التي يصل إليها الاختبار عندما نزيد عدد البنود بنسبة k. وجدير أن نتذكَّر أن زيادة عدد بنود الاختبار وجعله أطول ستترتب عليه زيادة في تكلفة كتابة البنود الاضافية والوقت المستهلك على تطبيق وتصحيح الاختبار، دون أن نغفل الحرص على أن تكون البنود التي نقوم بإضافتها موازية في المحتوى والصعوبة لبنود الاختبار الأصلي.
ولتحديد قيمة k وهي عدد مرات زيادة عدد بنود الاختبار نطيق المعادلة التالية.
= معامل الثبات المرغوب.
= معامل الثبات الأصلي.
زمن الاختبار: كثرا ما يكون لعامل الزمن تأثير على درجة الثبات، فاختبارات السرعة الموقوتة بزمن محدد تتأثر درجات ثباتها وهذ ما أكدته أبحاث كل من Lindguist & Cook (السيد، 1989) كون هذا النوع من الاختبارات تظهر فيه نسبة معتبرة من البنود في آخر الاختبار يتركها المختبرين دون الإجابة عنها، وهذا ليس بسبب صعوبتها لكن بسبب عامل الزمن وتصحح عموما بدرجة صفر، وينجر عن هذه العملية ارتفاع في الارتباط بين البنود الأخيرة، ما يمنح اتساق أكبر لهذه البنود.
-تقارب مستوى صعوبة البنود: الاختبارات التي تتكون من بنود صعبة جدا أو سهلة جدا تكون درجات ثباتها ضعيفة، لأنها تؤدي إلى انتشار محدود للدرجات وتظهر فروقا طفيفة، كون تقدير الثبات يعتمد على تباين درجات الاختبار ومدى انتشارها.
-موضوعية التصحيح: تعد أحكام المصححين (الذاتية، التحيز) من العوامل المؤثرة على ثبات درجات خاصة في تقدير درجات اختبارات المقال، وبعض اختبارات الأداء أو مقاييس الشخصية لأن التصحيح يتطلب أحكاما ذاتية حول استجابات المختبرين مما يؤثر تأثيرا كبيرا على ثبات التقديرات بحيث تنخفض قيمة معامل الثبات نتيجة ذلك.
-تجانس عينة التصحيح: يتأثر ثبات الاختبار بنوع عينة الأفراد التي يطبق عليه الاختبار (متجانسة أو غير متجانسة، فتجانس درجات المجموعة يؤدي إلى انخفاض درجة تشتتها وانحرافاتها عن المتوسط، وهذا بدوره يقلل من قيمة معامل الثبات الذي يقوم على حساب الانحرافات عن المتوسط
صياغة البنود: البنود الغامضة والطويلة تؤثر على طريقة الإجابة، كذلك خلوه من الأخطاء يعزز ثبات الاختبار، فبعض البنود قد تشتمل على مؤثرات الإجابة مما ينجر عنها زيادة عامل التخمين في الحصول على الدرجة الصحيحة.