دروس SPSS في القيم المفقودة Missing Values

0
10
القيم المفقودة
المجلة العربية للعلوم ونشر الأبحاث

ما هي القيم المفقودة في برنامج SPSS؟

 

في SPSS ، قد تشير “القيم المفقودة” إلى شيئين:

  • القيم المفقودة في النظام هي القيم الغائبة تمامًا عن البيانات. يتم عرضها على شكل فترات في عرض البيانات.
  • قيم المستخدم المفقودة هي قيم غير مرئية أثناء تحليل البيانات أو تحريرها. يحدد مستخدم SPSS القيم – إن وجدت – التي يجب استبعادها.

 

القيم المفقودة

 

يرشدك هذا المقال التعليمي الى كلا النوعين من القيم المفقودة. سنستخدم إضافة bank.sav – الموضحة أدناه – طوال الوقت. ” ستحصل على أقصى استفادة من هذا البرنامج التعليمي إذا جربت الأمثلة بنفسك بعد تنزيل هذا الملف وفتحه”

القيم المفقودة

القيم المفقودة في نظام SPSS

القيم المفقودة للنظام هي القيم التي هي غائب تماما عن البيانات.

يتم عرض القيم المفقودة في النظام كنقاط في عرض البيانات كما هو موضح أدناه.

القيم المفقودة

 

يتم العثور على القيم المفقودة في النظام فقط في المتغيرات الرقمية. لا تحتوي متغيرات السلسلة String variables على قيم مفقودة من النظام missing values . قد تحتوي البيانات على قيم مفقودة من النظام لعدة أسباب:

  • لم يتم طرح بعض الأسئلة على بعض المستجيبين او تم نسيانها بسبب روتين الاستبيان .
  • تخطى أحد المستجيبين بعض الأسئلة .
  • حدث خطأ ما أثناء تحويل البيانات أو تحريرها .
  • لم يتم تسجيل بعض القيم بسبب فشل المعدات.

في بعض الحالات ، تكون القيم المفقودة في النظام منطقية تمامًا. على سبيل المثال ، السؤال عن

“هل تملك سيارة؟”

إذا اجاب شخص بـ “لا”. حسنًا ، يجب أن يتخطى برنامج المسح الخاص بي السؤال التالي:

“ما هو لون سيارتك؟”

 

في البيانات ، سنرى على الأرجح قيمًا مفقودة للنظام على اللون لكل شخص لا يمتلك سيارة. هذه القيم المفقودة منطقية تمامًا.

ومع ذلك ، في حالات أخرى ، قد لا يكون من الواضح سبب وجود أخطاء في النظام في بياناتك. قد يكون هناك خطأ ما أو لا يحدث. لذلك ، يجب أن تحاول اكتشف سبب فقدان النظام لبعض القيم

القيم المفقودة لمستخدم SPSS

قيم المستخدم المفقودة هي القيم التي يتم استبعادها عند تحليل البيانات أو تحريرها.

كلمة “المستخدم” في البينات المفقودة للمستخدم في برنامج SPSS تشير الى مستخدمي برنامج SPSS.

هناك بعض البيانات يتم استبعادها :

  • بالنسبة للمتغيرات الفئوية ، عادةً ما يتم استبعاد إجابات مثل “لا أعرف” أو “لا إجابة” من التحليل.
  • بالنسبة للمتغيرات المترية ، يتم عادةً تعيين القيم غير المحتملة – وقت رد الفعل الذي يبلغ 50 مللي ثانية أو راتب شهري قدره 9999،999 يورو – على أنها مفقودة للمستخدم.

 

بالنسبة إلى bank.sav ، لم يتم تعيين قيم مفقودة للمستخدم حتى الآن ، كما يمكن رؤيته في طريقة العرض المتغيرة.

 

القيم المفقودة

 

دعنا الآن نرى ما إذا كان يجب تعيين أي قيم على أنها مفقودة للمستخدم وكيفية القيام بذلك.

 

البيانات المفقودة للمستخدم للمتغيرات الفئوية User Missing Values for Categorical Variables

هناك طريقة سريعة لفحص المتغيرات الفئوية وهي تشغيل توزيعات التكرار والمخططات العامودية. تأكد من أن جداول النتائج والمخرجات تعرض كلاً من القيم وتسميات القيم , أسهل طريقة للقيام بذلك هي تشغيل  الاوامرأدناه.

باستخدام الأمر التالي:

 

*Show both values and value labels in succeeding output.

set tnumbers both.*Basic frequency table for q1.

frequencies q1 to q9.

 

ستظهر هذه النتيجة:

 

القيم المفقودة

 

لاحظ أولاً أن q1 متغير ترتيبي: تشير القيم الأعلى إلى مستويات أعلى من التوافق. ومع ذلك ، هذا لا ينطبق على 11: “لا إجابة” لا تشير إلى اتفاق أكثر من 10 – “أوافق تمامًا”. لذلك ، تشكل القيم من 1 إلى 10 فقط متغيرًا ترتيبيًا ويجب استبعاد 11.

يُظهر  الاوامرأدناه الطريقة الصحيحة للقيام بذلك.

*Set 11 as user missing value for q1.

missing values q1 to q9 (11).*Rerun frequencies table.

frequencies q1 to q9.

 

ستظهر هذه النتيجة:

القيم المفقودة

 

لاحظ أن 11 معروض بين القيم المفقودة الآن. يحدث 6 مرات في q1 وهناك أيضًا 14 قيمة مفقودة للنظام. في العرض المتغير ، نرى أيضًا أنه تم تعيين 11 كقيمة مفقودة للمستخدم من q1 إلى q9.

القيم المفقودة

 

بيانات المستخدم المفقودة للقيم المترية Metric values

الطريقة الصحيحة لفحص المتغيرات المترية هي تشغيل الرسوم البيانية عليها. يُظهر  انشاء الاوامرأدناه أسهل طريقة للقيام بذلك.

الأمر الذي سوف تستخدمه هو:

 

*Run basic histogram over working hours per week.

frequencies whours
/format notable
/histogram.

 

 

والنتيجة ستكون هكذا:

 

القيم المفقودة

 

أفاد بعض المستجيبين أنهم عملوا أكثر من 150 ساعة في الأسبوع. ربما تكون هذه ساعات عملهم الشهرية – وليس الأسبوعية. في أي حال ، هذه القيم ليست ذات مصداقية. لذلك سنقوم بتعيين جميع قيم 50 ساعة أسبوعيًا أو أكثر لأن المستخدم مفقود. بعد القيام بذلك ، يبدو توزيع القيم المتبقية مقبولاً.

 

استخدم الامر command التالي:

 

*Set 50 hours per week or more as user missing.

missing values whours (50 thru hi).*Rerun histogram.

frequencies whours
/format notable
/histogram.

 

فحص القيم المفقودة لكل متغير Inspecting Missing Values per Variable

هناك طريقة فائقة السرعة لفحص (النظام والمستخدم) القيم المفقودة لكل متغير وهي تشغيل جدول DESCRIPTIVES الأساسي. قبل القيام بذلك ، تأكد من عدم تشغيل أي وزن أو فلتر. يمكنك التحقق من ذلك عن طريق اجراء :: عرض مرشح الوزن N.

 

SHOW WEIGHT FILTER N.

 

 

لاحظ أيضًا أن هناك 464 حالة في هذه البيانات. لنفحص الآن الإحصاء الوصفي.

 

*Check missing values per variable.

descriptives q1 to q9.*Note: (464 – N) = number of missing values.

 

النتيجة:

 

القيم المفقودة

 

يُظهر العمود N عدد القيم غير المفقودة لكل متغير. نظرًا لأن لدينا إجمالي 464 حالة ، (464 – N) هو عدد القيم المفقودة لكل متغير. إذا كانت هناك نسبة عالية من النقص في أي متغيرات ، فقد ترغب في استبعادها من التحليلات متعددة المتغيرات على وجه الخصوص.

 

الأهم من ذلك ، لاحظ أن Valid N (listwise) = 309. هذه هي الحالات دون أي قيم مفقودة في جميع المتغيرات في هذا الجدول. ستستخدم بعض الإجراءات تلك الحالات الـ 309 فقط – المعروفة باستبعاد القوائم المفقودة في SPSS.

الخلاصة: لا يوجد في أي من متغيراتنا – أعمدة الخلايا في عرض البيانات – نسب كبيرة من النواقص. دعنا الآن نرى ما إذا كانت أي حالات – صفوف الخلايا في عرض البيانات – بها العديد من القيم المفقودة.

 

فحص القيم المفقودة لكل حالة Inspecting Missing Values per Case

 

لفحص ما إذا كانت أي حالة بها العديد من القيم المفقودة ، سننشئ متغيرًا جديدًا. يحتوي هذا المتغير على عدد القيم المفقودة عبر مجموعة من المتغيرات التي نرغب في تحليلها معًا. في المثال أدناه ، سيكون ذلك من q1 إلى q9.

سنستخدم اسم متغير قصير وبسيط: mis_1 جيد. فقط تأكد من إضافة وصف لما يحتويه – عدد المفقودين … – كتسمية متغير.

استخدم الأمر التالي

 

*Create new variable holding number of missing values over q1 to q9.

count mis_1 = q1 to q9 (missing).*Set description of mis_1 as variable label.

variable labels mis_1 ‘Missing values over q1 to q9’.*Inspect frequency distribution missing values.

frequencies mis_1.

 

النتيجة:

 

القيم المفقودة

 

 

في هذا الجدول ، 0 تعني صفرًا من القيم المفقودة على q1 إلى q9. هذا ينطبق على 309 حالة. هذا هو N (بطريقة القوائم) الذي رأيناه في جدول الوصف سابقًا.

لاحظ أيضًا أن الحالة الواحدة بها 8 قيم مفقودة من 9 متغيرات. قد نشك إذا كان هذا المستفتى قد ملأ الاستبيان بجدية. ربما كان من الأفضل استبعاده من التحليلات على مدار q1 إلى q9. الطريقة الصحيحة للقيام بذلك هي استخدام عامل التصفية او الفلتر.

 

تحليل بيانات SPSS بقيم مفقودة SPSS Data Analysis with Missing Values

إذن كيف يحلل SPSS البيانات إذا كانت تحتوي على قيم مفقودة؟ حسنًا ، في معظم الحالات ، يقوم برنامج SPSS بتشغيل كل تحليل في جميع الحالات التي يمكنه استخدامها من أجله.

الآن ، تحتوي بياناتنا الآن على 464 حالة. ومع ذلك ، لا يمكن لمعظم التحليلات استخدام كل الـ 464 لأن بعضها قد ينقطع بسبب القيم المفقودة. تعتمد الحالات التي يتم استبعادها على التحليل الذي نجريه على أي متغيرات.

  • من أفضل الممارسات المهمة أن تفحص دائمًا عدد الحالات المستخدمة فعليًا لكل تحليل تقوم بإجرائه.

هذا ليس دائما ما قد تتوقعه. دعنا أولاً نلقي نظرة على الاستبعاد الزوجي (الثنائي ) للقيم المفقودة pairwise exclusion of missing values .

 

الاستبعاد الثنائي للقيم المفقودة Pairwise Exclusion of Missing Values

دعنا نفحص جميع ارتباطات (بيرسون) بين q1 إلى q9. إن أبسط طريقة للقيام بذلك هي مجرد تشغيل الارتباطات من q1 إلى q9 , إذا فعلنا ذلك ، فسنحصل على الجدول الموضح أدناه.

 

القيم المفقودة

 

لاحظ أن كل ارتباط يعتمد على عدد مختلف من الحالات , وعلى وجه التحديد يستخدم كل ارتباط بين زوج من المتغيرات جميع الحالات التي لها قيم صالحة في هذين المتغيرين.

يُعرف هذا بالاستبعاد الزوجي ( الثنائي ) للقيم المفقودة , لاحظ أن معظم الارتباطات تستند إلى حوالي 410 حتى 440 حالة.

 

استبعاد القيم المفقودة بطريقة القوائم Listwise Exclusion of Missing Values

دعنا الآن نعيد تشغيل نفس الارتباطات بعد إضافة سطر إلى الحد الأدنى من  انشاء الاوامرلدينا: الارتباطات q1 إلى q9 / مفقود في القائمة

correlations q1 to q9
/missing listwise.

 

بعد تشغيله ، نحصل على مصفوفة ارتباط أصغر كما هو موضح أدناه. لم تعد تتضمن عدد الحالات لكل ارتباط.

 

القيم المفقودة

 

يعتمد كل ارتباط على نفس الحالات البالغ عددها N= 309 حالة N هذه هي الحالات التي لا تحتوي على قيم مفقودة في جميع المتغيرات في الجدول: q1 إلى q9. يُعرف هذا باسم استبعاد القائمة للقيم المفقودة.

من الواضح أن الاستبعاد القائم على القوائم غالبًا ما يستخدم حالات أقل بكثير من الاستبعاد الزوجي ( الثنائي ) , هذا هو السبب في أننا نوصي غالبًا به: لاننا نريد استخدام أكبر عدد ممكن من الحالات.

في حالة وجود العديد من القيم المفقودة ، فقد يتسبب الاستبعاد الزوجي في حدوث مشكلات حسابية , ولكن ، تأكد من معرفة ما إذا كان تحليلك يستخدم استبعادًا قائمًا أو ثنائيًا للقيم المفقودة.

بشكل عام فان تحليل الانحدار او الميول regression وعوامل التحليل factor analysis تستخدم الاستبعاد القائم على القائمة list في معظم الحالات و هذا ليس ما تريده.

 

القيم المفقودة

 

استبعاد تحليل القيم المفقودة عن طريق التحليل Exclude Missing Values Analysis by Analysis

يُعرف تحليل ما إذا كان هناك متغيرين مرتبطين باسم التحليل الثنائي المتغير. عند القيام بذلك ، يمكن لـ SPSS فقط استخدام الحالات التي تحتوي على قيم صالحة في كلا المتغيرين.

إذا قمت بتشغيل العديد من التحليلات ثنائية المتغير دفعة واحدة ، فيمكنك استبعاد تحليل الحالات عن طريق التحليل: ويستخدم كل تحليل منفصل جميع الحالات الممكنة. قد تستخدم التحليلات المختلفة مجموعات فرعية مختلفة من الحالات.

 

إذا كنت لا ترغب في ذلك ، يمكنك غالبًا اختيار الاستبعاد بطريقة القوائم بدلاً من ذلك:و يستخدم كل تحليل الحالات فقط بدون قيم مفقودة في جميع المتغيرات لجميع التحليلات. يوضح الشكل أدناه هذا بالنسبة لـ ANOVA.

 

القيم المفقودة

 

في رقم 1 : يستخدم اختبار q1 والتعليم جميع الحالات التي لها قيم صالحة في q1 والتعليم ، بغض النظر عن q2 إلى q4.

في رقم 2 : تستخدم جميع الاختبارات الحالات التي لا تحتوي على قيم مفقودة من الربع الأول إلى الربع الرابع والتعليم.

نريد عادةً استخدام أكبر عدد ممكن من الحالات لكل تحليل. لذلك نفضل استبعاد تحليل الحالات عن طريق التحليل. ولكن بغض النظر عن اختيارك ، تأكد من معرفة عدد الحالات المستخدمة لكل تحليل.

لذا تحقق من مخرجاتك بعناية. يعد اختبار Kolmogorov-Smirnov صعبًا بشكل خاص في هذا الصدد: افتراضيًا ، يستبعد أحد الخيارات تحليل الحالات عن طريق التحليل والآخر يستخدم الاستبعاد القائم على القائمة.

 

تحرير البيانات بقيم مفقودة Editing Data with Missing Values

قد يكون تحرير البيانات بقيم مفقودة أمرًا صعبًا , تعمل الأوامر والوظائف المختلفة بشكل مختلف في هذه الحالة.

حتى الأشياء الأساسية مثل متوسطات الحوسبة في SPSS يمكن أن تسوء كثيرًا إذا لم تكن على علم بذلك , وسينتهي بك المطاف بنتائج خاطئة وغير مرضية .

يوضح  انشاء الاوامر أدناه 3 طرق نواجهها أحيانًا. ومع ذلك ، مع وجود قيم مفقودة ، ينتج 2 من هذه النتائج غير صحيحة.

 

*Right way to compute mean.
compute mean_a = mean(q1 to q9).*Compute mean – wrong way 1.
compute mean_b = (q1 + q2 + q3 + q4 + q5 + q6 + q7 + q8 + q9) / 9.*Compute mean – wrong way 2.
compute mean_c = sum(q1 to q9) / 9.*Check results.
descriptives mean_a to mean_c.

 

ستظهر النتئجة هكذا:

القيم المفقودة

 

ملاحظات نهائية

في بيانات العالم الحقيقي ، تعتبر القيم المفقودة شائعة , و لا تسبب عادةً الكثير من المتاعب عند تحليل البيانات أو تحريرها ولكنها تحدث في بعض الحالات , و غالبًا ما يكفي القليل من العناية الإضافية إذا كان النقص محدودًا, فقط تحقق جيدًا من نتائجك واعرف ما تفعله.

 

 

عودة إلى فهرس دليل استخدام SPSS

 

القيم المفقودة

القيم المفقودةالقيم المفقودة