تمكين الطالب من فهم كيفية استيراد البيانات السياسية من ملفات خارجية (مثل Excel أو CSV) وتحويلها إلى "إطار بيانات" (DataFrame)، وتعلم كيفية فحص هذه البيانات وتنظيفها لتكون جاهزة للتحليل الأكاديمي.
في دراسات العلوم السياسية، نادراً ما نبدأ من الصفر؛ فنحن نعتمد غالباً على بيانات جاهزة مقدمة من المنظمات الدولية، الهيئات الانتخابية، أو مراكز الإحصاء. برنامج "Excel" مفيد، لكنه يواجه صعوبات عند تضخم البيانات أو الحاجة لأتمتة التحليل. هنا تأتي مكتبة Pandas؛ وهي الأداة الأكثر شهرة في بايثون لتحويل الجداول الصماء إلى كائنات برمجية ذكية يمكن استجوابها وتحليلها بسرعة فائقة.
هي مكتبة برمجية توفر أدوات مرنة لمعالجة البيانات الجدولية. تُحول البيانات إلى ما نسميه DataFrame؛ وهو جدول يشبه جداول الإحصاء الرسمية، حيث تمثل الأعمدة المتغيرات السياسية (مثل: اسم الدولة، سنة الانتخاب، نسبة التصويت)، وتمثل الصفوف الحالات المرصودة.
تسمح لنا بايثون بقراءة مختلف أنواع الملفات بامر واحد بسيط:
لقراءة ملفات إكسل: pd.read_excel()
لقراءة ملفات النصوص المجدولة: pd.read_csv()
الباحث السياسي الناجح هو من يملك بيانات دقيقة. في هذه المرحلة نتعلم:
كيفية اكتشاف القيم المفقودة (الدول التي لم تتوفر عنها بيانات).
حذف البيانات المتكررة التي قد تؤثر على دقة النتائج الإحصائية.
Pandas is the standard Python library for data manipulation. It introduces the DataFrame, a 2D labeled data structure (like an Excel spreadsheet) that allows us to store and manipulate political datasets efficiently.
In political research, data often comes in CSV or Excel formats from international organizations (e.g., World Bank, UN). Pandas makes it easy to load these files with a single command, such as pd.read_csv().
Raw data is often "messy." We will learn how to:
Inspect: View the first few rows of a dataset using .head().
Clean: Identify and handle missing values (NaN) to ensure the integrity of our political findings.
تخيل أن لدينا ملفاً يحتوي على نتائج الانتخابات في بلديات مختلفة، نستخدم الكود التالي للبدء:
import pandas as pd # استدعاء المكتبة
# قراءة ملف البيانات - Reading the dataset
data = pd.read_csv('elections_results.csv')
# عرض أول 5 أسطر من البيانات لفهمها
print(data.head())
# معرفة عدد الدول والظواهر الموجودة
print(data.shape)
انتقلنا اليوم من "البيانات الخام" إلى "إطار البيانات المنظم". لقد أصبح الحاسوب الآن يفهم جدولنا الإحصائي، وهو مستعد للمرحلة القادمة؛ وهي استخراج المؤشرات الرقمية والرسوم البيانية.