هذا المشروع يوضح كيفية استخدام Apache PySpark لتحليل بيانات رحلات سيارات الأجرة الصفراء في مدينة نيويورك لشهر مارس 2016. يتضمن المشروع أمثلة على عمليات DataFrame الأساسية، معالجة القيم المفقودة، عمليات التصفية، وظائف GroupBy والتجميع، وتطبيق نماذج التعلم الآلي مثل الانحدار الخطي.
data/
: يحتوي على ملف البياناتyellow_tripdata_2016-03.csv
.notebooks/
: يحتوي على دفاتر ملاحظات Jupyter التي توضح خطوات التحليل المختلفة:01_data_exploration.ipynb
: استكشاف البيانات الأساسية وعرض المخطط والصفوف الأولى.02_dataframe_operations.ipynb
: عمليات DataFrame مثل اختيار الأعمدة، إضافة/حذف/إعادة تسمية الأعمدة.03_handling_missing_values.ipynb
: طرق معالجة القيم المفقودة (الإسقاط والملء).04_filter_operations.ipynb
: عمليات التصفية على DataFrame باستخدام شروط مختلفة.05_groupby_aggregate.ipynb
: استخدام وظائف GroupBy والتجميع لإجراء تحليلات إحصائية.06_linear_regression.ipynb
: تطبيق نموذج الانحدار الخطي للتنبؤ بـfare_amount
.07_pyspark_ml_examples.ipynb
: أمثلة متقدمة للتعلم الآلي باستخدام Random Forest Regressor.
scripts/
: يحتوي على ملفات Python القابلة للتنفيذ:main.py
: مثال بسيط لإنشاء SparkSession وتحميل البيانات.