Skip to content

HasnaNashwan/Pyspark-With-Python

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 

Repository files navigation

مشروع تحليل بيانات سيارات الأجرة في نيويورك باستخدام PySpark

هذا المشروع يوضح كيفية استخدام Apache PySpark لتحليل بيانات رحلات سيارات الأجرة الصفراء في مدينة نيويورك لشهر مارس 2016. يتضمن المشروع أمثلة على عمليات DataFrame الأساسية، معالجة القيم المفقودة، عمليات التصفية، وظائف GroupBy والتجميع، وتطبيق نماذج التعلم الآلي مثل الانحدار الخطي.

محتويات المشروع

  • data/: يحتوي على ملف البيانات yellow_tripdata_2016-03.csv.
  • notebooks/: يحتوي على دفاتر ملاحظات Jupyter التي توضح خطوات التحليل المختلفة:
    • 01_data_exploration.ipynb: استكشاف البيانات الأساسية وعرض المخطط والصفوف الأولى.
    • 02_dataframe_operations.ipynb: عمليات DataFrame مثل اختيار الأعمدة، إضافة/حذف/إعادة تسمية الأعمدة.
    • 03_handling_missing_values.ipynb: طرق معالجة القيم المفقودة (الإسقاط والملء).
    • 04_filter_operations.ipynb: عمليات التصفية على DataFrame باستخدام شروط مختلفة.
    • 05_groupby_aggregate.ipynb: استخدام وظائف GroupBy والتجميع لإجراء تحليلات إحصائية.
    • 06_linear_regression.ipynb: تطبيق نموذج الانحدار الخطي للتنبؤ بـ fare_amount.
    • 07_pyspark_ml_examples.ipynb: أمثلة متقدمة للتعلم الآلي باستخدام Random Forest Regressor.
  • scripts/: يحتوي على ملفات Python القابلة للتنفيذ:
    • main.py: مثال بسيط لإنشاء SparkSession وتحميل البيانات.

About

pyspark_taxi_project

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published