مشروع تحليل بيانات سيارات الأجرة في نيويورك باستخدام PySpark

هذا المشروع يوضح كيفية استخدام Apache PySpark لتحليل بيانات رحلات سيارات الأجرة الصفراء في مدينة نيويورك لشهر مارس 2016. يتضمن المشروع أمثلة على عمليات DataFrame الأساسية، معالجة القيم المفقودة، عمليات التصفية، وظائف GroupBy والتجميع، وتطبيق نماذج التعلم الآلي مثل الانحدار الخطي.

محتويات المشروع

data/: يحتوي على ملف البيانات yellow_tripdata_2016-03.csv.
notebooks/: يحتوي على دفاتر ملاحظات Jupyter التي توضح خطوات التحليل المختلفة:
- 01_data_exploration.ipynb: استكشاف البيانات الأساسية وعرض المخطط والصفوف الأولى.
- 02_dataframe_operations.ipynb: عمليات DataFrame مثل اختيار الأعمدة، إضافة/حذف/إعادة تسمية الأعمدة.
- 03_handling_missing_values.ipynb: طرق معالجة القيم المفقودة (الإسقاط والملء).
- 04_filter_operations.ipynb: عمليات التصفية على DataFrame باستخدام شروط مختلفة.
- 05_groupby_aggregate.ipynb: استخدام وظائف GroupBy والتجميع لإجراء تحليلات إحصائية.
- 06_linear_regression.ipynb: تطبيق نموذج الانحدار الخطي للتنبؤ بـ fare_amount.
- 07_pyspark_ml_examples.ipynb: أمثلة متقدمة للتعلم الآلي باستخدام Random Forest Regressor.
scripts/: يحتوي على ملفات Python القابلة للتنفيذ:
- main.py: مثال بسيط لإنشاء SparkSession وتحميل البيانات.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
notebooks/notebooks		notebooks/notebooks
scripts		scripts
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

مشروع تحليل بيانات سيارات الأجرة في نيويورك باستخدام PySpark

محتويات المشروع

About

Uh oh!

Releases

Packages

Languages

HasnaNashwan/Pyspark-With-Python

Folders and files

Latest commit

History

Repository files navigation

مشروع تحليل بيانات سيارات الأجرة في نيويورك باستخدام PySpark

محتويات المشروع

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages