<a href="https://colab.research.google.com/github/Engbasemhamada/NYC-Taxi-Fare-Prediction/blob/main/EDA_for_Taxi_Fare_Dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ===============================
# 📊 Full Visual EDA for Taxi Fare Dataset
# ===============================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# إعداد الشكل العام للرسومات
plt.style.use('seaborn-v0_8')
sns.set_palette('mako')
pd.set_option('display.max_columns', None)

# 1️⃣ قراءة الداتا
df = pd.read_csv("final_internship_data.csv")

# ------------------------------
# 2️⃣ نظرة سريعة على الداتا
# ------------------------------
print("✅ Shape:", df.shape)
print("\n📋 Columns:", df.columns.tolist())
print("\n🔍 Missing Values:\n", df.isnull().sum())
print("\n📈 Summary:\n", df.describe())

# ------------------------------
# 3️⃣ معالجة مبدئية (اختيارية)
# ------------------------------
# تحويل التاريخ
if 'pickup_datetime' in df.columns:
    df['pickup_datetime'] = pd.to_datetime(df['pickup_datetime'], errors='coerce')
    df['hour'] = df['pickup_datetime'].dt.hour
    df['day'] = df['pickup_datetime'].dt.day
    df['month'] = df['pickup_datetime'].dt.month
    df['year'] = df['pickup_datetime'].dt.year

# حذف الصفوف الغريبة أو الأجرة السالبة
if 'fare_amount' in df.columns:
    df = df[df['fare_amount'] > 0]

# ------------------------------
# 4️⃣ الرسومات (Visualizations)
# ------------------------------

# 🎯 توزيع الأجرة
plt.figure(figsize=(8,5))
sns.histplot(df['fare_amount'], bins=50, kde=True, color='purple')
plt.title("Distribution of Fare Amount ($)")
plt.xlabel("Fare Amount ($)")
plt.ylabel("Count")
plt.show()

# 🎯 Boxplot الأجرة لاكتشاف القيم المتطرفة
plt.figure(figsize=(8,4))
sns.boxplot(x=df['fare_amount'], color='skyblue')
plt.title("Fare Amount Outliers")
plt.show()

# 🎯 علاقة عدد الركاب مع الأجرة
if {'passenger_count', 'fare_amount'}.issubset(df.columns):
    plt.figure(figsize=(8,5))
    sns.boxplot(x='passenger_count', y='fare_amount', data=df)
    plt.title("Fare Amount vs Passenger Count")
    plt.xlabel("Passenger Count")
    plt.ylabel("Fare Amount ($)")
    plt.show()

# 🎯 العلاقة بين الساعة والأجرة
if {'hour', 'fare_amount'}.issubset(df.columns):
    plt.figure(figsize=(10,5))
    sns.boxplot(x='hour', y='fare_amount', data=df)
    plt.title("Fare Amount by Hour of Day")
    plt.xlabel("Hour of Day")
    plt.ylabel("Fare Amount ($)")
    plt.show()

# 🎯 العلاقة بين اليوم في الشهر والأجرة
if {'day', 'fare_amount'}.issubset(df.columns):
    plt.figure(figsize=(10,5))
    sns.lineplot(x='day', y='fare_amount', data=df, estimator='mean')
    plt.title("Average Fare Amount by Day of Month")
    plt.xlabel("Day of Month")
    plt.ylabel("Average Fare ($)")
    plt.show()

# 🎯 المواقع الجغرافية (Pickup)
if {'pickup_longitude', 'pickup_latitude'}.issubset(df.columns):
    plt.figure(figsize=(8,6))
    plt.scatter(df['pickup_longitude'], df['pickup_latitude'], s=1, alpha=0.3)
    plt.title("Pickup Locations Distribution")
    plt.xlabel("Longitude")
    plt.ylabel("Latitude")
    plt.show()

# 🎯 المواقع الجغرافية (Dropoff)
if {'dropoff_longitude', 'dropoff_latitude'}.issubset(df.columns):
    plt.figure(figsize=(8,6))
    plt.scatter(df['dropoff_longitude'], df['dropoff_latitude'], s=1, alpha=0.3, color='orange')
    plt.title("Dropoff Locations Distribution")
    plt.xlabel("Longitude")
    plt.ylabel("Latitude")
    plt.show()

# 🎯 العلاقة بين المسافة والأجرة (لو فيها أعمدة location)
if {'pickup_longitude', 'pickup_latitude', 'dropoff_longitude', 'dropoff_latitude'}.issubset(df.columns):
    # نحسب المسافة التقريبية بين نقطة البداية والنهاية
    df['distance_km'] = np.sqrt(
        (df['dropoff_longitude'] - df['pickup_longitude'])**2 +
        (df['dropoff_latitude'] - df['pickup_latitude'])**2
    ) * 111  # التحويل من درجات إلى كم تقريبي

    plt.figure(figsize=(8,5))
    sns.scatterplot(x='distance_km', y='fare_amount', data=df, alpha=0.4)
    plt.title("Fare Amount vs Distance (km)")
    plt.xlabel("Distance (km)")
    plt.ylabel("Fare Amount ($)")
    plt.show()

# 🎯 مصفوفة الارتباطات بين الأعمدة الرقمية
plt.figure(figsize=(10,8))
sns.heatmap(df.select_dtypes(include=np.number).corr(), annot=True, cmap='coolwarm')
plt.title("Correlation Heatmap")
plt.show()
