<a href="https://colab.research.google.com/github/saraalo00sa/airport-chatbot/blob/main/cleaned_flights.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import pandas as pd

# رابط GitHub raw (يجب تغييره لأنه يحتوي على واجهة HTML)
github_url = "https://raw.githubusercontent.com/saraalo00sa/airport-chatbot/main/dataset/flights.csv"

# تحميل البيانات مباشرة من GitHub
df = pd.read_csv(github_url)

# عرض أول 5 صفوف
print(df.head())


  flight_number departure/arrival_airport departure/arrival_airport.1  \
0       SV 1023        Riyadh King Khaled                         RUH   
1       SV 1295        Riyadh King Khaled                         RUH   
2        F3 205        Riyadh King Khaled                         RUH   
3        J9 230        Riyadh King Khaled                         RUH   
4        F3 173        Riyadh King Khaled                         RUH   

  flight_status    city_name airport_code departure/arrival_time_local  \
0       Unknown       Jeddah          JED       2024-08-10 08:00+03:00   
1       Unknown      Gerayat          URY       2024-08-10 08:05+03:00   
2       Unknown        Tabuk          TUU       2024-08-10 08:05+03:00   
3       Unknown  Kuwait City          KWI       2024-08-10 08:10+03:00   
4       Unknown    Ad Dammam          DMM       2024-08-10 08:10+03:00   

   terminal aircraft_model     airline_name       type  \
0       5.0    Airbus A321    Saudi Arabian  Departure   


In [3]:
import pandas as pd
from datetime import datetime, timedelta

# تحميل البيانات
github_url = "https://raw.githubusercontent.com/saraalo00sa/airport-chatbot/main/dataset/flights.csv"
df = pd.read_csv(github_url)

# اختيار الأعمدة المهمة فقط
df = df[['flight_number', 'airport_code', 'departure/arrival_time_local',
         'terminal', 'aircraft_model', 'airline_name', 'type',
         'scheduled_datetime_flight', 'flight_status']]

# تحويل وقت الرحلة إلى datetime مع تحديد UTC
df['scheduled_datetime_flight'] = pd.to_datetime(df['scheduled_datetime_flight'], errors='coerce', utc=True)

# الحصول على الوقت الحالي مع UTC
current_time = datetime.now().astimezone()  # تحويل الوقت إلى نفس المنطقة الزمنية للبيانات

# دالة لحساب حالة البوابة
def get_gate_status(scheduled_time):
    if pd.isna(scheduled_time):
        return "Unknown"

    # التأكد من أن القيمتين بنفس المنطقة الزمنية قبل الطرح
    scheduled_time = scheduled_time.tz_convert(current_time.tzinfo)

    if scheduled_time - timedelta(minutes=60) <= current_time < scheduled_time:
        return "Open"
    elif current_time >= scheduled_time:
        return "Closed"
    else:
        return "Unknown"

# تطبيق الدالة على كل الرحلات
df['gate_status'] = df['scheduled_datetime_flight'].apply(get_gate_status)

# تنظيف البيانات
# 1. إزالة الصفوف التي تحتوي على قيم مفقودة (NaN)
df_cleaned = df.dropna()

# 2. إزالة الصفوف المكررة
df_cleaned = df_cleaned.drop_duplicates()

# 3. (اختياري) إعادة تعيين الفهرس بعد التنظيف
df_cleaned = df_cleaned.reset_index(drop=True)

# حفظ البيانات بعد التعديل
df_cleaned.to_csv("cleaned_flights.csv", index=False)

print("✅ Data cleaned, duplicates removed, and 'gate_status' column added successfully!")




✅ Data cleaned, duplicates removed, and 'gate_status' column added successfully!
