In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# קריאת הנתונים
df = pd.read_csv("flight_data_kiwi_02_03_25_clean.csv")

In [None]:
# תצוגה ראשונית של הנתונים
print(df.info())
print(df.describe())
print(df.head())

In [None]:
# טיפול בערכים חסרים
df.dropna(inplace=True)  # מחיקת שורות עם ערכים חסרים

In [None]:
# בדיקת outliers באמצעות Tukey method (1.5 * IQR)
def detect_outliers_tukey(data, column):
    Q1 = np.percentile(data[column], 25)
    Q3 = np.percentile(data[column], 75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    return data[(data[column] < lower_bound) | (data[column] > upper_bound)]


In [None]:
# זיהוי ומחיקת outliers עבור מחירי טיסות
price_outliers = detect_outliers_tukey(df, 'flight_price')
df = df[~df.index.isin(price_outliers.index)]

In [None]:
# ניתוח מחירים כלליים
sns.histplot(df['flight_price'], bins=30, kde=True)
plt.title("Flight Price Distribution")
plt.show()

In [None]:
# מחירי טיסות לפי חברות תעופה
plt.figure(figsize=(12,6))
sns.boxplot(x='airline', y='flight_price', data=df)
plt.xticks(rotation=90)
plt.title("Flight Prices by Airlines")
plt.show()

In [None]:
# חקירת תלות בין משתנים
sns.pairplot(df[['flight_price', 'departure_time', 'arrival_time', 'duration']])
plt.show()

In [None]:
# מטריצת מתאמים בין משתנים מספריים
plt.figure(figsize=(10,6))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title("Correlation Matrix")
plt.show()

In [None]:
# שמירת הנתונים לאחר עיבוד
cleaned_file_path = '/mnt/data/flight_data_cleaned.csv'
df.to_csv(cleaned_file_path, index=False)
print(f"Cleaned data saved to {cleaned_file_path}")