# 🤖 04 - Prédiction des retards de vol

Création d'un modèle simple de machine learning pour prédire si un vol sera en retard ou non (>15 min).

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

df = pd.read_csv("../data/flights_sample_3m.csv")

## 🧹 Préparation des données

In [2]:
# Supprimer les lignes avec valeurs manquantes importantes
df_model = df[['AIRLINE', 'ORIGIN', 'DEST', 'DEP_DELAY', 'DISTANCE']].dropna()

# Créer une cible binaire : retard > 15 min = 1
df_model['DELAYED'] = (df_model['DEP_DELAY'] > 15).astype(int)

# Variables catégorielles à encoder
df_model = pd.get_dummies(df_model, columns=['AIRLINE', 'ORIGIN', 'DEST'], drop_first=True)

## 🧠 Entraînement du modèle

In [None]:
# Séparation X / y
X = df_model.drop(['DEP_DELAY', 'DELAYED'], axis=1)
y = df_model['DELAYED']

# Split train / test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modèle RandomForest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Prédiction
y_pred = model.predict(X_test)

## 📊 Résultats

In [None]:
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))