### **Prédiction des retards des vols au départ de l'aéroport de JFK en fonction des conditions météorologiques ✈️**


<small> GHORAFI Manal • ED-DAZAZI Khawla • OUALY Ossama</small>

<small>Ce projet est réalisé dans le cadre du cours de Python pour la datascience à l'ENSAE pour l'année 2024-2025</small>

#### **Introduction**

<small> Le transport aérien tient une place centrale dans notre société moderne, reliant des régions du monde entier de manière rapide et efficace. Cependant, cette efficacité est régulièrement compromise par un problème persistant : **les retards de vols**. Ces retards affectent non seulement les passagers, mais aussi les compagnies aériennes et l'économie en général, entraînant des pertes de temps, des surcoûts et une insatisfaction générale.

Dans ce contexte, les aéroports sont confrontés à la nécessité de mieux comprendre et anticiper les causes des retards pour optimiser leurs opérations. Parmi les facteurs influençant les retards, **les conditions météorologiques** jouent un rôle crucial. Le brouillard, les vents violents, les précipitations ou les tempêtes peuvent perturber les horaires, réduire les capacités des pistes et accroître la congestion dans les aéroports. Par conséquent, intégrer l'impact des variables météorologiques dans les systèmes de gestion des vols est essentiel pour minimiser les perturbations et améliorer la planification. Ainsi, notre étude s’avère importante car elle propose de **prédire les probabilités de retard des vols au départ en tenant compte de l’impact des conditions météorologiques**.

En s’appuyant sur un ensemble de données combinant des informations sur les vols et des variables météorologiques (comme la température, les précipitations et la visibilité), cette étude vise à développer un modèle prédictif précis. Ce modèle peut être utilisé pour mieux planifier les opérations aéroportuaires, réduire les retards et, par conséquent, améliorer l'expérience des usagers.

Pour réaliser cette étude, nous nous concentrerons sur les vols de la compagnie aérienne **American Airlines** à départ de **l'aéroport international John F. Kennedy (JFK) à New York**, l'un des hubs les plus importants et les plus actifs au monde. Cet aéroport offre un contexte riche en données. Nous nous sommes intéressés aux vols de 

Pour identifier les facteurs influençant les retards des vols, nous avons mené une recherche préliminaire dans la littérature spécialisée, dont les références seront détaillées dans la partie **Sources** à la fin du rapport. Ces études mettent en évidence plusieurs types de variables pertinentes que nous avons essayé de regrouper en trois grandes catégories : 

**Variables liées aux vols**

<span style="margin-left: 50px;">**Heure de départ prévue :** Les retards peuvent être plus fréquents à certaines heures (par exemple, le soir).</span>

<span style="margin-left: 50px;">**Jour de la semaine :** Les week-ends ou jours de semaine peuvent influencer la ponctualité.</span>

<span style="margin-left: 50px;">**Saison ou mois de l’année :** Les conditions météorologiques ou les vacances peuvent affecter les vols.</span>


**Variables liées à la météo**

<span style="margin-left: 50px;">**Conditions météorologiques défavorables :** Des phénomènes tels qu'une faible visibilité et des vents forts sont connus pour être des facteurs susceptibles de provoquer des retards au décollage et de retarder le départ du vol de son parking.</span>

**Variables liées aux facteurs opérationnels**

<span style="margin-left: 50px;">**Problèmes techniques :** Des défaillances mécaniques ou des besoins de maintenance imprévus peuvent retarder le départ d'un vol.</span>

<span style="margin-left: 50px;">**Procédures de sécurité :** Des contrôles de sécurité renforcés ou des protocoles supplémentaires peuvent allonger le temps avant le décollage.</span>

**Variables liées au logistique aéroportuaire**

<span style="margin-left: 50px;">**Services au sol :** Des délais dans le ravitaillement en carburant, le chargement des bagages ou le dégivrage de l'appareil peuvent également contribuer aux retards.</span>

Afin de structurer cette étude, nous avons adopté une démarche en trois grandes étapes :

<span style="margin-left: 50px;">**Récupération et traitement des bases de données**</span>

<span style="margin-left: 70px;">**A. Base de Données vols**</span>

<span style="margin-left: 70px;">**B. Base de Données météo**</span>

<span style="margin-left: 70px;">**C. Fusion et construction de la base de données finale**</span>

<span style="margin-left: 50px;">**Analyse descriptive et représentation graphique**</span>

<span style="margin-left: 50px;">**Modélisation**</span>

<span style="margin-left: 70px;">**A. Régression Logistique**</span>

<span style="margin-left: 70px;">**B. Forêts Aléatoires**</span>

<span style="margin-left: 70px;">**C. Comparaison entre les deux modèles**</span>

 </small>



#### **Récupération et Traitement des données**

<span style="margin-left: 20px;"><span style="color:darkmagenta;">**A. Récupération et Traitement des données sur les vols**</span></span>


<span style="margin-left: 30px;"><span style="color:olive;">**1. Récupération des données sur les vols**</span></span>

<small>Dans le cadre de notre projet, nous avons tenté de rendre reproductible l'étape de récupération des données sur les vols à partir du site [Transtats BTS](https://www.transtats.bts.gov/ONTIME/Departures.aspx) à l’aide de Python, en utilisant la bibliothèque <span style="color:darkorange;">**requests**</span>. Cela aurait permis d'automatiser le téléchargement des données pour éviter une intervention manuelle. Cependant, cette démarche a échoué pour plusieurs raisons techniques, que nous allons détailler ici, accompagnées des preuves issues de l’**inspection des requêtes <span style="color:darkorange;">HTTP**</span> effectuées par le site.


  Cela aurait permis d’éviter le téléchargement manuel et de rendre cette étape reproductible. Cependant, nous avons rencontré des difficultés techniques qui ont rendu cette automatisation impossible. Voici une explication détaillée, accompagnée de preuves issues de l’analyse des requêtes HTTP.


Sur le site Transtats BTS, pour télécharger les données, nous avons choisi les informations spécifiques que nous souhaitons inclure dans le fichier (par exemple, heure de départ, heure d’arrivée, etc.). Il est possible de restreindre les données à un ou plusieurs aéroports spécifiques comme il est possible de restreindre les données à une ou plusieurs compagnies aériennes, ainsi nous avons choisi l'aéroport <span style="color:darkorange;">**John F.Kennedy**</span>, pour la compagnie aérienne <span style="color:darkorange;">**American Airlines**</span> pour les raisons déjà invoquées en introduction. Toujours sur le site, il faut indiquer la période souhaitée (les jours, les mois et les années). Le bouton <span style="color:darkorange;">**Submit**</span> envoie une requette pour préparer la base de données. Enfin, nous avons cliqué sur le bouton <span style="color:darkorange;">**« EXCEL»**</span>, ce qui génère **un fichier Excel** contenant les données demandées.  

Ce processus implique plusieurs interactions qui ne sont pas facilement reproduites dans un script Python classique :

<span style="margin-left: 50px;">Lorsque nous effectuons des choix sur le site, ces actions déclenchent des requêtes en arrière-plan au serveur. Les paramètres nécessaires pour effectuer ces requêtes ne sont pas visibles directement dans le <span style="color:darkorange;">**code HTML**</span> de la page, car ils sont générés dynamiquement par des **scripts JavaScript**. Avec Python <span style="color:darkorange;">**requests**</span>, nous ne pouvons pas exécuter ce JavaScript, ce qui signifie que les paramètres nécessaires ne peuvent pas être reproduits automatiquement.</span>

<span style="margin-left: 50px;">En utilisant les outils de développement du navigateur <span style="color:darkorange;">**(F12 > Réseau)**</span>, nous avons analysé le comportement du site lors du téléchargement des données :  

1. **Requête de téléchargement (HTTP POST)**
   La requête générée lorsque nous cliquons sur « Excel »(pour télécharger la base de données) ressemble à ceci :  
   ```
   POST https://www.transtats.bts.gov/ONTIME/Departures.aspx
   ```
2. **En-têtes HTTP dynamiques**
   Les en-têtes envoyés contiennent des informations obligatoires pour valider la requête, notamment :  
   - **Cookies de session** : Exemple  
     ```
     ASP.NET_SessionId=odhxuf2j141fh1ttlsefazhl
     ```
   - **Référent (`Referer`)** :  
     ```
     https://www.transtats.bts.gov/ONTIME/Departures.aspx
     ```
   - **Jetons de validation dynamiques (`VIEWSTATE`)** :  
     Ces jetons, invisibles dans le code initial de la page, sont générés par JavaScript et transmis avec la **requête POST**.  

3. **Dépendance à JavaScript**  
   L’analyse du bouton de téléchargement montre qu’il utilise une fonction JavaScript spécifique :  
   ```html
   <a id="DL_Excel" class="btsfont" href="javascript:__doPostBack('DL_Excel','')" style="font-size:10pt;">Excel</a>
   ```
   Cette fonction génère les paramètres de la requête, mais elle ne peut être exécutée que dans un navigateur. Python, sans navigateur intégré, ne peut pas simuler cette action.

 Pour toutes ces raisons, <span style="color:darkorange;">**Python requests**</span> échoue.
 
Compte tenu de ces limitations, nous avons opté pour la méthode suivante :  
1. **Téléchargement manuel** :  
   - Nous accédons au site, effectuons les sélections nécessaires (variables, aéroports, compagnies, période) et téléchargeons le fichier Excel manuellement.  
2. **Traitement Python des données** :  
   - Une fois le fichier téléchargé, nous utilisons Python pour l’importer et l’analyser.  

Bien que cette solution ne soit pas entièrement automatisée, elle garantit l’accès aux données sans contourner les protections du site.
</small>

<span style="margin-left: 30px;"><span style="color:olive;">**2. Traitement des données sur les vols**</span></span>

<span style="color:darkcyan;">**Téléchargement des bibliothèques**</span>

In [2]:
import pandas as pd
!pip install openpyxl



<span style="color:darkcyan;">**Importation de la base de données et création du data frame**</span>

In [30]:
df1 = pd.read_excel('/home/onyxia/work/Projet_Python-pour-la-data-science/data/Detailed_Statistics_Departures.xlsx')

In [31]:
# Afficher les 5 premières lignes pour vérifier
df1.head(5)

Unnamed: 0,Carrier Code,Date (MM/DD/YYYY),Flight Number,Tail Number,Destination Airport,Scheduled departure time,Actual departure time,Scheduled elapsed time (Minutes),Actual elapsed time (Minutes),Departure delay (Minutes),Wheels-off time,Taxi-Out time (Minutes),Delay Carrier (Minutes),Delay Weather (Minutes),Delay National Aviation System (Minutes),Delay Security (Minutes),Delay Late Aircraft Arrival (Minutes)
0,AA,2020-01-01 00:00:00,1.0,N110AN,LAX,07:30:00,07:30:00,393.0,404.0,0.0,07:57:00,27.0,0.0,0.0,0.0,0.0,0.0
1,AA,2020-01-01 00:00:00,3.0,N111ZM,LAX,12:30:00,12:24:00,389.0,370.0,-6.0,12:38:00,14.0,0.0,0.0,0.0,0.0,0.0
2,AA,2020-01-01 00:00:00,111.0,N663AW,CLT,12:00:00,13:11:00,127.0,119.0,71.0,13:34:00,23.0,19.0,0.0,0.0,0.0,44.0
3,AA,2020-01-01 00:00:00,117.0,N113AN,LAX,19:30:00,19:26:00,402.0,379.0,-4.0,19:51:00,25.0,0.0,0.0,0.0,0.0,0.0
4,AA,2020-01-01 00:00:00,179.0,N103NN,SFO,10:30:00,10:25:00,409.0,392.0,-5.0,10:42:00,17.0,0.0,0.0,0.0,0.0,0.0


<span style="color:darkcyan;">**Detection et traitement des valeurs manquantes**</span>

In [32]:
# Vérifier si le DataFrame contient des valeurs manquantes
df1.isnull().values.any()

np.True_

In [33]:
# Nombre de valeurs manquantes par colonne
df1.isnull().sum()

Carrier Code                                  1
Date (MM/DD/YYYY)                             2
Flight Number                                 2
Tail Number                                 228
Destination Airport                           2
Scheduled departure time                      2
Actual departure time                         2
Scheduled elapsed time (Minutes)              2
Actual elapsed time (Minutes)                 2
Departure delay (Minutes)                     2
Wheels-off time                               2
Taxi-Out time (Minutes)                       2
Delay Carrier (Minutes)                       2
Delay Weather (Minutes)                       2
Delay National Aviation System (Minutes)      2
Delay Security (Minutes)                      2
Delay Late Aircraft Arrival (Minutes)         2
dtype: int64

In [34]:
#Afficher les lignes où il y a des valeurs manquantes sauf pour la variable Tail Number
df=df1.drop(columns=['Tail Number'])
print(df[df.isnull().any(axis=1)])

                                      Carrier Code Date (MM/DD/YYYY)  \
57410                                          NaN               NaN   
57411  SOURCE: Bureau of Transportation Statistics               NaN   

       Flight Number Destination Airport Scheduled departure time  \
57410            NaN                 NaN                      NaN   
57411            NaN                 NaN                      NaN   

      Actual departure time  Scheduled elapsed time (Minutes)  \
57410                   NaN                               NaN   
57411                   NaN                               NaN   

       Actual elapsed time (Minutes)  Departure delay (Minutes)  \
57410                            NaN                        NaN   
57411                            NaN                        NaN   

      Wheels-off time  Taxi-Out time (Minutes)  Delay Carrier (Minutes)  \
57410             NaN                      NaN                      NaN   
57411             NaN      

<span style="color:lightpink;">**Commentaire de la sortie**</span>

<small>Les deux dernières lignes de notre fichier excel correspondent à la source des données, causant la présence de deux variables manquantes sur chaque colonne de notre base de données. Ainsi,** on peut les supprimer**. </small>

<small>La seule variable qui présente d'autres valeurs manquantes est <span style="color:orange;">**Tail Number**</span>. Cependant il ne s'agit pas d'une variable explicative dans notre modèle, ainsi ces valeurs manquantes ne nécessite aucun traitement.</small>

In [35]:
# Identifier les index des deux dernières lignes
ind= df1.index[-2:]

# Supprimer ces lignes
df1 = df1.drop(ind)

<span style="color:darkcyan;">**Extraction de la date du jour du vol de la colonne Date (MM/DD/YYYY)**</span>

<small>D'après la sortie du code précédent, nous pouvons clairement voir que la colonne **Date (MM/DD/YYYY)** ne contient pas uniquement la date du jour du vol mais aussi la chaîne de caractère **00:00:00** qui renvoie à **l'heure du début d'un jour**.</small>


In [36]:
# Extraire uniquement la date de la colonne Date (MM/DD/YYYY) 
df1['Date (MM/DD/YYYY)'] = pd.to_datetime(df1['Date (MM/DD/YYYY)'], format='%m/%d/%Y').dt.date

#Renommer la colonne Date (MM/DD/YYYY) en Date 
df1.rename(columns={'Date (MM/DD/YYYY)': 'Date'}, inplace=True)


In [37]:
# Afficher le dataframe
df1.head(5)

Unnamed: 0,Carrier Code,Date,Flight Number,Tail Number,Destination Airport,Scheduled departure time,Actual departure time,Scheduled elapsed time (Minutes),Actual elapsed time (Minutes),Departure delay (Minutes),Wheels-off time,Taxi-Out time (Minutes),Delay Carrier (Minutes),Delay Weather (Minutes),Delay National Aviation System (Minutes),Delay Security (Minutes),Delay Late Aircraft Arrival (Minutes)
0,AA,2020-01-01,1.0,N110AN,LAX,07:30:00,07:30:00,393.0,404.0,0.0,07:57:00,27.0,0.0,0.0,0.0,0.0,0.0
1,AA,2020-01-01,3.0,N111ZM,LAX,12:30:00,12:24:00,389.0,370.0,-6.0,12:38:00,14.0,0.0,0.0,0.0,0.0,0.0
2,AA,2020-01-01,111.0,N663AW,CLT,12:00:00,13:11:00,127.0,119.0,71.0,13:34:00,23.0,19.0,0.0,0.0,0.0,44.0
3,AA,2020-01-01,117.0,N113AN,LAX,19:30:00,19:26:00,402.0,379.0,-4.0,19:51:00,25.0,0.0,0.0,0.0,0.0,0.0
4,AA,2020-01-01,179.0,N103NN,SFO,10:30:00,10:25:00,409.0,392.0,-5.0,10:42:00,17.0,0.0,0.0,0.0,0.0,0.0


<span style="color:darkcyan;">**Création de la colonne Weekday_Flight**</span>

<small>Nous aimerions aussi voir si **le retard d'un vol peut être lié au jour de la semaine où le vol aura lieu**. Pour cela, il est nécessaire de créer une colonne contenant le jour de la semaine **(Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, Sunday)** correspondant à chaque vol de notre data frame.
</small>


In [None]:
# Convertir la colonne 'Date' en format datetime 
df['Date'] = pd.to_datetime(df['Date'])

# Créer la colonne Weekday_Flight avec les jours de la semaine correspondant aux dates des vols
df['Weekday_Flight'] = df['Date'].dt.day_name()

# Afficher Date et Weekday_Flight
print(df[['Date','Weekday_Flight']])


<span style="color:darkcyan;">**Création de la colonne Season**</span>
<small> La variable **"saison"** peut influencer les retards des vols en raison des **variations météorologiques** et des **volumes de trafic** spécifiques à chaque période de l'année. Par exemple, l’hiver apporte souvent des conditions difficiles comme la neige ou le brouillard, tandis que l’été, marqué par un trafic élevé, peut être perturbé par des orages ou des surcharges aéroportuaires. Ainsi, en tenant compte des saisons, il devient possible de mieux comprendre et anticiper les facteurs contribuant aux retards. </small>


In [None]:
# Définir une fonction qui détermine pour une date données la saison correspondante
def get_season(date):
    year = date.year
    if date >= pd.Timestamp(year=year, month=3, day=21) and date < pd.Timestamp(year=year, month=6, day=21):
        return 'Printemps'
    elif date >= pd.Timestamp(year=year, month=6, day=21) and date < pd.Timestamp(year=year, month=9, day=23):
        return 'Été'
    elif date >= pd.Timestamp(year=year, month=9, day=23) and date < pd.Timestamp(year=year, month=12, day=21):
        return 'Automne'
    else:
        return 'Hiver'


# Convertir la colonne Date en datetime 
df['Date'] = pd.to_datetime(df['Date'])

# Appliquer la fonction sur la colonne Date du dataframe
df['Season'] = df['Date'].apply(get_season)

# Afficher  des observations aléatoires du DataFrame
print(df.Season[1000:1010])
print(df.Season[2000:2010])



<span style="color:darkcyan;">**Création de la colonne Period_Day**</span>


In [None]:
# Définir une fonction pour attribuer la période de la journée
def definir_periode(heure):
    if heure >= pd.to_datetime('06:00', format='%H:%M').time() and heure < pd.to_datetime('12:00', format='%H:%M').time():
        return 'Matin'
    elif heure >= pd.to_datetime('12:00', format='%H:%M').time() and heure < pd.to_datetime('18:00', format='%H:%M').time():
        return 'Après-midi'
    else:
        return 'Soir'

# Convertir la colonne en type datetime
df['Scheduled departure time'] = pd.to_datetime(df['Scheduled departure time'], format='%H:%M:%S')

# Appliquer la fonction pour créer une nouvelle colonne
df['Period_Day'] = df['Scheduled departure time'].dt.time.apply(definir_periode)

# Reconvertir les colonnes "Scheduled departure time" et "Actual departure time" pour ne garder que l'heure 
df['Scheduled departure time'] = df['Scheduled departure time'].dt.time

# Afficher les colonnes Period_Day et Scheduled departure time
print(df[['Scheduled departure time','Period_Day']])


<span style="color:darkcyan;">**Création de notre variable cible Y=Delay**</span>
<small> Le **retard d'un vol au départ** se définit comme **l'écart entre l'heure de départ ou d'arrivée prévue d'un vol, telle qu'indiquée dans le programme, et l'heure réelle à laquelle le vol décolle**.. Un vol est souvent considéré en retard si cet écart dépasse un seuil défini, par exemple 5 minutes.
</small>


In [None]:
# Convertir les colonnes "Scheduled departure time" et "Actual departure time" en objets datetime
df['Scheduled departure time'] = pd.to_datetime(df['Scheduled departure time'], format='%H:%M:%S')
df['Actual departure time'] = pd.to_datetime(df['Actual departure time'], format='%H:%M:%S')

# Création de la variable cible "Retard en calculant la différence en minutes et appliquer la condition
df['Retard'] = ((df['Actual departure time'] - df['Scheduled departure time']).dt.total_seconds() / 60 > 0).astype(int)

# Afficher les colonnes "Actual departure time", "Scheduled departure time" et "Retard"
print(df[['Actual departure time', 'Scheduled departure time', 'Retard']])


# Reconvertir les colonnes "Scheduled departure time" et "Actual departure time" pour ne garder que l'heure 
df['Scheduled departure time'] = df['Scheduled departure time'].dt.time
df['Actual departure time'] = df['Actual departure time'].dt.time

# Afficher les colonnes "Actual departure time", "Scheduled departure time" et "Retard"
print(df[['Actual departure time', 'Scheduled departure time', 'Retard']])


<span style="color:darkcyan;">**Encodage des variables qualitatives**</span>


In [None]:
!pip install scikit-learn
import sklearn
from sklearn.preprocessing import LabelEncoder

<span style="color:lightpink;">**Encodage de la variable Weekday_Flight**</span>

In [None]:
# Initialiser l'encodeur
label_encoder = LabelEncoder()

# Encoder de la variable Weekday_Flight
df['Weekday_Flight_encoded'] = label_encoder.fit_transform(df['Weekday_Flight'])

# Récupérer les modalités de Weekday_Flight et leurs codes correspondant dans la variable Weekday_Flight_encoded
modalites_et_codes = list(zip(label_encoder.classes_, range(len(label_encoder.classes_))))

# Afficher les modalités et leurs codes
print("Modalités et leurs codes :", modalites_et_codes)

#Afficher les colonnes Weekday_Flight et Weekday_Flight_encoded
print(df[['Weekday_Flight','Weekday_Flight_encoded']])


<span style="color:lightpink;">**Encodage de la variable Season**</span>


In [None]:
# Initialiser l'encodeur
label_encoder = LabelEncoder()


# Encoder de la variable Season
df['Season_encoded'] = label_encoder.fit_transform(df['Season'])

# Récupérer les modalités de Season et leurs codes correspondant dans la variable Season_encoded
modalites_et_codes = list(zip(label_encoder.classes_, range(len(label_encoder.classes_))))

# Afficher les modalités et leurs codes
print("Modalités et leurs codes :", modalites_et_codes)

#Afficher des valeurs aléatoires de Season et Season_encoded
print(df[['Season', 'Season_encoded']][1000:1005])
print(df[['Season', 'Season_encoded']][2000:2005])
print(df[['Season', 'Season_encoded']][3000:3005])


<span style="color:lightpink;">**Encodage de la variable Period_Day**</span>


In [None]:
# Initialiser l'encodeur
label_encoder = LabelEncoder()

# Encoder de la variable Period_Day
df['Period_Day_encoded'] = label_encoder.fit_transform(df['Period_Day'])

# Récupérer les modalités de Period_Day et leurs codes correspondant dans la variable Period_Day_encoded
modalites_et_codes = list(zip(label_encoder.classes_, range(len(label_encoder.classes_))))

# Afficher les modalités et leurs codes
print("Modalités et leurs codes :", modalites_et_codes)

#Afficher les colonnes Period_Day et Period_Day_encoded
print(df[['Period_Day','Period_Day_encoded']])


<span style="color:lightpink;">**Encodage de la variable Destination Airport**</span>


In [None]:
# Initialiser l'encodeur
label_encoder = LabelEncoder()

# Encoder de la variable Destination Airport
df['Destination_encoded'] = label_encoder.fit_transform(df['Destination Airport'])

# Récupérer les modalités de Destination Airport et leurs codes correspondant dans la variable Destination_encoded
modalites_et_codes1 = list(zip(label_encoder.classes_, range(len(label_encoder.classes_))))

# Afficher les modalités et leurs codes
print("Modalités et leurs codes :", modalites_et_codes1)

#Afficher les colonnes Destination Airport et Destination_encoded
print(df[['Destination Airport','Destination_encoded']])


<span style="color:darkcyan;">**Suppression des variables non porteurs de sens à notre problématique**</span>