### **Prédiction des retards des vols au départ de l'aéroport de JFK en fonction des conditions météorologiques ✈️**


<small> GHORAFI Manal • ED-DAZAZI Khawla • OUALY Ossama</small>

<small>Ce projet est réalisé dans le cadre du cours de Python pour la datascience à l'ENSAE pour l'année 2024-2025</small>

#### **Introduction**

<small> Le transport aérien tient une place centrale dans notre société moderne, reliant des régions du monde entier de manière rapide et efficace. Cependant, cette efficacité est régulièrement compromise par un problème persistant : **les retards de vols**. Ces retards affectent non seulement les passagers, mais aussi les compagnies aériennes et l'économie en général, entraînant des pertes de temps, des surcoûts et une insatisfaction générale.

Dans ce contexte, les aéroports sont confrontés à la nécessité de mieux comprendre et anticiper les causes des retards pour optimiser leurs opérations. Parmi les facteurs influençant les retards, **les conditions météorologiques** jouent un rôle crucial. Le brouillard, les vents violents, les précipitations ou les tempêtes peuvent perturber les horaires, réduire les capacités des pistes et accroître la congestion dans les aéroports. Par conséquent, intégrer l'impact des variables météorologiques dans les systèmes de gestion des vols est essentiel pour minimiser les perturbations et améliorer la planification. Ainsi, notre étude s’avère importante car elle propose de **prédire les probabilités de retard des vols au départ en tenant compte de l’impact des conditions météorologiques**.

En s’appuyant sur un ensemble de données combinant des informations sur les vols et des variables météorologiques (comme la température, les précipitations et la visibilité), cette étude vise à développer un modèle prédictif précis. Ce modèle peut être utilisé pour mieux planifier les opérations aéroportuaires, réduire les retards et, par conséquent, améliorer l'expérience des usagers.

Pour réaliser cette étude, nous nous concentrerons sur les vols de la compagnie aérienne **American Airlines** à départ de **l'aéroport international John F. Kennedy (JFK) à New York**, l'un des hubs les plus importants et les plus actifs au monde. Cet aéroport offre un contexte riche en données. Nous nous sommes intéressés aux vols de 

Pour identifier les facteurs influençant les retards des vols, nous avons mené une recherche préliminaire dans la littérature spécialisée, dont les références seront détaillées dans la partie **Sources** à la fin du rapport. Ces études mettent en évidence plusieurs types de variables pertinentes que nous avons essayé de regrouper en trois grandes catégories : 

**Variables liées aux vols**

<span style="margin-left: 50px;">**Heure de départ prévue :** Les retards peuvent être plus fréquents à certaines heures (par exemple, le soir).</span>

<span style="margin-left: 50px;">**Jour de la semaine :** Les week-ends ou jours de semaine peuvent influencer la ponctualité.</span>

<span style="margin-left: 50px;">**Saison ou mois de l’année :** Les conditions météorologiques ou les vacances peuvent affecter les vols.</span>


**Variables liées à la météo**

<span style="margin-left: 50px;">**Conditions météorologiques défavorables :** Des phénomènes tels qu'une faible visibilité et des vents forts sont connus pour être des facteurs susceptibles de provoquer des retards au décollage et de retarder le départ du vol de son parking.</span>

**Variables liées aux facteurs opérationnels**

<span style="margin-left: 50px;">**Problèmes techniques :** Des défaillances mécaniques ou des besoins de maintenance imprévus peuvent retarder le départ d'un vol.</span>

<span style="margin-left: 50px;">**Procédures de sécurité :** Des contrôles de sécurité renforcés ou des protocoles supplémentaires peuvent allonger le temps avant le décollage.</span>

**Variables liées au logistique aéroportuaire**

<span style="margin-left: 50px;">**Services au sol :** Des délais dans le ravitaillement en carburant, le chargement des bagages ou le dégivrage de l'appareil peuvent également contribuer aux retards.</span>

Afin de structurer cette étude, nous avons adopté une démarche en trois grandes étapes :

<span style="margin-left: 50px;">**Récupération et traitement des bases de données**</span>

<span style="margin-left: 70px;">**A. Base de Données vols**</span>

<span style="margin-left: 70px;">**B. Base de Données météo**</span>

<span style="margin-left: 70px;">**C. Fusion et construction de la base de données finale**</span>

<span style="margin-left: 50px;">**Analyse descriptive et représentation graphique**</span>

<span style="margin-left: 50px;">**Modélisation**</span>

<span style="margin-left: 70px;">**A. Régression Logistique**</span>

<span style="margin-left: 70px;">**B. Forêts Aléatoires**</span>

<span style="margin-left: 70px;">**C. Comparaison entre les deux modèles**</span>

 </small>



#### **Récupération et Traitement des données**

<span style="margin-left: 20px;">**A. Récupération et Traitement des données sur les vols**</span>

<small>Dans le cadre de notre projet, nous avons tenté de rendre reproductible l'étape de récupération des données sur les vols à partir du site [Transtats BTS](https://www.transtats.bts.gov/ONTIME/Departures.aspx) à l’aide de Python, en utilisant la bibliothèque **requests**. Cela aurait permis d'automatiser le téléchargement des données pour éviter une intervention manuelle. Cependant, cette démarche a échoué pour plusieurs raisons techniques, que nous allons détailler ici, accompagnées des preuves issues de l’**inspection des requêtes HTTP** effectuées par le site.


  Cela aurait permis d’éviter le téléchargement manuel et de rendre cette étape reproductible. Cependant, nous avons rencontré des difficultés techniques qui ont rendu cette automatisation impossible. Voici une explication détaillée, accompagnée de preuves issues de l’analyse des requêtes HTTP.


Sur le site Transtats BTS, pour télécharger les données, nous avons choisi les informations spécifiques que nous souhaitons inclure dans le fichier (par exemple, heure de départ, heure d’arrivée, etc.). Il est possible de restreindre les données à un ou plusieurs aéroports spécifiques comme il est possible de restreindre les données à une ou plusieurs compagnies aériennes, ainsi nous avons choisi l'aéroport **John F.Kennedy**, pour la compagnie aérienne **American Airlines** pour les raisons déjà invoquées en introduction. Toujours sur le site, il faut indiquer la période souhaitée (les jours, les mois et les années). Le bouton **Submit** envoie une requette pour préparer la base de données. Enfin, nous avons cliqué sur le bouton **« Télécharger »**, ce qui génère **un fichier CSV** contenant les données demandées.  

Ce processus implique plusieurs interactions qui ne sont pas facilement reproduites dans un script Python classique :

<span style="margin-left: 50px;">Lorsque nous effectuons des choix sur le site, ces actions déclenchent des requêtes en arrière-plan au serveur. Les paramètres nécessaires pour effectuer ces requêtes ne sont pas visibles directement dans le **code HTML** de la page, car ils sont générés dynamiquement par des **scripts JavaScript**. Avec Python **requests**, nous ne pouvons pas exécuter ce JavaScript, ce qui signifie que les paramètres nécessaires ne peuvent pas être reproduits automatiquement.</span>

<span style="margin-left: 50px;">En utilisant les outils de développement du navigateur **(F12 > Réseau)**, nous avons analysé le comportement du site lors du téléchargement des données :  

1. **Requête de téléchargement (HTTP POST)**  
   La requête générée lorsque nous cliquons sur « CSV »(pour télécharger la base de données) ressemble à ceci :  
   ```
   POST https://www.transtats.bts.gov/ONTIME/Departures.aspx
   ```
2. **En-têtes HTTP dynamiques**  
   Les en-têtes envoyés contiennent des informations obligatoires pour valider la requête, notamment :  
   - **Cookies de session** : Exemple  
     ```
     ASP.NET_SessionId=odhxuf2j141fh1ttlsefazhl
     ```
   - **Référent (`Referer`)** :  
     ```
     https://www.transtats.bts.gov/ONTIME/Departures.aspx
     ```
   - **Jetons de validation dynamiques (`VIEWSTATE`)** :  
     Ces jetons, invisibles dans le code initial de la page, sont générés par JavaScript et transmis avec la **requête POST**.  

3. **Dépendance à JavaScript**  
   L’analyse du bouton de téléchargement montre qu’il utilise une fonction JavaScript spécifique :  
   ```html
   <a id="DL_Excel" class="btsfont" href="javascript:__doPostBack('DL_Excel','')" style="font-size:10pt;">Excel</a>
   ```
   Cette fonction génère les paramètres de la requête, mais elle ne peut être exécutée que dans un navigateur. Python, sans navigateur intégré, ne peut pas simuler cette action.

 Pour toutes ces raisons, **Python requests** échoue.
 
Compte tenu de ces limitations, nous avons opté pour la méthode suivante :  
1. **Téléchargement manuel** :  
   - Nous accédons au site, effectuons les sélections nécessaires (variables, aéroports, compagnies, période) et téléchargeons le fichier CSV manuellement.  
2. **Traitement Python des données** :  
   - Une fois le fichier téléchargé, nous utilisons Python pour l’importer et l’analyser.  

Bien que cette solution ne soit pas entièrement automatisée, elle garantit l’accès aux données sans contourner les protections du site.
</small>