### **Prédiction des retards des vols au départ de l'aéroport de JFK en fonction des conditions météorologiques ✈️**


<small> GHORAFI Manal • ED-DAZAZI Khawla • OUALY Ossama</small>

<small>Ce projet est réalisé dans le cadre du cours de Python pour la datascience à l'ENSAE pour l'année 2024-2025</small>

#### **Introduction**

<small> Le transport aérien tient une place centrale dans notre société moderne, reliant des régions du monde entier de manière rapide et efficace. Cependant, cette efficacité est régulièrement compromise par un problème persistant : **les retards de vols**. Ces retards affectent non seulement les passagers, mais aussi les compagnies aériennes et l'économie en général, entraînant des pertes de temps, des surcoûts et une insatisfaction générale.

Dans ce contexte, les aéroports sont confrontés à la nécessité de mieux comprendre et anticiper les causes des retards pour optimiser leurs opérations. Parmi les facteurs influençant les retards, **les conditions météorologiques** jouent un rôle crucial. Le brouillard, les vents violents, les précipitations ou les tempêtes peuvent perturber les horaires, réduire les capacités des pistes et accroître la congestion dans les aéroports. Par conséquent, intégrer l'impact des variables météorologiques dans les systèmes de gestion des vols est essentiel pour minimiser les perturbations et améliorer la planification. Ainsi, notre étude s’avère importante car elle propose de **prédire les probabilités de retard des vols au départ en tenant compte de l’impact des conditions météorologiques**.

En s’appuyant sur un ensemble de données combinant des informations sur les vols et des variables météorologiques (comme la température, les précipitations et la visibilité), cette étude vise à développer un modèle prédictif précis. Ce modèle peut être utilisé pour mieux planifier les opérations aéroportuaires, réduire les retards et, par conséquent, améliorer l'expérience des usagers.

Pour réaliser cette étude, nous nous concentrerons sur les vols de la compagnie aérienne **American Airlines** à départ de **l'aéroport international John F. Kennedy (JFK) à New York**, l'un des hubs les plus importants et les plus actifs au monde. Cet aéroport offre un contexte riche en données. Nous nous sommes intéressés aux vols de 

Pour identifier les facteurs influençant les retards des vols, nous avons mené une recherche préliminaire dans la littérature spécialisée, dont les références seront détaillées dans la partie **Sources** à la fin du rapport. Ces études mettent en évidence plusieurs types de variables pertinentes que nous avons essayé de regrouper en trois grandes catégories : 

**Variables liées aux vols**

<span style="margin-left: 50px;">**Heure de départ prévue :** Les retards peuvent être plus fréquents à certaines heures (par exemple, le soir).</span>

<span style="margin-left: 50px;">**Jour de la semaine :** Les week-ends ou jours de semaine peuvent influencer la ponctualité.</span>

<span style="margin-left: 50px;">**Saison ou mois de l’année :** Les conditions météorologiques ou les vacances peuvent affecter les vols.</span>


**Variables liées à la météo**

<span style="margin-left: 50px;">**Conditions météorologiques défavorables :** Des phénomènes tels qu'une faible visibilité et des vents forts sont connus pour être des facteurs susceptibles de provoquer des retards au décollage et de retarder le départ du vol de son parking.</span>

**Variables liées aux facteurs opérationnels**

<span style="margin-left: 50px;">**Problèmes techniques :** Des défaillances mécaniques ou des besoins de maintenance imprévus peuvent retarder le départ d'un vol.</span>

<span style="margin-left: 50px;">**Procédures de sécurité :** Des contrôles de sécurité renforcés ou des protocoles supplémentaires peuvent allonger le temps avant le décollage.</span>

**Variables liées au logistique aéroportuaire**

<span style="margin-left: 50px;">**Services au sol :** Des délais dans le ravitaillement en carburant, le chargement des bagages ou le dégivrage de l'appareil peuvent également contribuer aux retards.</span>

Afin de structurer cette étude, nous avons adopté une démarche en trois grandes étapes :

<span style="margin-left: 50px;">**Récupération et traitement des bases de données**</span>

<span style="margin-left: 70px;">**A. Base de Données vols**</span>

<span style="margin-left: 70px;">**B. Base de Données météo**</span>

<span style="margin-left: 70px;">**C. Fusion et construction de la base de données finale**</span>

<span style="margin-left: 50px;">**Analyse descriptive et représentation graphique**</span>

<span style="margin-left: 50px;">**Modélisation**</span>

<span style="margin-left: 70px;">**A. Régression Logistique**</span>

<span style="margin-left: 70px;">**B. Forêts Aléatoires**</span>

<span style="margin-left: 70px;">**C. Comparaison entre les deux modèles**</span>

 </small>



#### **Récupération et Traitement des données**

<span style="margin-left: 20px;"><span style="color:darkmagenta;">**A. Récupération et Traitement des données sur les vols**</span></span>


<span style="margin-left: 30px;"><span style="color:olive;">**1. Récupération des données sur les vols**</span></span>

<small>Dans le cadre de notre projet, nous avons tenté de rendre reproductible l'étape de récupération des données sur les vols à partir du site [Transtats BTS](https://www.transtats.bts.gov/ONTIME/Departures.aspx) à l’aide de Python, en utilisant la bibliothèque <span style="color:darkorange;">**requests**</span>. Cela aurait permis d'automatiser le téléchargement des données pour éviter une intervention manuelle. Cependant, cette démarche a échoué pour plusieurs raisons techniques, que nous allons détailler ici, accompagnées des preuves issues de l’**inspection des requêtes <span style="color:darkorange;">HTTP**</span> effectuées par le site.


  Cela aurait permis d’éviter le téléchargement manuel et de rendre cette étape reproductible. Cependant, nous avons rencontré des difficultés techniques qui ont rendu cette automatisation impossible. Voici une explication détaillée, accompagnée de preuves issues de l’analyse des requêtes HTTP.


Sur le site Transtats BTS, pour télécharger les données, nous avons choisi les informations spécifiques que nous souhaitons inclure dans le fichier (par exemple, heure de départ, heure d’arrivée, etc.). Il est possible de restreindre les données à un ou plusieurs aéroports spécifiques comme il est possible de restreindre les données à une ou plusieurs compagnies aériennes, ainsi nous avons choisi l'aéroport <span style="color:darkorange;">**John F.Kennedy**</span>, pour la compagnie aérienne <span style="color:darkorange;">**American Airlines**</span> pour les raisons déjà invoquées en introduction. Toujours sur le site, il faut indiquer la période souhaitée (les jours, les mois et les années). Le bouton <span style="color:darkorange;">**Submit**</span> envoie une requette pour préparer la base de données. Enfin, nous avons cliqué sur le bouton <span style="color:darkorange;">**« EXCEL»**</span>, ce qui génère **un fichier Excel** contenant les données demandées.  

Ce processus implique plusieurs interactions qui ne sont pas facilement reproduites dans un script Python classique :

<span style="margin-left: 50px;">Lorsque nous effectuons des choix sur le site, ces actions déclenchent des requêtes en arrière-plan au serveur. Les paramètres nécessaires pour effectuer ces requêtes ne sont pas visibles directement dans le <span style="color:darkorange;">**code HTML**</span> de la page, car ils sont générés dynamiquement par des **scripts JavaScript**. Avec Python <span style="color:darkorange;">**requests**</span>, nous ne pouvons pas exécuter ce JavaScript, ce qui signifie que les paramètres nécessaires ne peuvent pas être reproduits automatiquement.</span>

<span style="margin-left: 50px;">En utilisant les outils de développement du navigateur <span style="color:darkorange;">**(F12 > Réseau)**</span>, nous avons analysé le comportement du site lors du téléchargement des données :  

1. **Requête de téléchargement (HTTP POST)**
   La requête générée lorsque nous cliquons sur « Excel »(pour télécharger la base de données) ressemble à ceci :  
   ```
   POST https://www.transtats.bts.gov/ONTIME/Departures.aspx
   ```
2. **En-têtes HTTP dynamiques**
   Les en-têtes envoyés contiennent des informations obligatoires pour valider la requête, notamment :  
   - **Cookies de session** : Exemple  
     ```
     ASP.NET_SessionId=odhxuf2j141fh1ttlsefazhl
     ```
   - **Référent (`Referer`)** :  
     ```
     https://www.transtats.bts.gov/ONTIME/Departures.aspx
     ```
   - **Jetons de validation dynamiques (`VIEWSTATE`)** :  
     Ces jetons, invisibles dans le code initial de la page, sont générés par JavaScript et transmis avec la **requête POST**.  

3. **Dépendance à JavaScript**  
   L’analyse du bouton de téléchargement montre qu’il utilise une fonction JavaScript spécifique :  
   ```html
   <a id="DL_Excel" class="btsfont" href="javascript:__doPostBack('DL_Excel','')" style="font-size:10pt;">Excel</a>
   ```
   Cette fonction génère les paramètres de la requête, mais elle ne peut être exécutée que dans un navigateur. Python, sans navigateur intégré, ne peut pas simuler cette action.

 Pour toutes ces raisons, <span style="color:darkorange;">**Python requests**</span> échoue.
 
Compte tenu de ces limitations, nous avons opté pour la méthode suivante :  
1. **Téléchargement manuel** :  
   - Nous accédons au site, effectuons les sélections nécessaires (variables, aéroports, compagnies, période) et téléchargeons le fichier Excel manuellement.  
2. **Traitement Python des données** :  
   - Une fois le fichier téléchargé, nous utilisons Python pour l’importer et l’analyser.  

Bien que cette solution ne soit pas entièrement automatisée, elle garantit l’accès aux données sans contourner les protections du site.
</small>

<span style="margin-left: 30px;"><span style="color:olive;">**2. Traitement des données sur les vols**</span></span>

<span style="color:darkcyan;">**Téléchargement des bibliothèques**</span>

In [1]:
import pandas as pd
!pip install openpyxl



<span style="color:darkcyan;">**Importation de la base de données et création du data frame**</span>

In [2]:
df1 = pd.read_excel('/home/onyxia/work/Projet_Python-pour-la-data-science/data/Detailed_Statistics_Departures.xlsx')

In [3]:
# Afficher les 5 premières lignes pour vérifier
df1.head(5)

Unnamed: 0,Carrier Code,Date (MM/DD/YYYY),Flight Number,Tail Number,Destination Airport,Scheduled departure time,Actual departure time,Scheduled elapsed time (Minutes),Actual elapsed time (Minutes),Departure delay (Minutes),Wheels-off time,Taxi-Out time (Minutes),Delay Carrier (Minutes),Delay Weather (Minutes),Delay National Aviation System (Minutes),Delay Security (Minutes),Delay Late Aircraft Arrival (Minutes)
0,AA,2020-01-01 00:00:00,1.0,N110AN,LAX,07:30:00,07:30:00,393.0,404.0,0.0,07:57:00,27.0,0.0,0.0,0.0,0.0,0.0
1,AA,2020-01-01 00:00:00,3.0,N111ZM,LAX,12:30:00,12:24:00,389.0,370.0,-6.0,12:38:00,14.0,0.0,0.0,0.0,0.0,0.0
2,AA,2020-01-01 00:00:00,111.0,N663AW,CLT,12:00:00,13:11:00,127.0,119.0,71.0,13:34:00,23.0,19.0,0.0,0.0,0.0,44.0
3,AA,2020-01-01 00:00:00,117.0,N113AN,LAX,19:30:00,19:26:00,402.0,379.0,-4.0,19:51:00,25.0,0.0,0.0,0.0,0.0,0.0
4,AA,2020-01-01 00:00:00,179.0,N103NN,SFO,10:30:00,10:25:00,409.0,392.0,-5.0,10:42:00,17.0,0.0,0.0,0.0,0.0,0.0


<span style="color:darkcyan;">**Lecture des variables de notre base de données**</span>
<small>
- **Carrier Code** : Code abrégé de la compagnie aérienne. Cette variable prend toujours dans notre base la valeur <span style="color:orange;">**"AA"**</span> qui renvoie à <span style="color:orange;">**American Airlines**</span> vue que lors de notre récupération de la base de données, nous n'avons sélectionné que cette compagnie aérienne.

- **Date (MM/DD/YYYY)** : Date du vol au format mois/jour/année. Lors de notre sélection, nous avons choisit la période allant du <span style="color:orange;">**01 Janvier 2020**</span> au <span style="color:orange;">**31 Décembre 2024**</span>.

- **Flight Number** : Numéro unique du vol, souvent combiné avec le **Carrier Code** pour identifier un vol spécifique.

- **Tail Number** : Numéro d'identification unique de l'avion utilisé pour le vol .

- **Destination Airport** : Code de l'aéroport de destination.

- **Scheduled Departure Time** : Heure prévue de départ du vol, en général en heure locale.

- **Actual Departure Time** : Heure réelle à laquelle l'avion a quitté la porte d'embarquement.

- **Scheduled Elapsed Time (Minutes)** : Durée prévue du vol en minutes (inclut le temps de vol et le temps prévu au sol, comme le taxiing).

- **Actual Elapsed Time (Minutes)** : Durée réelle du vol en minutes, mesurée de la porte d'embarquement à la porte d'arrivée.

- **Departure Delay (Minutes)** : Retard au départ en minutes, calculé comme :
  <span style="color:orange;">**Actual Departure Time−Scheduled Departure Time**</span> .

- **Wheels-off Time** : Heure à laquelle l'avion a effectivement quitté le sol (lorsque les roues quittent la piste).

- **Taxi-Out Time (Minutes)** : Temps écoulé entre le moment où l'avion quitte la porte d'embarquement et le moment où il décolle (roulement au sol).

- **Delay Carrier (Minutes)** : Retard causé par la compagnie aérienne. Cette variable nous indique si jamais il y avait des problèmes internes à la compagnie aérienne (ex. maintenance, équipage).

- **Delay Weather (Minutes)** : Retard causé par des conditions météorologiques défavorables.

- **Delay National Aviation System (Minutes)** : Retard lié à la gestion nationale de l'aviation, comme les restrictions de trafic aérien ou la gestion des aéroports. Cette variable sert comme indicatrice de la présence d'un problème au niveau des logistiques de l'aéroport.

- **Delay Security (Minutes)** : Retard causé par des problèmes de sécurité (ex. contrôles prolongés).

- **Delay Late Aircraft Arrival (Minutes)** : Retard causé par l’arrivée tardive de l’avion précédemment affecté à ce vol.
</small>

<span style="color:darkcyan;">**Detection et traitement des valeurs manquantes**</span>

In [4]:
# Vérifier si le DataFrame contient des valeurs manquantes
df1.isnull().values.any()

np.True_

In [5]:
# la sortie np.True indique la présence des valeurs manquantes dans notre base de données
# Nombre de valeurs manquantes par colonne
df1.isnull().sum()

Carrier Code                                  1
Date (MM/DD/YYYY)                             2
Flight Number                                 2
Tail Number                                 228
Destination Airport                           2
Scheduled departure time                      2
Actual departure time                         2
Scheduled elapsed time (Minutes)              2
Actual elapsed time (Minutes)                 2
Departure delay (Minutes)                     2
Wheels-off time                               2
Taxi-Out time (Minutes)                       2
Delay Carrier (Minutes)                       2
Delay Weather (Minutes)                       2
Delay National Aviation System (Minutes)      2
Delay Security (Minutes)                      2
Delay Late Aircraft Arrival (Minutes)         2
dtype: int64

In [6]:
#Afficher les lignes où les variables(sauf Tail Number) ont certaines valeurs manquantes
df=df1.drop(columns=['Tail Number'])
print(df[df.isnull().any(axis=1)])

                                      Carrier Code Date (MM/DD/YYYY)  \
57410                                          NaN               NaN   
57411  SOURCE: Bureau of Transportation Statistics               NaN   

       Flight Number Destination Airport Scheduled departure time  \
57410            NaN                 NaN                      NaN   
57411            NaN                 NaN                      NaN   

      Actual departure time  Scheduled elapsed time (Minutes)  \
57410                   NaN                               NaN   
57411                   NaN                               NaN   

       Actual elapsed time (Minutes)  Departure delay (Minutes)  \
57410                            NaN                        NaN   
57411                            NaN                        NaN   

      Wheels-off time  Taxi-Out time (Minutes)  Delay Carrier (Minutes)  \
57410             NaN                      NaN                      NaN   
57411             NaN      

<span style="color:lightpink;">**Commentaire de la sortie**</span>

<small>Les deux dernières lignes de notre fichier excel correspondent à la source des données, causant la présence des deux valeurs manquantes (détecter lors du test sur les valeurs manquantes) sur chaque colonne de notre base de données. Ainsi, **on peut les supprimer**. </small>

<small>La seule variable qui présente d'autres valeurs manquantes est <span style="color:orange;">**Tail Number**</span>. Cependant il ne s'agit pas d'une variable explicative dans notre modèle, ainsi ces valeurs manquantes ne nécessitent aucun traitement et ont peut garder ces lignes dans notre base de données.</small>

In [7]:
# Identifier les index des deux dernières lignes
ind= df1.index[-2:]

# Supprimer ces lignes
df1 = df1.drop(ind)

In [None]:
# Vérification si la suppression a été réussie 
print(df1)

      Carrier Code    Date (MM/DD/YYYY)  Flight Number Tail Number  \
0               AA  2020-01-01 00:00:00            1.0      N110AN   
1               AA  2020-01-01 00:00:00            3.0      N111ZM   
2               AA  2020-01-01 00:00:00          111.0      N663AW   
3               AA  2020-01-01 00:00:00          117.0      N113AN   
4               AA  2020-01-01 00:00:00          179.0      N103NN   
...            ...                  ...            ...         ...   
57405           AA           12/31/2023         2772.0      N989AN   
57406           AA           12/31/2023         2786.0      N326RP   
57407           AA           12/31/2023         2813.0      N716UW   
57408           AA           12/31/2023         2819.0      N961AN   
57409           AA           12/31/2023         2829.0      N327SK   

      Destination Airport Scheduled departure time Actual departure time  \
0                     LAX                 07:30:00              07:30:00   
1      

<span style="color:lightpink;">**Commentaire de la sortie**</span>

<small>Les deux dernières lignes de notre fichier excel correspondent à la source des données, ne figurent plus dans notre data frame, ce qui indique qu'elles ont été supprimées avec succès. </small>

<span style="color:darkcyan;">**Extraction de la date du jour du vol de la colonne Date (MM/DD/YYYY)**</span>

<small>D'après la sortie du code précédent, nous pouvons clairement voir que la colonne **Date (MM/DD/YYYY)** ne contient pas uniquement la date du jour du vol mais aussi la chaîne de caractère **00:00:00** qui renvoie à **l'heure du début d'un jour**.</small>


In [11]:
# Extraire uniquement la date de la colonne Date (MM/DD/YYYY) 
df1['Date (MM/DD/YYYY)'] = pd.to_datetime(df1['Date (MM/DD/YYYY)'], format='%m/%d/%Y').dt.date

#Renommer la colonne Date (MM/DD/YYYY) en Date 
df1.rename(columns={'Date (MM/DD/YYYY)': 'Date'}, inplace=True)


In [12]:
# Afficher le dataframe
df1.head(5)

Unnamed: 0,Carrier Code,Date,Flight Number,Tail Number,Destination Airport,Scheduled departure time,Actual departure time,Scheduled elapsed time (Minutes),Actual elapsed time (Minutes),Departure delay (Minutes),Wheels-off time,Taxi-Out time (Minutes),Delay Carrier (Minutes),Delay Weather (Minutes),Delay National Aviation System (Minutes),Delay Security (Minutes),Delay Late Aircraft Arrival (Minutes)
0,AA,2020-01-01,1.0,N110AN,LAX,07:30:00,07:30:00,393.0,404.0,0.0,07:57:00,27.0,0.0,0.0,0.0,0.0,0.0
1,AA,2020-01-01,3.0,N111ZM,LAX,12:30:00,12:24:00,389.0,370.0,-6.0,12:38:00,14.0,0.0,0.0,0.0,0.0,0.0
2,AA,2020-01-01,111.0,N663AW,CLT,12:00:00,13:11:00,127.0,119.0,71.0,13:34:00,23.0,19.0,0.0,0.0,0.0,44.0
3,AA,2020-01-01,117.0,N113AN,LAX,19:30:00,19:26:00,402.0,379.0,-4.0,19:51:00,25.0,0.0,0.0,0.0,0.0,0.0
4,AA,2020-01-01,179.0,N103NN,SFO,10:30:00,10:25:00,409.0,392.0,-5.0,10:42:00,17.0,0.0,0.0,0.0,0.0,0.0


<span style="color:darkcyan;">**Création de la colonne Weekday_Flight**</span>

<small>Nous aimerions aussi voir si **le retard d'un vol peut être lié au jour de la semaine où le vol aura lieu**. Pour cela, il est nécessaire de créer une colonne contenant le jour de la semaine **(Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, Sunday)** correspondant à chaque vol de notre data frame.
</small>


In [13]:
# Convertir la colonne 'Date' en format datetime 
df1['Date'] = pd.to_datetime(df1['Date'])
# Créer la colonne Weekday_Flight avec les jours de la semaine correspondant aux dates des vols
df1['Weekday_Flight'] = df1['Date'].dt.day_name()


In [14]:
# Afficher Date et Weekday_Flight
df1[['Date','Weekday_Flight']]

Unnamed: 0,Date,Weekday_Flight
0,2020-01-01,Wednesday
1,2020-01-01,Wednesday
2,2020-01-01,Wednesday
3,2020-01-01,Wednesday
4,2020-01-01,Wednesday
...,...,...
57405,2023-12-31,Sunday
57406,2023-12-31,Sunday
57407,2023-12-31,Sunday
57408,2023-12-31,Sunday


<span style="color:darkcyan;">**Création de la colonne Season**</span>

<small> La variable **"saison"** peut influencer les retards des vols en raison des **variations météorologiques** et des **volumes de trafic** spécifiques à chaque période de l'année. Par exemple, l’hiver apporte souvent des conditions difficiles comme la neige ou le brouillard, tandis que l’été, marqué par un trafic élevé, peut être perturbé par des orages ou des surcharges aéroportuaires. Ainsi, en tenant compte des saisons, il devient possible de mieux comprendre et anticiper les facteurs contribuant aux retards. </small>


In [15]:
# Définir une fonction qui détermine pour une date données la saison correspondante
def get_season(date):
    year = date.year
    if date >= pd.Timestamp(year=year, month=3, day=21) and date < pd.Timestamp(year=year, month=6, day=21):
        return 'Printemps'
    elif date >= pd.Timestamp(year=year, month=6, day=21) and date < pd.Timestamp(year=year, month=9, day=23):
        return 'Été'
    elif date >= pd.Timestamp(year=year, month=9, day=23) and date < pd.Timestamp(year=year, month=12, day=21):
        return 'Automne'
    else:
        return 'Hiver'

In [16]:
# Convertir la colonne Date en datetime 
df1['Date'] = pd.to_datetime(df1['Date'])

# Appliquer la fonction sur la colonne Date du dataframe
df1['Season'] = df1['Date'].apply(get_season)

In [17]:

# Afficher  des observations aléatoires du DataFrame
print(df1.Season[1000:1010])

print(df1.Season[2000:2010])


1000    Printemps
1001    Printemps
1002    Printemps
1003    Printemps
1004    Printemps
1005    Printemps
1006    Printemps
1007    Printemps
1008    Printemps
1009    Printemps
Name: Season, dtype: object
2000    Automne
2001    Automne
2002    Automne
2003    Automne
2004    Automne
2005    Automne
2006    Automne
2007    Automne
2008    Automne
2009    Automne
Name: Season, dtype: object



<span style="color:darkcyan;">**Création de la colonne Period_Day**</span>


In [18]:
# Définir une fonction pour attribuer la période de la journée
def definir_periode(heure):
    if heure >= pd.to_datetime('06:00', format='%H:%M').time() and heure < pd.to_datetime('12:00', format='%H:%M').time():
        return 'Matin'
    elif heure >= pd.to_datetime('12:00', format='%H:%M').time() and heure < pd.to_datetime('18:00', format='%H:%M').time():
        return 'Après-midi'
    else:
        return 'Soir'

In [19]:
# Convertir la colonne en type datetime
df1['Scheduled departure time'] = pd.to_datetime(df1['Scheduled departure time'], format='%H:%M:%S')

# Appliquer la fonction pour créer une nouvelle colonne
df1['Period_Day'] = df1['Scheduled departure time'].dt.time.apply(definir_periode)

# Reconvertir les colonnes "Scheduled departure time" et "Actual departure time" pour ne garder que l'heure 
df1['Scheduled departure time'] = df1['Scheduled departure time'].dt.time

In [20]:
# Afficher les colonnes Period_Day et Scheduled departure time
df1[['Scheduled departure time','Period_Day']]

Unnamed: 0,Scheduled departure time,Period_Day
0,07:30:00,Matin
1,12:30:00,Après-midi
2,12:00:00,Après-midi
3,19:30:00,Soir
4,10:30:00,Matin
...,...,...
57405,17:29:00,Après-midi
57406,12:30:00,Après-midi
57407,06:59:00,Matin
57408,08:59:00,Matin


<span style="color:darkcyan;">**Création de notre variable cible Y=Delay**</span>

<small> Le **retard d'un vol au départ** se définit comme **l'écart entre l'heure de départ ou d'arrivée prévue d'un vol, telle qu'indiquée dans le programme, et l'heure réelle à laquelle le vol décolle**.
</small>


In [21]:
# Convertir les colonnes "Scheduled departure time" et "Actual departure time" en objets datetime
df1['Scheduled departure time'] = pd.to_datetime(df1['Scheduled departure time'], format='%H:%M:%S')
df1['Actual departure time'] = pd.to_datetime(df1['Actual departure time'], format='%H:%M:%S')

# Création de la variable cible "Retard en calculant la différence en minutes et appliquer la condition
df1['Retard'] = ((df1['Actual departure time'] - df1['Scheduled departure time']).dt.total_seconds() / 60 > 0).astype(int)

# Reconvertir les colonnes "Scheduled departure time" et "Actual departure time" pour ne garder que l'heure 
df1['Scheduled departure time'] = df1['Scheduled departure time'].dt.time
df1['Actual departure time'] = df1['Actual departure time'].dt.time

# Afficher les colonnes "Actual departure time", "Scheduled departure time" et "Retard"
print(df1[['Scheduled departure time', 'Actual departure time', 'Retard']])

      Scheduled departure time Actual departure time  Retard
0                     07:30:00              07:30:00       0
1                     12:30:00              12:24:00       0
2                     12:00:00              13:11:00       1
3                     19:30:00              19:26:00       0
4                     10:30:00              10:25:00       0
...                        ...                   ...     ...
57405                 17:29:00              17:25:00       0
57406                 12:30:00              12:26:00       0
57407                 06:59:00              06:57:00       0
57408                 08:59:00              08:53:00       0
57409                 12:59:00              12:57:00       0

[57410 rows x 3 columns]


<span style="color:darkcyan;">**Encodage des variables qualitatives**</span>

<small>Pour pouvoir réaliser la suite de notre projet, nous aurons besoin d'encoder les variables qualitatives de notre data frame.</small>

In [22]:
!pip install scikit-learn
import sklearn
from sklearn.preprocessing import LabelEncoder



<span style="color:lightpink;">**Encodage de la variable Weekday_Flight**</span>

In [24]:
# Initialiser l'encodeur
label_encoder = LabelEncoder()

# Encoder de la variable Weekday_Flight
df1['Weekday_Flight_encoded'] = label_encoder.fit_transform(df1['Weekday_Flight'])

# Récupérer les modalités de Weekday_Flight et leurs codes correspondant dans la variable Weekday_Flight_encoded
modalites_et_codes = list(zip(label_encoder.classes_, range(len(label_encoder.classes_))))

# Afficher les modalités et leurs codes
print("Modalités et leurs codes :", modalites_et_codes)

#Afficher les colonnes Weekday_Flight et Weekday_Flight_encoded
print(df1[['Weekday_Flight','Weekday_Flight_encoded']])


Modalités et leurs codes : [('Friday', 0), ('Monday', 1), ('Saturday', 2), ('Sunday', 3), ('Thursday', 4), ('Tuesday', 5), ('Wednesday', 6)]
      Weekday_Flight  Weekday_Flight_encoded
0          Wednesday                       6
1          Wednesday                       6
2          Wednesday                       6
3          Wednesday                       6
4          Wednesday                       6
...              ...                     ...
57405         Sunday                       3
57406         Sunday                       3
57407         Sunday                       3
57408         Sunday                       3
57409         Sunday                       3

[57410 rows x 2 columns]


<span style="color:lightpink;">**Encodage de la variable Season**</span>


In [25]:
# Initialiser l'encodeur
label_encoder = LabelEncoder()


# Encoder de la variable Season
df1['Season_encoded'] = label_encoder.fit_transform(df1['Season'])

# Récupérer les modalités de Season et leurs codes correspondant dans la variable Season_encoded
modalites_et_codes = list(zip(label_encoder.classes_, range(len(label_encoder.classes_))))

# Afficher les modalités et leurs codes
print("Modalités et leurs codes :", modalites_et_codes)

#Afficher des valeurs aléatoires de Season et Season_encoded
print(df1[['Season', 'Season_encoded']][1000:1005])
print(df1[['Season', 'Season_encoded']][2000:2005])
print(df1[['Season', 'Season_encoded']][3000:3005])


Modalités et leurs codes : [('Automne', 0), ('Hiver', 1), ('Printemps', 2), ('Été', 3)]
         Season  Season_encoded
1000  Printemps               2
1001  Printemps               2
1002  Printemps               2
1003  Printemps               2
1004  Printemps               2
       Season  Season_encoded
2000  Automne               0
2001  Automne               0
2002  Automne               0
2003  Automne               0
2004  Automne               0
     Season  Season_encoded
3000  Hiver               1
3001  Hiver               1
3002  Hiver               1
3003  Hiver               1
3004  Hiver               1


<span style="color:lightpink;">**Encodage de la variable Period_Day**</span>


In [26]:
# Initialiser l'encodeur
label_encoder = LabelEncoder()

# Encoder de la variable Period_Day
df1['Period_Day_encoded'] = label_encoder.fit_transform(df1['Period_Day'])

# Récupérer les modalités de Period_Day et leurs codes correspondant dans la variable Period_Day_encoded
modalites_et_codes = list(zip(label_encoder.classes_, range(len(label_encoder.classes_))))

# Afficher les modalités et leurs codes
print("Modalités et leurs codes :", modalites_et_codes)

#Afficher les colonnes Period_Day et Period_Day_encoded
print(df1[['Period_Day','Period_Day_encoded']])


Modalités et leurs codes : [('Après-midi', 0), ('Matin', 1), ('Soir', 2)]
       Period_Day  Period_Day_encoded
0           Matin                   1
1      Après-midi                   0
2      Après-midi                   0
3            Soir                   2
4           Matin                   1
...           ...                 ...
57405  Après-midi                   0
57406  Après-midi                   0
57407       Matin                   1
57408       Matin                   1
57409  Après-midi                   0

[57410 rows x 2 columns]


<span style="color:lightpink;">**Encodage de la variable Destination Airport**</span>


In [27]:
# Initialiser l'encodeur
label_encoder = LabelEncoder()

# Encoder de la variable Destination Airport
df1['Destination_encoded'] = label_encoder.fit_transform(df1['Destination Airport'])

# Récupérer les modalités de Destination Airport et leurs codes correspondant dans la variable Destination_encoded
modalites_et_codes1 = list(zip(label_encoder.classes_, range(len(label_encoder.classes_))))

# Afficher les modalités et leurs codes
print("Modalités et leurs codes :", modalites_et_codes1)

#Afficher les colonnes Destination Airport et Destination_encoded
print(df1[['Destination Airport','Destination_encoded']])


Modalités et leurs codes : [('AUS', 0), ('BOS', 1), ('CLT', 2), ('DCA', 3), ('DFW', 4), ('EGE', 5), ('FLL', 6), ('JAC', 7), ('LAS', 8), ('LAX', 9), ('MIA', 10), ('ORD', 11), ('PHX', 12), ('RDU', 13), ('SAN', 14), ('SAT', 15), ('SFO', 16), ('SNA', 17), ('STT', 18)]
      Destination Airport  Destination_encoded
0                     LAX                    9
1                     LAX                    9
2                     CLT                    2
3                     LAX                    9
4                     SFO                   16
...                   ...                  ...
57405                 AUS                    0
57406                 MIA                   10
57407                 AUS                    0
57408                 ORD                   11
57409                 PHX                   12

[57410 rows x 2 columns]


<span style="color:darkcyan;">**Suppression des variables non porteurs de sens à notre problématique**</span>

In [30]:
print(df1.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57410 entries, 0 to 57409
Data columns (total 25 columns):
 #   Column                                    Non-Null Count  Dtype         
---  ------                                    --------------  -----         
 0   Carrier Code                              57410 non-null  object        
 1   Date                                      57410 non-null  datetime64[ns]
 2   Flight Number                             57410 non-null  float64       
 3   Tail Number                               57184 non-null  object        
 4   Destination Airport                       57410 non-null  object        
 5   Scheduled departure time                  57410 non-null  object        
 6   Actual departure time                     57410 non-null  object        
 7   Scheduled elapsed time (Minutes)          57410 non-null  float64       
 8   Actual elapsed time (Minutes)             57410 non-null  float64       
 9   Departure delay (Minutes)   

In [None]:
df1.drop(columns=["Carrier Code","Flight Number","Tail Number",
"Scheduled elapsed time (Minutes)","Actual elapsed time (Minutes)", "Departure delay (Minutes)"], inplace=True)