# Analyse des retards au d√©part de Paris-CDG ‚Äì √ât√© 2022  
**Projet Data Analyst ‚Äì Simulation et √©tude op√©rationnelle**

Ce notebook pr√©sente un projet complet de data analyse bas√© sur une situation r√©elle :  
la crise op√©rationnelle de l‚Äô√©t√© 2022 √† l‚Äôa√©roport Paris-Charles de Gaulle (CDG), marqu√©e par une reprise rapide du trafic et de fortes perturbations (retards, pertes de bagages, sous-effectifs).

### üéØ Objectifs du projet
- **Simuler un dataset r√©aliste** de 500 vols au d√©part de CDG entre juin et ao√ªt 2022.  
- **Analyser la ponctualit√© (OTP)** selon diff√©rents axes :  
  - plage horaire,  
  - terminal,  
  - type de vol,  
  - cause de retard,  
  - avant / apr√®s un incident bagages simul√© d√©but juillet 2022.  
- **Identifier les sources principales de perturbation** et les zones critiques dans les op√©rations sol.  
- **Proposer des actions concr√®tes** pour am√©liorer la fiabilit√© du hub et anticiper les pics de trafic.

### üß∞ Comp√©tences mises en ≈ìuvre
- Simulation et pr√©paration de donn√©es (Python, Pandas).  
- Nettoyage, transformation et enrichissement de donn√©es.  
- Analyse descriptive (OTP, distributions, segmentation).  
- Visualisation (Matplotlib).  
- Interpr√©tation orient√©e m√©tier (op√©rations a√©riennes).  

Ce projet constitue une base solide pour un portfolio professionnel dans le domaine **Data / Aviation / Op√©rations**.


In [10]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pathlib import Path

# Options d'affichage pour mieux lire les DataFrame
pd.set_option("display.max_columns", 50)

# On part du dossier o√π se trouve le notebook (notebook/)
# puis on remonte d'un niveau vers la racine du projet
PROJECT_ROOT = Path().resolve().parents[1]

# Dossier data √† la racine du projet
DATA_DIR = PROJECT_ROOT / "data"
DATA_DIR.mkdir(exist_ok=True)

print("PROJECT_ROOT :", PROJECT_ROOT)
print("DATA_DIR     :", DATA_DIR)


PROJECT_ROOT : /Users/godwincherubin/Documents/GitHub/cdg-summer-2022-delay-analysis
DATA_DIR     : /Users/godwincherubin/Documents/GitHub/cdg-summer-2022-delay-analysis/data


## 1. Construction p√©dagogique du jeu de donn√©es

Dans un contexte r√©el, les donn√©es proviendraient du data warehouse d‚Äôune compagnie a√©rienne  
(ex : syst√®mes op√©rationnels, donn√©es AODB, logs bagages, fichiers √©quipages, etc.).

Dans ce projet, je reconstruis un jeu de donn√©es **p√©dagogique mais r√©aliste**, inspir√© de la crise op√©rationnelle de l‚Äô√©t√© 2022 √† Paris-CDG :

- **vols_cdg_ete2022** : liste de vols au d√©part de CDG entre juin et ao√ªt 2022 (500 vols simul√©s),
- **causes_retard** : cause principale de retard pour chaque vol (bagages, handling, ATC, m√©t√©o‚Ä¶).

Ces donn√©es permettent de reproduire un raisonnement professionnel d‚Äôanalyste op√©rations :
- impact d‚Äôun incident bagages,
- √©volution de la ponctualit√© (OTP),
- analyse par terminal, par plage horaire, par type de vol,
- identification des zones critiques dans le hub.

La premi√®re √©tape consiste √† g√©n√©rer les **dates des vols**, base du dataset.


In [13]:
# Nombre total de vols √† simuler
n_flights = 500

# G√©n√©rateur al√©atoire (pour avoir toujours les m√™mes r√©sultats)
rng = np.random.default_rng(42)

# P√©riode de l'√©tude : 1er juin ‚Üí 31 ao√ªt 2022
date_range = pd.date_range("2022-06-01", "2022-08-31", freq="D")

# On tire al√©atoirement 500 dates dans cette p√©riode
dates_vol = rng.choice(date_range, size=n_flights)

# Cr√©ation d'un DataFrame de base
df = pd.DataFrame({
    "date_vol": pd.to_datetime(dates_vol).strftime("%Y-%m-%d")
})

df.head()


Unnamed: 0,date_vol
0,2022-06-09
1,2022-08-11
2,2022-07-31
3,2022-07-11
4,2022-07-10
