# Analyse des Retards et Annulations de Vols (2015)

## Problématique

Quels sont les principaux facteurs qui influencent les retards et les annulations des vols en 2015, et comment varient-ils selon la compagnie aérienne et l'aéroport ?

**Objectif décisionnel** : Identifier les zones prioritaires d'action (plages horaires, compagnies, aéroports) pour réduire le pourcentage de vols retardés/annulés.

## Approche Data Storytelling

**Définition** : Association des données, du contexte, de la narration et des visuels pour aboutir à un message clé actionnable.

**Exemple** : "Partir avant 9h réduit le risque de retard de ~25% par rapport aux vols du soir (18–21h), principalement dû à la propagation 'Late Aircraft'."

*Note* : Chaque graphe répondra à une question spécifique avec un titre-verdict plutôt qu'un titre neutre.

## Hypothèses à Tester

1. Impact horaire : Augmentation progressive du risque de retard au fil de la journée (effet propagation)
2. Impact météorologique : Influence sur retards/annulations (saisonnalité hivernale)
3. Impact des hubs : Congestion générant plus de retards NAS/Taxi
4. Impact structurel : Différences entre compagnies (legacy vs low-cost)
5. Impact temporel : Influence du jour de la semaine et du mois

## Indicateurs Clés de Performance

- Pourcentage de retards (≥ 15 min)
- Pourcentage d'annulations
- Retards moyens/médians (départ/arrivée, en minutes)
- Analyse des causes principales et leur distribution
  - Carrier (opérations compagnie)
  - Weather (météo)
  - NAS (contrôle/gestion espace aérien)
  - Security (sécurité)
  - LateAircraft (retard propagé)
- Top 10 des points critiques (compagnies/aéroports/routes)

## Source des Données

**Base** : On-Time Performance 2015 (DOT/BTS)

**Variables principales** :
- FlightDate
- Airline
- Origin/Dest
- DepDelay/ArrDelay
- Cancelled/CancellationCode
- Détails des retards (CarrierDelay, WeatherDelay, etc.)
- Informations temporelles (CRSDepTime, DepTime, Month, DayOfWeek)

## Méthodologie de Nettoyage

1. **Traitement des dates/heures**
   - Conversion en format datetime
   - Extraction heure de départ et saison

2. **Gestion des valeurs manquantes**
   - Logique pour vols annulés
   - Normalisation des causes de retard

3. **Traitement des valeurs aberrantes**
   - Identification des retards > 6-8h
   - Conservation avec marquage spécifique

4. **Création de features**
   - Routes (Origin→Dest)
   - Indicateurs (is_peak, is_hub)

## Structure d'Analyse

1. **Qualité des données** (01_data_quality.ipynb)
   - Structure et types
   - Valeurs manquantes
   - Règles de nettoyage

2. **Analyse exploratoire univariée** (02_eda_univariate.ipynb)
   - Statistiques descriptives
   - Distributions par variable

3. **Analyse exploratoire bivariée** (03_eda_bivariate.ipynb)
   - Corrélations
   - Tests statistiques (chi-2, ANOVA/Kruskal)

## Principes de Visualisation

- Titres orientés conclusions
- Légendes explicites avec unités appropriées
- Palette cohérente :
  - À l'heure : gris
  - Retard : orange
  - Annulation : rouge
- Un message clé par visualisation

## Architecture Technique

**Technologies** :
- Python (pandas, numpy)
- Visualisation (plotly/matplotlib)
- Interface (Dash + Bootstrap)
