# Notebook final — Storytelling & Interprétation

**Fichiers source nettoyes** :
- `data/clean/dashboard_flights.csv`
- `data/clean/fao_clean.csv`
- `data/clean/Life_Expectancy_Data_with_IDH.csv`



In [2]:

# --- Chargement MINIMAL pour inspection (ne relance pas d'EDA si ce n'est pas nécessaire) ---
import pandas as pd
from IPython.display import display

PATH = "data/clean"
FILES = {
    "flights": f"{PATH}/dashboard_flights.csv",
    "food": f"{PATH}/fao_clean.csv",
    "who": f"{PATH}/Life_Expectancy_Data_with_IDH.csv"
}

dfs = {}
for k, p in FILES.items():
    try:
        dfs[k] = pd.read_csv(p)
        print(f"Loaded {k}: shape =", dfs[k].shape)
    except Exception as e:
        print(f"Could not load {k} from {p}: {e}")

# Afficher seulement les colonnes pour savoir ce que référencer dans la narration
for k, df in dfs.items():
    print("\n---\n", k.upper(), "columns (sample 50):")
    display(df.columns[:50])


Could not load flights from data/clean/dashboard_flights.csv: [Errno 2] No such file or directory: 'data/clean/dashboard_flights.csv'
Could not load food from data/clean/fao_clean.csv: [Errno 2] No such file or directory: 'data/clean/fao_clean.csv'
Could not load who from data/clean/Life_Expectancy_Data_with_IDH.csv: [Errno 2] No such file or directory: 'data/clean/Life_Expectancy_Data_with_IDH.csv'


## 1) Life Expectancy (WHO) — Interprétation & Storytelling

### Objectif résumé

Quels sont les déterminants qui expliquent le mieux l’espérance de vie et comment interagissent-ils entre eux ?

---

### Hypothèse de départ (ce que beaucoup pensent) :
- “Les pays riches vivent plus longtemps.”
### Ce qu’on doit vérifier réellement :
- Santé : Mortalité infantile, vaccinations, HIV, maladies, BMI
- Économie : PIB, revenu, dépenses de santé
- Social : IDH, years of schooling, population
- Environnement : Accès à l’eau, alimentation (potentiellement indirect via BMI)

---

## 1. Méthodologie utilisée

Notre démarche suit un processus analytique rigoureux :

1. **Exploration initiale**
   - Analyse de la distribution de l’espérance de vie
   - Détection des pays extrêmes (min / max)
   - Identification des valeurs manquantes et incohérentes

2. **Analyse de corrélation**
   - Heatmap pour mesurer les relations linéaires
   - Identification des facteurs les plus corrélés

3. **Analyse multivariée**
   - Scatter plots pour observer les tendances (PIB, scolarisation, IDH)
   - Comparaison par groupes de développement (IDH faible/moyen/élevé)

4. **Interprétation causale**
   - Distinction entre corrélation et facteurs réellement explicatifs
   - Détection d’effets de médiation (ex : GDP → éducation → espérance de vie)

5. **Synthèse**
   - Extraction des insights clés
   - Validation des hypothèses initiales ou reformulation




## 2. Interprétation des visualisations

### Histogramme – Distribution de l'espérance de vie
- **Observation** : la majorité des pays se situent entre *X et Y ans*
- Présence d’une *asymétrie* montrant une minorité de pays très en retard
- --> Insight : les inégalités globales restent fortes, mais la médiane mondiale est relativement élevée

---

### Heatmap de corrélation
- **Fortes corrélations positives** : IDH, scolarisation, PIB, dépenses de santé
- **Fortes corrélations négatives** : mortalité infantile, VIH, malnutrition
- --> Insight : l’éducation et les conditions sanitaires structurent davantage la longévité que le revenu seul

---

### Scatter : Schooling vs Life Expectancy
- Relation **linéaire croissante forte**
- Peu d’exceptions : presque tous les pays avec > 12 ans de scolarité ont > 75 ans d'espérance de vie
- --> Interprétation : l’éducation agit comme un levier indirect sur la santé

---

### Scatter : GDP vs Life Expectancy
- Courbe qui **sature après un certain seuil**
- Les pays très riches ne gagnent plus significativement en années de vie
- --> Insight : le PIB aide, mais seulement au début — son impact diminue après 20–30k$

---

### IDH vs Life Expectancy
- **Relation la plus stable et la plus forte**
- Faible dispersion : IDH reste le meilleur résumé multidimensionnel
- --> Interprétation : c’est la combinaison **éducation + santé + revenu** qui prédit le mieux la longévité


## 3. Causalité vs Corrélation

| Variable | Cause réelle ou proxy ? | Justification |
|---|---|---|
| GDP | Proxy | influence via santé & éducation, pas directement |
| Schooling | Cause clé | influence prévention, hygiène, accès à l'information |
| HIV / Infant deaths | Causes directes | impact biomédical immédiat sur mortalité |
| IDH | Indicateur synthétique | meilleure dimension explicative globale |
| Health Expenditure | Dépend de l’efficacité | dépenser ≠ soigner |

### Diagramme mental causal :
Revenus → financent éducation & santé → réduisent mortalité → augmentent espérance de vie

> L’argent n’achète pas la longévité, il finance les systèmes qui la créent.


## 4. Insights clés

1. L’espérance de vie dépend plus de **l’éducation que du PIB**
2. Le **PIB a un rendement décroissant** : au-delà d’un seuil, il n’améliore plus significativement la longévité
3. La **mortalité infantile et le VIH sont les meilleurs marqueurs négatifs**
4. L’**IDH est l’indicateur le plus fiable** car il combine les dimensions essentielles
5. Les pays riches ne vivent pas forcément plus longtemps, **les pays instruits oui**


## 5. Conclusion narrative

> **“La santé d’un pays ne se compte pas dans ses coffres, mais dans ses écoles et ses hôpitaux.”**

Si la richesse ouvre des portes, c’est l’éducation qui les franchit.

Un pays ne protège pas sa population parce qu’il est riche,
il devient riche parce qu’il sait protéger sa population.


## 2) Who Eats The Food We Grow? (FAO) — Interprétation & Storytelling

### Objectif résumé
Les pays consomment-ils ce qu’ils produisent ? Et quels schismes géographiques ou économiques apparaissent dans la production agricole mondiale ?

### Hypothèses de départ (croyances courantes)
- Les pays produisent principalement pour leurs propres besoins
- Les régions fertiles sont celles qui mangent le mieux
- Produire plus = être mieux nourri

---
## 1. Méthodologie utilisée

L’analyse suit 4 axes :

1. **Exploration globale**
   - Volume total de production par pays
   - Volume total de consommation par pays
   - Détection des outliers (super producteurs vs dépendants alimentaires)

2. **Analyse comparative**
   - Calcul d’un ratio : production / consommation
   - Identification des pays exportateurs nets et importateurs nets

3. **Analyse géographique**
   - Mise en relation avec la latitude/zone climatique si disponible
   - Détection de clusters régionaux de spécialisation alimentaire

4. **Analyse par type de denrées**
   - Identification des aliments dominants par région
   - Recherche de dépendance régionale (ex : céréales vs protéines animales)

5. **Synthèse & interprétation**
   - Identification des tendances structurelles
   - Distinction entre production locale et disponibilité réelle pour les populations


## 2. Résultats & interprétations

### Production totale par pays (bar chart ou map)
- Certains pays produisent massivement plus que leur population ne nécessite
- Concentration de la production mondiale dans un faible nombre de pays
- Insight : la production alimentaire mondiale est très centralisée

---

### Consommation par pays
- Les pays à forte consommation ne sont pas toujours les plus grands producteurs
- Plusieurs pays riches consomment plus qu’ils ne produisent
- Insight : le pouvoir d’achat détermine l’accès à la nourriture autant que la production

---

### Ratio Production / Consommation
- **> 1 = Exportateur net**
- **< 1 = Importateur dépendant**
- Cas observés :
  - Pays produisant beaucoup mais consommant peu (export massif)
  - Pays produisant peu mais consommant beaucoup (import dépendance)
- Insight : la nourriture circule selon l’économie, pas selon la géographie

---

### Répartition par denrées (ex : céréales, viande, fruits…)
- Certains pays se spécialisent selon :
  - Le climat (tropiques = cacao, café, fruits)
  - L’agriculture intensive (blé, maïs, soja dans grandes plaines)
  - L’élevage (zones tempérées / prairies)
- Insight : la géographie dicte la production, l’économie dicte la consommation


## 3. Limites & biais potentiels

- Les données ne mesurent pas :
  - Le gaspillage alimentaire
  - Les pertes logistiques
  - La distribution interne dans les pays
  - L’accès réel des populations à la nourriture
- Production ≠ consommation réelle locale
- Un pays peut exporter massivement et pourtant avoir une population en insécurité alimentaire


## 4. Insights clés

1. La production mondiale est centralisée dans peu de pays
2. La consommation dépend plus de la capacité économique que du sol local
3. Certains pays exportent ce qu’ils ne consomment pas, et importent ce qu’ils consomment
4. Les spécialités agricoles suivent le climat, mais pas l'assiette locale
5. Produire plus ne signifie pas mieux nourrir sa population


## 5. Conclusion narrative

> “On ne mange pas ce que l’on cultive, on mange ce que l’économie déplace.”

La terre décide ce qui pousse,
mais ce sont les marchés qui décident qui mange.

Un pays peut nourrir le monde…
sans nourrir son propre peuple.


## 3) 2015 Flight Delays & Cancellations

### Quels sont les principaux facteurs de retard et d’annulation, et comment varient-ils selon les compagnies et les aéroports ?

Hypothèses initiales courantes :
- La météo crée la plupart des retards ? Vrai ou pas ?
- Les petites compagnies ont plus de retard ? Dépend de leur réseau
- Tous les aéroports subissent les mêmes causes ? Probable concentration sur hubs

---
## 1. Méthodologie utilisée

1. **Analyse globale des retards**
   - Distribution des minutes de retard au départ/arrivée
   - Identification des extrêmes et asymétrie

2. **Analyse des causes principales**
   - Comparaison des colonnes de causes : (ex) Weather, Late Aircraft, Security, NAS...
   - Identification de la cause dominante

3. **Comparaison par acteur**
   - Par compagnie aérienne
   - Par aéroport d’origine et de destination

4. **Analyse temporelle**
   - Retards selon heure/jour de la semaine si disponible
   - Observation des effets d’accumulation (effet domino)

5. **Synthèse**
   - Identification des facteurs structurels vs conjoncturels

## 2. Résultats & interprétations

### Distribution des retards (histogramme)
- Très asymétrique : beaucoup de petits retards, peu de très grands
- Médiane plus pertinente que moyenne à cause des extrêmes
- Insight : les grands retards existent mais la majorité provient d'accumulations de petits dysfonctionnements

---

### Causes des retards (barplot ou radar)
- Cause dominante : LATE_AIRCRAFT_DELAY
- Les causes secondaires (selon données) : NAS / WEATHER / SECURITY
- Insight : un avion en retard rend l’avion suivant en retard → effet domino

---

### Retards par compagnie
- Certaines compagnies accumulent plus de retard que la médiane globale
- Les écarts s’expliquent souvent par :
  - Taille du réseau
  - Utilisation de hubs saturés
  - Temps de rotation au sol
- Insight : ce n’est pas un problème d’avion, mais d’organisation logistique

---

### Retards par aéroport (carte ou barplot)
- Forte concentration des retards dans certains hubs
- Les aéroports avec le plus de trafic ou correspondances subissent un effet goulot d’étranglement
- Insight : les retards ne sont pas uniformes, ils sont structurels et localisés

---

### Annulations (si analysées)
- Souvent liées à la météo ou à des contraintes opérationnelles
- Volume faible comparé aux retards mais impact fort sur l’expérience voyageur


## 3. Limites & biais potentiels

- Les causes sont déclaratives → certaines compagnies peuvent classer différemment
- Données météo agrégées ne reflétant pas micro-climats locaux
- Données aéroportuaires influencées par le volume de trafic
- Années ponctuelles → pas forcément représentatives de long terme


## 5. Conclusion narrative

> “Le ciel n’est pas la cause des retards… l’organisation l’est.”

Un avion en retard ne l’est pas à cause du vent,
mais parce qu’un autre avion l’a été avant lui.

Ce n’est pas une crise météorologique,
c’est un effet domino logistique.


# Synthèse Globale – Quand la santé, l’alimentation et la mobilité dessinent le bien-être mondial
> « Santé, alimentation, mobilité : ce triptyque raconte l’histoire invisible du développement humain. »

---

## 1. Ce que nous avons appris indépendamment

### Life Expectancy (Espérance de vie – WHO)
- Les facteurs les plus influents sur l’espérance de vie sont :
  - **IDH** → meilleur prédicteur global
  - **Scolarisation, PIB par habitant, accès aux soins, vaccination**
  - **Mortalité infantile, maladies transmissibles, pollution**
- Les pays à fort IDH accumulent un effet boule de neige positif :
  - Meilleure santé → meilleure productivité → meilleure économie → meilleurs soins → durée de vie plus longue.
- À l'inverse, certains pays restent piégés dans un cercle négatif :
  - Faible éducation → faibles revenus → faible accès aux infrastructures de santé → mortalité élevée.

---

### Who eats the food we grow? (FAO)
- Le monde produit assez de nourriture, mais la distribution est inégale.
- Trois phénomènes marquants :
  1. Surproduction dans des pays qui ne consomment pas tout (exportateurs agricoles massifs)
  2. Dépendance alimentaire dans des pays à forte population ou faible capacité agricole
  3. Malnutrition dans des zones pourtant riches en production brute, faute d'infrastructures et d'accès.
- Corrélations observées :
  - Production ≠ Sécurité alimentaire
  - La variable clé n’est pas « combien on produit » mais « qui y a accès et à quel prix ».
  - Les pays avec une forte stabilité économique valorisent mieux leurs ressources alimentaires.

---

### 2015 Flight Delays & Cancellations
- Les retards ne sont pas uniformes :
  - Très dépendants des compagnies aériennes (gestion interne, flotte, optimisation)
  - Très dépendants des aéroports (trafic, saturation, météo, logistique)
- Les causes principales varient : météo, gestion du trafic aérien, maintenance et opérations
- On observe un effet hub :
  - Les grands aéroports internationaux concentrent plus de retards mais transportent aussi plus de personnes → impact global plus fort.
- La fiabilité du transport agit directement sur :
  - L’économie
  - L’accès aux biens (dont la nourriture & médicaments)
  - La mobilité humaine et professionnelle

---

## 2. Et si tout était lié ?

| Domaine | Impact direct | Impact indirect |
|--------|--------------|----------------|
| Santé | Population en meilleure forme, moins de mortalité | Productivité accrue, croissance économique |
| Alimentation | Moins de malnutrition, meilleur développement | Force de travail plus saine, moindre charge médicale |
| Mobilité (aérienne) | Déplacement des personnes et des marchandises | Accès aux soins, distribution alimentaire, échanges économiques |

### Ce que cela signifie :
- Un pays avec une santé solide et une bonne alimentation, mais sans logistique de transport efficace, reste limité dans son développement.
- Un pays avec un bon transport, mais une alimentation et une santé faibles, ne peut pas soutenir son progrès humain.
- Ce sont les trois combinés qui forment un système durable.

---

## Insight majeur (storytelling)

> Imaginez un pays qui produit suffisamment de nourriture, mais qui ne peut pas l’acheminer à temps à cause d’infrastructures de transport faibles.
> Les denrées périment, les populations manquent de nutriments, la santé se dégrade, la productivité baisse, et l’espérance de vie chute.

> Maintenant imaginez l’inverse : un pays qui importe efficacement, distribue rapidement, et possède une population éduquée et en bonne santé.
> Le travail est plus productif, l'économie se renforce, les infrastructures s’améliorent encore, et l’espérance de vie augmente.

La différence entre ces deux pays ne se résume pas à « produire ou non », mais à organiser, transporter, soigner et répartir.

---

## Conclusion globale

- L’espérance de vie est le thermomètre final du bien-être d’un pays.
- L’alimentation est le carburant de ce bien-être.
- Le transport est le système de distribution qui maintient le moteur en marche.

### Message clé :
> « Un pays en bonne santé n’est pas seulement un pays qui vit longtemps, c’est un pays qui mange bien et se déplace bien. »

---

## 3 recommandations stratégiques
1. Investir dans l’accès aux soins et à l’éducation → améliore directement l’espérance de vie
2. Développer la souveraineté alimentaire locale + logistique de distribution → réduit l’inégalité nutritionnelle
3. Renforcer l’efficacité du transport (aérien et terrestre) → amplifie tous les autres effets positifs

---

## Final punchline
> L’avenir ne dépend pas seulement des ressources d’un pays, mais de sa capacité à les connecter, les transporter et les protéger.

