
# üò∑ Projet 3 : Qualit√© de l'Air & Sant√©
## Version Interm√©diaire - "Voici le chemin, marche seul"

---

### üéØ L'Objectif
Construire un mod√®le de r√©gression capable de **pr√©dire le nombre d'admissions hospitali√®res** (`Admissions_Respiratoires`) en fonction de la qualit√© de l'air et des conditions environnementales.

**Contexte M√©tier :**
- **Cible** : `Admissions_Respiratoires` (Num√©rique)
- **M√©trique Cl√©** : MAE (Mean Absolute Error) pour l'interpr√©tabilit√©, R¬≤ pour la performance globale.
- **Impact** : Aider les h√¥pitaux √† anticiper l'afflux de patients lors des pics de pollution.

---

### üìã SESSION 1 : From Raw Data to Clean Insights

#### √âtape 1.1 : Chargement et Inspection
**Objectif :** Charger `qualite_air.csv` et identifier les probl√®mes de qualit√©.

**Livrables attendus :**
- Dimensions du dataset
- Types des colonnes (attention √† la colonne `Date` !)
- Nombre de valeurs manquantes par colonne

**Conseil :** Utilisez `df.info()` et `df.isnull().sum()`.


In [None]:
# Votre code ici


#### √âtape 1.2 : Nettoyage des Donn√©es (Sanity Check)
**Objectif :** Traiter les valeurs manquantes et corriger les types.

**Approches recommand√©es :**
1. **Valeurs manquantes (`PM2_5`, `NO2`)** :
   - Remplacer par la **m√©diane** (plus robuste aux outliers que la moyenne).
2. **Dates (`Date`)** :
   - Convertir en objet `datetime` avec `pd.to_datetime()`.

**Livrables attendus :**
- Un dataset sans valeurs manquantes.
- La colonne `Date` en format datetime.


In [None]:
# Votre code ici


#### √âtape 1.3 : Analyse Exploratoire (EDA)
**Objectif :** Comprendre les facteurs de pollution.

**Analyses √† r√©aliser :**
1. **S√©ries Temporelles** : Visualisez l'√©volution de `PM2_5` et `Admissions_Respiratoires` dans le temps.
2. **Corr√©lation Trafic/Pollution** : Scatter plot entre `Volume_Trafic` et `NO2`.
3. **Distribution** : Histogramme des admissions.

**Conseil :** Utilisez `sns.lineplot` pour les s√©ries temporelles.


In [None]:
# Votre code ici


---

### üìã SESSION 2 : The Art of Feature Engineering

#### √âtape 2.1 : Feature Engineering Temporel (Recipe 1)
**Objectif :** Transformer la date en informations utiles pour le mod√®le.

**Features √† cr√©er :**
- `Mois` : Pour capturer la saisonnalit√© (hiver vs √©t√©).
- `Jour_Semaine` : Pour capturer l'effet week-end (moins de trafic ?).
- `Est_Weekend` : Binaire (1 si Samedi/Dimanche, 0 sinon).

**Pourquoi ?** La pollution varie fortement selon les saisons et l'activit√© humaine (semaine vs week-end).


In [None]:
# Votre code ici


#### √âtape 2.2 : Encodage des Cat√©gories (Recipe 2)
**Objectif :** Transformer `Direction_Vent` (texte) en nombres.

**Approche :**
- Utilisez **One-Hot Encoding** (`pd.get_dummies`) car il n'y a pas d'ordre logique entre Nord, Sud, Est, Ouest.

**Livrables attendus :**
- Colonnes `Vent_N`, `Vent_S`, etc.


In [None]:
# Votre code ici


#### √âtape 2.3 : Feature Engineering Math√©matique (Recipe 4)
**Objectif :** Cr√©er un indicateur global de pollution.

**Id√©e :**
- Cr√©ez `Pollution_Index` = `PM2_5` + `NO2`.
- (Optionnel) Cr√©ez une interaction `Trafic_x_Vent` ?

**Conseil :** V√©rifiez la corr√©lation de cette nouvelle feature avec la cible `Admissions_Respiratoires`.


In [None]:
# Votre code ici


---

### üìã SESSION 3 : Building & Trusting Your Model

#### √âtape 3.1 : Pr√©paration et Split
**Objectif :** Diviser les donn√©es en Train/Test.

**Contraintes :**
- Supprimez la colonne `Date` originale (non g√©r√©e par le mod√®le).
- Split 80/20.
- `random_state=42` pour la reproductibilit√©.


In [None]:
# Votre code ici


#### √âtape 3.2 : Entra√Ænement (R√©gression)
**Mod√®le recommand√© :** `RandomForestRegressor`

**Pourquoi ?** Il g√®re bien les relations non-lin√©aires (ex: effet de seuil de la pollution sur la sant√©).

**Livrables attendus :**
- Un mod√®le entra√Æn√© sur X_train, y_train.


In [None]:
# Votre code ici


#### √âtape 3.3 : √âvaluation Approfondie
**Objectif :** Valider la performance du mod√®le.

**M√©triques √† calculer :**
1. **MAE** : Erreur moyenne en nombre de patients.
2. **RMSE** : Sensibilit√© aux grosses erreurs.
3. **R¬≤** : Qualit√© globale du mod√®le.

**Visualisation :**
- Scatter plot `y_test` vs `y_pred` avec une ligne diagonale parfaite.


In [None]:
# Votre code ici


---

### üéÅ Part 4: Going Further (Bonus Tasks)

#### Bonus Task 1: Classification "Sain" vs "Dangereux"
**Goal:** Cr√©er une alerte simple pour le public.
**Approach:**
1. Cr√©ez une colonne `Status` : "Dangereux" si PM2.5 > 100, sinon "Sain".
2. Affichez la distribution (combien de jours dangereux ?).


In [None]:
# Votre code ici


#### Bonus Task 2: Analyse Hebdomadaire
**Goal:** Identifier le meilleur jour pour faire du sport en ext√©rieur.
**Approach:**
1. Groupez par `Jour_Semaine`.
2. Calculez la moyenne de `PM2_5`.
3. Visualisez avec un bar chart.


In [None]:
# Votre code ici


#### Bonus Task 3: Pr√©diction pour Demain (Lag)
**Goal:** Pr√©dire les admissions de demain en utilisant les donn√©es d'aujourd'hui.
**Approach:**
1. Cr√©ez une feature `Admissions_Hier` avec `shift(1)`.
2. R√©-entra√Ænez le mod√®le avec cette nouvelle feature puissante.


In [None]:
# Votre code ici