# Exercices Pratiques : Analyse et Manipulation de Données
## Master 1 - Data Science & IA

---

**Durée estimée** : 2 heures minimum  
**Niveau** : Autonome - SANS AIDE  
**Dataset** : Global Air Pollution (Kaggle)

---

## Objectifs

Ce notebook vous permettra de maîtriser :
1. **Chargement et inspection** de données réelles
2. **Nettoyage et préparation** (valeurs manquantes, outliers, doublons)
3. **Manipulation avancée** (filtrage, tri, sélection)
4. **Agrégation et groupby** (statistiques par groupe)
5. **Transformation** (création de features, encodage)
6. **Visualisation** (graphiques exploratoires)




## Règles du Jeu

- **PAS D'AIDE** : Pas de code fourni, vous devez chercher
- **Documentation** : Utilisez pandas.pydata.org, stackoverflow
- **Réflexion** : Analysez avant de coder
- **Validation** : Vérifiez vos résultats à chaque étape



**Bon courage ! **

## Imports et Configuration

In [None]:
# TODO: Importer les bibliothèques nécessaires
# - pandas (as pd)
# - numpy (as np)
# - matplotlib.pyplot (as plt)
# - seaborn (as sns)

# Votre code ici


In [None]:
# TODO: Configurer l'affichage
# - Style matplotlib : 'seaborn-v0_8-darkgrid'
# - Affichage inline : %matplotlib inline
# - Options pandas : max_columns=None, precision=3
# - Random seed : 42

# Votre code ici


---
#  PARTIE 1 : Chargement et Inspection (20 min)
---

## Exercice 1.1 : Chargement des Données

**Objectif** : Charger le dataset et afficher les informations de base.

**Tâches** :
1. Charger le fichier CSV dans un DataFrame
2. Afficher les 10 premières lignes
3. Afficher les 10 dernières lignes
4. Afficher les informations du DataFrame (types, mémoire)
5. Afficher les dimensions (shape)

**Fichier** : `data/global air pollution dataset.csv`

In [None]:
# Votre code ici


## Exercice 1.2 : Statistiques Descriptives

**Objectif** : Calculer et analyser les statistiques de base.

**Tâches** :
1. Afficher les statistiques descriptives de TOUTES les colonnes numériques
2. Afficher le nombre de valeurs uniques par colonne
3. Afficher les types de données de chaque colonne
4. Calculer le pourcentage de valeurs manquantes par colonne
5. Afficher la mémoire utilisée par le DataFrame

In [None]:
# Votre code ici


## Exercice 1.3 : Exploration des Colonnes Catégorielles

**Objectif** : Analyser les variables catégorielles.

**Tâches** :
1. Lister toutes les colonnes de type 'object'
2. Pour la colonne 'Country' :
   - Afficher le nombre de pays uniques
   - Afficher les 10 pays les plus représentés
   - Afficher les 5 pays les moins représentés
3. Pour la colonne 'AQI Category' :
   - Afficher toutes les catégories uniques
   - Afficher le nombre de villes par catégorie
   - Calculer le pourcentage de chaque catégorie

In [None]:
# Votre code ici


---
#  PARTIE 2 : Nettoyage des Données (30 min)
---

## Exercice 2.1 : Gestion des Valeurs Manquantes

**Objectif** : Identifier et traiter les valeurs manquantes.

**Tâches** :
1. Créer une fonction qui affiche :
   - Le nombre de valeurs manquantes par colonne
   - Le pourcentage de valeurs manquantes par colonne
   - Uniquement les colonnes avec des valeurs manquantes
2. Appliquer cette fonction au DataFrame
3. Pour les colonnes numériques avec valeurs manquantes :
   - Remplacer par la médiane de la colonne
4. Pour les colonnes catégorielles avec valeurs manquantes :
   - Remplacer par 'Unknown'
5. Vérifier qu'il n'y a plus de valeurs manquantes

In [None]:
# Votre code ici


## Exercice 2.2 : Détection et Traitement des Doublons

**Objectif** : Identifier et supprimer les doublons.

**Tâches** :
1. Vérifier s'il y a des lignes complètement dupliquées
2. Afficher le nombre de doublons
3. Afficher les lignes dupliquées (si présentes)
4. Supprimer les doublons en gardant la première occurrence
5. Vérifier que les doublons ont été supprimés
6. Afficher la nouvelle shape du DataFrame

In [None]:
# Votre code ici


## Exercice 2.3 : Détection des Outliers

**Objectif** : Identifier les valeurs aberrantes avec la méthode IQR.

**Tâches** :
1. Pour la colonne 'AQI Value' :
   - Calculer Q1 (25ème percentile)
   - Calculer Q3 (75ème percentile)
   - Calculer IQR = Q3 - Q1
   - Calculer les bornes : lower = Q1 - 1.5*IQR, upper = Q3 + 1.5*IQR
   - Identifier les outliers (valeurs < lower OU > upper)
   - Afficher le nombre d'outliers
   - Afficher le pourcentage d'outliers
2. Créer un boxplot pour visualiser les outliers
3. **NE PAS SUPPRIMER** les outliers (ils peuvent être réels)

In [None]:
# Votre code ici


---
#  PARTIE 3 : Manipulation Avancée (30 min)
---

## Exercice 3.1 : Filtrage et Sélection

**Objectif** : Maîtriser le filtrage de données.

**Tâches** :
1. Créer un DataFrame contenant UNIQUEMENT les villes avec AQI > 100
2. Créer un DataFrame contenant les villes de France
3. Créer un DataFrame contenant les villes avec 'Hazardous' air quality
4. Créer un DataFrame contenant les villes d'Europe avec AQI > 50
   (Pays européens : France, Germany, Italy, Spain, UK, etc.)
5. Pour chaque DataFrame créé, afficher :
   - Le nombre de lignes
   - Les 5 premières lignes

In [None]:
# Votre code ici


## Exercice 3.2 : Tri et Ranking

**Objectif** : Trier et classer les données.

**Tâches** :
1. Trier le DataFrame par 'AQI Value' décroissant
2. Afficher les 20 villes les plus polluées (colonnes: Country, City, AQI Value)
3. Trier par pays (alphabétique) puis par AQI Value (décroissant)
4. Créer une colonne 'AQI_Rank' qui classe les villes de 1 à N
   (1 = ville la plus polluée)
5. Afficher les villes avec un rank entre 1 et 50

In [None]:
# Votre code ici


## Exercice 3.3 : Création de Nouvelles Colonnes

**Objectif** : Créer des features dérivées.

**Tâches** :
1. Créer une colonne 'Air_Quality_Binary' :
   - 'Good' si AQI < 100
   - 'Bad' si AQI >= 100
2. Créer une colonne 'Pollution_Level' :
   - 'Low' si AQI < 50
   - 'Medium' si 50 <= AQI < 100
   - 'High' si 100 <= AQI < 200
   - 'Very High' si AQI >= 200
3. Créer une colonne 'Average_Pollutant' :
   - Moyenne de CO, Ozone, NO2, PM2.5 AQI Values
   - Gérer les valeurs manquantes (ignorer dans le calcul)
4. Afficher les statistiques de ces nouvelles colonnes

In [None]:
# Votre code ici


---
#  PARTIE 4 : Agrégation et GroupBy (30 min)
---

## Exercice 4.1 : Agrégations Simples par Pays

**Objectif** : Calculer des statistiques par groupe.

**Tâches** :
1. Grouper par 'Country' et calculer :
   - Nombre de villes par pays
   - AQI moyen par pays
   - AQI médian par pays
   - AQI min et max par pays
2. Créer un DataFrame avec ces statistiques
3. Trier par AQI moyen décroissant
4. Afficher les 10 pays les plus pollués
5. Afficher les 10 pays les moins pollués

In [None]:
# Votre code ici


## Exercice 4.2 : Agrégations Multiples

**Objectif** : Utiliser agg() pour des agrégations complexes.

**Tâches** :
1. Grouper par 'AQI Category' et calculer pour 'AQI Value' :
   - count (nombre)
   - mean (moyenne)
   - std (écart-type)
   - min, max
2. Renommer les colonnes de manière explicite
3. Calculer le pourcentage de villes dans chaque catégorie
4. Créer un barplot de ces pourcentages

In [None]:
# Votre code ici


## Exercice 4.3 : Pivot Tables

**Objectif** : Créer des tableaux croisés dynamiques.

**Tâches** :
1. Créer une pivot table avec :
   - Index : 'Country' (top 10 pays par nombre de villes)
   - Columns : 'AQI Category'
   - Values : count de 'City'
   - Remplir les NaN par 0
2. Afficher cette pivot table
3. Créer une heatmap de cette pivot table
4. Créer une deuxième pivot table avec :
   - Index : 'Pollution_Level' (créée précédemment)
   - Values : 'AQI Value'
   - Aggfunc : ['mean', 'count']

In [None]:
# Votre code ici


---
#  PARTIE 5 : Transformations Avancées (20 min)
---

## Exercice 5.1 : Encodage de Variables Catégorielles

**Objectif** : Transformer les variables catégorielles.

**Tâches** :
1. **Label Encoding** :
   - Encoder 'AQI Category' en nombres (0, 1, 2, ...)
   - Créer une colonne 'AQI_Category_Encoded'
   - Afficher le mapping (quelle catégorie = quel nombre)
2. **One-Hot Encoding** :
   - Créer des colonnes dummy pour 'Pollution_Level'
   - Utiliser pd.get_dummies()
   - Afficher les nouvelles colonnes créées
3. Afficher la shape du DataFrame après encodage

In [None]:
# Votre code ici


## Exercice 5.2 : Normalisation et Standardisation

**Objectif** : Mettre les données à la même échelle.

**Tâches** :
1. **Min-Max Normalization** (0-1) :
   - Normaliser 'AQI Value' entre 0 et 1
   - Formule : (x - min) / (max - min)
   - Créer une colonne 'AQI_Normalized'
2. **Standardization** (Z-score) :
   - Standardiser 'AQI Value'
   - Formule : (x - mean) / std
   - Créer une colonne 'AQI_Standardized'
3. Créer 3 histogrammes côte à côte :
   - AQI Value original
   - AQI Normalized
   - AQI Standardized

In [None]:
# Votre code ici


## Exercice 5.3 : Binning (Discrétisation)

**Objectif** : Transformer une variable continue en catégories.

**Tâches** :
1. Créer une colonne 'AQI_Bins' avec pd.cut() :
   - Bins : [0, 50, 100, 150, 200, 300, 500]
   - Labels : ['Good', 'Moderate', 'USG', 'Unhealthy', 'Very Unhealthy', 'Hazardous']
2. Créer une colonne 'AQI_Quartiles' avec pd.qcut() :
   - 4 quartiles (Q1, Q2, Q3, Q4)
3. Afficher la distribution de chaque binning
4. Comparer avec la colonne 'AQI Category' originale

In [None]:
# Votre code ici


---
#  PARTIE 6 : Visualisation Exploratoire (20 min)
---

## Exercice 6.1 : Distributions

**Objectif** : Visualiser la distribution des variables.

**Tâches** :
1. Créer un histogramme de 'AQI Value' avec :
   - 50 bins
   - Titre et labels explicites
   - Ligne verticale pour la moyenne
   - Ligne verticale pour la médiane
2. Créer un boxplot de 'AQI Value' par 'AQI Category'
3. Créer un violinplot de 'AQI Value' par 'Pollution_Level'
4. Créer une grille de 4 histogrammes (2x2) pour :
   - CO AQI Value
   - Ozone AQI Value
   - NO2 AQI Value
   - PM2.5 AQI Value

In [None]:
# Votre code ici


## Exercice 6.2 : Comparaisons

**Objectif** : Comparer des groupes.

**Tâches** :
1. Créer un barplot horizontal des 15 pays les plus pollués
   - X : AQI moyen
   - Y : Pays
   - Trier par AQI décroissant
2. Créer un barplot empilé (stacked) :
   - X : Top 10 pays
   - Y : Nombre de villes
   - Couleurs : AQI Category
3. Créer un scatterplot :
   - X : PM2.5 AQI Value
   - Y : NO2 AQI Value
   - Couleur : AQI Category
   - Taille : AQI Value

In [None]:
# Votre code ici


## Exercice 6.3 : Corrélations

**Objectif** : Analyser les relations entre variables.

**Tâches** :
1. Calculer la matrice de corrélation entre :
   - AQI Value
   - CO AQI Value
   - Ozone AQI Value
   - NO2 AQI Value
   - PM2.5 AQI Value
2. Créer une heatmap de cette matrice avec :
   - Annotations des valeurs
   - Colormap 'coolwarm'
   - Valeurs centrées sur 0
3. Identifier les 3 paires de variables les plus corrélées
4. Créer des scatterplots pour ces 3 paires

In [None]:
# Votre code ici


---
#  PARTIE 7 : Défis Avancés (Bonus)
---

## Défi 1 : Analyse Géographique

**Objectif** : Analyser la pollution par région géographique.

**Tâches** :
1. Créer une colonne 'Continent' basée sur le pays
   - Utiliser un dictionnaire de mapping
   - Au moins 5 continents
2. Calculer l'AQI moyen par continent
3. Créer un barplot des continents par AQI moyen
4. Identifier le continent le plus/moins pollué

In [None]:
# Votre code ici (BONUS)


## Défi 2 : Fonction d'Analyse Personnalisée

**Objectif** : Créer une fonction réutilisable.

**Tâches** :
1. Créer une fonction `analyze_pollution(df, country_name)` qui :
   - Filtre les données pour un pays donné
   - Affiche les statistiques (nb villes, AQI moyen, min, max)
   - Affiche la distribution des catégories AQI
   - Crée 2 graphiques (histogram + barplot)
   - Retourne un dictionnaire avec les statistiques
2. Tester la fonction sur 3 pays différents

In [None]:
# Votre code ici (BONUS)


## Défi 3 : Pipeline de Transformation Complet

**Objectif** : Créer un pipeline de préparation de données.

**Tâches** :
1. Créer une fonction `prepare_data(df)` qui :
   - Gère les valeurs manquantes
   - Supprime les doublons
   - Crée les features dérivées
   - Encode les variables catégorielles
   - Normalise les variables numériques
   - Retourne un DataFrame prêt pour le ML
2. Appliquer cette fonction au DataFrame original
3. Vérifier que le DataFrame final est propre

In [None]:
# Votre code ici (BONUS)


---
#  Félicitations !

Vous avez terminé les exercices d'analyse et manipulation de données !

##  Compétences Acquises

 Chargement et inspection de données  
 Nettoyage (valeurs manquantes, doublons, outliers)  
 Manipulation (filtrage, tri, sélection)  
 Agrégation (groupby, pivot tables)  
 Transformation (encodage, normalisation, binning)  
 Visualisation exploratoire  

##  Prochaines Étapes

Passez au notebook suivant : **Modèles de Machine Learning**

---