# Lab 4 - Le Nettoyage de Données avec Pandas

## Introduction : La Règle des 80/20 en Data Science

En Data Science, on dit souvent que 80% du temps est consacré à la préparation et au nettoyage des données, et seulement 20% à l'analyse et à la modélisation. Cette étape, bien que moins glamour, est absolument cruciale. Des données de mauvaise qualité mènent inévitablement à des modèles et des conclusions de mauvaise qualité ('Garbage In, Garbage Out').

Dans ce laboratoire, nous allons aborder de front ce travail de préparation en utilisant un jeu de données volontairement "sale".

### Étape 1 : Inspection des Données

In [None]:
import pandas as pd

# Charger le jeu de données
df = pd.read_csv('transactions.csv')

# Afficher les premières lignes
df.head()

In [None]:
# Obtenir un résumé des informations du DataFrame
df.info()

In [None]:
# Compter les valeurs manquantes par colonne
df.isnull().sum()

**Observations :**
- La colonne `date` est de type `object` (chaîne de caractères) alors qu'elle devrait être de type `datetime`.
- Il y a une valeur manquante dans `quantite`.
- Il y a une valeur manquante dans `prix_unitaire`.

### Étape 2 : Nettoyage - Gestion des Valeurs Manquantes

In [None]:
# Supprimer les lignes où la quantité est manquante
# Une transaction sans quantité n'est pas exploitable
df.dropna(subset=['quantite'], inplace=True)

In [None]:
# Remplir le prix manquant avec la moyenne des prix du même produit
# C'est une stratégie d'imputation plus intelligente que la moyenne globale
df['prix_unitaire'] = df.groupby('id_produit')['prix_unitaire'].transform(lambda x: x.fillna(x.mean()))

# Vérifions s'il reste des valeurs nulles
df.isnull().sum()

### Étape 3 : Correction des Types

In [None]:
# Convertir la colonne 'date' en datetime
# errors='coerce' transformera les dates invalides en NaT (Not a Time)
df['date'] = pd.to_datetime(df['date'], errors='coerce')

In [None]:
# Vérifions les types à nouveau
df.info()

### Étape 4 : Transformation - Création de Colonnes

In [None]:
# Créer une colonne 'chiffre_affaires'
df['chiffre_affaires'] = df['quantite'] * df['prix_unitaire']
df.head()

### Étape 5 : Agrégation pour l'Analyse

In [None]:
# Question métier : Quel est le chiffre d'affaires total par catégorie de produit ?
ca_par_categorie = df.groupby('categorie')['chiffre_affaires'].sum().reset_index()

print("Chiffre d'affaires total par catégorie :")
print(ca_par_categorie)

## Conclusion

Félicitations ! Vous avez nettoyé un jeu de données, corrigé ses types, créé de nouvelles informations et répondu à une question métier grâce à une agrégation.

Vous avez appris à :
- Identifier les problèmes avec `.info()` et `.isnull()`.
- Gérer les valeurs manquantes avec `dropna` et `fillna` (de manière avancée avec `groupby` et `transform`).
- Corriger les types de données avec `pd.to_datetime`.
- Créer de nouvelles colonnes pour enrichir vos données.
- Agréger les données avec `groupby()` pour obtenir des insights.

**Lien avec l'après-midi :** Ces étapes de nettoyage et d'analyse sont exactement le type de tâches qu'un agent d'IA pourra bientôt réaliser de manière autonome. En maîtrisant ces techniques, vous comprenez la logique qu'il faudra implémenter dans les "outils" que nous fournirons à nos agents pour qu'ils puissent travailler efficacement avec des données du monde réel.