‚ö° Interm√©diaire | ‚è± 60 min | üîë Concepts : Series, DataFrame, read_csv, filtrage, groupby

# Pandas : Manipulation de Donn√©es Tabulaires - Les Bases

## Objectifs

√Ä la fin de ce notebook, vous serez capable de :
- Cr√©er et manipuler des Series et DataFrames
- Charger et sauvegarder des donn√©es CSV
- Explorer et inspecter des DataFrames
- S√©lectionner et filtrer des donn√©es
- Trier et grouper des donn√©es
- Effectuer des agr√©gations basiques

## Pr√©requis

- Python 3.8+
- NumPy (bases)
- Compr√©hension des structures de donn√©es (listes, dictionnaires)

## 1. Pandas : Pourquoi ?

Pandas est LA biblioth√®que pour la manipulation de donn√©es tabulaires en Python.

**Avantages :**
- **Intuitif** : Syntaxe simple et expressive
- **Performant** : Construit sur NumPy
- **Complet** : Lecture/√©criture de multiples formats (CSV, Excel, SQL, JSON, etc.)
- **Riche** : Centaines de fonctions pour le nettoyage, la transformation et l'analyse

**Installation :**
```bash
pip install pandas
```

In [None]:
import pandas as pd
import numpy as np

print(f"Pandas version : {pd.__version__}")

## 2. Fil Rouge : Dataset E-commerce

Nous allons travailler sur un dataset de ventes e-commerce tout au long de cette s√©rie de notebooks.

In [None]:
# Cr√©ation du dataset e-commerce
np.random.seed(42)

data = {
    "order_id": range(1, 101),
    "date": pd.date_range("2024-01-01", periods=100, freq="D"),
    "product": ["Laptop", "Phone", "Tablet", "Headphones", "Monitor"] * 20,
    "category": ["Electronics", "Electronics", "Electronics", "Audio", "Electronics"] * 20,
    "quantity": [1, 2, 1, 3, 1, 2, 1, 4, 1, 2] * 10,
    "unit_price": [999.99, 699.99, 449.99, 79.99, 349.99] * 20,
    "customer_id": [f"C{i:03d}" for i in range(1, 101)],
    "city": ["Paris", "Lyon", "Marseille", "Toulouse", "Bordeaux"] * 20,
}

df = pd.DataFrame(data)
df["total"] = df["quantity"] * df["unit_price"]

print("Dataset e-commerce cr√©√© !")
print(f"Forme : {df.shape}")

## 3. Series : Tableau 1D avec Index

Une Series est un tableau 1D √©tiquet√©, similaire √† une colonne de DataFrame.

In [None]:
# Cr√©ation depuis une liste
s1 = pd.Series([10, 20, 30, 40, 50])
print("Series simple:")
print(s1)

# Avec index personnalis√©
s2 = pd.Series([10, 20, 30], index=['a', 'b', 'c'], name='valeurs')
print("\nSeries avec index:")
print(s2)

# Depuis un dictionnaire
s3 = pd.Series({'Paris': 2_165_000, 'Lyon': 516_000, 'Marseille': 869_000})
print("\nSeries depuis dict (population):")
print(s3)

# Indexation
print("\nAcc√®s par position:", s3.iloc[0])
print("Acc√®s par label:", s3.loc['Paris'])
print("Acc√®s par label (raccourci):", s3['Paris'])

# Op√©rations
print("\nSeries * 2:")
print(s2 * 2)

print("\nSeries > 15:")
print(s2 > 15)

## 4. DataFrame : Tableau 2D avec Index

Un DataFrame est un tableau 2D √©tiquet√©, similaire √† une table SQL ou une feuille Excel.

In [None]:
# Depuis un dictionnaire
data_dict = {
    'nom': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'ville': ['Paris', 'Lyon', 'Marseille']
}
df_from_dict = pd.DataFrame(data_dict)
print("DataFrame depuis dict:")
print(df_from_dict)

# Depuis une liste de listes
data_list = [
    ['Alice', 25, 'Paris'],
    ['Bob', 30, 'Lyon'],
    ['Charlie', 35, 'Marseille']
]
df_from_list = pd.DataFrame(data_list, columns=['nom', 'age', 'ville'])
print("\nDataFrame depuis liste:")
print(df_from_list)

# Depuis un array NumPy
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df_from_array = pd.DataFrame(arr, columns=['A', 'B', 'C'])
print("\nDataFrame depuis NumPy:")
print(df_from_array)

## 5. Lecture et √âcriture CSV

CSV est le format le plus courant pour les √©changes de donn√©es.

In [None]:
# Sauvegarder en CSV
df.to_csv('/tmp/ecommerce_sales.csv', index=False)
print("DataFrame sauvegard√© dans /tmp/ecommerce_sales.csv")

# Lire depuis CSV
df_loaded = pd.read_csv('/tmp/ecommerce_sales.csv')
print("\nDataFrame charg√©:")
print(df_loaded.head())

# Options utiles de read_csv
# - sep : s√©parateur (d√©faut ',')
# - header : ligne d'en-t√™te (d√©faut 0)
# - names : noms de colonnes personnalis√©s
# - usecols : colonnes √† charger
# - dtype : types de colonnes
# - parse_dates : colonnes √† parser en dates
# - nrows : nombre de lignes √† lire

# Exemple avec options
df_partial = pd.read_csv(
    '/tmp/ecommerce_sales.csv',
    usecols=['order_id', 'product', 'total'],
    nrows=5
)
print("\nLecture partielle (3 colonnes, 5 lignes):")
print(df_partial)

## 6. Exploration de Donn√©es

Les premi√®res √©tapes d'analyse : comprendre la structure et le contenu.

In [None]:
# head() et tail() : premiers/derniers √©l√©ments
print("5 premi√®res lignes:")
print(df.head())

print("\n3 derni√®res lignes:")
print(df.tail(3))

# shape : dimensions
print(f"\nForme: {df.shape} (lignes, colonnes)")

# columns : noms des colonnes
print(f"\nColonnes: {df.columns.tolist()}")

# dtypes : types de donn√©es
print("\nTypes de donn√©es:")
print(df.dtypes)

# info() : r√©sum√© complet
print("\nInfo compl√®te:")
print(df.info())

# describe() : statistiques descriptives
print("\nStatistiques descriptives (num√©riques):")
print(df.describe())

# describe() pour tout
print("\nStatistiques descriptives (toutes colonnes):")
print(df.describe(include='all'))

## 7. S√©lection de Donn√©es

Plusieurs fa√ßons d'acc√©der aux donn√©es : `[]`, `.loc[]`, `.iloc[]`.

In [None]:
# S√©lection de colonnes
print("Une colonne (Series):")
print(df['product'].head())
print(f"Type: {type(df['product'])}")

print("\nPlusieurs colonnes (DataFrame):")
print(df[['product', 'total']].head())
print(f"Type: {type(df[['product', 'total']])}")

# iloc : s√©lection par position (entiers)
print("\niloc[0] - Premi√®re ligne:")
print(df.iloc[0])

print("\niloc[0:3, 0:3] - 3 premi√®res lignes, 3 premi√®res colonnes:")
print(df.iloc[0:3, 0:3])

print("\niloc[:, 2] - Toutes les lignes, 3√®me colonne:")
print(df.iloc[:, 2].head())

# loc : s√©lection par label
print("\nloc[0:2, 'product':'quantity'] - Par labels:")
print(df.loc[0:2, 'product':'quantity'])

# Acc√®s √† une cellule
print("\nValeur √† [0, 'product']:")
print(df.loc[0, 'product'])
print(df.iloc[0, 2])  # √©quivalent
print(df.at[0, 'product'])  # plus rapide pour une seule cellule
print(df.iat[0, 2])  # √©quivalent rapide

## 8. Filtrage de Donn√©es

Extraire des sous-ensembles bas√©s sur des conditions.

In [None]:
# Condition bool√©enne simple
mask = df['total'] > 1000
print(f"Nombre de commandes > 1000‚Ç¨: {mask.sum()}")
print("\nCommandes > 1000‚Ç¨:")
print(df[mask].head())

# Conditions multiples avec & (ET) et | (OU)
# ATTENTION : parenth√®ses obligatoires !
mask_complex = (df['total'] > 1000) & (df['city'] == 'Paris')
print("\nCommandes > 1000‚Ç¨ √† Paris:")
print(df[mask_complex].head())

mask_or = (df['product'] == 'Laptop') | (df['product'] == 'Monitor')
print("\nCommandes de Laptop ou Monitor:")
print(df[mask_or].head())

# isin() : appartenance √† une liste
cities = ['Paris', 'Lyon']
print("\nCommandes √† Paris ou Lyon:")
print(df[df['city'].isin(cities)].head())

# N√©gation avec ~
print("\nCommandes PAS √† Paris:")
print(df[~(df['city'] == 'Paris')].head())

# between() : plage de valeurs
print("\nCommandes entre 500‚Ç¨ et 1000‚Ç¨:")
print(df[df['total'].between(500, 1000)].head())

# str.contains() : recherche de texte
print("\nProduits contenant 'top':")
print(df[df['product'].str.contains('top', case=False)].head())

# query() : syntaxe SQL-like
print("\nAvec query() :")
print(df.query('total > 1000 and city == "Paris"').head())

## 9. Tri de Donn√©es

Ordonner les lignes ou colonnes.

In [None]:
# Tri par une colonne (ordre croissant)
print("Tri par total (croissant):")
print(df.sort_values('total').head())

# Tri d√©croissant
print("\nTri par total (d√©croissant):")
print(df.sort_values('total', ascending=False).head())

# Tri par plusieurs colonnes
print("\nTri par city puis total (d√©croissant):")
print(df.sort_values(['city', 'total'], ascending=[True, False]).head(10))

# Tri par index
df_shuffled = df.sample(frac=1)  # m√©langer
print("\nApr√®s m√©lange:")
print(df_shuffled.head())

print("\nApr√®s tri par index:")
print(df_shuffled.sort_index().head())

## 10. GroupBy : Agr√©gation de Donn√©es

Grouper et agr√©ger : l'op√©ration la plus puissante de Pandas.

In [None]:
# GroupBy simple avec une agr√©gation
print("Ventes totales par produit:")
print(df.groupby('product')['total'].sum())

# Plusieurs agr√©gations
print("\nStatistiques par produit:")
print(df.groupby('product')['total'].agg(['sum', 'mean', 'count']))

# GroupBy sur plusieurs colonnes
print("\nVentes par ville et produit:")
print(df.groupby(['city', 'product'])['total'].sum())

# Plusieurs colonnes d'agr√©gation
print("\nAgr√©gations multiples:")
result = df.groupby('product').agg({
    'total': ['sum', 'mean'],
    'quantity': 'sum',
    'order_id': 'count'
})
print(result)

# Renommer les colonnes apr√®s agg
print("\nAvec colonnes renomm√©es:")
result = df.groupby('product').agg(
    total_sales=('total', 'sum'),
    avg_order=('total', 'mean'),
    nb_orders=('order_id', 'count')
)
print(result)

# reset_index() pour convertir l'index en colonne
print("\nAvec reset_index():")
print(result.reset_index())

## 11. Fonctions d'Agr√©gation

Principales fonctions pour r√©sumer les donn√©es.

In [None]:
# Agr√©gations sur une Series
total_series = df['total']

print("Statistiques sur la colonne 'total':")
print(f"Somme: {total_series.sum():.2f}‚Ç¨")
print(f"Moyenne: {total_series.mean():.2f}‚Ç¨")
print(f"M√©diane: {total_series.median():.2f}‚Ç¨")
print(f"Min: {total_series.min():.2f}‚Ç¨")
print(f"Max: {total_series.max():.2f}‚Ç¨")
print(f"√âcart-type: {total_series.std():.2f}‚Ç¨")
print(f"Variance: {total_series.var():.2f}")
print(f"Compte: {total_series.count()}")

# Quantiles
print(f"\nQuantiles:")
print(f"25%: {total_series.quantile(0.25):.2f}‚Ç¨")
print(f"50%: {total_series.quantile(0.50):.2f}‚Ç¨")
print(f"75%: {total_series.quantile(0.75):.2f}‚Ç¨")

# value_counts() : compter les occurrences
print("\nCompte par produit:")
print(df['product'].value_counts())

print("\nCompte par produit (proportions):")
print(df['product'].value_counts(normalize=True))

# nunique() : nombre de valeurs uniques
print(f"\nNombre de clients uniques: {df['customer_id'].nunique()}")
print(f"Nombre de villes: {df['city'].nunique()}")

# unique() : valeurs uniques
print(f"\nProduits: {df['product'].unique()}")

## 12. Pi√®ges Courants

### Pi√®ge 1 : SettingWithCopyWarning

L'erreur la plus fr√©quente en Pandas.

In [None]:
# ‚ùå MAUVAIS : cha√Æne d'indexation
# df[df['city'] == 'Paris']['total'] = 0  # SettingWithCopyWarning

# ‚úÖ BON : utiliser loc
df_copy = df.copy()
df_copy.loc[df_copy['city'] == 'Paris', 'total'] = 0
print("Modification avec loc (pas d'avertissement):")
print(df_copy[df_copy['city'] == 'Paris'].head())

# Comprendre le probl√®me
print("\nExplication:")
print("- df[condition] peut retourner une vue OU une copie")
print("- Modifier une vue modifie l'original")
print("- Modifier une copie ne modifie PAS l'original")
print("- C'est impr√©visible !")
print("\n‚úÖ Solution : toujours utiliser .loc[] pour modifier")

### Pi√®ge 2 : Confusion d'Index

In [None]:
# Cr√©er un DataFrame avec index personnalis√©
df_indexed = df.set_index('order_id')

print("DataFrame avec index personnalis√©:")
print(df_indexed.head())

# ‚ùå Acc√®s par position (ne marche plus comme avant)
try:
    print(df_indexed.loc[0])  # Erreur ! 0 n'est pas dans l'index
except KeyError as e:
    print(f"\n‚ùå Erreur: {e}")

# ‚úÖ Utiliser iloc pour l'acc√®s par position
print("\n‚úÖ Acc√®s par position avec iloc:")
print(df_indexed.iloc[0])

# ‚úÖ Utiliser loc pour l'acc√®s par label
print("\n‚úÖ Acc√®s par label avec loc:")
print(df_indexed.loc[1])  # order_id = 1

# R√©initialiser l'index
df_reset = df_indexed.reset_index()
print("\nApr√®s reset_index():")
print(df_reset.head())

### Pi√®ge 3 : Chained Indexing

In [None]:
# ‚ùå MAUVAIS : chained indexing
df_copy = df.copy()
# df_copy[df_copy['city'] == 'Paris']['discount'] = 0.1  # Avertissement

# ‚úÖ BON : une seule op√©ration
df_copy = df.copy()
df_copy.loc[df_copy['city'] == 'Paris', 'discount'] = 0.1
print("Ajout de colonne avec loc:")
print(df_copy[df_copy['city'] == 'Paris'].head())

print("\nR√®gle d'or:")
print("- Toujours utiliser .loc[] ou .iloc[] pour modifier")
print("- √âviter les cha√Ænes d'op√©rations [][]")
print("- Faire une copie explicite si n√©cessaire : .copy()")

## 13. Mini-Exercices

### Exercice 1 : Explorer le Dataset

En utilisant le DataFrame `df` :
1. Affichez le nombre total de commandes
2. Affichez la date de la premi√®re et derni√®re commande
3. Calculez le montant total des ventes
4. Trouvez le produit le plus cher (unit_price)
5. Affichez les 3 villes avec le plus de commandes

In [None]:
# Votre code ici


### Exercice 2 : Filtrer par Cat√©gorie et Ville

1. Cr√©ez un DataFrame contenant uniquement les commandes de la cat√©gorie "Electronics"
2. Parmi ces commandes, filtrez celles pass√©es √† Paris ou Lyon
3. Affichez les 10 commandes avec le montant total le plus √©lev√©
4. Calculez le montant moyen de ces commandes

In [None]:
# Votre code ici


### Exercice 3 : GroupBy avec Statistiques

Cr√©ez un rapport qui montre pour chaque produit :
1. Le nombre de commandes
2. La quantit√© totale vendue
3. Le chiffre d'affaires total
4. Le montant moyen par commande
5. Triez par chiffre d'affaires d√©croissant

In [None]:
# Votre code ici


---

## Solutions des Exercices

### Solution Exercice 1

In [None]:
print("=== Exploration du Dataset ===")

# 1. Nombre total de commandes
nb_commandes = len(df)
# ou : df.shape[0]
# ou : df['order_id'].count()
print(f"1. Nombre de commandes: {nb_commandes}")

# 2. Dates premi√®re et derni√®re commande
premiere_date = df['date'].min()
derniere_date = df['date'].max()
print(f"\n2. P√©riode:")
print(f"   Premi√®re commande: {premiere_date}")
print(f"   Derni√®re commande: {derniere_date}")

# 3. Montant total des ventes
total_ventes = df['total'].sum()
print(f"\n3. Montant total: {total_ventes:,.2f}‚Ç¨")

# 4. Produit le plus cher
idx_max = df['unit_price'].idxmax()
produit_cher = df.loc[idx_max, 'product']
prix_max = df.loc[idx_max, 'unit_price']
print(f"\n4. Produit le plus cher: {produit_cher} ({prix_max:.2f}‚Ç¨)")

# 5. Top 3 villes
top_villes = df['city'].value_counts().head(3)
print(f"\n5. Top 3 villes:")
print(top_villes)

### Solution Exercice 2

In [None]:
print("=== Filtrage par Cat√©gorie et Ville ===")

# 1. Cat√©gorie Electronics
df_electronics = df[df['category'] == 'Electronics']
print(f"1. Commandes Electronics: {len(df_electronics)}")

# 2. Paris ou Lyon
df_filtered = df_electronics[df_electronics['city'].isin(['Paris', 'Lyon'])]
print(f"\n2. Commandes Electronics √† Paris/Lyon: {len(df_filtered)}")

# 3. Top 10 par montant
top_10 = df_filtered.sort_values('total', ascending=False).head(10)
print("\n3. Top 10 commandes:")
print(top_10[['order_id', 'product', 'city', 'total']])

# 4. Montant moyen
montant_moyen = df_filtered['total'].mean()
print(f"\n4. Montant moyen: {montant_moyen:.2f}‚Ç¨")

### Solution Exercice 3

In [None]:
print("=== Rapport par Produit ===")

# Agr√©gation compl√®te
rapport = df.groupby('product').agg(
    nb_commandes=('order_id', 'count'),
    quantite_totale=('quantity', 'sum'),
    chiffre_affaires=('total', 'sum'),
    montant_moyen=('total', 'mean')
)

# Tri par chiffre d'affaires d√©croissant
rapport = rapport.sort_values('chiffre_affaires', ascending=False)

# Formatage pour l'affichage
print(rapport)

# Version avec formatage personnalis√©
print("\n=== Rapport Format√© ===")
for produit in rapport.index:
    row = rapport.loc[produit]
    print(f"\n{produit}:")
    print(f"  Commandes: {row['nb_commandes']:.0f}")
    print(f"  Quantit√©: {row['quantite_totale']:.0f}")
    print(f"  CA: {row['chiffre_affaires']:,.2f}‚Ç¨")
    print(f"  Montant moyen: {row['montant_moyen']:.2f}‚Ç¨")