# üêª‚Äç‚ùÑÔ∏è Polars pour Data Engineers

Bienvenue dans ce module o√π tu vas d√©couvrir **Polars**, la biblioth√®que DataFrame ultra-rapide qui r√©volutionne le traitement de donn√©es en Python. Tu apprendras pourquoi Polars surpasse Pandas, comment exploiter son moteur d'ex√©cution lazy, et comment construire des pipelines ETL performants !

---

## üìã Pr√©requis

| Niveau | Comp√©tence |
|--------|------------|
| ‚úÖ Requis | Connaissances de base en Python |
| ‚úÖ Requis | Avoir utilis√© Pandas (m√™me basiquement) |
| üí° Recommand√© | Avoir suivi les modules pr√©c√©dents du bootcamp |

## üéØ Objectifs du module

√Ä la fin de ce module, tu seras capable de :

- Comprendre pourquoi Polars est **5-100x plus rapide** que Pandas
- Ma√Ætriser l'architecture **columnar** et le format **Apache Arrow**
- Utiliser les **expressions Polars** pour des transformations efficaces
- Exploiter l'ex√©cution **Lazy** pour des pipelines optimis√©s
- Migrer du code Pandas vers Polars
- Construire des pipelines ETL performants en production

<a href="https://colab.research.google.com/github/diakite-data/data-engineering-bootcamp/blob/main/notebooks/intermediate/17_polars_for_data_engineering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>> üí° **Conseil** : Cliquez sur le badge ci-dessus pour ex√©cuter ce notebook directement dans Google Colab (aucune installation requise).

---

## üöÄ 1. Polars vs Pandas : Pourquoi changer ?

Avant de plonger dans Polars, comprenons **pourquoi** cette biblioth√®que existe et ce qu'elle apporte.

### 1.1 Les limitations de Pandas

Pandas est formidable pour l'exploration de donn√©es, mais il a des **limitations structurelles** :

| Limitation | Explication | Impact |
|------------|-------------|--------|
| **Single-threaded** | Le GIL Python bloque le parall√©lisme | N'utilise qu'1 CPU |
| **Row-based en m√©moire** | Donn√©es stock√©es par ligne | Cache CPU inefficace |
| **Eager execution** | Chaque op√©ration s'ex√©cute imm√©diatement | Pas d'optimisation globale |
| **Copies fr√©quentes** | Beaucoup d'op√©rations copient les donn√©es | RAM x2 ou x3 |
| **M√©moire gourmande** | ~5-10x la taille du fichier | Limite les gros datasets |

### 1.2 Les forces de Polars

| Aspect | Pandas | Polars |
|--------|--------|--------|
| **Backend** | NumPy (C) | Rust ü¶Ä |
| **Threading** | Single (GIL) | Multi-threaded |
| **M√©moire** | Row-based | Columnar (Arrow) |
| **Execution** | Eager only | Eager + **Lazy** |
| **Vitesse** | Baseline | **5-100x plus rapide** |
| **Out-of-core** | ‚ùå | ‚úÖ (streaming) |
| **Optimiseur** | ‚ùå | ‚úÖ Query planner |

> üí° **En r√©sum√©** : Polars est con√ßu d√®s le d√©part pour la **performance** et les **gros volumes**, l√† o√π Pandas a √©t√© con√ßu pour l'**exploration interactive**.

> ‚ÑπÔ∏è **Le savais-tu ?**
>
> Polars a √©t√© cr√©√© en **2020** par **Ritchie Vink**, un ing√©nieur n√©erlandais frustr√© par la lenteur de Pandas.
>
> Le nom "Polars" fait r√©f√©rence √† l'**ours polaire** (üêª‚Äç‚ùÑÔ∏è) ‚Äî un clin d'≈ìil √† Pandas (üêº) tout en √©tant plus rapide et adapt√© aux environnements "froids" (haute performance).
>
> Polars est √©crit en **Rust**, un langage r√©put√© pour sa vitesse et sa s√©curit√© m√©moire.
>
> üìñ [Site officiel Polars](https://www.pola.rs/)

### 1.3 Benchmark concret

Comparons Pandas et Polars sur une op√©ration simple : lire un CSV et faire une agr√©gation.

In [None]:
# Cr√©er un fichier de test
import random
import csv
import os

os.makedirs("data", exist_ok=True)

# G√©n√©rer 500K lignes
categories = ["Electronics", "Clothing", "Food", "Books", "Sports"]
n_rows = 500_000

with open("data/benchmark.csv", "w", newline="") as f:
    writer = csv.writer(f)
    writer.writerow(["id", "category", "amount", "quantity"])
    for i in range(n_rows):
        writer.writerow([
            i,
            random.choice(categories),
            round(random.uniform(10, 1000), 2),
            random.randint(1, 100)
        ])

print(f"‚úÖ Fichier cr√©√© : data/benchmark.csv ({n_rows:,} lignes)")

In [None]:
import pandas as pd
import time

# Benchmark Pandas
start = time.time()

df_pandas = pd.read_csv("data/benchmark.csv")
result_pandas = (
    df_pandas
    .groupby("category")
    .agg({"amount": "sum", "quantity": "mean"})
    .reset_index()
)

pandas_time = time.time() - start
print(f"üêº Pandas : {pandas_time:.3f} secondes")
print(result_pandas)

In [None]:
import polars as pl
import time

# Benchmark Polars (Eager)
start = time.time()

df_polars = pl.read_csv("data/benchmark.csv")
result_polars = (
    df_polars
    .group_by("category")
    .agg(
        pl.col("amount").sum().alias("amount_sum"),
        pl.col("quantity").mean().alias("quantity_mean")
    )
)

polars_time = time.time() - start
print(f"üêª‚Äç‚ùÑÔ∏è Polars : {polars_time:.3f} secondes")
print(f"‚ö° Polars est {pandas_time/polars_time:.1f}x plus rapide !")
print(result_polars)

In [None]:
# Benchmark Polars (Lazy) - encore plus rapide !
start = time.time()

result_lazy = (
    pl.scan_csv("data/benchmark.csv")  # Lazy !
    .group_by("category")
    .agg(
        pl.col("amount").sum().alias("amount_sum"),
        pl.col("quantity").mean().alias("quantity_mean")
    )
    .collect()  # Ex√©cution optimis√©e
)

lazy_time = time.time() - start
print(f"üöÄ Polars Lazy : {lazy_time:.3f} secondes")
print(f"‚ö° Polars Lazy est {pandas_time/lazy_time:.1f}x plus rapide que Pandas !")

---

## üèóÔ∏è 2. Comprendre l'architecture de Polars

Pour bien utiliser Polars, il faut comprendre **pourquoi** il est si rapide.

### 2.1 Columnar vs Row-based

```text
ROW-BASED (Pandas)                    COLUMNAR (Polars)
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê                    ‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê                  ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ id  ‚îÇ name ‚îÇ age ‚îÇ                  ‚îÇ id:   [1, 2, 3]   ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§                  ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ  1  ‚îÇ Ana  ‚îÇ 25  ‚îÇ  ‚Üê Ligne 1       ‚îÇ name: [A, B, C]   ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§                  ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ  2  ‚îÇ Bob  ‚îÇ 30  ‚îÇ  ‚Üê Ligne 2       ‚îÇ age:  [25, 30, 22]‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§                  ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
‚îÇ  3  ‚îÇ Cat  ‚îÇ 22  ‚îÇ  ‚Üê Ligne 3              ‚Üë
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò                   Colonnes contigu√´s
        ‚Üë                              en m√©moire
  Lignes contigu√´s
  en m√©moire
```

**Pourquoi columnar est plus rapide ?**

| Avantage | Explication |
|----------|-------------|
| **Cache CPU** | Donn√©es contigu√´s = moins de cache misses |
| **SIMD** | Op√©rations vectoris√©es sur colonnes enti√®res |
| **Compression** | Colonnes homog√®nes = meilleure compression |
| **S√©lection** | Lire seulement les colonnes n√©cessaires |

### 2.2 Apache Arrow : le format sous-jacent

Polars utilise **Apache Arrow** comme format m√©moire :

| Avantage | Description |
|----------|-------------|
| **Zero-copy** | Partage de donn√©es sans copie |
| **Interop√©rabilit√©** | Compatible Spark, DuckDB, PyArrow |
| **Standardis√©** | Format ouvert et document√© |

### 2.3 Eager vs Lazy execution

| Mode | Description | Quand l'utiliser |
|------|-------------|------------------|
| **Eager** | Ex√©cute imm√©diatement chaque op√©ration | Exploration, debug, petits datasets |
| **Lazy** | Construit un plan, optimise, puis ex√©cute | Production, gros fichiers, pipelines |

```python
# Eager : r√©sultat imm√©diat
df = pl.read_csv("data.csv")        # Lit maintenant
df = df.filter(pl.col("x") > 5)     # Filtre maintenant

# Lazy : plan d'ex√©cution
lf = pl.scan_csv("data.csv")        # Cr√©e un plan
lf = lf.filter(pl.col("x") > 5)     # Ajoute au plan
df = lf.collect()                    # Ex√©cute tout (optimis√©)
```

### 2.4 Query Optimizer

Le **Query Optimizer** de Polars applique automatiquement des optimisations :

| Optimisation | Description |
|--------------|-------------|
| **Predicate pushdown** | Filtres appliqu√©s le plus t√¥t possible |
| **Projection pruning** | Colonnes inutiles jamais lues |
| **Common subexpression** | Calculs redondants factoris√©s |
| **Parallelization** | Op√©rations distribu√©es sur tous les CPUs |

```text
PLAN ORIGINAL                    PLAN OPTIMIS√â
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê                    ‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

scan_csv(all cols)               scan_csv(only needed cols)
      ‚îÇ                                ‚îÇ
      ‚ñº                                ‚ñº
with_columns(...)                filter(amount > 100)  ‚Üê Pushdown!
      ‚îÇ                                ‚îÇ
      ‚ñº                                ‚ñº
filter(amount > 100)             with_columns(...)
      ‚îÇ                                ‚îÇ
      ‚ñº                                ‚ñº
   result                           result
```

---

## üíª 3. Installation & Configuration

### Installation

```bash
# Installation de base
pip install polars

# Avec toutes les features (recommand√©)
pip install 'polars[all]'

# Features sp√©cifiques
pip install 'polars[pyarrow,pandas,numpy,fsspec]'
```

### V√©rification

In [None]:
import polars as pl

print(f"‚úÖ Polars version : {pl.__version__}")

# Configuration de l'affichage
pl.Config.set_tbl_rows(10)           # Lignes affich√©es
pl.Config.set_tbl_cols(12)           # Colonnes affich√©es
pl.Config.set_fmt_str_lengths(50)    # Longueur des strings

# Voir le nombre de threads utilis√©s
print(f"üîß Threads disponibles : {pl.thread_pool_size()}")

---

## üìÇ 4. Charger & Exporter des donn√©es

### 4.1 Formats support√©s

| Format | Read (Eager) | Scan (Lazy) | Write |
|--------|--------------|-------------|-------|
| **CSV** | `read_csv()` | `scan_csv()` | `write_csv()` |
| **Parquet** | `read_parquet()` | `scan_parquet()` | `write_parquet()` |
| **JSON** | `read_json()` | `scan_ndjson()` | `write_json()` |
| **Excel** | `read_excel()` | ‚ùå | `write_excel()` |
| **Database** | `read_database()` | ‚ùå | ‚ùå |
| **IPC/Feather** | `read_ipc()` | `scan_ipc()` | `write_ipc()` |

### 4.2 Lecture Eager vs Lazy

In [None]:
import polars as pl

# ============ EAGER (tout en m√©moire) ============
df = pl.read_csv("data/benchmark.csv")
print("Eager - Type:", type(df))
print(df.head(3))

print("\n" + "="*50 + "\n")

# ============ LAZY (plan d'ex√©cution) ============
lf = pl.scan_csv("data/benchmark.csv")
print("Lazy - Type:", type(lf))
print(lf)  # Affiche le plan, pas les donn√©es

In [None]:
# Cr√©er plusieurs fichiers pour l'exemple
import os
os.makedirs("data/multi", exist_ok=True)

for i in range(3):
    pl.DataFrame({
        "id": range(i*100, (i+1)*100),
        "value": [i*10 + j for j in range(100)]
    }).write_csv(f"data/multi/file_{i}.csv")

print("‚úÖ Fichiers cr√©√©s")

# Lire plusieurs fichiers avec glob pattern
lf = pl.scan_csv("data/multi/*.csv")
print(f"\nNombre de lignes : {lf.collect().height}")

In [None]:
# √âcriture
df = pl.DataFrame({
    "name": ["Alice", "Bob", "Charlie"],
    "age": [25, 30, 35],
    "city": ["Paris", "Lyon", "Marseille"]
})

# CSV
df.write_csv("data/output.csv")

# Parquet (recommand√© pour la production)
df.write_parquet("data/output.parquet")

# JSON
df.write_json("data/output.json")

print("‚úÖ Fichiers export√©s")

# V√©rifier avec Parquet
df_parquet = pl.read_parquet("data/output.parquet")
print(df_parquet)

---

## üî• 5. Expressions Polars ‚Äî Le c≈ìur du moteur

> üß† **Les expressions sont ce qui rend Polars si puissant.** C'est un changement de paradigme par rapport √† Pandas.

### 5.1 Philosophie : tout est expression

```python
# ‚ùå Pandas : op√©rations sur colonnes
df["new_col"] = df["a"] + df["b"]

# ‚úÖ Polars : expressions
df.with_columns(
    (pl.col("a") + pl.col("b")).alias("new_col")
)
```

### 5.2 Expressions de base

| Expression | Description | Exemple |
|------------|-------------|---------|
| `pl.col("x")` | S√©lectionner une colonne | `pl.col("amount")` |
| `pl.col("x", "y")` | Plusieurs colonnes | `pl.col("a", "b", "c")` |
| `pl.all()` | Toutes les colonnes | `df.select(pl.all())` |
| `pl.exclude("x")` | Toutes sauf x | `pl.exclude("id")` |
| `pl.lit(42)` | Valeur litt√©rale | `pl.lit("constant")` |
| `pl.col("*")` | Toutes (autre syntaxe) | `pl.col("*")` |

In [None]:
import polars as pl

df = pl.DataFrame({
    "name": ["Alice", "Bob", "Charlie", "Diana"],
    "age": [25, 30, 35, 28],
    "salary": [50000, 60000, 75000, 55000],
    "department": ["IT", "HR", "IT", "Finance"]
})

print("DataFrame original :")
print(df)

# S√©lectionner des colonnes avec expressions
print("\nS√©lection avec expressions :")
print(
    df.select(
        pl.col("name"),
        pl.col("salary") / 12,  # Salaire mensuel
    )
)

In [None]:
# Expressions conditionnelles : when/then/otherwise
print("Expressions conditionnelles :")
print(
    df.with_columns(
        pl.when(pl.col("age") >= 30)
          .then(pl.lit("Senior"))
          .otherwise(pl.lit("Junior"))
          .alias("level"),
        
        pl.when(pl.col("salary") > 60000)
          .then(pl.lit("High"))
          .when(pl.col("salary") > 50000)
          .then(pl.lit("Medium"))
          .otherwise(pl.lit("Low"))
          .alias("salary_band")
    )
)

In [None]:
# Cha√Ænage d'expressions
print("Cha√Ænage d'expressions :")
print(
    df.with_columns(
        # String operations
        pl.col("name").str.to_uppercase().alias("NAME_UPPER"),
        pl.col("name").str.len_chars().alias("name_length"),
        
        # Math operations
        (pl.col("salary") * 1.1).round(2).alias("salary_raised"),
    )
)

---

## üõ†Ô∏è 6. Manipulations de donn√©es essentielles

### 6.1 S√©lection de colonnes

In [None]:
df = pl.read_csv("data/benchmark.csv")

# S√©lection simple
print("S√©lection simple :")
print(df.select("category", "amount").head(3))

# S√©lection avec transformation
print("\nS√©lection avec transformation :")
print(
    df.select(
        pl.col("category"),
        (pl.col("amount") * pl.col("quantity")).alias("total")
    ).head(3)
)

# S√©lection par type
print("\nColonnes num√©riques uniquement :")
print(df.select(pl.col(pl.Float64, pl.Int64)).head(3))

### 6.2 Filtrage

In [None]:
# Filtre simple
print("Filtre simple (amount > 500) :")
print(df.filter(pl.col("amount") > 500).head(3))

# Filtres multiples (AND)
print("\nFiltres multiples (AND) :")
print(
    df.filter(
        (pl.col("amount") > 500) & 
        (pl.col("category") == "Electronics")
    ).head(3)
)

# Filtres multiples (OR)
print("\nFiltres multiples (OR) :")
print(
    df.filter(
        (pl.col("category") == "Electronics") | 
        (pl.col("category") == "Books")
    ).head(3)
)

# Filtre avec is_in
print("\nFiltre avec is_in :")
print(
    df.filter(
        pl.col("category").is_in(["Electronics", "Books"])
    ).head(3)
)

### 6.3 Ajout / modification de colonnes

In [None]:
print("Ajout de colonnes :")
result = df.with_columns(
    # Calcul
    (pl.col("amount") * pl.col("quantity")).alias("total"),
    
    # Valeur constante
    pl.lit("USD").alias("currency"),
    
    # Transformation de colonne existante
    pl.col("category").str.to_uppercase().alias("CATEGORY"),
    
    # Conditionnel
    pl.when(pl.col("amount") > 500)
      .then(pl.lit("High"))
      .otherwise(pl.lit("Low"))
      .alias("amount_level")
)

print(result.head(5))

### 6.4 GroupBy & Aggregations

In [None]:
print("GroupBy simple :")
print(
    df.group_by("category").agg(
        pl.col("amount").sum().alias("total_amount"),
        pl.col("amount").mean().alias("avg_amount"),
        pl.col("amount").max().alias("max_amount"),
        pl.len().alias("count")
    ).sort("total_amount", descending=True)
)

In [None]:
# Aggregations avanc√©es
print("Aggregations avanc√©es :")
print(
    df.group_by("category").agg(
        # Statistiques
        pl.col("amount").mean().alias("avg"),
        pl.col("amount").std().alias("std"),
        pl.col("amount").quantile(0.5).alias("median"),
        
        # Comptages conditionnels
        (pl.col("amount") > 500).sum().alias("high_amount_count"),
        
        # Premier/Dernier
        pl.col("amount").first().alias("first_amount"),
    )
)

### 6.5 Tri, renommage, suppression

In [None]:
# Tri
print("Tri d√©croissant :")
print(df.sort("amount", descending=True).head(3))

# Tri multiple
print("\nTri multiple :")
print(df.sort(["category", "amount"], descending=[True, False]).head(5))

# Renommer
print("\nRenommer :")
print(df.rename({"amount": "montant", "quantity": "quantite"}).head(2))

# Supprimer des colonnes
print("\nSupprimer colonnes :")
print(df.drop("id").head(2))

### 6.6 Joins

In [None]:
# Cr√©er des DataFrames pour les joins
orders = pl.DataFrame({
    "order_id": [1, 2, 3, 4],
    "customer_id": [101, 102, 101, 103],
    "amount": [100, 200, 150, 300]
})

customers = pl.DataFrame({
    "customer_id": [101, 102, 104],
    "name": ["Alice", "Bob", "Diana"]
})

print("Orders:", orders)
print("\nCustomers:", customers)

# Inner join
print("\nInner Join :")
print(orders.join(customers, on="customer_id", how="inner"))

# Left join
print("\nLeft Join :")
print(orders.join(customers, on="customer_id", how="left"))

### 6.7 Dates et timestamps

In [None]:
from datetime import datetime, date

df_dates = pl.DataFrame({
    "event": ["A", "B", "C", "D"],
    "timestamp": [
        datetime(2024, 1, 15, 10, 30),
        datetime(2024, 3, 20, 14, 45),
        datetime(2024, 6, 5, 9, 0),
        datetime(2024, 12, 25, 18, 30)
    ]
})

print("DataFrame avec dates :")
print(df_dates)

print("\nExtractions de dates :")
print(
    df_dates.with_columns(
        pl.col("timestamp").dt.year().alias("year"),
        pl.col("timestamp").dt.month().alias("month"),
        pl.col("timestamp").dt.day().alias("day"),
        pl.col("timestamp").dt.hour().alias("hour"),
        pl.col("timestamp").dt.weekday().alias("weekday"),
        pl.col("timestamp").dt.strftime("%Y-%m-%d").alias("date_str"),
    )
)

---

## üöÄ 7. Lazy Execution ‚Äî Le Game Changer

> üéØ **C'est ce qui rend Polars adapt√© √† la production et aux gros volumes.**

### 7.1 Cr√©er un LazyFrame

In [None]:
# Depuis un fichier (recommand√©)
lf = pl.scan_csv("data/benchmark.csv")
print("Type:", type(lf))
print("\nLazyFrame (pas encore ex√©cut√©) :")
print(lf)

In [None]:
# Depuis un DataFrame existant
df = pl.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})
lf = df.lazy()
print("Converti en LazyFrame:", type(lf))

### 7.2 Construire le pipeline

In [None]:
# Pipeline complet en Lazy
pipeline = (
    pl.scan_csv("data/benchmark.csv")
    .filter(pl.col("amount") > 100)
    .with_columns(
        (pl.col("amount") * pl.col("quantity")).alias("total"),
        pl.col("category").str.to_uppercase().alias("CATEGORY")
    )
    .group_by("CATEGORY")
    .agg(
        pl.col("total").sum().alias("total_revenue"),
        pl.len().alias("transaction_count")
    )
    .sort("total_revenue", descending=True)
)

print("Pipeline d√©fini (pas encore ex√©cut√©) :")
print(pipeline)
print("\n‚ö†Ô∏è Rien n'a √©t√© lu ou calcul√© !")

### 7.3 Ex√©cuter avec .collect()

In [None]:
import time

start = time.time()
result = pipeline.collect()  # MAINTENANT √ßa s'ex√©cute
print(f"‚è±Ô∏è Temps d'ex√©cution : {time.time() - start:.3f}s")
print("\nR√©sultat :")
print(result)

### 7.4 Voir le plan d'ex√©cution

In [None]:
# Plan logique (ce que tu as √©crit)
print("=== PLAN LOGIQUE ===")
print(pipeline.explain())

print("\n" + "="*60 + "\n")

# Plan optimis√© (ce que Polars ex√©cute r√©ellement)
print("=== PLAN OPTIMIS√â ===")
print(pipeline.explain(optimized=True))

### 7.5 Streaming pour fichiers massifs

Le mode **streaming** permet de traiter des fichiers plus grands que la RAM.

In [None]:
# Streaming : traite par chunks
result_streaming = (
    pl.scan_csv("data/benchmark.csv")
    .filter(pl.col("category") == "Electronics")
    .group_by("category")
    .agg(pl.col("amount").sum())
    .collect(streaming=True)  # Mode streaming
)

print("R√©sultat avec streaming :")
print(result_streaming)

### üñºÔ∏è Sch√©ma : Pipeline Lazy

```text
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  scan_csv() ‚îÇ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ  filter()   ‚îÇ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇwith_columns()‚îÇ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ  group_by() ‚îÇ
‚îÇ  (plan)     ‚îÇ     ‚îÇ  (plan)     ‚îÇ     ‚îÇ  (plan)     ‚îÇ     ‚îÇ  (plan)     ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                                                                   ‚îÇ
                                                                   ‚ñº
                                                            ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
                                                            ‚îÇ  collect()  ‚îÇ
                                                            ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                                                                   ‚îÇ
                                                    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
                                                    ‚îÇ    Query Optimizer          ‚îÇ
                                                    ‚îÇ  ‚Ä¢ Predicate pushdown       ‚îÇ
                                                    ‚îÇ  ‚Ä¢ Column pruning           ‚îÇ
                                                    ‚îÇ  ‚Ä¢ Parallel execution       ‚îÇ
                                                    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                                                                   ‚îÇ
                                                                   ‚ñº
                                                            ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
                                                            ‚îÇ  DataFrame  ‚îÇ
                                                            ‚îÇ  (r√©sultat) ‚îÇ
                                                            ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

---

## üîÑ 8. Migration Pandas ‚Üí Polars

### 8.1 Tableau de correspondance

| Op√©ration | Pandas | Polars |
|-----------|--------|--------|
| Lire CSV | `pd.read_csv()` | `pl.read_csv()` / `pl.scan_csv()` |
| Lire Parquet | `pd.read_parquet()` | `pl.read_parquet()` / `pl.scan_parquet()` |
| S√©lection colonne | `df["col"]` | `df.select("col")` |
| Plusieurs colonnes | `df[["a", "b"]]` | `df.select("a", "b")` |
| Filtre | `df[df["x"] > 5]` | `df.filter(pl.col("x") > 5)` |
| Nouvelle colonne | `df["new"] = df["a"] + 1` | `df.with_columns((pl.col("a") + 1).alias("new"))` |
| GroupBy | `df.groupby("x").agg({"y": "sum"})` | `df.group_by("x").agg(pl.col("y").sum())` |
| Tri | `df.sort_values("x")` | `df.sort("x")` |
| Renommer | `df.rename(columns={"a": "b"})` | `df.rename({"a": "b"})` |
| Drop | `df.drop(columns=["x"])` | `df.drop("x")` |
| Reset index | `df.reset_index()` | N/A (pas d'index) |
| Apply | `df.apply(func)` | `df.map_rows(func)` ‚ö†Ô∏è √©viter |

### 8.2 Interop√©rabilit√©

In [None]:
import pandas as pd
import polars as pl

# Cr√©er un DataFrame Pandas
pandas_df = pd.DataFrame({
    "name": ["Alice", "Bob"],
    "age": [25, 30]
})

# Pandas ‚Üí Polars
polars_df = pl.from_pandas(pandas_df)
print("Pandas ‚Üí Polars :")
print(polars_df)

# Polars ‚Üí Pandas
back_to_pandas = polars_df.to_pandas()
print("\nPolars ‚Üí Pandas :")
print(back_to_pandas)

### 8.3 Diff√©rences cl√©s √† retenir

| Aspect | Pandas | Polars |
|--------|--------|--------|
| **Index** | ‚úÖ Index par d√©faut | ‚ùå Pas d'index |
| **Modification in-place** | ‚úÖ `inplace=True` | ‚ùå Toujours immutable |
| **Typage** | Flexible | Strict |
| **NaN vs null** | NaN (float) | null (natif) |
| **Cha√Ænage** | Limit√© | Naturel et optimis√© |

In [None]:
# Exemple de migration compl√®te

# ============ VERSION PANDAS ============
# df = pd.read_csv("data.csv")
# df = df[df["amount"] > 100]
# df["total"] = df["amount"] * df["quantity"]
# result = df.groupby("category").agg({"total": "sum"}).reset_index()

# ============ VERSION POLARS (Eager) ============
result_eager = (
    pl.read_csv("data/benchmark.csv")
    .filter(pl.col("amount") > 100)
    .with_columns(
        (pl.col("amount") * pl.col("quantity")).alias("total")
    )
    .group_by("category")
    .agg(pl.col("total").sum())
)

# ============ VERSION POLARS (Lazy - recommand√©) ============
result_lazy = (
    pl.scan_csv("data/benchmark.csv")
    .filter(pl.col("amount") > 100)
    .with_columns(
        (pl.col("amount") * pl.col("quantity")).alias("total")
    )
    .group_by("category")
    .agg(pl.col("total").sum())
    .collect()
)

print("R√©sultat :")
print(result_lazy)

---

## ‚ö†Ô∏è 9. Bonnes pratiques & Erreurs fr√©quentes

### ‚ùå Erreurs fr√©quentes

| Erreur | Probl√®me | Solution |
|--------|----------|----------|
| `.apply()` sur chaque ligne | Extr√™mement lent | Utiliser expressions natives |
| `df["col"]` style Pandas | Ne fonctionne pas | `df.select("col")` ou `pl.col()` |
| `read_csv()` sur 100 fichiers | Lent, beaucoup de RAM | `scan_csv("*.csv")` + glob |
| Oublier `.collect()` | Pas d'ex√©cution | Toujours `.collect()` √† la fin |
| M√©langer eager/lazy | Erreurs de type | Rester coh√©rent dans le pipeline |
| Pas d'alias sur les expressions | Noms de colonnes illisibles | Toujours `.alias("nom")` |

In [None]:
# ‚ùå MAUVAIS : apply() ligne par ligne
# df.map_rows(lambda row: row[0] * 2)  # TR√àS LENT

# ‚úÖ BON : expression native
df = pl.DataFrame({"x": [1, 2, 3]})
result = df.with_columns((pl.col("x") * 2).alias("x_doubled"))
print("‚úÖ Expression native :")
print(result)

In [None]:
# ‚ùå MAUVAIS : read_csv sur plusieurs fichiers s√©par√©ment
# dfs = [pl.read_csv(f) for f in files]  # Pas optimis√©

# ‚úÖ BON : scan_csv avec glob
lf = pl.scan_csv("data/multi/*.csv")
print("‚úÖ Scan avec glob :")
print(lf.collect())

### ‚úÖ Bonnes pratiques

| Pratique | Pourquoi |
|----------|----------|
| **Utiliser Lazy en production** | Optimisation automatique |
| **Pr√©f√©rer Parquet** | 10x plus rapide que CSV, compression |
| **Cha√Æner les expressions** | Plus lisible, plus optimis√© |
| **√âviter `.apply()`** | Utiliser expressions natives |
| **Profiler avec `.explain()`** | Comprendre l'ex√©cution |
| **Toujours `.alias()`** | Noms de colonnes explicites |
| **`scan_*` pour gros fichiers** | Lazy = optimisations |
| **Streaming pour > RAM** | `collect(streaming=True)` |

---

## üß™ Quiz de fin de module

R√©ponds aux questions suivantes pour v√©rifier tes acquis.

---

### ‚ùì Q1. Quel est le principal avantage de l'architecture columnar de Polars ?
a) Plus facile √† lire pour les humains  
b) Op√©rations vectoris√©es plus rapides et meilleure utilisation du cache CPU  
c) Compatible avec Excel  
d) Utilise moins de colonnes

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî Le stockage columnar permet des op√©rations vectoris√©es (SIMD) et une meilleure utilisation du cache CPU car les donn√©es d'une colonne sont contigu√´s en m√©moire.

</details>

---

### ‚ùì Q2. Quelle est la diff√©rence entre `pl.read_csv()` et `pl.scan_csv()` ?
a) `read_csv` est plus rapide  
b) `scan_csv` cr√©e un LazyFrame et permet l'optimisation  
c) `scan_csv` ne supporte pas les gros fichiers  
d) Aucune diff√©rence

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî `scan_csv` cr√©e un LazyFrame (plan d'ex√©cution) qui sera optimis√© avant ex√©cution, tandis que `read_csv` charge imm√©diatement tout en m√©moire.

</details>

---

### ‚ùì Q3. Comment ajouter une nouvelle colonne en Polars ?
a) `df["new"] = df["old"] * 2`  
b) `df.with_columns((pl.col("old") * 2).alias("new"))`  
c) `df.add_column("new", df["old"] * 2)`  
d) `df.insert("new", df["old"] * 2)`

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî En Polars, on utilise `with_columns()` avec des expressions. La syntaxe `df["col"]` style Pandas ne fonctionne pas.

</details>

---

### ‚ùì Q4. Que fait le Query Optimizer avec "predicate pushdown" ?
a) Supprime les colonnes inutiles  
b) Applique les filtres le plus t√¥t possible dans le pipeline  
c) Parall√©lise les calculs  
d) Compresse les donn√©es

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî Le predicate pushdown d√©place les filtres le plus t√¥t possible, r√©duisant ainsi la quantit√© de donn√©es √† traiter dans les √©tapes suivantes.

</details>

---

### ‚ùì Q5. Quand utiliser `.collect()` ?
a) Apr√®s chaque op√©ration  
b) √Ä la fin du pipeline Lazy pour d√©clencher l'ex√©cution  
c) Pour convertir en Pandas  
d) Pour √©crire un fichier

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî `.collect()` d√©clenche l'ex√©cution d'un LazyFrame et retourne un DataFrame. Sans `.collect()`, rien n'est calcul√©.

</details>

---

### ‚ùì Q6. Pourquoi √©viter `.apply()` en Polars ?
a) Ce n'est pas support√©  
b) C'est lent car √ßa passe par Python pour chaque ligne  
c) √áa modifie les donn√©es en place  
d) √áa consomme trop de m√©moire

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî `.apply()` (ou `map_rows`) passe par Python pour chaque ligne, perdant tous les avantages du moteur Rust vectoris√©. Pr√©f√©rer les expressions natives.

</details>

---

### ‚ùì Q7. Quel format de fichier est recommand√© en production avec Polars ?
a) CSV  
b) JSON  
c) Parquet  
d) Excel

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : c** ‚Äî Parquet est columnar (comme Polars), compress√©, et supporte les types. Il est 10x+ plus rapide que CSV.

</details>

---

### ‚ùì Q8. Comment voir le plan d'ex√©cution optimis√© d'un LazyFrame ?
a) `lf.show_plan()`  
b) `lf.explain(optimized=True)`  
c) `lf.describe()`  
d) `print(lf)`

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî `.explain(optimized=True)` affiche le plan d'ex√©cution apr√®s les optimisations du Query Optimizer.

</details>

---

## üöÄ Mini-projet : Pipeline ETL Polars

### üéØ Objectif
Construire un pipeline ETL **complet en mode Lazy** qui :
- Lit plusieurs fichiers CSV
- Nettoie et transforme les donn√©es
- Agr√®ge par cat√©gorie et p√©riode
- Exporte en Parquet

### üèóÔ∏è Architecture

```text
data/raw/*.csv
      ‚îÇ
      ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ   scan_csv()    ‚îÇ  Lazy read (glob pattern)
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ    filter()     ‚îÇ  Nettoyage (nulls, invalides)
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ with_columns()  ‚îÇ  Enrichissement
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ   group_by()    ‚îÇ  Agr√©gation
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ    collect()    ‚îÇ  Ex√©cution optimis√©e
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
data/processed/output.parquet
```

### üìÅ Structure projet

```text
polars-etl-project/
‚îú‚îÄ‚îÄ data/
‚îÇ   ‚îú‚îÄ‚îÄ raw/
‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ transactions_01.csv
‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ transactions_02.csv
‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ transactions_03.csv
‚îÇ   ‚îî‚îÄ‚îÄ processed/
‚îÇ       ‚îî‚îÄ‚îÄ output.parquet
‚îú‚îÄ‚îÄ src/
‚îÇ   ‚îî‚îÄ‚îÄ etl_pipeline.py
‚îî‚îÄ‚îÄ requirements.txt
```

In [None]:
# Setup : cr√©er les donn√©es de test
import polars as pl
import random
from datetime import datetime, timedelta
import os

os.makedirs("data/raw", exist_ok=True)
os.makedirs("data/processed", exist_ok=True)

categories = ["Electronics", "Clothing", "Food", "Books", "Sports"]
base_date = datetime(2024, 1, 1)

# G√©n√©rer 3 fichiers CSV
for file_num in range(1, 4):
    n_rows = 10000
    data = {
        "transaction_id": range(file_num * 10000, file_num * 10000 + n_rows),
        "timestamp": [base_date + timedelta(days=random.randint(0, 365)) for _ in range(n_rows)],
        "category": [random.choice(categories) for _ in range(n_rows)],
        "amount": [round(random.uniform(-50, 1000), 2) for _ in range(n_rows)],  # Certains n√©gatifs !
        "quantity": [random.randint(0, 100) for _ in range(n_rows)],  # Certains √† 0 !
        "customer_id": [random.randint(1000, 9999) for _ in range(n_rows)]
    }
    df = pl.DataFrame(data)
    df.write_csv(f"data/raw/transactions_{file_num:02d}.csv")

print("‚úÖ Donn√©es de test cr√©√©es (3 fichiers x 10,000 lignes)")

In [None]:
import polars as pl
import time

print("üöÄ D√©marrage du pipeline ETL Polars...\n")
start = time.time()

# ============ PIPELINE LAZY ============
result = (
    # 1. EXTRACT : Lire tous les CSV avec glob pattern
    pl.scan_csv("data/raw/*.csv")
    
    # 2. CLEAN : Filtrer les donn√©es invalides
    .filter(
        (pl.col("amount") > 0) &           # Montants positifs
        (pl.col("quantity") > 0) &         # Quantit√©s positives
        (pl.col("customer_id").is_not_null())  # Pas de null
    )
    
    # 3. TRANSFORM : Enrichir les donn√©es
    .with_columns(
        # Calculer le total
        (pl.col("amount") * pl.col("quantity")).alias("total_revenue"),
        
        # Extraire ann√©e et mois
        pl.col("timestamp").str.to_datetime().dt.year().alias("year"),
        pl.col("timestamp").str.to_datetime().dt.month().alias("month"),
        
        # Cat√©goriser les montants
        pl.when(pl.col("amount") > 500)
          .then(pl.lit("High"))
          .when(pl.col("amount") > 100)
          .then(pl.lit("Medium"))
          .otherwise(pl.lit("Low"))
          .alias("amount_tier"),
        
        # Uppercase category
        pl.col("category").str.to_uppercase().alias("category_upper")
    )
    
    # 4. AGGREGATE : Par cat√©gorie et mois
    .group_by(["year", "month", "category_upper"])
    .agg(
        pl.col("total_revenue").sum().alias("total_revenue"),
        pl.col("total_revenue").mean().alias("avg_revenue"),
        pl.len().alias("transaction_count"),
        pl.col("customer_id").n_unique().alias("unique_customers"),
        (pl.col("amount_tier") == "High").sum().alias("high_value_count")
    )
    
    # 5. SORT
    .sort(["year", "month", "total_revenue"], descending=[False, False, True])
    
    # 6. EXECUTE
    .collect()
)

execution_time = time.time() - start
print(f"‚è±Ô∏è Pipeline ex√©cut√© en {execution_time:.3f} secondes")
print(f"üìä R√©sultat : {result.height} lignes, {result.width} colonnes\n")

# Afficher un aper√ßu
print("Aper√ßu des r√©sultats :")
print(result.head(10))

# 7. EXPORT en Parquet
result.write_parquet("data/processed/monthly_summary.parquet")
print("\n‚úÖ R√©sultat export√© : data/processed/monthly_summary.parquet")

In [None]:
# V√©rifier le fichier Parquet
print("üìñ Lecture du fichier Parquet export√© :")
df_check = pl.read_parquet("data/processed/monthly_summary.parquet")
print(df_check.describe())

---

## üìö Ressources pour aller plus loin

### üåê Documentation officielle
- [Polars User Guide](https://docs.pola.rs/) ‚Äî Documentation compl√®te
- [Polars API Reference](https://docs.pola.rs/api/python/stable/reference/) ‚Äî R√©f√©rence API
- [Polars GitHub](https://github.com/pola-rs/polars) ‚Äî Code source

### üìñ Tutoriels & Articles
- [Polars vs Pandas Benchmark](https://www.pola.rs/benchmarks.html) ‚Äî Benchmarks officiels
- [Modern Polars](https://kevinheavey.github.io/modern-polars/) ‚Äî Guide approfondi

### üîß Outils compl√©mentaires
- [DuckDB](https://duckdb.org/) ‚Äî SQL analytique ultra-rapide (compatible Polars)
- [PyArrow](https://arrow.apache.org/docs/python/) ‚Äî Format Arrow sous-jacent

---

## ‚û°Ô∏è Prochaine √©tape

Maintenant que tu ma√Ætrises Polars, d√©couvrons d'autres outils **haute performance** pour Python !

üëâ **Module suivant : `18_high_performance_python.ipynb`** ‚Äî Python Haute Performance

Tu vas apprendre :
- **Dask** : parall√©lisation de Pandas/NumPy
- **Vaex** : traitement out-of-core
- **multiprocessing** : parall√©lisme CPU
- **concurrent.futures** : ThreadPool et ProcessPool
- **async/await** : I/O asynchrone

---

üéâ **F√©licitations !** Tu as termin√© le module Polars pour Data Engineers.

In [None]:
# Nettoyage des fichiers temporaires (optionnel)
import shutil
import os

# D√©commenter pour nettoyer
# if os.path.exists("data"):
#     shutil.rmtree("data")
#     print("üßπ Dossier data/ supprim√©")