# üéÆ Projet Int√©grateur : Video Games Analytics Platform

## Du CSV au Dashboard ‚Äî Ton Premier Pipeline Data Complet

---

Bienvenue dans ce **projet int√©grateur** ! Tu vas construire une plateforme d'analyse de jeux vid√©o **de A √† Z**, en mobilisant toutes les comp√©tences acquises dans les modules pr√©c√©dents.

### üéì Approche P√©dagogique

Ce projet est structur√© en **d√©fis**. Pour chaque √©tape :

1. üìã **Lis le d√©fi** et les consignes
2. ü§î **R√©fl√©chis** et essaie de coder toi-m√™me
3. üí° **Consulte les indices** si tu bloques
4. ‚úÖ **V√©rifie** ta solution en d√©roulant les r√©ponses

> ‚ö†Ô∏è **Important** : Ne regarde pas les solutions avant d'avoir essay√© ! C'est en pratiquant qu'on apprend.

---

## üéØ Ce que tu vas construire

```{mermaid}
flowchart LR
    subgraph SOURCES["üì• SOURCES"]
        K["Kaggle<br/>Video Games Sales"]
        S["Web Scraping<br/>RAWG API"]
    end
    
    subgraph PROCESSING["‚öôÔ∏è PROCESSING"]
        PD["Pandas<br/>Nettoyage"]
        SP["PySpark<br/>Agr√©gations"]
    end
    
    subgraph STORAGE["üíæ STOCKAGE"]
        DUCK[("DuckDB<br/>SQL Analytics")]
        ES[("Elasticsearch<br/>Recherche")]
    end
    
    subgraph SERVING["üìä EXPOSITION"]
        API["FastAPI<br/>REST API"]
        DASH["Streamlit<br/>Dashboard"]
    end
    
    K --> PD
    S --> PD
    PD --> DUCK
    PD --> ES
    DUCK --> SP
    SP --> API
    ES --> API
    API --> DASH
    DUCK --> DASH
    
    style SOURCES fill:#e74c3c,color:#fff
    style PROCESSING fill:#3498db,color:#fff
    style STORAGE fill:#2ecc71,color:#fff
    style SERVING fill:#9b59b6,color:#fff
```

## üìö Comp√©tences Mobilis√©es

| Module | Comp√©tence | Application dans le projet |
|--------|------------|---------------------------|
| M01 | Concepts Data Engineering | Architecture du pipeline |
| M02 | Bash & Linux | Scripts d'automatisation |
| M03 | Git | Versioning du projet |
| M04-05 | Python & Pandas | Traitement de donn√©es |
| M06-07 | SQL & Databases | Requ√™tes analytiques avec DuckDB |
| M08 | Big Data Concepts | Pens√©e distribu√©e |
| M10 | Elasticsearch | Recherche full-text |
| M11 | PySpark | Traitement √† l'√©chelle |
| M12 | Orchestration | Pipeline automatis√© |
| M13 | FastAPI | API REST |
| **NEW** | **Web Scraping** | BeautifulSoup, Requests |
| **NEW** | **Streamlit** | Dashboard interactif |

---

## üìä Le Dataset

**Kaggle - Video Game Sales with Ratings**

üîó https://www.kaggle.com/datasets/rush4ratio/video-game-sales-with-ratings

| Colonne | Description |
|---------|-------------|
| `Name` | Nom du jeu |
| `Platform` | Console (PS4, Xbox, PC...) |
| `Year_of_Release` | Ann√©e de sortie |
| `Genre` | Genre (Action, Sports, RPG...) |
| `Publisher` | √âditeur |
| `NA_Sales`, `EU_Sales`, `JP_Sales`, `Other_Sales` | Ventes par r√©gion (millions) |
| `Global_Sales` | Ventes mondiales |
| `Critic_Score` | Note Metacritic (0-100) |
| `User_Score` | Note utilisateurs (0-10) |
| `Rating` | Classification ESRB (E, T, M...) |

---

# üöÄ Phase 0 : Setup du Projet

Avant de coder, il faut pr√©parer l'environnement de travail.

## üß© D√©fi 0.1 : Cr√©er la structure du projet

### üìã Consigne

Cr√©e une structure de dossiers pour le projet `videogames-analytics` avec :
- Un dossier `data/` avec des sous-dossiers `raw/`, `processed/`, `enriched/`
- Un dossier `scripts/` pour les scripts Python
- Un dossier `api/` pour FastAPI
- Un dossier `dashboard/` pour Streamlit
- Un dossier `notebooks/` pour l'exploration
- Les fichiers `requirements.txt`, `.gitignore`, `README.md`

### ü§î Questions pour r√©fl√©chir

1. Quelle commande Bash permet de cr√©er plusieurs dossiers en une seule ligne ?
2. Comment cr√©er des sous-dossiers imbriqu√©s qui n'existent pas encore ?
3. Quels fichiers/dossiers doit-on ignorer dans Git pour un projet Python data ?

---

*Prends le temps de r√©fl√©chir et d'essayer avant de regarder les indices ou la solution* ‚¨áÔ∏è

In [None]:
%%bash
# üìù TON CODE ICI
# Cr√©e la structure du projet videogames-analytics



<details>
<summary>üí° <b>Cliquer pour voir les indices</b></summary>

- Utilise `mkdir -p` pour cr√©er des dossiers imbriqu√©s (l'option `-p` cr√©e les parents si n√©cessaire)
- Tu peux utiliser les accolades `{}` pour cr√©er plusieurs dossiers : `mkdir -p projet/{dossier1,dossier2}`
- Pour le `.gitignore`, pense √† : `__pycache__/`, `.env`, `data/raw/*`, `*.pyc`, `.venv/`, `*.db`
- Utilise `cat << 'EOF' > fichier` pour cr√©er un fichier multi-lignes

</details>

---

<details>
<summary>‚úÖ <b>Cliquer pour voir la solution compl√®te</b></summary>

```bash
# Cr√©ation de la structure en une commande
mkdir -p videogames-analytics/{data/{raw,processed,enriched},scripts,api,dashboard,notebooks,tests}

cd videogames-analytics

# Cr√©er requirements.txt
cat << 'EOF' > requirements.txt
# Data Processing
pandas>=2.0.0
numpy>=1.24.0
pyarrow>=12.0.0

# Web Scraping
requests>=2.31.0
beautifulsoup4>=4.12.0
lxml>=4.9.0

# Databases
duckdb>=0.9.0
elasticsearch>=8.0.0

# Big Data
pyspark>=3.5.0

# API
fastapi>=0.104.0
uvicorn>=0.24.0

# Dashboard
streamlit>=1.28.0
plotly>=5.18.0

# Utilities
python-dotenv>=1.0.0
tqdm>=4.66.0
EOF

# Cr√©er .gitignore
cat << 'EOF' > .gitignore
# Data (on ne versionne pas les donn√©es)
data/raw/*
data/processed/*
data/enriched/*
!data/*/.gitkeep
*.db

# Python
__pycache__/
*.pyc
.venv/
venv/

# Environment
.env
*.log

# IDE
.idea/
.vscode/

# Jupyter
.ipynb_checkpoints/
EOF

# Cr√©er les .gitkeep pour garder les dossiers vides dans Git
touch data/raw/.gitkeep data/processed/.gitkeep data/enriched/.gitkeep

echo "‚úÖ Structure cr√©√©e !"
```

**Explications :**
- `mkdir -p` cr√©e tous les dossiers parents manquants
- Les accolades `{a,b,c}` cr√©ent plusieurs dossiers en une commande
- `cat << 'EOF' > fichier` permet d'√©crire plusieurs lignes dans un fichier
- `.gitkeep` est une convention pour garder les dossiers vides dans Git

</details>

## üß© D√©fi 0.2 : Initialiser Git

### üìã Consigne

1. Initialise un d√©p√¥t Git dans le dossier `videogames-analytics`
2. Ajoute tous les fichiers
3. Fais un premier commit avec le message : `"üéÆ Initial commit: project structure"`

### ü§î Questions pour r√©fl√©chir

1. Quelle commande initialise un nouveau d√©p√¥t Git ?
2. Comment ajouter tous les fichiers d'un coup au staging ?
3. Quelle est la syntaxe pour cr√©er un commit avec un message ?

---

In [None]:
%%bash
# üìù TON CODE ICI
# Initialise Git et fais le premier commit



<details>
<summary>üí° <b>Cliquer pour voir les indices</b></summary>

Les 3 commandes Git essentielles :
- `git init` : initialise un nouveau d√©p√¥t
- `git add .` : ajoute tous les fichiers au staging
- `git commit -m "message"` : cr√©e un commit

</details>

---

<details>
<summary>‚úÖ <b>Cliquer pour voir la solution</b></summary>

```bash
cd videogames-analytics

# Initialiser le d√©p√¥t Git
git init

# Ajouter tous les fichiers au staging
git add .

# Cr√©er le premier commit
git commit -m "üéÆ Initial commit: project structure"

# V√©rifier l'historique
git log --oneline
```

**R√©sultat attendu :**
```
abc1234 üéÆ Initial commit: project structure
```

</details>

---

# üì• Phase 1 : Ingestion des Donn√©es

## T√©l√©chargement du Dataset

T√©l√©charge le dataset depuis Kaggle :
1. Va sur https://www.kaggle.com/datasets/rush4ratio/video-game-sales-with-ratings
2. T√©l√©charge le ZIP
3. Extrait le CSV dans `data/raw/`

> üí° Si tu n'as pas de compte Kaggle, utilise le code ci-dessous pour g√©n√©rer des donn√©es d'exemple.

In [None]:
# G√©n√©ration de donn√©es d'exemple (ex√©cute cette cellule si tu n'as pas Kaggle)
import pandas as pd
import numpy as np
from pathlib import Path

PROJECT_ROOT = Path("videogames-analytics")
RAW_DIR = PROJECT_ROOT / "data" / "raw"
RAW_DIR.mkdir(parents=True, exist_ok=True)

np.random.seed(42)
n_games = 5000

platforms = ['PS4', 'XOne', 'PC', 'WiiU', 'PS3', 'X360', 'Wii', 'PSV', '3DS', 'PS2']
genres = ['Action', 'Sports', 'Shooter', 'Role-Playing', 'Racing', 'Platform', 
          'Fighting', 'Simulation', 'Adventure', 'Strategy', 'Puzzle', 'Misc']
publishers = ['Electronic Arts', 'Activision', 'Ubisoft', 'Nintendo', 'Sony', 
              'Take-Two', 'Sega', 'Capcom', 'Konami', 'Bandai Namco', 'Square Enix']
ratings = ['E', 'E10+', 'T', 'M', 'RP', None]

game_prefixes = ['Super', 'Ultimate', 'Call of', 'Legend of', 'Final', 'Grand', 'Dark']
game_suffixes = ['Warriors', 'Quest', 'Adventure', 'Legends', 'Chronicles', 'Heroes']
game_names = [f"{np.random.choice(game_prefixes)} {np.random.choice(game_suffixes)} {i}" 
              for i in range(n_games)]

games_df = pd.DataFrame({
    'Name': game_names,
    'Platform': np.random.choice(platforms, n_games),
    'Year_of_Release': np.random.choice(range(2000, 2024), n_games),
    'Genre': np.random.choice(genres, n_games),
    'Publisher': np.random.choice(publishers, n_games),
    'NA_Sales': np.round(np.random.exponential(0.5, n_games), 2),
    'EU_Sales': np.round(np.random.exponential(0.3, n_games), 2),
    'JP_Sales': np.round(np.random.exponential(0.2, n_games), 2),
    'Other_Sales': np.round(np.random.exponential(0.1, n_games), 2),
    'Critic_Score': np.where(np.random.random(n_games) > 0.2, 
                             np.random.randint(40, 100, n_games), np.nan),
    'User_Score': np.where(np.random.random(n_games) > 0.3,
                           np.round(np.random.uniform(3, 10, n_games), 1), np.nan),
    'Rating': np.random.choice(ratings, n_games)
})

games_df['Global_Sales'] = (games_df['NA_Sales'] + games_df['EU_Sales'] + 
                            games_df['JP_Sales'] + games_df['Other_Sales']).round(2)

games_df.to_csv(RAW_DIR / 'Video_Games_Sales.csv', index=False)

print(f"‚úÖ Dataset cr√©√© : {len(games_df):,} jeux")
print(f"üìÅ Fichier : {RAW_DIR / 'Video_Games_Sales.csv'}")
games_df.head()

## üß© D√©fi 1.1 : Explorer les donn√©es

### üìã Consigne

Charge le CSV et r√©ponds √† ces questions :

1. **Combien** de jeux contient le dataset ?
2. **Quelles colonnes** ont des valeurs manquantes ? Quel pourcentage ?
3. **Quel est le jeu** le plus vendu ?
4. **Quels sont les 5 genres** les plus repr√©sent√©s ?
5. **Quelle est la plage d'ann√©es** couverte par le dataset ?

### ü§î Questions pour r√©fl√©chir

- Quelle m√©thode Pandas donne les dimensions d'un DataFrame ?
- Comment compter les valeurs manquantes par colonne ?
- Comment trouver la ligne avec la valeur maximale d'une colonne ?
- Comment compter les occurrences de chaque valeur d'une colonne ?

---

In [None]:
# üìù TON CODE ICI
# Explore les donn√©es et r√©ponds aux 5 questions

import pandas as pd

# Charge le CSV
df = pd.read_csv('videogames-analytics/data/raw/Video_Games_Sales.csv')

# Question 1 : Combien de jeux ?


# Question 2 : Valeurs manquantes ?


# Question 3 : Jeu le plus vendu ?


# Question 4 : Top 5 genres ?


# Question 5 : Plage d'ann√©es ?



<details>
<summary>üí° <b>Cliquer pour voir les indices</b></summary>

- Nombre de lignes : `len(df)` ou `df.shape[0]`
- Valeurs manquantes : `df.isnull().sum()`
- Pourcentage : `df.isnull().sum() / len(df) * 100`
- Ligne avec max : `df.loc[df['colonne'].idxmax()]`
- Compter par cat√©gorie : `df['colonne'].value_counts()`
- Min/Max : `df['colonne'].min()`, `df['colonne'].max()`

</details>

---

<details>
<summary>‚úÖ <b>Cliquer pour voir la solution</b></summary>

```python
import pandas as pd

# Charger les donn√©es
df = pd.read_csv('videogames-analytics/data/raw/Video_Games_Sales.csv')

# 1. Nombre de jeux
print(f"üìä Nombre de jeux : {len(df):,}")
print(f"   (ou avec shape : {df.shape[0]:,} lignes, {df.shape[1]} colonnes)")

# 2. Valeurs manquantes
print("\n‚ùì Valeurs manquantes :")
missing = df.isnull().sum()
missing_pct = (missing / len(df) * 100).round(1)
missing_df = pd.DataFrame({'Manquantes': missing, '%': missing_pct})
print(missing_df[missing_df['Manquantes'] > 0])

# 3. Jeu le plus vendu
top_game = df.loc[df['Global_Sales'].idxmax()]
print(f"\nüèÜ Jeu le plus vendu : {top_game['Name']}")
print(f"   Ventes : {top_game['Global_Sales']}M$ | Plateforme : {top_game['Platform']}")

# 4. Top 5 genres
print("\nüéØ Top 5 genres :")
print(df['Genre'].value_counts().head())

# 5. Plage d'ann√©es
min_year = df['Year_of_Release'].min()
max_year = df['Year_of_Release'].max()
print(f"\nüìÖ Ann√©es : {min_year:.0f} - {max_year:.0f}")
```

</details>

## üß© D√©fi 1.2 : Nettoyer les donn√©es

### üìã Consigne

Cr√©e une fonction `clean_videogames_data(input_path, output_path)` qui :

1. **Supprime les doublons** sur les colonnes (Name, Platform, Year_of_Release)
2. **Convertit `Year_of_Release`** en entier (en g√©rant les NaN)
3. **Remplit les ventes manquantes** par 0
4. **Cr√©e une colonne `Decade`** : la d√©cennie (ex: 2010 pour l'ann√©e 2015)
5. **Cr√©e une colonne `Sales_Category`** bas√©e sur Global_Sales :
   - `< 0.1` ‚Üí "Flop"
   - `0.1 - 1` ‚Üí "Niche"
   - `1 - 5` ‚Üí "Hit"
   - `> 5` ‚Üí "Blockbuster"
6. **Sauvegarde le r√©sultat en Parquet** dans `data/processed/`

### ü§î Questions pour r√©fl√©chir

- Comment supprimer les doublons sur certaines colonnes seulement ?
- Comment cr√©er une colonne bas√©e sur des conditions multiples (bins) ?
- Pourquoi choisir Parquet plut√¥t que CSV pour les donn√©es nettoy√©es ?

---

In [None]:
# üìù TON CODE ICI
# Cr√©e la fonction de nettoyage

import pandas as pd
import numpy as np
from pathlib import Path

def clean_videogames_data(input_path: Path, output_path: Path) -> pd.DataFrame:
    """
    Nettoie le dataset de jeux vid√©o.
    
    Args:
        input_path: Chemin vers le CSV brut
        output_path: Chemin pour sauvegarder le Parquet nettoy√©
    
    Returns:
        DataFrame nettoy√©
    """
    # TON CODE ICI
    pass


# Test ta fonction
# PROJECT_ROOT = Path('videogames-analytics')
# cleaned_df = clean_videogames_data(
#     input_path=PROJECT_ROOT / 'data' / 'raw' / 'Video_Games_Sales.csv',
#     output_path=PROJECT_ROOT / 'data' / 'processed' / 'games_cleaned.parquet'
# )

<details>
<summary>üí° <b>Cliquer pour voir les indices</b></summary>

- Doublons sur colonnes sp√©cifiques : `df.drop_duplicates(subset=['col1', 'col2'])`
- Conversion avec NaN : `pd.to_numeric(df['col'], errors='coerce')` puis `.astype('Int64')` (nullable integer)
- D√©cennie : `df['Year'] // 10 * 10` (division enti√®re puis multiplication)
- Cat√©gories avec bins : `pd.cut(df['col'], bins=[...], labels=[...])`
- Parquet : `df.to_parquet('fichier.parquet', index=False)`

</details>

---

<details>
<summary>‚úÖ <b>Cliquer pour voir la solution</b></summary>

```python
import pandas as pd
import numpy as np
from pathlib import Path

def clean_videogames_data(input_path: Path, output_path: Path) -> pd.DataFrame:
    """
    Nettoie le dataset de jeux vid√©o.
    """
    print("üßπ Nettoyage des donn√©es...")
    
    # Charger
    df = pd.read_csv(input_path)
    initial_count = len(df)
    print(f"   Lignes initiales : {initial_count:,}")
    
    # 1. Supprimer les doublons
    df = df.drop_duplicates(subset=['Name', 'Platform', 'Year_of_Release'])
    print(f"   Apr√®s d√©duplication : {len(df):,} (-{initial_count - len(df)})")
    
    # 2. Convertir Year_of_Release en entier nullable
    df['Year_of_Release'] = pd.to_numeric(df['Year_of_Release'], errors='coerce')
    df['Year_of_Release'] = df['Year_of_Release'].astype('Int64')
    
    # 3. Remplir les ventes manquantes par 0
    sales_cols = ['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']
    df[sales_cols] = df[sales_cols].fillna(0)
    
    # 4. Cr√©er la d√©cennie
    df['Decade'] = (df['Year_of_Release'] // 10 * 10).astype('Int64')
    
    # 5. Cr√©er la cat√©gorie de ventes
    df['Sales_Category'] = pd.cut(
        df['Global_Sales'],
        bins=[-np.inf, 0.1, 1, 5, np.inf],
        labels=['Flop', 'Niche', 'Hit', 'Blockbuster']
    )
    
    # 6. Sauvegarder en Parquet
    output_path.parent.mkdir(parents=True, exist_ok=True)
    df.to_parquet(output_path, index=False)
    
    print(f"   ‚úÖ Sauvegard√© : {output_path}")
    print(f"   Lignes finales : {len(df):,}")
    print(f"   Nouvelles colonnes : Decade, Sales_Category")
    
    return df

# Ex√©cution
PROJECT_ROOT = Path('videogames-analytics')
cleaned_df = clean_videogames_data(
    input_path=PROJECT_ROOT / 'data' / 'raw' / 'Video_Games_Sales.csv',
    output_path=PROJECT_ROOT / 'data' / 'processed' / 'games_cleaned.parquet'
)

# V√©rification
print("\nüìä Aper√ßu :")
print(cleaned_df[['Name', 'Year_of_Release', 'Decade', 'Global_Sales', 'Sales_Category']].head())
```

**Pourquoi Parquet ?**
- Compression : fichier 5-10x plus petit que CSV
- Types pr√©serv√©s : pas de perte des types (dates, entiers, cat√©gories)
- Lecture rapide : format colonne optimis√© pour l'analytique

</details>

---

# üï∑Ô∏è Phase 2 : Web Scraping

Le **Web Scraping** consiste √† extraire des donn√©es depuis des pages web automatiquement.

### Outils Python

| Outil | Usage |
|-------|-------|
| `requests` | Envoyer des requ√™tes HTTP et r√©cup√©rer le HTML |
| `BeautifulSoup` | Parser le HTML et extraire les √©l√©ments |
| `lxml` | Parser HTML/XML (plus rapide) |

### ‚ö†Ô∏è R√®gles d'√âthique du Scraping

1. **Respecter le `robots.txt`** ‚Äî v√©rifie ce que le site autorise
2. **Ajouter des d√©lais** ‚Äî `time.sleep()` entre les requ√™tes
3. **S'identifier** ‚Äî utilise un User-Agent descriptif
4. **Ne pas surcharger** ‚Äî limite le nombre de requ√™tes
5. **V√©rifier les CGU** ‚Äî certains sites interdisent le scraping

## üß© D√©fi 2.1 : Scraper Wikipedia

### üìã Consigne

√âcris une fonction `scrape_bestselling_games()` qui :

1. R√©cup√®re la page : https://en.wikipedia.org/wiki/List_of_best-selling_video_games
2. Trouve le premier tableau avec la classe `wikitable`
3. Extrait les **10 premiers jeux** avec : Nom, Ventes, Plateforme(s)
4. Retourne un DataFrame pandas

### ü§î Questions pour r√©fl√©chir

- Comment envoyer une requ√™te HTTP GET en Python ?
- Pourquoi faut-il sp√©cifier un User-Agent ?
- Comment trouver un √©l√©ment HTML par sa classe avec BeautifulSoup ?
- Comment extraire le texte d'une balise HTML ?

---

In [None]:
# üìù TON CODE ICI
# Cr√©e la fonction de scraping Wikipedia

import requests
from bs4 import BeautifulSoup
import pandas as pd

def scrape_bestselling_games() -> pd.DataFrame:
    """
    Scrape la liste des jeux les plus vendus depuis Wikipedia.
    
    Returns:
        DataFrame avec colonnes: name, sales, platform
    """
    # TON CODE ICI
    pass


# Test ta fonction
# df_wiki = scrape_bestselling_games()
# print(df_wiki)

<details>
<summary>üí° <b>Cliquer pour voir les indices</b></summary>

```python
import requests
from bs4 import BeautifulSoup

# 1. Requ√™te HTTP avec User-Agent
headers = {'User-Agent': 'MonBot/1.0 (contact@example.com)'}
response = requests.get(url, headers=headers, timeout=10)
response.raise_for_status()  # L√®ve une exception si erreur HTTP

# 2. Parser le HTML
soup = BeautifulSoup(response.text, 'lxml')

# 3. Trouver un √©l√©ment par classe
table = soup.find('table', {'class': 'wikitable'})

# 4. Trouver toutes les lignes
rows = table.find_all('tr')

# 5. Extraire le texte d'une cellule
cell.get_text(strip=True)  # strip=True enl√®ve les espaces
```

</details>

---

<details>
<summary>‚úÖ <b>Cliquer pour voir la solution</b></summary>

```python
import requests
from bs4 import BeautifulSoup
import pandas as pd

def scrape_bestselling_games() -> pd.DataFrame:
    """
    Scrape la liste des jeux les plus vendus depuis Wikipedia.
    """
    url = "https://en.wikipedia.org/wiki/List_of_best-selling_video_games"
    
    # Headers pour s'identifier (bonne pratique)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Educational Bot - Data Engineering Bootcamp)'
    }
    
    # Requ√™te HTTP
    print(f"üåê R√©cup√©ration de {url}...")
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()  # Erreur si status != 200
    
    # Parser le HTML
    soup = BeautifulSoup(response.text, 'lxml')
    
    # Trouver le premier tableau wikitable
    table = soup.find('table', {'class': 'wikitable'})
    
    if not table:
        raise ValueError("‚ùå Tableau non trouv√© sur la page")
    
    # Extraire les donn√©es
    games = []
    rows = table.find_all('tr')[1:11]  # Skip header, prendre 10 lignes
    
    for row in rows:
        cells = row.find_all(['td', 'th'])
        if len(cells) >= 3:
            games.append({
                'name': cells[0].get_text(strip=True),
                'sales': cells[1].get_text(strip=True),
                'platform': cells[2].get_text(strip=True) if len(cells) > 2 else 'N/A'
            })
    
    print(f"‚úÖ {len(games)} jeux extraits")
    return pd.DataFrame(games)


# Test
try:
    df_wiki = scrape_bestselling_games()
    print("\nüéÆ Top 10 jeux les plus vendus (Wikipedia) :")
    print(df_wiki.to_string(index=False))
except Exception as e:
    print(f"‚ùå Erreur : {e}")
```

**Explications :**
- `raise_for_status()` l√®ve une exception si le serveur retourne une erreur (404, 500, etc.)
- `find_all('tr')[1:11]` : on ignore la premi√®re ligne (header) et on prend les 10 suivantes
- `get_text(strip=True)` extrait le texte en enlevant les espaces superflus

</details>

---

# üíæ Phase 3 : Stockage des Donn√©es

On va stocker nos donn√©es dans deux syst√®mes compl√©mentaires :

| Syst√®me | Usage | Avantage |
|---------|-------|----------|
| **DuckDB** | Requ√™tes SQL analytiques | Ultra-rapide, zero config |
| **Elasticsearch** | Recherche full-text | Recherche fuzzy, suggestions |

## üß© D√©fi 3.1 : Charger dans DuckDB

### üìã Consigne

1. Cr√©e une base DuckDB `data/videogames.db`
2. Charge le fichier Parquet nettoy√© dans une table `games`
3. √âcris et ex√©cute les requ√™tes SQL suivantes :
   - **Top 10 jeux** les plus vendus
   - **Ventes totales par genre** (tri√©es par ventes d√©croissantes)
   - **Top 3 jeux par genre** (utilise une Window Function)

### ü§î Questions pour r√©fl√©chir

- Comment DuckDB peut lire directement un fichier Parquet sans le charger en m√©moire ?
- Quelle est la diff√©rence entre `GROUP BY` et `PARTITION BY` ?
- Quelle fonction SQL permet de num√©roter les lignes dans chaque groupe ?

---

In [None]:
# üìù TON CODE ICI
# Charge les donn√©es dans DuckDB et ex√©cute les requ√™tes

import duckdb
from pathlib import Path

PROJECT_ROOT = Path('videogames-analytics')
DB_PATH = PROJECT_ROOT / 'data' / 'videogames.db'

# 1. Connexion et cr√©ation de la table


# 2. Top 10 jeux les plus vendus


# 3. Ventes totales par genre


# 4. Top 3 jeux par genre (Window Function)



<details>
<summary>üí° <b>Cliquer pour voir les indices</b></summary>

```python
# Connexion DuckDB
conn = duckdb.connect(str(DB_PATH))

# Cr√©er une table depuis un Parquet
conn.execute("""
    CREATE OR REPLACE TABLE games AS 
    SELECT * FROM read_parquet('chemin/fichier.parquet')
""")

# Window Function pour classement par groupe
ROW_NUMBER() OVER (PARTITION BY genre ORDER BY sales DESC) as rank

# Puis filtrer avec WHERE rank <= 3
```

</details>

---

<details>
<summary>‚úÖ <b>Cliquer pour voir la solution</b></summary>

```python
import duckdb
from pathlib import Path

PROJECT_ROOT = Path('videogames-analytics')
DB_PATH = PROJECT_ROOT / 'data' / 'videogames.db'
PARQUET_PATH = PROJECT_ROOT / 'data' / 'processed' / 'games_cleaned.parquet'

# Connexion
conn = duckdb.connect(str(DB_PATH))

# 1. Cr√©er la table depuis le Parquet
conn.execute(f"""
    CREATE OR REPLACE TABLE games AS 
    SELECT * FROM read_parquet('{PARQUET_PATH}')
""")
print(f"‚úÖ Table 'games' cr√©√©e avec {conn.execute('SELECT COUNT(*) FROM games').fetchone()[0]:,} lignes")

# 2. Top 10 jeux les plus vendus
print("\nüèÜ Top 10 jeux les plus vendus :")
print(conn.execute("""
    SELECT Name, Platform, Genre, Global_Sales
    FROM games
    ORDER BY Global_Sales DESC
    LIMIT 10
""").fetchdf())

# 3. Ventes totales par genre
print("\nüìä Ventes par genre :")
print(conn.execute("""
    SELECT 
        Genre,
        COUNT(*) as nb_games,
        ROUND(SUM(Global_Sales), 2) as total_sales,
        ROUND(AVG(Global_Sales), 2) as avg_sales
    FROM games
    GROUP BY Genre
    ORDER BY total_sales DESC
""").fetchdf())

# 4. Top 3 jeux par genre (Window Function)
print("\nüéØ Top 3 par genre :")
print(conn.execute("""
    WITH ranked AS (
        SELECT 
            Genre,
            Name,
            Global_Sales,
            ROW_NUMBER() OVER (
                PARTITION BY Genre 
                ORDER BY Global_Sales DESC
            ) as rank
        FROM games
    )
    SELECT Genre, rank, Name, Global_Sales
    FROM ranked
    WHERE rank <= 3
    ORDER BY Genre, rank
""").fetchdf().head(20))

conn.close()
print(f"\n‚úÖ Base sauvegard√©e : {DB_PATH}")
```

**Explication Window Function :**
- `PARTITION BY Genre` : cr√©e des "fen√™tres" par genre
- `ORDER BY Global_Sales DESC` : ordonne dans chaque fen√™tre
- `ROW_NUMBER()` : num√©rote de 1 √† N dans chaque fen√™tre
- On filtre ensuite `WHERE rank <= 3` pour garder le top 3

</details>

## üß© D√©fi 3.2 : Indexer dans Elasticsearch

### üìã Pr√©requis

Lance Elasticsearch en local (comme vu dans le M10) :
```bash
cd elasticsearch-8.x.x
./bin/elasticsearch
```

### üìã Consigne

1. Cr√©e une fonction `index_games_to_es(df, index_name)` qui :
   - Se connecte √† Elasticsearch local (http://localhost:9200)
   - Supprime l'index s'il existe d√©j√†
   - Cr√©e un index `videogames` avec un mapping appropri√©
   - Indexe tous les jeux en utilisant le bulk API

2. Cr√©e une fonction `search_games(query)` qui :
   - Fait une recherche fuzzy sur le champ `Name`
   - Retourne les 10 meilleurs r√©sultats

### ü§î Questions pour r√©fl√©chir

- Pourquoi utiliser le bulk API plut√¥t que des insertions une par une ?
- Quelle est la diff√©rence entre les types `text` et `keyword` dans ES ?
- Comment fonctionne la recherche fuzzy ?

---

In [None]:
# üìù TON CODE ICI
# Indexe les jeux dans Elasticsearch

from elasticsearch import Elasticsearch, helpers
import pandas as pd
from typing import List, Dict

def index_games_to_es(df: pd.DataFrame, index_name: str = "videogames") -> int:
    """
    Indexe les jeux dans Elasticsearch.
    
    Args:
        df: DataFrame des jeux
        index_name: Nom de l'index ES
    
    Returns:
        Nombre de documents index√©s
    """
    # TON CODE ICI
    pass


def search_games(query: str, index_name: str = "videogames") -> List[Dict]:
    """
    Recherche des jeux par nom (fuzzy search).
    
    Args:
        query: Terme de recherche
        index_name: Nom de l'index ES
    
    Returns:
        Liste des r√©sultats
    """
    # TON CODE ICI
    pass


<details>
<summary>üí° <b>Cliquer pour voir les indices</b></summary>

```python
from elasticsearch import Elasticsearch, helpers

# Connexion
es = Elasticsearch("http://localhost:9200")
es.ping()  # V√©rifie la connexion

# Supprimer un index
es.indices.delete(index="videogames", ignore=[404])

# Cr√©er avec mapping
es.indices.create(index="videogames", body={"mappings": {...}})

# Bulk indexation
actions = [{"_index": "videogames", "_source": doc} for doc in docs]
helpers.bulk(es, actions)

# Recherche fuzzy
es.search(index="videogames", query={
    "match": {"Name": {"query": "...", "fuzziness": "AUTO"}}
})
```

</details>

---

<details>
<summary>‚úÖ <b>Cliquer pour voir la solution</b></summary>

```python
from elasticsearch import Elasticsearch, helpers
import pandas as pd
from typing import List, Dict

def index_games_to_es(df: pd.DataFrame, index_name: str = "videogames") -> int:
    """
    Indexe les jeux dans Elasticsearch.
    """
    # Connexion
    es = Elasticsearch("http://localhost:9200")
    
    if not es.ping():
        raise ConnectionError("‚ùå Elasticsearch non disponible sur localhost:9200")
    
    print(f"‚úÖ Connect√© √† Elasticsearch")
    
    # Supprimer l'index s'il existe
    if es.indices.exists(index=index_name):
        es.indices.delete(index=index_name)
        print(f"   Index '{index_name}' supprim√©")
    
    # Cr√©er l'index avec mapping
    mapping = {
        "mappings": {
            "properties": {
                "Name": {"type": "text", "analyzer": "standard"},
                "Platform": {"type": "keyword"},
                "Genre": {"type": "keyword"},
                "Publisher": {"type": "keyword"},
                "Year_of_Release": {"type": "integer"},
                "Global_Sales": {"type": "float"},
                "Critic_Score": {"type": "float"},
                "Sales_Category": {"type": "keyword"}
            }
        }
    }
    es.indices.create(index=index_name, body=mapping)
    print(f"   Index '{index_name}' cr√©√©")
    
    # Pr√©parer les documents (remplacer NaN par None)
    records = df.where(pd.notnull(df), None).to_dict('records')
    
    # Bulk indexation
    actions = [
        {"_index": index_name, "_source": record}
        for record in records
    ]
    
    success, errors = helpers.bulk(es, actions, raise_on_error=False)
    
    print(f"‚úÖ {success} documents index√©s")
    if errors:
        print(f"‚ö†Ô∏è {len(errors)} erreurs")
    
    return success


def search_games(query: str, index_name: str = "videogames") -> List[Dict]:
    """
    Recherche des jeux par nom (fuzzy search).
    """
    es = Elasticsearch("http://localhost:9200")
    
    response = es.search(
        index=index_name,
        query={
            "match": {
                "Name": {
                    "query": query,
                    "fuzziness": "AUTO"  # Tol√®re les fautes de frappe
                }
            }
        },
        size=10
    )
    
    results = []
    for hit in response['hits']['hits']:
        results.append({
            'score': hit['_score'],
            **hit['_source']
        })
    
    return results


# Test
try:
    # Charger et indexer
    df = pd.read_parquet('videogames-analytics/data/processed/games_cleaned.parquet')
    index_games_to_es(df)
    
    # Rechercher
    print("\nüîç Recherche 'Final Fantasi' (avec faute) :")
    results = search_games("Final Fantasi")
    for r in results[:5]:
        print(f"   {r['Name']} ({r['Platform']}) - Score: {r['score']:.2f}")
        
except Exception as e:
    print(f"‚ö†Ô∏è Erreur : {e}")
    print("   Assure-toi qu'Elasticsearch est lanc√© sur localhost:9200")
```

**Explications :**
- `text` : le champ est analys√© (tokenis√©, stemming) ‚Üí pour la recherche full-text
- `keyword` : valeur exacte ‚Üí pour les filtres et agr√©gations
- `fuzziness: AUTO` : tol√®re 1-2 caract√®res d'erreur selon la longueur du mot

</details>

---

# ‚ö° Phase 4 : Traitement PySpark

## üß© D√©fi 4.1 : Analyses avec Window Functions

### üìã Consigne

Utilise PySpark pour :
1. Calculer les **statistiques par Publisher** (nb jeux, ventes totales, score moyen)
2. Utiliser `ROW_NUMBER()` pour classer les jeux **par ventes dans chaque genre**
3. Sauvegarder les r√©sultats en Parquet

---

# üîå Phase 5 : API REST avec FastAPI

## üß© D√©fi 5.1 : Cr√©er les endpoints

### üìã Consigne

Cr√©e `api/main.py` avec :
- `GET /games` : liste avec filtres (genre, platform, min_sales)
- `GET /games/{name}` : d√©tails d'un jeu
- `GET /stats/genres` : stats par genre
- `GET /search?q=...` : recherche Elasticsearch

---

# üìä Phase 6 : Dashboard Streamlit

## üß© D√©fi 6.1 : Dashboard interactif

### üìã Consigne

Cr√©e `dashboard/app.py` avec :
- **Sidebar** : filtres (genre, plateforme, ann√©es)
- **KPIs** : nombre de jeux, ventes totales, score moyen
- **Graphiques** : bar chart par genre, line chart √©volution, pie chart r√©gions
- **Tableau** : top 10 jeux

---

# ü§ñ Phase 7 : Automatisation

## üß© D√©fi 7.1 : Script de pipeline

### üìã Consigne

Cr√©e `scripts/run_pipeline.sh` qui ex√©cute tout le pipeline avec logging.

---

> üí° **Note** : Les solutions compl√®tes pour les phases 4-7 suivent le m√™me format que les phases pr√©c√©dentes. Essaie d'abord par toi-m√™me !

---

# üéâ F√©licitations !

Tu as termin√© le **Projet Int√©grateur D√©butant** !

## ‚úÖ Ce que tu as construit

```{mermaid}
mindmap
  root((Video Games<br/>Analytics))
    Ingestion
      Kaggle CSV
      Web Scraping
      BeautifulSoup
    Processing
      Pandas
      PySpark
      Window Functions
    Storage
      DuckDB SQL
      Elasticsearch
      Parquet
    Serving
      FastAPI
      Streamlit
      REST API
    DevOps
      Git
      Bash
      Automation
```

## üìö Comp√©tences Valid√©es

| Domaine | Comp√©tences |
|---------|-------------|
| **Ingestion** | CSV, Web Scraping, APIs |
| **Processing** | Pandas, PySpark, SQL |
| **Storage** | DuckDB, Elasticsearch, Parquet |
| **Serving** | FastAPI, Streamlit |
| **DevOps** | Git, Bash, Automation |

## üöÄ Prochaine √©tape

üëâ **Niveau Interm√©diaire** : Docker, Kubernetes, Kafka, Delta Lake, dbt, Airflow...

---

*üéÆ Video Games Analytics Platform ‚Äî Data Engineering Bootcamp*