# Exercice 01 - Introduction au Big Data

## Objectifs
- Comprendre ce qu'est le Big Data
- Découvrir les 3V (Volume, Vélocité, Variété)
- Comprendre pourquoi les outils classiques ne suffisent plus
- Découvrir les outils Big Data modernes

---

## 1️⃣ Qu'est-ce que le Big Data ?

Le **Big Data** désigne des ensembles de données tellement volumineux et complexes qu'ils ne peuvent pas être traités par les outils traditionnels.

### Exemples concrets de Big Data

| Source | Volume par jour |
|--------|----------------|
| Facebook | 4 pétaoctets |
| Twitter | 500 millions de tweets |
| Netflix | 1 milliard d'heures de streaming |
| Capteurs IoT | Des milliards de mesures |

### Pour visualiser

```
1 Ko (Kilo-octet)    = Un SMS
1 Mo (Méga-octet)    = Une photo
1 Go (Giga-octet)    = Un film HD
1 To (Téra-octet)    = 1000 films HD
1 Po (Péta-octet)    = 1 000 000 films HD  ← Facebook génère 4x ça par jour !
```

## 2️⃣ Les 3V du Big Data

```

                   BIG DATA               
                                                 
                        ┌─────────┐                   
                        │ VOLUME  │ ← Quantité        
                        └────┬────┘   massive         
                             │                        
          ┌──────────────────┴─────────┐              
          │                            │              
    ┌─────▼─────┐              ┌───────▼───────┐      
    │ VÉLOCITÉ  │              │   VARIÉTÉ     │      
    │           │              │               │     
    │  Données  │              │ Données de    │      
    │  en temps │              │ types variés  │      
    │  réel     │              │ (texte, image,│      
    │           │              │  vidéo, JSON) │      
    └───────────┘              └───────────────┘      
                 
```

### Volume
- Téraoctets, Pétaoctets de données
- Impossible de charger en mémoire sur un seul ordinateur

### Vélocité
- Données générées en continu
- Besoin de traitement en temps réel

### Variété
- Données structurées (tables SQL)
- Données semi-structurées (JSON, XML)
- Données non structurées (texte, images, vidéos)

## 3️⃣ Pourquoi Excel et SQL ne suffisent plus ?

### Limites d'Excel
- Maximum **1 048 576 lignes** par feuille
- Ralentit fortement au-delà de 100 000 lignes
- Un seul processeur utilisé

### Limites d'une base SQL classique
- Fonctionne sur **un seul serveur**
- Coûteux de mettre à l'échelle (scaling vertical)
- Pas conçu pour les données non structurées

```
┌────────────────────────────────────────────────────────────────┐
│                    APPROCHE CLASSIQUE                          │
│                                                                │
│   ┌──────────┐                    ┌──────────────────────┐     │
│   │ Données  │ ──────────────────▶│  1 SERVEUR PUISSANT  │     │
│   │ (petit)  │                    │  (limité en RAM/CPU) │     │
│   └──────────┘                    └──────────────────────┘     │
│                                                                │
│   ❌ Ne peut pas traiter des téraoctets                        │
└────────────────────────────────────────────────────────────────┘

┌───────────────────────────────────────────────────────────────┐
│                    APPROCHE BIG DATA                          │
│                                                               │
│   ┌──────────┐     ┌──────────┐  ┌──────────┐  ┌──────────┐   │
│   │ Données  │ ──▶│ Serveur 1│  │ Serveur 2│  │ Serveur 3│   │
│   │ (énorme) │     └──────────┘  └──────────┘  └──────────┘   │
│   └──────────┘           │             │             │        │
│                          └─────────────┴─────────────┘        │
│                                   │                           │
│                                   ▼                           │
│                          ┌─────────────────┐                  │
│                          │   RÉSULTAT      │                  │
│                          └─────────────────┘                  │
│                                                               │
│   ✅ Traitement distribué = Scalabilité horizontale           │
└───────────────────────────────────────────────────────────────┘
```

## 4️⃣ Les outils Big Data modernes

### Apache Spark 
- Moteur de traitement distribué
- Traite les données **en mémoire** (très rapide)
- Supporte SQL, Machine Learning, Streaming
- **C'est ce que nous allons utiliser !**

### Apache Kafka
- Système de messagerie distribué
- Gère les flux de données en temps réel
- **Nous le verrons plus tard**

### MinIO (S3)
- Stockage objet compatible S3
- Stocke des fichiers de toute taille
- **Notre Data Lake !**

## 5️⃣ Démonstration : Limites de Pandas

In [1]:
# Importons Pandas
import pandas as pd
import time

# Créons un petit DataFrame
petit_df = pd.DataFrame({
    'id': range(1000),
    'valeur': range(1000)
})

print("Petit DataFrame (1 000 lignes) :")
print(petit_df.head())
print(f"\nTaille en mémoire : {petit_df.memory_usage(deep=True).sum() / 1024:.2f} Ko")

Petit DataFrame (1 000 lignes) :
   id  valeur
0   0       0
1   1       1
2   2       2
3   3       3
4   4       4

Taille en mémoire : 15.75 Ko


In [2]:
# Créons un DataFrame plus grand
import numpy as np

# 1 million de lignes
nb_lignes = 1_000_000

debut = time.time()
grand_df = pd.DataFrame({
    'id': range(nb_lignes),
    'valeur_a': np.random.rand(nb_lignes),
    'valeur_b': np.random.rand(nb_lignes),
    'categorie': np.random.choice(['A', 'B', 'C', 'D'], nb_lignes)
})
fin = time.time()

print(f"DataFrame créé en {fin - debut:.2f} secondes")
print(f"Nombre de lignes : {len(grand_df):,}")
print(f"Taille en mémoire : {grand_df.memory_usage(deep=True).sum() / (1024*1024):.2f} Mo")

DataFrame créé en 0.07 secondes
Nombre de lignes : 1,000,000
Taille en mémoire : 70.57 Mo


In [3]:
# Agrégation sur le grand DataFrame
debut = time.time()
resultat = grand_df.groupby('categorie').agg({
    'valeur_a': 'mean',
    'valeur_b': 'sum'
})
fin = time.time()

print(f"Agrégation terminée en {fin - debut:.4f} secondes")
print("\nRésultat :")
print(resultat)

Agrégation terminée en 0.0567 secondes

Résultat :
           valeur_a       valeur_b
categorie                         
A          0.500106  124880.196271
B          0.499888  124738.650380
C          0.499616  125170.271992
D          0.498445  125304.668046


### Ce qu'il faut retenir

Avec **1 million de lignes**, Pandas fonctionne encore bien sur un ordinateur moderne.

Mais imaginez :
- **1 milliard de lignes** → 1 000x plus
- **100 colonnes** au lieu de 4
- **En continu**, toutes les secondes

➡️ C'est là que **Spark** devient indispensable !

---

## Exercice

**Objectif** : Comprendre les limites de Pandas

**Consigne** :
1. Créez un DataFrame Pandas avec **5 millions** de lignes
2. Mesurez le temps de création
3. Mesurez la taille mémoire
4. Faites une agrégation et mesurez le temps

**Questions** :
- Combien de mémoire est utilisée ?
- Combien de temps prend l'agrégation ?
- Que se passerait-il avec 1 milliard de lignes ?

À vous de jouer

In [4]:
import pandas as pd
import numpy as np
import time

# TODO: Créez un DataFrame avec 5 millions de lignes
nb_lignes = 5_000_000  # 5 millions

debut = time.time()

# Votre code ici pour créer le DataFrame
# Conseil : utilisez le même modèle que l'exemple précédent
df = pd.DataFrame({
    'id': range(nb_lignes),
    'poids': np.random.rand(nb_lignes),
    'taille': np.random.rand(nb_lignes),
    'groupe_sanguin': np.random.choice(['A', 'B', 'AB', 'O'], nb_lignes)
})

fin = time.time()

print(f"Temps de création : {fin - debut:.2f} secondes")
print(f"Taille mémoire : {df.memory_usage(deep=True).sum() / (1024*1024):.2f} Mo")  # Calculez la taille

Temps de création : 0.36 secondes
Taille mémoire : 354.05 Mo


---

## ✅ Résumé

Dans ce notebook, vous avez appris :

- Le **Big Data** = données trop volumineuses pour les outils classiques
- Les **3V** : Volume, Vélocité, Variété
- Pourquoi **Excel et SQL classique** ne suffisent plus
- L'approche **distribuée** du Big Data
- Les outils modernes : **Spark**, **Kafka**, **MinIO**

### Prochaine étape
Dans le prochain notebook, nous découvrirons ce qu'est un **Data Lake** et l'architecture **Bronze / Silver / Gold**.