# üê≥ Docker pour Data Engineers

Bienvenue dans ce module o√π tu vas apprendre √† **containeriser** tes applications, lancer des services data en quelques secondes, et packager tes pipelines ETL de mani√®re **reproductible et portable** ‚Äî des comp√©tences indispensables pour un Data Engineer moderne !

---

## Pr√©requis

| Niveau | Comp√©tence |
|--------|------------|
| ‚úÖ Requis | Avoir suivi les modules `01_intro_data_engineering` et `02_bash_for_data_engineers` |
| ‚úÖ Requis | Connaissances de base en Python |
| ‚úÖ Requis | Avoir acc√®s √† un terminal (Linux, Mac, ou Windows avec WSL) |

## Objectifs du module

√Ä la fin de ce module, tu seras capable de :

- Expliquer ce qu'est Docker et pourquoi il est essentiel en Data Engineering
- Installer Docker sur Windows, macOS ou Linux
- Lancer des services data (PostgreSQL, Kafka, Spark‚Ä¶) en une commande
- √âcrire un Dockerfile pour packager un script ETL
- Utiliser les volumes, r√©seaux et docker-compose
- D√©bugger des containers comme un pro
- Appliquer les bonnes pratiques professionnelles

---

## C'est quoi Docker ?

> **Docker est un outil qui permet d'ex√©cuter des applications dans des environnements isol√©s, reproductibles et portables**, appel√©s *containers*.

Au lieu d'installer une application (et toutes ses d√©pendances) **directement sur ton syst√®me**, tu la mets dans une "bo√Æte" (le container) avec tout ce dont elle a besoin.

### Docker ‚â† Machine Virtuelle

| Aspect | Machine Virtuelle (VM) | Container Docker |
|--------|----------------------|------------------|
| **Contenu** | OS complet + kernel + drivers + apps | App + libs + syst√®me minimal |
| **Taille** | Plusieurs Go | Quelques Mo √† centaines de Mo |
| **D√©marrage** | Minutes | Secondes/millisecondes |
| **Performance** | Overhead important | Quasi-natif |
| **Isolation** | Compl√®te (hyperviseur) | Au niveau processus |

### Analogies pour bien comprendre

| Analogie | Explication |
|----------|-------------|
| üß≥ **La valise pr√™te** | Un container = une valise d√©j√† remplie. Tu la prends, tu voyages, tu es op√©rationnel partout. |
| üç± **Le tupperware** | Tu pr√©pares un plat, tu le mets dans une bo√Æte herm√©tique. Chez toi ou ailleurs : c'est le m√™me plat. |
| üì¶ **Le zip complet** | Code + librairies + config dans un package. Mais avec la garantie que l'ex√©cution est **identique** partout. |

> ‚ÑπÔ∏è **Le savais-tu ?**
>
> Docker a √©t√© cr√©√© en **2013** par Solomon Hykes chez dotCloud (devenu Docker, Inc.).
> 
> Le nom vient des **dockers** (ouvriers portuaires) qui chargent et d√©chargent des **containers** sur les bateaux ‚Äî exactement ce que fait Docker avec les applications !
>
> üìñ [Histoire de Docker sur Wikipedia](https://en.wikipedia.org/wiki/Docker_(software))

---

## 1. Pourquoi Docker est indispensable pour un Data Engineer

En Data Engineering, tu dois souvent :

- Manipuler des **bases de donn√©es** (PostgreSQL, MySQL, MongoDB‚Ä¶)
- Lancer des **brokers de messages** (Kafka, RabbitMQ‚Ä¶)
- D√©ployer des **pipelines ETL**
- Faire tourner des jobs **Spark** ou des APIs

### ‚ùå Sans Docker

| Probl√®me | Cons√©quence |
|----------|-------------|
| Installation manuelle complexe | Heures perdues en config |
| Conflits de versions (Java, Python, drivers) | "√áa marchait hier..." |
| Environnements diff√©rents (local ‚â† prod) | Bugs en production uniquement |
| Onboarding difficile | Nouveaux = 2 jours pour installer |

### ‚úÖ Avec Docker

| Avantage | Exemple concret |
|----------|----------------|
| PostgreSQL en 1 commande | `docker run postgres:16` |
| Test Kafka + Spark sur laptop | Stack compl√®te en local |
| ETL packag√© et portable | Tourne identique partout |
| Onboarding en 10 minutes | `docker-compose up` et c'est parti |

> üí° En r√©sum√© : Docker est un **outil central** pour cr√©er des environnements data **reproductibles et industrialisables**. Fini le üòÖ *"chez moi √ßa marche"* !

---

## 2. Concepts cl√©s Docker

Avant d'aller plus loin, ma√Ætrise ces 6 notions fondamentales :

| Concept | Description | Analogie |
|---------|-------------|----------|
| **Image** | Mod√®le fig√© (blueprint) contenant OS + d√©pendances + code | Une *recette* de cuisine |
| **Container** | Instance en cours d'ex√©cution d'une image | Un *plat* pr√©par√© √† partir de la recette |
| **Registry** | Magasin d'images (Docker Hub, ECR, GHCR) | Un *catalogue de recettes* en ligne |
| **Volume** | Stockage persistant en dehors du container | Un *disque dur externe* branch√© |
| **Network** | R√©seau virtuel entre containers | Un *r√©seau local* priv√© |
| **Build context** | Fichiers envoy√©s √† Docker lors du build | Le *dossier de travail* |

### Image Docker

Une image contient :
- Un syst√®me de base (ex: `python:3.11-slim`)
- Des biblioth√®ques (pandas, pyarrow, pyspark‚Ä¶)
- Ton code (scripts, fichiers de config)

**On ne modifie pas une image** ‚Äî on en reconstruit une nouvelle √† partir d'un Dockerfile.

### Container

Un container est une **instance vivante** d'une image :
- Tu cr√©es une image ‚Üí tu la *lances* ‚Üí tu obtiens un container
- Tu peux d√©marrer, arr√™ter, supprimer un container sans toucher √† l'image
- Plusieurs containers peuvent tourner √† partir de la m√™me image

### Registry

Un registry stocke et partage les images :
- **Docker Hub** (public/priv√©) ‚Äî le plus connu
- **GitHub Container Registry** (GHCR)
- **AWS ECR**, **GCP Artifact Registry**, **Azure ACR**

### Volume

Les donn√©es ne doivent pas "mourir" avec le container :
- **Sans volume** : container supprim√© = donn√©es perdues
- **Avec volume** : donn√©es persistantes, partageables

### Network

Permet aux containers de communiquer entre eux :
- Ex: container `etl` se connecte √† container `postgres`
- Isolation du r√©seau de la machine h√¥te

### Build context

Quand tu fais `docker build -t mon-image .` :
- Le `.` = tout ce que Docker envoie au daemon
- Dossier de 10 Go = envoi de 10 Go 
- D'o√π l'importance du **`.dockerignore`** !

### Sch√©ma visuel : Architecture Docker

```text
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                      DOCKER HOST                            ‚îÇ
‚îÇ               (Laptop / Server / Cloud)                     ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ                                                             ‚îÇ
‚îÇ  ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îÇ
‚îÇ  ‚îÇ                  DOCKER ENGINE                      ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ                                                     ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê  ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê  ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê          ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ   ‚îÇ  IMAGE   ‚îÇ  ‚îÇ  IMAGE   ‚îÇ  ‚îÇ  IMAGE   ‚îÇ          ‚îÇ    ‚îÇ 
‚îÇ  ‚îÇ   ‚îÇ postgres ‚îÇ  ‚îÇ  python  ‚îÇ  ‚îÇ  spark   ‚îÇ          ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò  ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò  ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò          ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ        ‚îÇ             ‚îÇ             ‚îÇ                ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ        ‚ñº             ‚ñº             ‚ñº                ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê  ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê  ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê          ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ   ‚îÇCONTAINER ‚îÇ  ‚îÇCONTAINER ‚îÇ  ‚îÇCONTAINER ‚îÇ          ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ   ‚îÇ de-postgres‚îÇ ‚îÇ  de-etl  ‚îÇ  ‚îÇ de-spark ‚îÇ         ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò  ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò  ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò          ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ        ‚îÇ                                            ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ        ‚ñº                                            ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê       ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê               ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ   ‚îÇ  VOLUME  ‚îÇ       ‚îÇ   NETWORK    ‚îÇ               ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ   ‚îÇ pg_data  ‚îÇ       ‚îÇ  de-network  ‚îÇ               ‚îÇ    ‚îÇ
‚îÇ  ‚îÇ   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò       ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò               ‚îÇ    ‚îÇ
‚îÇ  ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îÇ
‚îÇ                                                             ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

---

## 3. Installation de Docker

| Syst√®me | Comment installer |
|---------|------------------|
| ü™ü **Windows** | Docker Desktop + WSL2 |
| üçé **macOS** | Docker Desktop (Intel ou Apple Silicon) |
| üêß **Linux** | Docker Engine (apt/yum) |

### ü™ü Windows (Docker Desktop + WSL2)

**1. Activer WSL2 :**
```powershell
# Dans PowerShell en administrateur
wsl --install
```

**2. T√©l√©charger Docker Desktop :**
- üîó https://www.docker.com/products/docker-desktop/

**3. Installer et red√©marrer**

**4. Tester :**
```powershell
docker --version
docker run --rm hello-world
```

---

### üçé macOS (Intel & Apple Silicon)

**1. T√©l√©charger Docker Desktop :**
- üîó https://www.docker.com/products/docker-desktop/
- Choisir la version **Intel** ou **Apple Silicon (M1/M2/M3)**

**2. Glisser l'app dans Applications**

**3. Lancer Docker Desktop** (ic√¥ne üê≥ dans la barre)

**4. Tester :**
```bash
docker --version
docker run --rm hello-world
```

---

### üêß Linux (Ubuntu/Debian)

```bash
# 1. Mettre √† jour et installer les pr√©requis
sudo apt-get update
sudo apt-get install ca-certificates curl gnupg lsb-release

# 2. Ajouter la cl√© GPG officielle
sudo mkdir -p /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg

# 3. Ajouter le d√©p√¥t Docker
echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

# 4. Installer Docker
sudo apt-get update
sudo apt-get install docker-ce docker-ce-cli containerd.io

# 5. Tester
sudo docker run --rm hello-world

# 6. (Optionnel) Utiliser Docker sans sudo
sudo usermod -aG docker $USER
# Puis d√©connexion/reconnexion
```

### V√©rifier ton installation

In [None]:
%%bash
# V√©rifier la version de Docker
docker --version

# V√©rifier que Docker fonctionne
docker run --rm hello-world

---

## 4. Commandes Docker essentielles

Voici ton **cheat sheet** de base :

### Lancer un container

```bash
docker run image                    # Lancer un container
docker run -d image                 # En arri√®re-plan (detached)
docker run -it image bash           # Mode interactif
docker run --rm image               # Supprime le container √† la fin
docker run --name mon-container image  # Nommer le container
```

### Lister

```bash
docker ps                           # Containers en cours
docker ps -a                        # Tous les containers (y compris stopp√©s)
docker images                       # Lister les images locales
```

### Stopper / Supprimer

```bash
docker stop CONTAINER_ID            # Arr√™ter un container
docker rm CONTAINER_ID              # Supprimer un container
docker rmi IMAGE_ID                 # Supprimer une image
```

### T√©l√©charger une image

```bash
docker pull postgres:16             # T√©l√©charger depuis Docker Hub
```

### Logs

```bash
docker logs CONTAINER_ID            # Voir les logs
docker logs -f CONTAINER_ID         # Suivre les logs en temps r√©el
```

### Raccourcis utiles

| Commande | Description |
|----------|-------------|
| `docker ps -a` | Voir tous les containers |
| `docker logs -f` | Suivre les logs en live |
| `docker exec -it <container> bash` | Entrer dans un container |
| `docker system prune` | Nettoyer les ressources inutilis√©es |

In [None]:
%%bash
# Lister les images disponibles localement
echo "=== Images locales ==="
docker images

echo ""
echo "=== Containers en cours ==="
docker ps

echo ""
echo "=== Tous les containers ==="
docker ps -a

---

## 5. Docker pour lancer des services Data

Docker est **extr√™mement pratique** pour tester rapidement des services utilis√©s en Data Engineering.

### PostgreSQL (exemple d√©taill√©)

```bash
docker run -d \
  --name demo-postgres \
  -e POSTGRES_USER=de_user \
  -e POSTGRES_PASSWORD=de_pass \
  -e POSTGRES_DB=de_db \
  -p 5432:5432 \
  postgres:16
```

**Connexion :**
- Host: `localhost`
- Port: `5432`
- User: `de_user`
- Password: `de_pass`
- Database: `de_db`

Tu peux ensuite te connecter avec DBeaver, psql, Python (psycopg2), etc.

---

### Autres services (one-liners)

| Service | Commande |
|---------|----------|
| **Redis** | `docker run -d --name demo-redis -p 6379:6379 redis:latest` |
| **MongoDB** | `docker run -d --name demo-mongo -p 27017:27017 mongo:latest` |
| **Kafka** | `docker run -d --name demo-kafka -p 9092:9092 bitnami/kafka:latest` |
| **Spark** | `docker run -it --name demo-spark bitnami/spark:latest pyspark` |
| **Airflow** | `docker pull apache/airflow:latest` |
| **Jupyter** | `docker run -p 8888:8888 jupyter/scipy-notebook` |

> üí° **Astuce** : Pour Kafka et Airflow, pr√©f√®re `docker-compose` car ils n√©cessitent plusieurs services (Zookeeper, webserver, scheduler‚Ä¶), on le verra un peu plus en bas.

In [None]:
%%bash
# Lancer PostgreSQL (si Docker est install√©)
docker run -d \
  --name demo-postgres \
  -e POSTGRES_USER=de_user \
  -e POSTGRES_PASSWORD=de_pass \
  -e POSTGRES_DB=de_db \
  -p 5432:5432 \
  postgres:16

echo "PostgreSQL lanc√© sur localhost:5432"

# V√©rifier qu'il tourne
docker ps --filter name=demo-postgres

In [None]:
%%bash
# Nettoyage : stopper et supprimer le container
docker stop demo-postgres 2>/dev/null
docker rm demo-postgres 2>/dev/null
echo "üßπ Container demo-postgres supprim√©"

---

## 6. Dockerfile : cr√©er son image

Le **Dockerfile** est un fichier texte qui d√©crit comment construire une image.

### Instructions principales

| Instruction | R√¥le | Exemple |
|-------------|------|--------|
| `FROM` | Image de base | `FROM python:3.11-slim` |
| `WORKDIR` | R√©pertoire de travail | `WORKDIR /app` |
| `COPY` | Copier des fichiers | `COPY etl.py .` |
| `RUN` | Ex√©cuter une commande (build) | `RUN pip install pandas` |
| `CMD` | Commande par d√©faut (run) | `CMD ["python", "etl.py"]` |
| `ENTRYPOINT` | Point d'entr√©e fixe | `ENTRYPOINT ["python"]` |
| `ENV` | Variable d'environnement | `ENV PYTHONUNBUFFERED=1` |
| `EXPOSE` | Port expos√© (documentation) | `EXPOSE 8000` |

### Structure de projet recommand√©e

```text
etl_project/
‚îú‚îÄ‚îÄ Dockerfile
‚îú‚îÄ‚îÄ .dockerignore
‚îú‚îÄ‚îÄ requirements.txt
‚îú‚îÄ‚îÄ src/
‚îÇ   ‚îú‚îÄ‚îÄ etl.py
‚îÇ   ‚îî‚îÄ‚îÄ utils.py
‚îî‚îÄ‚îÄ data/               # ‚ö†Ô∏è Ne pas inclure dans l'image !
    ‚îî‚îÄ‚îÄ input.csv
```

> üí° **Important** : Le Dockerfile doit √™tre √† la **racine du service** que tu veux packager.

### Exemple : Dockerfile pour un ETL Python

```dockerfile
# 1. Image de base l√©g√®re
FROM python:3.11-slim

# 2. Variables d'environnement
ENV PYTHONUNBUFFERED=1
ENV PYTHONDONTWRITEBYTECODE=1

# 3. R√©pertoire de travail
WORKDIR /app

# 4. Copier et installer les d√©pendances (cache Docker)
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

# 5. Copier le code
COPY src/ ./src/

# 6. Commande par d√©faut
CMD ["python", "src/etl.py"]
```

### Construire l'image

```bash
cd etl_project
docker build -t etl-image:1.0 .
```

### Lancer le container

```bash
docker run --rm etl-image:1.0
```

---

## 7. Le fichier `.dockerignore`

Le `.dockerignore` emp√™che d'envoyer des fichiers inutiles dans le build context.

### ‚ùå Sans `.dockerignore`

- Images **√©normes** (datasets inclus)
- Builds **lents** (envoi de Go de donn√©es)
- **Fuites de secrets** (.env, cl√©s SSH)

### ‚úÖ Exemple de `.dockerignore` (Data Engineer)

```text
# Donn√©es
data/
*.csv
*.parquet
*.json

# Python
__pycache__/
*.pyc
*.pyo
venv/
.venv/
*.egg-info/

# Secrets
.env
*.key
*.pem
secrets/

# Notebooks
*.ipynb
.ipynb_checkpoints/

# Git
.git/
.gitignore

# IDE
.idea/
.vscode/
*.swp

# Logs
logs/
*.log

# OS
.DS_Store
Thumbs.db

# Docker
Dockerfile
docker-compose*.yml
```

> üí° **R√®gle d'or** : le `.dockerignore` est **aussi important** que le Dockerfile !

---

## 8. Multi-stage builds

Les **multi-stage builds** permettent de cr√©er des images **plus l√©g√®res** en s√©parant :

1. **Stage build** : compilation, installation des d√©pendances lourdes
2. **Stage runtime** : uniquement ce qui est n√©cessaire pour ex√©cuter

### Pourquoi c'est utile ?

| Sans multi-stage | Avec multi-stage |
|-----------------|------------------|
| Image de 1.5 Go | Image de 200 Mo |
| Outils de build inclus | Seulement le runtime |
| Surface d'attaque large | S√©curit√© renforc√©e |

### Exemple : ETL Python avec multi-stage

```dockerfile
# ============== STAGE 1 : BUILD ==============
FROM python:3.11-slim AS builder

WORKDIR /app

# Installer les d√©pendances dans un dossier isol√©
COPY requirements.txt .
RUN pip install --prefix=/install --no-cache-dir -r requirements.txt

# ============== STAGE 2 : RUNTIME ==============
FROM python:3.11-slim AS runtime

WORKDIR /app

# Copier seulement les d√©pendances install√©es
COPY --from=builder /install /usr/local

# Copier le code
COPY src/ ./src/

# Variables d'environnement
ENV PYTHONUNBUFFERED=1

CMD ["python", "src/etl.py"]
```

**R√©sultat** : image finale **l√©g√®re** et **s√©curis√©e** ! üéâ

---

## 9. Volumes & Networks

### 9.1 Volumes : persister les donn√©es

Les **volumes** permettent de stocker des donn√©es en dehors des containers.

**Types de volumes :**

| Type | Syntaxe | Usage |
|------|---------|-------|
| **Bind mount** | `-v /host/path:/container/path` | Donn√©es locales (dev) |
| **Volume nomm√©** | `-v myvolume:/container/path` | Donn√©es persistantes (prod) |

**Exemple : monter un dossier local**

```bash
docker run -d \
  --name etl-with-data \
  -v $(pwd)/data:/app/data \
  etl-image:1.0
```

- `$(pwd)/data` ‚Üí dossier sur ta machine
- `/app/data` ‚Üí dossier dans le container
- Tu supprimes le container ‚Üí les donn√©es restent dans `./data`

---

### 9.2 Networks : faire communiquer les containers

Par d√©faut, Docker cr√©e un r√©seau `bridge`. Tu peux cr√©er un r√©seau d√©di√© :

```bash
# Cr√©er un r√©seau
docker network create de-network

# Lancer des containers sur ce r√©seau
docker run -d --name de-postgres --network de-network postgres:16
docker run -d --name de-etl --network de-network etl-image:1.0
```

**Avantage** : dans le code Python, tu te connectes √† `de-postgres` (nom du container) au lieu de `localhost` !

```python
# Dans etl.py
conn = psycopg2.connect(
    host="de-postgres",  # Nom du container !
    database="de_db",
    user="de_user",
    password="de_pass"
)
```

---

## 10. Docker Compose

Quand tu as **plusieurs services** (Postgres + ETL + API‚Ä¶), tu ne veux pas tout lancer √† la main.

`docker-compose.yml` permet de **d√©crire une stack compl√®te** et de la lancer avec **une seule commande**.

### Structure projet avec docker-compose

```text
de-pipeline/
‚îú‚îÄ‚îÄ docker-compose.yml      # √Ä la racine !
‚îú‚îÄ‚îÄ etl/
‚îÇ   ‚îú‚îÄ‚îÄ Dockerfile
‚îÇ   ‚îú‚îÄ‚îÄ requirements.txt
‚îÇ   ‚îî‚îÄ‚îÄ etl.py
‚îî‚îÄ‚îÄ data/
    ‚îî‚îÄ‚îÄ input.csv
```

### Exemple : PostgreSQL + ETL

```yaml
version: "3.9"

services:
  postgres:
    image: postgres:16
    container_name: de-postgres
    environment:
      POSTGRES_USER: de_user
      POSTGRES_PASSWORD: de_pass
      POSTGRES_DB: de_db
    ports:
      - "5432:5432"
    volumes:
      - pg_data:/var/lib/postgresql/data
    healthcheck:
      test: ["CMD-SHELL", "pg_isready -U de_user -d de_db"]
      interval: 5s
      timeout: 5s
      retries: 5

  etl:
    build: ./etl
    container_name: de-etl
    depends_on:
      postgres:
        condition: service_healthy
    environment:
      DB_HOST: postgres
      DB_USER: de_user
      DB_PASSWORD: de_pass
      DB_NAME: de_db
    volumes:
      - ./data:/app/data

volumes:
  pg_data:
```

### Commandes docker-compose

```bash
# Lancer la stack
docker compose up -d

# Voir les logs
docker compose logs -f

# Stopper la stack
docker compose down

# Stopper et supprimer les volumes
docker compose down -v

# Reconstruire les images
docker compose up --build
```

---

## 11. Debug Docker

En Data Engineering, tu devras souvent **d√©bugger** un job qui tourne dans un container.

### Voir les logs

```bash
docker logs de-etl                  # Voir les logs
docker logs -f de-etl               # Suivre en temps r√©el
docker logs --tail 100 de-etl       # Les 100 derni√®res lignes
```

### Entrer dans un container

```bash
docker exec -it de-etl bash         # Ouvrir un shell bash
docker exec -it de-etl sh           # Pour images Alpine
```

**Cas d'usage :**
- Inspecter les fichiers (`ls`, `cat`)
- Tester une connexion DB (`psql`, `ping`)
- V√©rifier les variables d'environnement (`env`)
- Lancer un script manuellement (`python etl.py`)

### Inspecter un container

```bash
docker inspect de-etl               # D√©tails complets (JSON)
docker inspect --format='{{.NetworkSettings.IPAddress}}' de-etl  # IP du container
```

### Cas Data Engineering typiques

| Probl√®me | Solution |
|----------|----------|
| ETL qui plante sans message | `docker logs de-etl` |
| Connexion DB refus√©e | `docker exec -it de-etl bash` puis `ping postgres` |
| Spark ne voit pas Kafka | V√©rifier les networks Docker |
| Fichier introuvable | `docker exec -it de-etl ls /app/data` |
| Variable d'env manquante | `docker exec -it de-etl env` |

---

## 12. Erreurs fr√©quentes & Bonnes pratiques

### ‚ùå Erreurs fr√©quentes

| Erreur | Cons√©quence | Solution |
|--------|-------------|----------|
| Pas de `.dockerignore` | Images de plusieurs Go | Cr√©er un `.dockerignore` complet |
| Tout en `latest` | Comportement non reproductible | Tags versionn√©s (`image:1.0.0`) |
| Dockerfile mal plac√© | Build context gigantesque | Dockerfile √† la racine du service |
| Secrets dans l'image | Fuite de credentials | Variables d'env ou secrets manager |
| Pas de nettoyage | Disque satur√© | `docker system prune` r√©guli√®rement |
| Donn√©es dans l'image | Image √©norme, non portable | Utiliser des volumes |
| Versions non fix√©es | Builds cass√©s apr√®s mise √† jour | Fixer les versions dans `requirements.txt` |

### ‚úÖ Bonnes pratiques

| Pratique | Pourquoi |
|----------|----------|
| Images **slim** | `python:3.11-slim` = plus l√©ger et rapide |
| **Multi-stage builds** | Images finales l√©g√®res |
| **Tags versionn√©s** | `etl:1.0.0`, `etl:prod`, `etl:staging` |
| **`.dockerignore`** | Builds rapides et s√©curis√©s |
| **Healthchecks** | Savoir si un service est pr√™t |
| **Volumes pour les donn√©es** | Persistance et portabilit√© |
| **Nettoyage r√©gulier** | `docker system prune` |

### üßπ Commandes de nettoyage

```bash
# Supprimer les containers arr√™t√©s
docker container prune

# Supprimer les images non utilis√©es
docker image prune

# Tout nettoyer (‚ö†Ô∏è attention en prod !)
docker system prune -a
```

---

## Quiz de fin de module

R√©ponds aux questions suivantes pour v√©rifier tes acquis.

---

### ‚ùì Q1. Quelle est la diff√©rence entre une image et un container Docker ?
a) Une image est un container en cours d'ex√©cution  
b) Un container est une instance en cours d'ex√©cution d'une image  
c) C'est la m√™me chose  
d) Une image contient plusieurs containers

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî Une image est un mod√®le fig√©, un container est son ex√©cution vivante.

</details>

---

### ‚ùì Q2. Pourquoi le fichier `.dockerignore` est-il important ?
a) Pour ignorer les erreurs Docker  
b) Pour r√©duire la taille du build context et s√©curiser les builds  
c) Pour ignorer les logs  
d) C'est optionnel et inutile

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî Il √©vite d'envoyer des fichiers inutiles (donn√©es, secrets) dans le build context.

</details>

---

### ‚ùì Q3. Quelle commande permet d'entrer dans un container en cours d'ex√©cution ?
a) `docker run -it container bash`  
b) `docker exec -it container bash`  
c) `docker enter container`  
d) `docker ssh container`

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî `docker exec -it <container> bash` ouvre un shell interactif.

</details>

---

### ‚ùì Q4. √Ä quoi servent les multi-stage builds ?
a) √Ä lancer plusieurs containers en parall√®le  
b) √Ä cr√©er des images plus l√©g√®res en s√©parant build et runtime  
c) √Ä versionner les images  
d) √Ä g√©rer les r√©seaux Docker

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî Multi-stage = image finale l√©g√®re avec seulement le runtime n√©cessaire.

</details>

---

### ‚ùì Q5. O√π doit-on placer le fichier `docker-compose.yml` ?
a) Dans le dossier `/etc/docker/`  
b) √Ä la racine du projet multi-services  
c) Dans chaque sous-dossier de service  
d) N'importe o√π

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî Le `docker-compose.yml` est √† la racine du projet, avec les services dans des sous-dossiers.

</details>

---

### ‚ùì Q6. Quelle commande permet de voir les logs d'un container en temps r√©el ?
a) `docker logs container`  
b) `docker logs -f container`  
c) `docker watch container`  
d) `docker tail container`

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî L'option `-f` (follow) suit les logs en temps r√©el.

</details>

---

## Mini-projet : ETL Dockeris√© complet

### Objectif
Cr√©er un **pipeline ETL Dockeris√©** qui lit un CSV, transforme les donn√©es, et les charge dans PostgreSQL.

### Contexte
Tu dois packager un job ETL Python avec Docker et le faire communiquer avec une base PostgreSQL, le tout orchestr√© par docker-compose.

### Contraintes

1. Cr√©er la structure de projet suivante :
```text
de-mini-projet/
‚îú‚îÄ‚îÄ docker-compose.yml
‚îú‚îÄ‚îÄ etl/
‚îÇ   ‚îú‚îÄ‚îÄ Dockerfile
‚îÇ   ‚îú‚îÄ‚îÄ .dockerignore
‚îÇ   ‚îú‚îÄ‚îÄ requirements.txt
‚îÇ   ‚îî‚îÄ‚îÄ etl.py
‚îî‚îÄ‚îÄ data/
    ‚îî‚îÄ‚îÄ sales.csv
```

2. L'ETL doit :
   - Lire `data/sales.csv`
   - Calculer une colonne `total = quantity * price`
   - Ins√©rer les donn√©es dans PostgreSQL

3. Utiliser un **healthcheck** pour attendre que Postgres soit pr√™t

4. Les donn√©es doivent √™tre mont√©es via un **volume**

### ‚úÖ Solution du mini-projet

<details>
<summary>üì• Afficher la solution compl√®te</summary>

**1. `data/sales.csv`**
```csv
date,product,quantity,price
2024-01-01,Laptop,5,999.99
2024-01-02,Mouse,20,29.99
2024-01-03,Keyboard,15,79.99
2024-01-04,Monitor,8,299.99
2024-01-05,Laptop,3,999.99
```

**2. `etl/requirements.txt`**
```text
pandas==2.1.4
psycopg2-binary==2.9.9
sqlalchemy==2.0.25
```

**3. `etl/.dockerignore`**
```text
__pycache__/
*.pyc
.env
*.log
```

**4. `etl/Dockerfile`**
```dockerfile
FROM python:3.11-slim

ENV PYTHONUNBUFFERED=1

WORKDIR /app

COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

COPY etl.py .

CMD ["python", "etl.py"]
```

**5. `etl/etl.py`**
```python
import os
import pandas as pd
from sqlalchemy import create_engine

def main():
    # Configuration depuis variables d'environnement
    db_host = os.environ.get('DB_HOST', 'localhost')
    db_user = os.environ.get('DB_USER', 'de_user')
    db_pass = os.environ.get('DB_PASSWORD', 'de_pass')
    db_name = os.environ.get('DB_NAME', 'de_db')
    
    print("üöÄ D√©marrage de l'ETL...")
    
    # Extract
    print("üì• Lecture du fichier CSV...")
    df = pd.read_csv('/app/data/sales.csv')
    print(f"   {len(df)} lignes lues")
    
    # Transform
    print("üîÑ Transformation des donn√©es...")
    df['total'] = df['quantity'] * df['price']
    df['loaded_at'] = pd.Timestamp.now()
    
    # Load
    print("üì§ Chargement dans PostgreSQL...")
    engine = create_engine(f'postgresql://{db_user}:{db_pass}@{db_host}/{db_name}')
    df.to_sql('sales', engine, if_exists='replace', index=False)
    
    print("‚úÖ ETL termin√© avec succ√®s !")
    print(df.head())

if __name__ == "__main__":
    main()
```

**6. `docker-compose.yml`**
```yaml
version: "3.9"

services:
  postgres:
    image: postgres:16
    container_name: de-postgres
    environment:
      POSTGRES_USER: de_user
      POSTGRES_PASSWORD: de_pass
      POSTGRES_DB: de_db
    ports:
      - "5432:5432"
    volumes:
      - pg_data:/var/lib/postgresql/data
    healthcheck:
      test: ["CMD-SHELL", "pg_isready -U de_user -d de_db"]
      interval: 5s
      timeout: 5s
      retries: 5

  etl:
    build: ./etl
    container_name: de-etl
    depends_on:
      postgres:
        condition: service_healthy
    environment:
      DB_HOST: postgres
      DB_USER: de_user
      DB_PASSWORD: de_pass
      DB_NAME: de_db
    volumes:
      - ./data:/app/data

volumes:
  pg_data:
```

**7. Lancer le projet :**
```bash
cd de-mini-projet
docker compose up --build
```

**8. V√©rifier les donn√©es dans Postgres :**
```bash
docker exec -it de-postgres psql -U de_user -d de_db -c "SELECT * FROM sales;"
```

</details>

---

## üìö Ressources pour aller plus loin

### üåê Documentation officielle
- [Docker Docs](https://docs.docker.com/) ‚Äî Documentation officielle
- [Docker Hub](https://hub.docker.com/) ‚Äî Registry d'images publiques
- [Dockerfile reference](https://docs.docker.com/engine/reference/builder/) ‚Äî Toutes les instructions

### üéÆ Pratique
- [Play with Docker](https://labs.play-with-docker.com/) ‚Äî Environnement Docker gratuit en ligne
- [Docker 101 Tutorial](https://www.docker.com/101-tutorial/) ‚Äî Tutoriel officiel interactif

### üì¶ Images utiles pour Data Engineering
- [postgres](https://hub.docker.com/_/postgres) ‚Äî Base de donn√©es relationnelle
- [apache/airflow](https://hub.docker.com/r/apache/airflow) ‚Äî Orchestrateur
- [bitnami/spark](https://hub.docker.com/r/bitnami/spark) ‚Äî Traitement distribu√©
- [bitnami/kafka](https://hub.docker.com/r/bitnami/kafka) ‚Äî Streaming
- [jupyter/scipy-notebook](https://hub.docker.com/r/jupyter/scipy-notebook) ‚Äî Notebooks

---

## ‚û°Ô∏è Prochaine √©tape

Maintenant que tu ma√Ætrises Docker, passons √† l'orchestration de containers **√† grande √©chelle** !

üëâ **Module suivant : `15_kubernetes_fundamentals`** ‚Äî Orchestrer des containers avec Kubernetes

Tu vas apprendre :
- Pods, Deployments, Services
- ConfigMaps, Secrets
- Spark et Airflow sur Kubernetes

---

üéâ **F√©licitations !** Tu as termin√© le module Docker pour Data Engineers.