# Bash pour Data Engineers

Bienvenue dans ce module o√π tu vas apprendre les **commandes Bash essentielles** pour manipuler des fichiers, automatiser des t√¢ches, et interagir avec ton environnement syst√®me ‚Äî des comp√©tences indispensables pour un Data Engineer !

---

## Pr√©requis

| Niveau | Comp√©tence |
|--------|------------|
| ‚úÖ Requis | Avoir suivi le module `01_intro_data_engineering` |
| ‚úÖ Requis | Avoir acc√®s √† un terminal (Linux, Mac, ou Windows avec WSL/Git Bash) |

## Objectifs du module

√Ä la fin de ce module, tu seras capable de :

- Naviguer dans l'arborescence de fichiers
- Manipuler des fichiers et dossiers
- Filtrer et rechercher dans des donn√©es
- √âcrire des scripts Bash pour automatiser des t√¢ches
- Planifier des jobs avec cron

## C'est quoi le langage Bash ?

**Bash** (abr√©viation de **Bourne Again SHell**) est un **langage de commande et de script** utilis√© dans la majorit√© des syst√®mes Unix/Linux (et m√™me sous Windows via WSL ou Git Bash).

Il te permet de :


- Naviguer dans les dossiers  
- Manipuler des fichiers et des donn√©es  
- Automatiser des t√¢ches r√©p√©titives  
- √âcrire des **scripts shell** pour lancer des traitements de donn√©es

---

### Pourquoi c'est utile pour un Data Engineer ?

| Cas d'usage | Exemple concret |
|-------------|----------------|
| Lancer des **pipelines ETL** | `python etl_pipeline.py && echo "Success" \|\| echo "Failed"` |
| √âcrire des **jobs cron** | Extraction automatique de donn√©es chaque nuit √† 2h |
| Manipuler des fichiers | Fusionner 100 fichiers CSV en un seul |
| Orchestrer des outils | Lancer Docker, Spark, ou Airflow depuis un script |
| Analyser des logs | Trouver toutes les erreurs dans les logs du jour |

> üí° En bref : **le Bash est ton couteau suisse pour parler avec ton ordinateur** et piloter l'√©cosyst√®me data.

> ‚ÑπÔ∏è **Le savais-tu ?**
>
> Le mot **Bash** signifie **"Bourne Again SHell"**, un jeu de mots sur :
>
> - Le **shell Unix original** : le **Bourne Shell (`sh`)**, d√©velopp√© dans les ann√©es 1970 par **Stephen Bourne**
> - L'expression anglaise "**born again**" = rena√Ætre
>
> Bash est donc une **nouvelle version am√©lior√©e du shell Bourne**, libre, puissante, et utilis√©e par d√©faut dans la plupart des syst√®mes Unix/Linux modernes.
>
> üìñ [Biographie de Stephen R. Bourne sur Wikipedia](https://en.wikipedia.org/wiki/Stephen_R._Bourne)

## Comment acc√©der √† Bash ?

| Syst√®me | Comment y acc√©der |
|---------|------------------|
| üêß **Linux** | Bash est install√© par d√©faut. Ouvre un **Terminal** |
| üçé **macOS** | Ouvre **Terminal** (Applications ‚Üí Utilitaires ‚Üí Terminal) |
| ü™ü **Windows** | Installe **WSL** (Windows Subsystem for Linux) ou **Git Bash** |

### Installation de WSL sur Windows

```powershell
# Dans PowerShell en administrateur
wsl --install
```

Apr√®s red√©marrage, tu auras acc√®s √† un terminal Linux complet !

### V√©rifier ta version de Bash

```bash
bash --version
```

---

## 1. Navigation & exploration

Les commandes de base pour se d√©placer dans l'arborescence :

In [None]:
%%bash
# Affiche le chemin du dossier courant (Print Working Directory)
pwd

# Liste les fichiers du dossier courant
ls

# Liste avec d√©tails (permissions, taille, date)
ls -lh

# Liste incluant les fichiers cach√©s
ls -la

# Affiche l'arborescence (si install√©)
# tree

# Change de dossier
cd /tmp
pwd

# Revenir au dossier pr√©c√©dent
cd -

# Aller au dossier home
cd ~

### Raccourcis de navigation essentiels

| Symbole | Signification | Exemple |
|---------|--------------|--------|
| `.` | Dossier courant | `./script.sh` |
| `..` | Dossier parent | `cd ..` |
| `~` | Dossier home | `cd ~` |
| `/` | Racine du syst√®me | `cd /` |
| `-` | Dossier pr√©c√©dent | `cd -` |

---

## 2. Cr√©ation et manipulation de fichiers

Cr√©er, copier, d√©placer, supprimer :

In [None]:
%%bash
# Cr√©er un dossier
mkdir data

# Cr√©er un dossier avec ses parents (pas d'erreur si existe)
mkdir -p data/raw/2024

# Cr√©er un fichier vide
touch data/fichier.csv

# Cr√©er plusieurs fichiers
touch data/file1.csv data/file2.csv data/file3.csv

# Copier un fichier
cp data/fichier.csv data/fichier_backup.csv

# Copier un dossier entier (r√©cursif)
cp -r data/ data_backup/

# D√©placer / Renommer un fichier
mv data/fichier.csv data/nouveau_nom.csv

# Supprimer un fichier
rm data/file1.csv

# Supprimer un dossier vide
rmdir data/raw/2024

# Supprimer un dossier et son contenu (‚ö†Ô∏è DANGEREUX)
rm -r data_backup/

---

## 3. Lecture de contenu

Lire, afficher, compter les lignes :

In [None]:
%%bash
# Cr√©ons d'abord un fichier exemple
cat << 'EOF' > ventes.csv
date,produit,quantite,prix
2024-01-01,Laptop,5,999.99
2024-01-02,Souris,20,29.99
2024-01-03,Clavier,15,79.99
2024-01-04,√âcran,8,299.99
2024-01-05,Laptop,3,999.99
2024-01-06,Souris,25,29.99
2024-01-07,Casque,12,149.99
EOF

echo "‚úÖ Fichier ventes.csv cr√©√©"

In [None]:
%%bash
# Affiche le contenu entier
echo "=== cat ==="
cat ventes.csv

echo ""
echo "=== head (3 premi√®res lignes) ==="
head -n 3 ventes.csv

echo ""
echo "=== tail (2 derni√®res lignes) ==="
tail -n 2 ventes.csv

echo ""
echo "=== wc (comptage) ==="
wc -l ventes.csv    # Nombre de lignes
wc -w ventes.csv    # Nombre de mots
wc -c ventes.csv    # Nombre de caract√®res

### Lire des gros fichiers avec `less`

Pour les fichiers volumineux, utilise `less` qui permet de naviguer :

```bash
less gros_fichier.csv
```

| Touche | Action |
|--------|--------|
| `‚Üì` ou `j` | Ligne suivante |
| `‚Üë` ou `k` | Ligne pr√©c√©dente |
| `Space` | Page suivante |
| `b` | Page pr√©c√©dente |
| `/mot` | Rechercher "mot" |
| `n` | Occurrence suivante |
| `q` | Quitter |

---

## 4. Recherche & filtrage

Extraire des informations pr√©cises ‚Äî **essentiel pour un Data Engineer** !

In [None]:
%%bash
echo "=== grep : recherche de motifs ==="

# Rechercher les lignes contenant "Laptop"
echo "Lignes avec 'Laptop':"
grep "Laptop" ventes.csv

echo ""
# Recherche insensible √† la casse
echo "Recherche insensible √† la casse (-i):"
grep -i "laptop" ventes.csv

echo ""
# Compter le nombre de correspondances
echo "Nombre de lignes avec 'Souris':"
grep -c "Souris" ventes.csv

echo ""
# Afficher les num√©ros de ligne
echo "Avec num√©ros de ligne (-n):"
grep -n "99.99" ventes.csv

echo ""
# Inverser la recherche (lignes qui NE contiennent PAS)
echo "Lignes SANS 'Laptop' (-v):"
grep -v "Laptop" ventes.csv

In [None]:
%%bash
echo "=== find : trouver des fichiers ==="

# Cr√©er quelques fichiers pour l'exemple
mkdir -p projet/data projet/scripts
touch projet/data/users.csv projet/data/sales.csv projet/data/old.json
touch projet/scripts/etl.py projet/scripts/utils.py

# Trouver tous les fichiers .csv
echo "Fichiers .csv:"
find projet/ -name "*.csv"

echo ""
# Trouver tous les fichiers .py
echo "Fichiers .py:"
find projet/ -name "*.py"

echo ""
# Trouver les fichiers modifi√©s dans les derni√®res 24h
echo "Fichiers modifi√©s r√©cemment:"
find projet/ -mtime -1 -type f

# Nettoyage
rm -r projet/

In [None]:
%%bash
echo "=== cut : extraire des colonnes ==="

# Extraire la 2√®me colonne (produit)
echo "Colonne 'produit':"
cut -d',' -f2 ventes.csv

echo ""
echo "=== sort : trier ==="
# Trier par produit (2√®me colonne)
echo "Tri√© par produit:"
tail -n +2 ventes.csv | sort -t',' -k2

echo ""
echo "=== uniq : valeurs uniques ==="
# Liste des produits uniques
echo "Produits uniques:"
cut -d',' -f2 ventes.csv | tail -n +2 | sort | uniq

echo ""
# Compter les occurrences
echo "Comptage par produit:"
cut -d',' -f2 ventes.csv | tail -n +2 | sort | uniq -c

---

## 5. Pipes & redirections

Le **pipe** (`|`) est l'outil le plus puissant de Bash : il permet de **cha√Æner des commandes** en envoyant la sortie d'une commande vers l'entr√©e de la suivante.

In [None]:
%%bash
echo "=== Exemples de pipes ==="

# Trouver les ventes de Laptop et compter
echo "Nombre de ventes Laptop:"
cat ventes.csv | grep "Laptop" | wc -l

echo ""
# Top 3 des produits les plus vendus
echo "Top 3 produits (par nombre de lignes):"
cut -d',' -f2 ventes.csv | tail -n +2 | sort | uniq -c | sort -rn | head -3

echo ""
# Pipeline complexe : produits avec prix > 100
echo "Produits avec prix > 100:"
tail -n +2 ventes.csv | awk -F',' '$4 > 100 {print $2, $4}' | sort -u

In [None]:
%%bash
echo "=== Redirections ==="

# Rediriger vers un fichier (√©crase)
grep "Laptop" ventes.csv > laptops.txt
echo "Contenu de laptops.txt:"
cat laptops.txt

echo ""
# Ajouter √† un fichier (append)
grep "√âcran" ventes.csv >> laptops.txt
echo "Apr√®s ajout:"
cat laptops.txt

echo ""
# Rediriger les erreurs
ls fichier_inexistant 2> erreurs.log
echo "Erreur captur√©e:"
cat erreurs.log

# Nettoyage
rm -f laptops.txt erreurs.log

### R√©capitulatif des redirections

| Symbole | Description | Exemple |
|---------|-------------|--------|
| `>` | Redirige stdout vers fichier (√©crase) | `echo "hello" > file.txt` |
| `>>` | Redirige stdout vers fichier (ajoute) | `echo "world" >> file.txt` |
| `2>` | Redirige stderr vers fichier | `cmd 2> errors.log` |
| `&>` | Redirige stdout ET stderr | `cmd &> all.log` |
| `<` | Utilise fichier comme entr√©e | `wc -l < file.txt` |
| `\|` | Pipe : stdout ‚Üí stdin suivant | `cat file \| grep mot` |

---

## 6. Variables et boucles

Automatiser avec des scripts bash :

In [None]:
%%bash
echo "=== Variables ==="

# D√©clarer une variable (PAS d'espace autour du =)
nom="Data Engineer"
annee=2024
dossier_data="/home/user/data"

# Utiliser une variable avec $
echo "Bienvenue $nom !"
echo "Nous sommes en $annee"

# Utiliser ${} pour √©viter l'ambigu√Øt√©
echo "Fichier: ${dossier_data}/ventes.csv"

echo ""
echo "=== Variables d'environnement ==="
echo "Home: $HOME"
echo "User: $USER"
echo "Shell: $SHELL"
echo "Path: $PATH" | cut -c1-50  # Tronqu√© pour l'affichage

In [None]:
%%bash
echo "=== Boucle for ==="

# Cr√©er des fichiers de test
mkdir -p data_test
touch data_test/jan.csv data_test/feb.csv data_test/mar.csv

# Boucle sur les fichiers CSV
for fichier in data_test/*.csv; do
    echo "Traitement de: $fichier"
    echo "   Nom: $(basename "$fichier")"
done

echo ""
echo "=== Boucle avec s√©quence ==="
for i in {1..5}; do
    echo "It√©ration $i"
done

echo ""
echo "=== Boucle while ==="
compteur=1
while [ $compteur -le 3 ]; do
    echo "Compteur: $compteur"
    ((compteur++))
done

# Nettoyage
rm -r data_test/

---

## 7. Conditions (if/else)

Prendre des d√©cisions dans tes scripts :

In [None]:
%%bash
echo "=== Conditions de base ==="

# V√©rifier si un fichier existe
if [ -f "ventes.csv" ]; then
    echo "‚úÖ Le fichier ventes.csv existe"
else
    echo "‚ùå Le fichier n'existe pas"
fi

echo ""
# V√©rifier si un dossier existe
if [ -d "/tmp" ]; then
    echo "‚úÖ Le dossier /tmp existe"
fi

echo ""
# Comparer des nombres
nb_lignes=$(wc -l < ventes.csv)
echo "Nombre de lignes: $nb_lignes"

if [ $nb_lignes -gt 5 ]; then
    echo "üìä Fichier volumineux (> 5 lignes)"
else
    echo "üìÑ Petit fichier"
fi

### Op√©rateurs de test

| Test fichiers | Description |
|---------------|-------------|
| `-f fichier` | Fichier existe |
| `-d dossier` | Dossier existe |
| `-r fichier` | Fichier lisible |
| `-w fichier` | Fichier modifiable |
| `-s fichier` | Fichier non vide |

| Test nombres | Description |
|--------------|-------------|
| `-eq` | √âgal |
| `-ne` | Diff√©rent |
| `-gt` | Plus grand que |
| `-lt` | Plus petit que |
| `-ge` | Plus grand ou √©gal |
| `-le` | Plus petit ou √©gal |

| Test cha√Ænes | Description |
|--------------|-------------|
| `=` | √âgal |
| `!=` | Diff√©rent |
| `-z` | Cha√Æne vide |
| `-n` | Cha√Æne non vide |

---

## 8. Cr√©er et ex√©cuter un script Bash

Un script Bash est simplement un fichier texte contenant des commandes :

In [None]:
%%bash
# Cr√©er un script complet
cat << 'EOF' > mon_script.sh
#!/bin/bash
# Script de traitement de donn√©es
# Auteur: Data Engineer
# Date: 2024

echo "üöÄ D√©marrage du script"
echo "üìÖ Date: $(date)"
echo "üë§ Utilisateur: $USER"
echo "üìÇ Dossier: $(pwd)"

# V√©rifier si un argument est pass√©
if [ -z "$1" ]; then
    echo "‚ö†Ô∏è Usage: ./mon_script.sh <nom_fichier>"
    exit 1
fi

echo "üìÑ Fichier √† traiter: $1"
echo "‚úÖ Script termin√©"
EOF

# Rendre ex√©cutable
chmod +x mon_script.sh

# Ex√©cuter le script
echo "=== Ex√©cution sans argument ==="
./mon_script.sh

echo ""
echo "=== Ex√©cution avec argument ==="
./mon_script.sh ventes.csv

# Nettoyage
rm mon_script.sh

---

## 9. Automatisation avec Cron

**Cron** permet de planifier l'ex√©cution automatique de scripts ‚Äî **indispensable pour les pipelines ETL** !

### Format d'une ligne crontab

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ minute (0 - 59)
‚îÇ ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ heure (0 - 23)
‚îÇ ‚îÇ ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ jour du mois (1 - 31)
‚îÇ ‚îÇ ‚îÇ ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ mois (1 - 12)
‚îÇ ‚îÇ ‚îÇ ‚îÇ ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ jour de la semaine (0 - 6) (dimanche = 0)
‚îÇ ‚îÇ ‚îÇ ‚îÇ ‚îÇ
* * * * * commande √† ex√©cuter
```

### Exemples courants pour Data Engineers

| Expression | Description | Cas d'usage |
|------------|-------------|-------------|
| `0 2 * * *` | Tous les jours √† 2h | ETL nocturne |
| `*/15 * * * *` | Toutes les 15 minutes | Monitoring |
| `0 0 * * 0` | Chaque dimanche √† minuit | Rapport hebdomadaire |
| `0 9 1 * *` | Le 1er de chaque mois √† 9h | Rapport mensuel |
| `0 */4 * * *` | Toutes les 4 heures | Synchronisation donn√©es |

### Commandes cron

```bash
# √âditer la crontab
crontab -e

# Lister les jobs planifi√©s
crontab -l

# Supprimer tous les jobs
crontab -r
```

### Exemple de crontab pour Data Engineer

```bash
# ETL quotidien √† 2h du matin
0 2 * * * /home/user/scripts/etl_pipeline.sh >> /var/log/etl.log 2>&1

# Backup des donn√©es chaque dimanche √† 3h
0 3 * * 0 /home/user/scripts/backup.sh

# Nettoyage des fichiers temporaires chaque jour √† 4h
0 4 * * * find /tmp -mtime +7 -delete
```

> üí° **Astuce** : Utilise [crontab.guru](https://crontab.guru/) pour g√©n√©rer facilement des expressions cron !

---

## Exercice pratique

### Instructions

1. **Cr√©e un dossier de travail** nomm√© `mon_premier_script`

2. **Entre dans ce dossier**

3. **Cr√©e un fichier script** appel√© `bonjour.sh`

4. **√âdite ce fichier et √©cris un script qui :**
   - Affiche **"Bonjour Data Engineer üëã"**
   - Affiche **la date du jour**
   - Te souhaite une bonne session

5. **Rends le script ex√©cutable**

6. **Cr√©e un sous-dossier** nomm√© `data/` et place-y quelques fichiers `.csv` (m√™me vides)

7. **Ajoute une √©tape dans le script pour :**
   - Afficher tous les fichiers `.csv` pr√©sents dans le dossier `data/`
   - Pour chaque fichier `.csv`, afficher son nom avec un message comme :  
     üëâ "Fichier trouv√© : nom_du_fichier.csv ‚úÖ"

üìå *Quelle structure utiliser ? (indice : boucle `for`)*

### ‚úÖ Correction

<details>
<summary>üì• Afficher la correction compl√®te</summary>

```bash
#!/bin/bash

# 1. üì¢ Afficher un message de bienvenue
echo "Bonjour Data Engineer üëã"

# 2. üóìÔ∏è Afficher la date du jour
echo "Date: $(date)"

# 3. üí¨ Souhaiter une bonne session
echo "Bonne session de travail üí™"

# 4. üìÅ Cr√©er le dossier 'data/' s'il n'existe pas
mkdir -p data

# 5. üóÇÔ∏è Cr√©er quelques fichiers de test
touch data/fichier1.csv data/fichier2.csv data/fichier3.csv

# 6. üîÅ Lister les fichiers CSV
echo ""
echo "üîç Recherche de fichiers CSV dans ./data..."

for fichier in data/*.csv; do
    if [ -f "$fichier" ]; then
        echo "Fichier trouv√© : $(basename "$fichier") ‚úÖ"
    fi
done

# 7. ‚úÖ Fin du script
echo ""
echo "Traitement termin√© ‚úÖ"
```

</details>

---

## Cheatsheet Bash ‚Äì Commandes essentielles

| Cat√©gorie | Commande | Description |
|-----------|----------|-------------|
|  **Navigation** | `pwd` | Affiche le chemin actuel |
| | `cd dossier/` | Se d√©placer dans un dossier |
| | `ls -lh` | Liste les fichiers avec d√©tails |
|  **Fichiers** | `touch nom.txt` | Cr√©er un fichier vide |
| | `cp fichier.txt dossier/` | Copier un fichier |
| | `mv fichier.txt nouveau.txt` | Renommer ou d√©placer |
| | `rm fichier.txt` | Supprimer un fichier |
|  **Dossiers** | `mkdir dossier/` | Cr√©er un dossier |
| | `mkdir -p a/b/c` | Cr√©er avec parents |
| | `rm -r dossier/` | Supprimer dossier + contenu |
|  **Lecture** | `cat fichier.txt` | Afficher tout le contenu |
| | `head -n 10 fichier.txt` | 10 premi√®res lignes |
| | `tail -n 10 fichier.txt` | 10 derni√®res lignes |
| | `wc -l fichier.txt` | Compter les lignes |
|  **Recherche** | `grep "mot" fichier.txt` | Rechercher un mot |
| | `find . -name "*.csv"` | Trouver des fichiers |
| | `cut -d',' -f1 fichier.csv` | Extraire une colonne |
|  **Pipes** | `cmd1 \| cmd2` | Cha√Æner des commandes |
| | `cmd > fichier.txt` | Rediriger vers fichier |
| | `cmd >> fichier.txt` | Ajouter √† un fichier |
|  **Scripts** | `chmod +x script.sh` | Rendre ex√©cutable |
| | `./script.sh` | Lancer un script |
|  **Boucles** | `for f in *.csv; do ...; done` | Boucle sur fichiers |
|  **Cron** | `crontab -e` | √âditer les t√¢ches planifi√©es |
| | `crontab -l` | Lister les t√¢ches |

üì• [T√©l√©charger le Bash Cheatsheet PDF (fr)](https://hal.science/hal-04118265v1/file/2022-11-21_nojhan__UNIX-Shell_Cheatsheet__poster.pdf)

---

## Erreurs classiques √† √©viter

| ‚ùå Erreur | üí• Cons√©quence | ‚úÖ Bonne pratique |
|----------|---------------|------------------|
| `rm -rf /` | Supprime TOUT le syst√®me ! | Toujours v√©rifier le chemin avant `rm -rf` |
| `$fichier` sans guillemets | Bug si espaces dans le nom | Utiliser `"$fichier"` |
| `sudo` sans r√©fl√©chir | √âcrase des fichiers syst√®me | Comprendre la commande avant d'utiliser sudo |
| Script non test√© en prod | Perte de donn√©es | Toujours tester en sandbox d'abord |
| `VAR = valeur` (avec espaces) | Erreur de syntaxe | `VAR=valeur` (sans espaces) |
| Oublier `#!/bin/bash` | Script peut mal s'ex√©cuter | Toujours commencer par le shebang |

> üß† **Conseil** : Avant d'ex√©cuter une commande destructive (`rm`, `mv`), utilise `echo` pour voir ce qui serait affect√© :
> ```bash
> # Au lieu de :
> rm -rf data/*.csv
> 
> # D'abord tester avec :
> echo data/*.csv
> ```

---

## Quiz de fin de module

R√©ponds aux questions suivantes pour v√©rifier tes acquis.

---

### ‚ùì Q1. Quelle commande affiche le chemin du dossier courant ?
a) `cd`  
b) `pwd`  
c) `ls`  
d) `path`

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî `pwd` = *Print Working Directory*

</details>

---

### ‚ùì Q2. Que fait la commande `rm -rf mon_dossier/` ?
a) Red√©marre l'ordinateur  
b) R√©organise un fichier  
c) Supprime un dossier et son contenu  
d) Reformate le disque

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : c** ‚Äî `-r` = r√©cursif, `-f` = force (sans confirmation)

</details>

---

### ‚ùì Q3. Quelle commande affiche les 10 premi√®res lignes d'un fichier ?
a) `head -n 10`  
b) `cat -10`  
c) `start 10`  
d) `top 10`

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : a** ‚Äî `head -n 10 fichier.txt`

</details>

---

### ‚ùì Q4. Pourquoi √©crire `"$fichier"` au lieu de `$fichier` ?
a) Pour que Bash reconnaisse les fichiers CSV  
b) Pour faire du style  
c) Pour √©viter les bugs avec les noms contenant des espaces  
d) √áa n'a pas d'importance

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : c** ‚Äî Les guillemets prot√®gent les valeurs contenant des espaces

</details>

---

### ‚ùì Q5. Que signifie le `|` (pipe) en Bash ?
a) Interrompre une commande  
b) Ex√©cuter un script  
c) Envoyer la sortie d'une commande vers l'entr√©e d'une autre  
d) Cr√©er un fichier temporaire

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : c** ‚Äî Le pipe cha√Æne les commandes : `cmd1 | cmd2`

</details>

---

### ‚ùì Q6. Quelle expression cron ex√©cute un script tous les jours √† 2h du matin ?
a) `2 0 * * *`  
b) `0 2 * * *`  
c) `* 2 * * *`  
d) `0 0 2 * *`

<details><summary>üí° Voir la r√©ponse</summary>

‚úÖ **R√©ponse : b** ‚Äî Format : `minute heure jour mois jour_semaine`

</details>

---

## Mini-projet : Archiver intelligemment des fichiers CSV

### Objectif
Cr√©er un script Bash **r√©aliste** qui automatise l'archivage de fichiers `.csv` selon leur anciennet√©.

### Contexte
Tu travailles dans une √©quipe data. Chaque jour, des fichiers `.csv` sont d√©pos√©s dans un dossier `data/`.  
Tu dois cr√©er un script qui :


1. Rep√®re tous les fichiers `.csv` **modifi√©s il y a plus de 7 jours**
2. Les archive dans un fichier `.tar.gz` nomm√© `archive_YYYYMMDD.tar.gz`
3. D√©place ces fichiers dans un dossier `archive/`

### Contraintes

- Le script doit fonctionner m√™me si aucun fichier n'est √©ligible
- L'archive doit √™tre horodat√©e automatiquement
- Le dossier `archive/` doit √™tre cr√©√© s'il n'existe pas
- Ajouter du logging pour tracer les actions

### ‚úÖ Solution du mini-projet

<details>
<summary>üì• Afficher la solution compl√®te</summary>

```bash
#!/bin/bash
#
# Script: archive_csv.sh
# Description: Archive les fichiers CSV de plus de 7 jours
# Auteur: Data Engineer
#

# Configuration
DATA_DIR="./data"
ARCHIVE_DIR="./archive"
DAYS_OLD=7
DATE_TAG=$(date +%Y%m%d)
ARCHIVE_NAME="archive_${DATE_TAG}.tar.gz"
LOG_FILE="archive.log"

# Fonction de logging
log() {
    echo "[$(date '+%Y-%m-%d %H:%M:%S')] $1" | tee -a "$LOG_FILE"
}

log "üöÄ D√©marrage du script d'archivage"

# V√©rifier que le dossier source existe
if [ ! -d "$DATA_DIR" ]; then
    log "‚ùå Erreur: Le dossier $DATA_DIR n'existe pas"
    exit 1
fi

# Cr√©er le dossier d'archive si n√©cessaire
mkdir -p "$ARCHIVE_DIR"
log "üìÅ Dossier d'archive: $ARCHIVE_DIR"

# Trouver les fichiers CSV de plus de 7 jours
OLD_FILES=$(find "$DATA_DIR" -name "*.csv" -mtime +$DAYS_OLD -type f)

# V√©rifier s'il y a des fichiers √† archiver
if [ -z "$OLD_FILES" ]; then
    log "‚ÑπÔ∏è Aucun fichier CSV de plus de $DAYS_OLD jours trouv√©"
    exit 0
fi

# Compter les fichiers
NB_FILES=$(echo "$OLD_FILES" | wc -l)
log "üìä $NB_FILES fichier(s) √† archiver"

# Cr√©er l'archive
log "üì¶ Cr√©ation de l'archive $ARCHIVE_NAME..."
echo "$OLD_FILES" | tar -czvf "$ARCHIVE_DIR/$ARCHIVE_NAME" -T -

if [ $? -eq 0 ]; then
    log "‚úÖ Archive cr√©√©e avec succ√®s"
    
    # D√©placer les fichiers archiv√©s
    for file in $OLD_FILES; do
        mv "$file" "$ARCHIVE_DIR/"
        log "   ‚Ü≥ D√©plac√©: $(basename "$file")"
    done
    
    log "üéâ Archivage termin√© avec succ√®s"
else
    log "‚ùå Erreur lors de la cr√©ation de l'archive"
    exit 1
fi
```

**Pour l'utiliser :**
```bash
chmod +x archive_csv.sh
./archive_csv.sh
```

**Pour l'automatiser avec cron (tous les jours √† 3h) :**
```bash
0 3 * * * /home/user/scripts/archive_csv.sh
```

</details>

---

## üìö Ressources pour aller plus loin

### üåê Sites & outils
- [ExplainShell](https://explainshell.com/) ‚Äî Explique n'importe quelle commande Bash
- [ShellCheck](https://www.shellcheck.net/) ‚Äî V√©rifie la syntaxe de tes scripts
- [Crontab Guru](https://crontab.guru/) ‚Äî G√©n√©rateur d'expressions cron
- [Linux Command](https://linuxcommand.org/) ‚Äî Tutoriel complet

### üìñ Documentation
- [GNU Bash Manual](https://www.gnu.org/software/bash/manual/)
- [Advanced Bash-Scripting Guide](https://tldp.org/LDP/abs/html/)

### üéÆ Pratique
- [OverTheWire - Bandit](https://overthewire.org/wargames/bandit/) ‚Äî Jeu pour apprendre Bash
- [Cmdchallenge](https://cmdchallenge.com/) ‚Äî D√©fis en ligne de commande

---

## ‚û°Ô∏è Prochaine √©tape

Maintenant que tu ma√Ætrises Bash, passons √† un autre outil essentiel : **Git** !

üëâ **Module suivant : `03_git_for_data_engineers`** ‚Äî Versionner ton code et collaborer

---

üéâ **F√©licitations !** Tu as termin√© le module Bash pour Data Engineers.