# Module 1 - Jour 1-2 : Configuration Environnement Local

## Objectifs

Installer et configurer Python, VS Code et Git, configurer GitHub avec authentification SSH et 2FA, maîtriser Poetry pour la gestion des dépendances, et créer son premier projet Data Engineering.

## 1. Installation Python, VS Code et Git

### Python 3.11+

Téléchargez Python depuis python.org et installez la version 3.11 ou supérieure.

### VS Code

Téléchargez et installez VS Code depuis code.visualstudio.com

Extensions recommandées : Python (Microsoft), Jupyter (Microsoft), GitLens (GitKraken), Docker (Microsoft), YAML (Red Hat)

### Git

Téléchargez Git depuis git-scm.com et installez-le avec Git Bash.

Configuration initiale de Git à exécuter dans Git Bash :

In [None]:
# Configuration Git (à exécuter dans Git Bash)
# git config --global user.name "Votre Nom"
# git config --global user.email "votre.email@example.com"

## 2. Configuration GitHub avec SSH et 2FA

### Activation du 2FA (Authentification à Deux Facteurs)

L'authentification à deux facteurs ajoute une couche de sécurité supplémentaire à votre compte GitHub. Au lieu de vous connecter uniquement avec votre mot de passe, vous devrez également fournir un code temporaire généré par une application d'authentification.

**Pourquoi utiliser 2FA :**
- Protection contre le piratage de compte même si votre mot de passe est compromis
- Sécurisation de vos repositories et données sensibles
- Conformité aux bonnes pratiques de sécurité en entreprise
- Prévention des accès non autorisés à vos projets

**Étapes d'activation :**
1. Connectez-vous sur github.com
2. Allez dans Settings → Password and authentication
3. Cliquez sur Enable two-factor authentication
4. Choisissez Authenticator app (recommandé car plus sécurisé que SMS)
5. Scannez le QR code avec votre app (Microsoft Authenticator, Google Authenticator, Authy)
6. Sauvegardez les codes de récupération dans un endroit sûr (ces codes vous permettront de récupérer l'accès si vous perdez votre téléphone)

### Génération des clés SSH

SSH (Secure Shell) utilise une cryptographie à clé publique pour sécuriser les connexions. Une paire de clés est générée : une clé privée (gardée secrète sur votre machine) et une clé publique (partagée avec GitHub). Cette méthode est plus sécurisée que l'authentification par mot de passe et permet l'automatisation des opérations Git.

Commandes à exécuter dans Git Bash :

In [None]:
# Générer une paire de clés ED25519 (algorithme moderne et sécurisé)
# ssh-keygen -t ed25519 -C "votre.email@example.com"

# Questions posées :
# 1. Enter file in which to save the key → Appuyez sur Entrée (emplacement par défaut)
# 2. Enter passphrase → Tapez une passphrase forte ou Entrée pour aucune
# 3. Enter same passphrase again → Retapez la même passphrase

In [None]:
# Configuration de l'agent SSH

# Démarrer l'agent SSH
# eval "$(ssh-agent -s)"

# Ajouter votre clé privée
# ssh-add ~/.ssh/id_ed25519

# Copier la clé publique dans le presse-papier
# cat ~/.ssh/id_ed25519.pub | clip

### Ajout de la clé sur GitHub

1. Allez dans Settings → SSH and GPG keys
2. Cliquez sur New SSH key
3. Title : PC-Bureau-VotreNom-2024
4. Key : Collez votre clé publique
5. Cliquez Add SSH key

Test de la connexion SSH :

In [None]:
# ssh -T git@github.com

## 3. Création du Repository Principal

### Création sur GitHub (Interface Web)

1. Connectez-vous sur github.com
2. Cliquez sur New repository (bouton vert)
3. Repository name : data-engineering-bootcamp
4. Description : Formation Data Engineering - 5 modules complets
5. Cochez Public
6. Cochez Add a README file
7. Cochez Add .gitignore : Python
8. Cochez Choose a license : MIT
9. Cliquez Create repository

### Clonage local et organisation

Structure recommandée :
```
C:/Users/VotreNom/Documents/
└── dev/
    └── learning/
        └── data-engineering-bootcamp/
            ├── module1/
            ├── module2/
            ├── module3/
            ├── module4/
            ├── module5/
            ├── docs/
            ├── scripts/
            └── README.md
```

In [None]:
# Commandes Git Bash pour cloner et organiser :

# Naviguer vers le bon dossier
# cd /c/Users/VotreNom/Documents/
# mkdir -p dev/learning
# cd dev/learning

# Cloner le repository
# git clone git@github.com:VOTRE_USERNAME/data-engineering-bootcamp.git
# cd data-engineering-bootcamp

# Créer la structure des modules
# mkdir -p {module1,module2,module3,module4,module5}
# mkdir -p {docs,scripts,data,tests}

# Créer les README de chaque module
# echo '# Module 1 : Fondamentaux' > module1/README.md
# echo '# Module 2 : Bases de données' > module2/README.md
# echo '# Module 3 : Pipelines' > module3/README.md
# echo '# Module 4 : Big Data' > module4/README.md
# echo '# Module 5 : Projet Final' > module5/README.md

### Workflow Git de base

Les trois commandes fondamentales pour sauvegarder vos modifications :

1. `git add .` - Prépare TOUS les fichiers modifiés pour le commit
2. `git commit -m "message"` - Sauvegarde locale avec description
3. `git push origin main` - Envoie vers GitHub

Exemple de bon message de commit :

In [None]:
# git commit -m "Ajout structure projet data engineering
#
# - Création des dossiers module1-5
# - Ajout README pour chaque module
# - Structure docs, scripts, data, tests"

## 4. Installation et Configuration de Poetry

### Qu'est-ce que Poetry et pourquoi l'utiliser

Poetry est un gestionnaire de dépendances Python moderne qui remplace pip et virtualenv par un système intelligent et unifié.

**Avantages de Poetry par rapport à pip/virtualenv :**

**Gestion des dépendances :**
- Résolution automatique des conflits de versions
- Fichier pyproject.toml standardisé (PEP 518)
- Séparation claire entre dépendances de production et de développement
- Verrouillage des versions exactes avec poetry.lock

**Environnements virtuels :**
- Création et activation automatiques
- Détection intelligente de l'environnement actif
- Isolation complète entre projets

**Workflow simplifié :**
- Une seule commande pour installer toutes les dépendances
- Publication sur PyPI intégrée
- Gestion des versions de projet automatisée

In [None]:
# Installation de Poetry selon votre terminal :

# Git Bash :
# curl -sSL https://install.python-poetry.org | python -

# PowerShell :
# (Invoke-WebRequest -Uri https://install.python-poetry.org -UseBasicParsing).Content | python -

### Configuration du PATH

Poetry s'installe généralement dans `C:\Users\VOTRE_NOM\AppData\Roaming\Python\Scripts\`

Configuration du PATH pour Git Bash :

In [None]:
# Temporaire (session courante)
# export PATH="/c/Users/VotreNom/AppData/Roaming/Python/Scripts:$PATH"

# Permanent (ajout au .bashrc)
# echo 'export PATH="/c/Users/VotreNom/AppData/Roaming/Python/Scripts:$PATH"' >> ~/.bashrc
# source ~/.bashrc

In [None]:
# Configuration Poetry recommandée :

# Créer les environnements virtuels dans le projet
# poetry config virtualenvs.in-project true

# Vérifier la configuration
# poetry config --list

# Tester Poetry
# poetry --version

**Avantages de `virtualenvs.in-project true` :**
- Environnement virtuel dans .venv/ du projet
- Détection automatique par VS Code
- Gestion simplifiée (un environnement par projet)
- Suppression facile (supprimer .venv/)
- Isolation complète entre projets

## 5. Premier Projet avec Poetry

### Initialisation du projet Module 1

Commandes à exécuter dans Git Bash :

In [None]:
# Aller dans module1
# cd module1

# Initialiser Poetry
# poetry init

**Processus d'initialisation Poetry - Questions et réponses recommandées :**
- Package name [module1]: module1-fundamentals
- Version [0.1.0]: [Entrée] (garder 0.1.0)
- Description []: Module 1 - Fondamentaux Data Engineering
- Author []: [Entrée] (détection automatique Git)
- License []: MIT
- Compatible Python versions [^3.12]: ^3.11
- Define main dependencies? [no]: no
- Define dev dependencies? [no]: no
- Confirm generation? [yes]: yes

### Ajout des dépendances

**Pourquoi séparer les dépendances de production et de développement :**

**PRODUCTION** (nécessaires au fonctionnement) :
- Installation rapide en production
- Image Docker légère
- Surface d'attaque réduite
- Performances optimales

**DÉVELOPPEMENT** (outils de développement uniquement) :
- Tous les outils disponibles localement
- Tests et qualité de code
- Notebooks et debug
- Environnement complet pour le développement

In [None]:
# Commandes Poetry pour ajouter les dépendances :

# Dépendances de production
# poetry add pandas numpy requests sqlalchemy psycopg2-binary

# Dépendances de développement
# poetry add --group dev pytest black ruff pylint jupyter ipykernel

# Activer l'environnement virtuel
# poetry shell

**Dépendances expliquées :**
- **pandas** : Manipulation et analyse de données
- **numpy** : Calculs numériques et arrays
- **requests** : Requêtes HTTP pour APIs
- **sqlalchemy** : ORM pour bases de données
- **psycopg2-binary** : Driver PostgreSQL
- **pytest** : Framework de tests unitaires
- **black** : Formatage automatique du code
- **ruff** : Linter rapide et moderne
- **pylint** : Analyse statique approfondie
- **jupyter** : Notebooks interactifs
- **ipykernel** : Kernel Jupyter pour Python

## 6. Structure Finale du Projet

Structure finale recommandée :
```
data-engineering-bootcamp/
├── module1/                          # Module actuel
│   ├── src/                         # Code source Python
│   ├── tests/                       # Tests unitaires
│   ├── notebooks/                   # Cours Jupyter interactifs
│   ├── data/                        # Données générées (ignorées par Git)
│   ├── pyproject.toml              # Configuration Poetry
│   ├── poetry.lock                 # Versions exactes (généré)
│   ├── .venv/                      # Environnement virtuel (généré)
│   └── README.md                   # Documentation du module
├── module2/                          # Bases de données (à venir)
├── module3/                          # Orchestration (à venir)
├── module4/                          # Big Data (à venir)
├── module5/                          # Projet final (à venir)
├── docs/                            # Documentation générale
├── scripts/                         # Scripts d'automatisation
└── README.md                       # Documentation principale
```

### Prochaines étapes

1. Créer le premier pipeline ETL (hello_data.py)
2. Écrire des tests unitaires
3. Configurer les outils de qualité (Black, Ruff)
4. Créer des visualisations de données
5. Documenter le code et les processus
6. Mettre en place CI/CD avec GitHub Actions

Sauvegarder votre travail sur GitHub :

In [None]:
# git add .
# git commit -m "Configuration environnement Data Engineering complet
#
# - Setup Python 3.11+, VS Code, Git
# - Configuration GitHub avec SSH et 2FA
# - Installation et configuration Poetry
# - Premier projet avec dépendances séparées
# - Structure projet complète"
#
# git push origin main

## Résumé et Validation

### Checklist de validation
- Python 3.11+ installé et fonctionnel
- VS Code installé avec extensions recommandées
- Git configuré avec nom et email
- GitHub configuré avec 2FA activé
- Clés SSH générées et ajoutées sur GitHub
- Test SSH réussi (ssh -T git@github.com)
- Repository data-engineering-bootcamp créé et cloné
- Structure des modules créée
- Poetry installé et configuré
- Projet module1 initialisé avec Poetry
- Dépendances installées (production + développement)
- Environnement virtuel fonctionnel

### Compétences acquises

Configuration d'environnement professionnel Python/Git/VS Code, sécurisation GitHub avec SSH et authentification 2FA, gestion moderne des dépendances avec Poetry, workflow Git pour versioning et collaboration, organisation de projet Data Engineering, et bonnes pratiques de développement et documentation.

**Félicitations ! Votre environnement Data Engineering est maintenant configuré et opérationnel.**