# Module 1 - Jour 1-2 : Configuration Environnement Local

## Objectifs
- Installer et configurer Python, VS Code et Git
- Configurer GitHub avec authentification SSH et 2FA
- Maîtriser Poetry pour la gestion des dépendances
- Créer et organiser son premier projet Data Engineering

---

## 1. Installation Python, VS Code et Git

### Python 3.11+
Téléchargez Python depuis [python.org](https://python.org) et installez la version 3.11 ou supérieure.

**Vérification de l'installation :**

In [None]:
import sys
print(f"Version Python : {sys.version}")
print(f"Exécutable Python : {sys.executable}")

# Vérifier que Python 3.11+ est installé
if sys.version_info >= (3, 11):
    print("✅ Python 3.11+ correctement installé")
else:
    print("❌ Veuillez installer Python 3.11 ou supérieur")

### VS Code
Téléchargez et installez VS Code depuis [code.visualstudio.com](https://code.visualstudio.com)

**Extensions recommandées :**
- Python (Microsoft)
- Jupyter (Microsoft)
- GitLens (GitKraken)
- Docker (Microsoft)
- YAML (Red Hat)

### Git
Téléchargez Git depuis [git-scm.com](https://git-scm.com) et installez-le avec Git Bash.

**Configuration initiale de Git :**

In [None]:
import subprocess

def run_git_command(command):
    """Exécuter une commande Git et afficher le résultat"""
    try:
        result = subprocess.run(command, shell=True, capture_output=True, text=True)
        if result.returncode == 0:
            return result.stdout.strip()
        else:
            return f"Erreur : {result.stderr.strip()}"
    except Exception as e:
        return f"Erreur d'exécution : {e}"

# Vérifier l'installation de Git
git_version = run_git_command("git --version")
print(f"Git installé : {git_version}")

# Afficher la configuration Git actuelle
print("\nConfiguration Git actuelle :")
user_name = run_git_command("git config --global user.name")
user_email = run_git_command("git config --global user.email")
print(f"Nom : {user_name}")
print(f"Email : {user_email}")

**Configuration Git (à exécuter dans Git Bash si pas encore fait) :**
```bash
git config --global user.name "Votre Nom"
git config --global user.email "votre.email@example.com"
```

---

## 2. Configuration GitHub avec SSH et 2FA

### Activation du 2FA
1. Connectez-vous sur [github.com](https://github.com)
2. Allez dans **Settings → Password and authentication**
3. Cliquez sur **Enable two-factor authentication**
4. Choisissez **Authenticator app** (recommandé)
5. Scannez le QR code avec votre app (Microsoft Authenticator, Google Authenticator, Authy)
6. **Sauvegardez les codes de récupération** dans un endroit sûr

### Génération des clés SSH
SSH utilise une paire de clés : une clé privée (secrète) et une clé publique (partagée avec GitHub).

**Commandes à exécuter dans Git Bash :**
```bash
# Générer une paire de clés ED25519
ssh-keygen -t ed25519 -C "votre.email@example.com"
```

**Questions posées :**
1. `Enter file in which to save the key` → **Appuyez sur Entrée** (emplacement par défaut)
2. `Enter passphrase` → **Tapez une passphrase forte** ou **Entrée** pour aucune
3. `Enter same passphrase again` → **Retapez la même passphrase**

### Configuration de l'agent SSH

In [None]:
import os
from pathlib import Path

# Vérifier si les clés SSH existent
ssh_dir = Path.home() / '.ssh'
private_key = ssh_dir / 'id_ed25519'
public_key = ssh_dir / 'id_ed25519.pub'

print(f"Dossier SSH : {ssh_dir}")
print(f"Clé privée existe : {private_key.exists()}")
print(f"Clé publique existe : {public_key.exists()}")

if public_key.exists():
    print("\n📋 Contenu de votre clé publique :")
    with open(public_key, 'r') as f:
        public_key_content = f.read().strip()
        print(public_key_content)
        print("\n💡 Copiez cette clé pour l'ajouter sur GitHub")
else:
    print("\n⚠️ Clés SSH non trouvées. Exécutez ssh-keygen dans Git Bash d'abord.")

**Commandes pour configurer l'agent SSH (Git Bash) :**
```bash
# Démarrer l'agent SSH
eval "$(ssh-agent -s)"

# Ajouter votre clé privée
ssh-add ~/.ssh/id_ed25519

# Copier la clé publique dans le presse-papier
cat ~/.ssh/id_ed25519.pub | clip
```

### Ajout de la clé sur GitHub
1. Allez dans **Settings → SSH and GPG keys**
2. Cliquez sur **New SSH key**
3. **Title** : `PC-Bureau-VotreNom-2024`
4. **Key** : Collez votre clé publique
5. Cliquez **Add SSH key**

### Test de la connexion SSH

In [None]:
# Test de la connexion SSH à GitHub
ssh_test = run_git_command("ssh -T git@github.com")
print(f"Test SSH GitHub : {ssh_test}")

if "successfully authenticated" in ssh_test:
    print("✅ SSH configuré correctement avec GitHub")
else:
    print("⚠️ SSH pas encore configuré. Suivez les étapes ci-dessus.")

---

## 3. Création du Repository Principal

### Création sur GitHub (Interface Web)
1. Connectez-vous sur [github.com](https://github.com)
2. Cliquez sur **New repository** (bouton vert)
3. **Repository name** : `data-engineering-bootcamp`
4. **Description** : `Formation Data Engineering - 5 modules complets`
5. ✅ **Public**
6. ✅ **Add a README file**
7. ✅ **Add .gitignore** : Python
8. ✅ **Choose a license** : MIT
9. Cliquez **Create repository**

### Clonage local et organisation

In [None]:
import os

# Afficher le répertoire de travail actuel
current_dir = os.getcwd()
print(f"Répertoire actuel : {current_dir}")

# Recommandations pour l'organisation
recommended_structure = """
📁 Structure recommandée :

C:/Users/PA O'HARA/Documents/
└── dev/
    └── learning/
        └── data-engineering-bootcamp/
            ├── module1/
            ├── module2/
            ├── module3/
            ├── module4/
            ├── module5/
            ├── docs/
            ├── scripts/
            └── README.md
"""
print(recommended_structure)

**Commandes Git Bash pour cloner et organiser :**
```bash
# Naviguer vers le bon dossier
cd /c/Users/PA\ O\'HARA/Documents/
mkdir -p dev/learning
cd dev/learning

# Cloner le repository
git clone git@github.com:VOTRE_USERNAME/data-engineering-bootcamp.git
cd data-engineering-bootcamp

# Créer la structure des modules
mkdir -p {module1,module2,module3,module4,module5}
mkdir -p {docs,scripts,data,tests}

# Créer les README de chaque module
echo "# Module 1 : Fondamentaux" > module1/README.md
echo "# Module 2 : Bases de données" > module2/README.md
echo "# Module 3 : Pipelines" > module3/README.md
echo "# Module 4 : Big Data" > module4/README.md
echo "# Module 5 : Projet Final" > module5/README.md
```

### Workflow Git de base
Les trois commandes fondamentales pour sauvegarder vos modifications :

In [None]:
# Simulation du workflow Git (à des fins pédagogiques)
git_workflow = """
🔄 Workflow Git de base :

1. git add .                    # Prépare TOUS les fichiers modifiés
   ↓
   [Zone de staging] - Fichiers prêts pour commit
   ↓
2. git commit -m "message"      # Sauvegarde locale avec description
   ↓
   [Historique local] - Point de restauration créé
   ↓
3. git push origin main         # Envoie vers GitHub
   ↓
   [GitHub] - Sauvegarde externe et partage
"""
print(git_workflow)

# Exemple de message de commit
commit_example = """
💡 Exemple de bon message de commit :

git commit -m "Ajout structure projet data engineering

- Création des dossiers module1-5
- Ajout README pour chaque module
- Structure docs, scripts, data, tests"
"""
print(commit_example)

---

## 4. Installation et Configuration de Poetry

Poetry est un gestionnaire de dépendances Python moderne qui remplace pip et virtualenv par un système intelligent.

### Installation de Poetry

In [None]:
# Vérifier si Poetry est déjà installé
poetry_version = run_git_command("poetry --version")
print(f"Poetry : {poetry_version}")

if "Poetry" in poetry_version:
    print("✅ Poetry est installé")
    
    # Afficher la configuration Poetry
    print("\n📋 Configuration Poetry :")
    config = run_git_command("poetry config --list")
    print(config)
else:
    print("⚠️ Poetry n'est pas installé ou pas dans le PATH")
    print("\n📥 Commandes d'installation :")
    print("Git Bash : curl -sSL https://install.python-poetry.org | python -")
    print("PowerShell : (Invoke-WebRequest -Uri https://install.python-poetry.org -UseBasicParsing).Content | python -")

**Installation selon votre terminal :**

**Git Bash :**
```bash
curl -sSL https://install.python-poetry.org | python -
```

**PowerShell :**
```powershell
(Invoke-WebRequest -Uri https://install.python-poetry.org -UseBasicParsing).Content | python -
```

### Configuration du PATH
Poetry s'installe généralement dans `C:\Users\VOTRE_NOM\AppData\Roaming\Python\Scripts\`

In [None]:
import os
from pathlib import Path

# Chercher Poetry dans les emplacements typiques
possible_paths = [
    Path.home() / "AppData/Roaming/Python/Scripts",
    Path.home() / ".local/bin",
    Path("C:/Python311/Scripts"),
]

print("🔍 Recherche de Poetry :")
for path in possible_paths:
    poetry_exe = path / "poetry.exe"
    if poetry_exe.exists():
        print(f"✅ Poetry trouvé : {poetry_exe}")
        print(f"\n📝 Ajoutez au PATH (Git Bash) :")
        print(f'export PATH="{str(path).replace(os.sep, "/")}:$PATH"')
        break
    else:
        print(f"❌ Pas trouvé : {path}")
else:
    print("\n⚠️ Poetry non trouvé dans les emplacements standards")

**Configuration du PATH pour Git Bash :**
```bash
# Temporaire (session courante)
export PATH="/c/Users/PA O'HARA/AppData/Roaming/Python/Scripts:$PATH"

# Permanent (ajout au .bashrc)
echo 'export PATH="/c/Users/PA O'HARA/AppData/Roaming/Python/Scripts:$PATH"' >> ~/.bashrc
source ~/.bashrc
```

### Configuration Poetry

In [None]:
# Configuration recommandée pour Poetry
poetry_config_commands = """
🔧 Configuration Poetry recommandée :

# Créer les environnements virtuels dans le projet
poetry config virtualenvs.in-project true

# Vérifier la configuration
poetry config --list

# Tester Poetry
poetry --version
"""
print(poetry_config_commands)

# Avantages de virtualenvs.in-project true
advantages = """
💡 Avantages de virtualenvs.in-project true :

✅ Environnement virtuel dans .venv/ du projet
✅ Détection automatique par VS Code
✅ Gestion simplifiée (un env par projet)
✅ Suppression facile (supprimer .venv/)
✅ Isolation complète entre projets
"""
print(advantages)

---

## 5. Premier Projet avec Poetry

### Initialisation du projet Module 1

In [None]:
# Simulation de l'initialisation Poetry
poetry_init_process = """
📋 Processus d'initialisation Poetry :

Commande : poetry init

Questions et réponses recommandées :
├── Package name [module1]: module1-fundamentals
├── Version [0.1.0]: [Entrée] (garder 0.1.0)
├── Description []: Module 1 - Fondamentaux Data Engineering
├── Author []: [Entrée] (détection automatique Git)
├── License []: MIT
├── Compatible Python versions [^3.12]: ^3.11
├── Define main dependencies? [no]: no
├── Define dev dependencies? [no]: no
└── Confirm generation? [yes]: yes
"""
print(poetry_init_process)

**Commandes à exécuter dans Git Bash :**
```bash
# Aller dans module1
cd module1

# Initialiser Poetry
poetry init
```

### Ajout des dépendances

In [None]:
# Dépendances recommandées pour Data Engineering
dependencies_info = """
📦 Dépendances Data Engineering :

🔧 PRODUCTION (nécessaires au fonctionnement) :
├── pandas          # Manipulation de données
├── numpy           # Calculs numériques
├── requests        # Requêtes HTTP
├── sqlalchemy      # ORM bases de données
└── psycopg2-binary # Driver PostgreSQL

🛠️ DÉVELOPPEMENT (outils de dev uniquement) :
├── pytest         # Tests unitaires
├── black           # Formatage automatique
├── ruff            # Linting rapide
├── pylint          # Analyse statique
├── jupyter         # Notebooks interactifs
└── ipykernel       # Kernel Jupyter
"""
print(dependencies_info)

# Importance de la séparation
separation_benefits = """
💡 Pourquoi séparer production et développement ?

🚀 PRODUCTION (poetry install --only main) :
✅ Installation rapide
✅ Image Docker légère
✅ Surface d'attaque réduite
✅ Performances optimales

🛠️ DÉVELOPPEMENT (poetry install) :
✅ Tous les outils disponibles
✅ Tests et qualité de code
✅ Notebooks et debug
✅ Environnement complet
"""
print(separation_benefits)

**Commandes Poetry pour ajouter les dépendances :**
```bash
# Dépendances de production
poetry add pandas numpy requests sqlalchemy psycopg2-binary

# Dépendances de développement
poetry add --group dev pytest black ruff pylint jupyter ipykernel

# Activer l'environnement virtuel
poetry shell
```

**Note importante :** `poetry add` installe automatiquement les packages. Pas besoin de `poetry install` supplémentaire.

---

## 6. Vérification de l'Environnement

In [None]:
# Vérification complète de l'environnement
print("🔍 Vérification de l'environnement Data Engineering")
print("="*60)

# 1. Python
import sys
python_ok = sys.version_info >= (3, 11)
print(f"1. Python 3.11+ : {'✅' if python_ok else '❌'} ({sys.version.split()[0]})")

# 2. Packages essentiels
packages_to_check = ['pandas', 'numpy', 'requests', 'sqlalchemy']
for package in packages_to_check:
    try:
        __import__(package)
        print(f"2. {package:12} : ✅ Installé")
    except ImportError:
        print(f"2. {package:12} : ❌ Non installé")

# 3. Outils de développement
dev_tools = ['pytest', 'black', 'ruff']
for tool in dev_tools:
    try:
        __import__(tool)
        print(f"3. {tool:12} : ✅ Installé")
    except ImportError:
        print(f"3. {tool:12} : ❌ Non installé")

# 4. Jupyter
try:
    import jupyter
    print(f"4. Jupyter      : ✅ Installé")
except ImportError:
    print(f"4. Jupyter      : ❌ Non installé")

print("\n📋 Environnement prêt pour le Data Engineering !")

### Test rapide des fonctionnalités

In [None]:
# Test rapide de manipulation de données
try:
    import pandas as pd
    import numpy as np
    
    # Créer des données d'exemple
    np.random.seed(42)
    data = {
        'date': pd.date_range('2024-01-01', periods=10),
        'sales': np.random.randint(100, 1000, 10),
        'region': np.random.choice(['North', 'South'], 10)
    }
    df = pd.DataFrame(data)
    
    print("🧪 Test de manipulation de données :")
    print("\n📊 Données d'exemple :")
    print(df.head())
    
    print("\n📈 Statistiques rapides :")
    print(f"Ventes totales : {df['sales'].sum():,} €")
    print(f"Vente moyenne : {df['sales'].mean():.2f} €")
    
    print("\n🌍 Ventes par région :")
    region_sales = df.groupby('region')['sales'].sum()
    print(region_sales)
    
    print("\n✅ Test réussi ! Pandas et NumPy fonctionnent correctement.")
    
except Exception as e:
    print(f"❌ Erreur lors du test : {e}")
    print("Vérifiez que pandas et numpy sont installés avec Poetry.")

---

## 7. Structure Finale du Projet

In [None]:
# Afficher la structure recommandée du projet
project_structure = """
📁 Structure finale recommandée :

data-engineering-bootcamp/
├── module1/                          # 👈 Vous êtes ici
│   ├── src/                         # Code source Python
│   ├── tests/                       # Tests unitaires
│   ├── notebooks/                   # Cours Jupyter interactifs
│   │   └── cours-module1.ipynb     # Ce notebook
│   ├── data/                        # Données générées (ignorées par Git)
│   ├── pyproject.toml              # Configuration Poetry
│   ├── poetry.lock                 # Versions exactes (généré)
│   ├── .venv/                      # Environnement virtuel (généré)
│   └── README.md                   # Documentation du module
├── module2/                          # Bases de données (à venir)
├── module3/                          # Orchestration (à venir)
├── module4/                          # Big Data (à venir)
├── module5/                          # Projet final (à venir)
├── docs/                            # Documentation générale
├── scripts/                         # Scripts d'automatisation
└── README.md                       # Documentation principale
"""
print(project_structure)

### Prochaines étapes

In [None]:
next_steps = """
🚀 Prochaines étapes :

1. 📝 Créer le premier pipeline ETL (hello_data.py)
2. 🧪 Écrire des tests unitaires
3. 🔧 Configurer les outils de qualité (Black, Ruff)
4. 📊 Créer des visualisations de données
5. 📚 Documenter le code et les processus
6. 🔄 Mettre en place CI/CD avec GitHub Actions

💡 Vous êtes maintenant prêt pour le développement Data Engineering !
"""
print(next_steps)

# Commandes Git pour sauvegarder ce travail
git_commands = """
💾 Sauvegarder votre travail sur GitHub :

git add .
git commit -m "Configuration environnement Data Engineering complet

- Setup Python 3.11+, VS Code, Git
- Configuration GitHub avec SSH et 2FA
- Installation et configuration Poetry
- Premier projet avec dépendances séparées
- Cours interactif en format Jupyter
- Tests de validation environnement"

git push origin main
"""
print(git_commands)

---

## Résumé et Validation

### Checklist de validation
- [ ] Python 3.11+ installé et fonctionnel
- [ ] VS Code installé avec extensions recommandées
- [ ] Git configuré avec nom et email
- [ ] GitHub configuré avec 2FA activé
- [ ] Clés SSH générées et ajoutées sur GitHub
- [ ] Test SSH réussi (`ssh -T git@github.com`)
- [ ] Repository `data-engineering-bootcamp` créé et cloné
- [ ] Structure des modules créée
- [ ] Poetry installé et configuré
- [ ] Projet module1 initialisé avec Poetry
- [ ] Dépendances installées (production + développement)
- [ ] Environnement virtuel fonctionnel
- [ ] Tests de validation réussis

### Compétences acquises
✅ **Configuration d'environnement professionnel** Python/Git/VS Code  
✅ **Sécurisation GitHub** avec SSH et authentification 2FA  
✅ **Gestion moderne des dépendances** avec Poetry  
✅ **Workflow Git** pour versioning et collaboration  
✅ **Organisation de projet** Data Engineering  
✅ **Bonnes pratiques** de développement et documentation  

**Félicitations ! Votre environnement Data Engineering est maintenant configuré et opérationnel.**