In [None]:
from pathlib import Path

ROOT = Path.cwd().resolve().parents[2]
DATA_DIR = ROOT / 'data'
DOCS_DIR = ROOT / 'docs'
LOGS_DIR = ROOT / 'logs'
print('ROOT=', ROOT)
print('DATA_DIR=', DATA_DIR)
print('DOCS_DIR=', DOCS_DIR)
print('LOGS_DIR=', LOGS_DIR)


In [None]:
# Normalize paths to project root
try:
    ROOT = ROOT
except NameError:
    from pathlib import Path
    ROOT = Path.cwd().resolve().parents[2]
DATA_DIR = ROOT / 'data'
DOCS_DIR = ROOT / 'docs'
LOGS_DIR = ROOT / 'logs'
print('ROOT=', ROOT)
print('DATA_DIR=', DATA_DIR)
print('DOCS_DIR=', DOCS_DIR)
print('LOGS_DIR=', LOGS_DIR)


# 🔧 DataSens E1 — Notebook 1 : Setup Environnement

**🎯 Objectif** : Configurer l'environnement de développement et valider la stack technique

---

## 📋 Contenu de ce notebook

1. Introduction et objectifs E1
2. Vérification de l'environnement Python
3. Création de l'arborescence projet
4. Configuration variables d'environnement (.env)
5. Connexion PostgreSQL (test)
6. Initialisation Git

---

## 🔒 RGPD & Gouvernance

⚠️ **Rappel important** :
- Pas de données personnelles directes (hash SHA-256 si nécessaire)
- Respect robots.txt pour le scraping ; throttle & user-agent explicite
- Droits d'usage documentés par source (lien dans Markdown)
- Journaux d'exécution (log simple CSV/JSON) + manifest par run



## 🎯 Introduction & Objectifs E1

**DataSens E1** : Construction du socle data avec :
- ✅ Modélisation Merise (MCD → MLD → MPD ciblé)
- ✅ Création et remplissage PostgreSQL (18 tables)
- ✅ CRUD complet testé depuis le notebook
- ✅ Ingestion réelle des **5 types de sources** :
  1. **Fichier plat** : Kaggle CSV
  2. **Base de données** : Export Kaggle SQLite → Postgres
  3. **API** : OpenWeatherMap (météo communes)
  4. **Web Scraping** : MonAvisCitoyen (dry-run, robots.txt)
  5. **Big Data** : GDELT GKG (échantillon journalier)
- ✅ Traçabilité et gouvernance (flux, manifest, versionning Git)

**Mode d'exécution** : Cellule par cellule (pas à pas)


In [1]:
# Vérification environnement Python
import subprocess
import sys
from pathlib import Path

print("🔍 Vérification environnement Python")
print("=" * 80)
print(f"Python version : {sys.version}")
print(f"Python executable : {sys.executable}")

# Vérifier version Python >= 3.11
version_info = sys.version_info
if version_info.major >= 3 and version_info.minor >= 11:
    print(f"✅ Python {version_info.major}.{version_info.minor}.{version_info.micro} OK")
else:
    print(f"⚠️ Python {version_info.major}.{version_info.minor} — Recommandé Python 3.11+")


🔍 Vérification environnement Python
Python version : 3.12.7 | packaged by Anaconda, Inc. | (main, Oct  4 2024, 13:17:27) [MSC v.1929 64 bit (AMD64)]
Python executable : c:\Users\Utilisateur\Desktop\Datasens_Project\.venv\Scripts\python.exe
✅ Python 3.12.7 OK


In [2]:
# Liste des packages installés
print("\n📦 Packages Python installés")
print("=" * 80)

packages_to_check = [
    "pandas",
    "sqlalchemy",
    "psycopg2",
    "requests",
    "beautifulsoup4",
    "python-dotenv",
]

result = subprocess.run(
    [sys.executable, "-m", "pip", "list"],
    check=False, capture_output=True,
    text=True
)

if result.returncode == 0:
    installed_packages = result.stdout
    print("\nVérification packages critiques :\n")
    for pkg in packages_to_check:
        if pkg in installed_packages.lower():
            version = [line for line in installed_packages.split("\n") if pkg.lower() in line.lower()]
            if version:
                print(f"  ✅ {version[0]}")
            else:
                print(f"  ✅ {pkg} (version non détectée)")
        else:
            print(f"  ❌ {pkg} - À installer : pip install {pkg}")

    print("\n📋 Liste complète (pip list) :")
    print(installed_packages[:500] + "..." if len(installed_packages) > 500 else installed_packages)
else:
    print("⚠️ Impossible d'exécuter pip list")



📦 Packages Python installés

Vérification packages critiques :

  ✅ pandas                   2.3.3
  ✅ SQLAlchemy               2.0.44
  ✅ psycopg2-binary          2.9.11
  ✅ requests                 2.32.5
  ✅ beautifulsoup4           4.14.2
  ✅ python-dotenv            1.2.1

📋 Liste complète (pip list) :
Package                  Version
------------------------ -----------
annotated-types          0.7.0
argon2-cffi              25.1.0
argon2-cffi-bindings     25.1.0
asttokens                3.0.0
beautifulsoup4           4.14.2
cachetools               6.2.1
certifi                  2025.10.5
cffi                     2.0.0
charset-normalizer       3.4.4
colorama                 0.4.6
comm                     0.2.3
contourpy                1.3.3
cycler                   0.12.1
debugpy            ...


## 📁 Création de l'arborescence projet

Structure du projet selon les conventions DataSens :


In [3]:
# Déterminer la racine du projet (parent de notebooks/)
NOTEBOOK_DIR = Path.cwd()
PROJECT_ROOT = NOTEBOOK_DIR.parent if NOTEBOOK_DIR.name == "notebooks" else NOTEBOOK_DIR

print("📁 Création de l'arborescence projet")
print("=" * 80)
print(f"Racine projet : {PROJECT_ROOT}")

# Arborescence à créer
directories = {
    "data": ["raw", "silver", "gold"],
    "data/raw": ["kaggle", "api", "scraping", "gdelt", "manifests"],
    "data/raw/api": ["owm"],
    "data/raw/scraping": ["mav"],  # MonAvisCitoyen
    "logs": [],
    "docs": [],
    "notebooks": [],
}

created = []
for base_dir, subdirs in directories.items():
    base_path = PROJECT_ROOT / base_dir
    base_path.mkdir(parents=True, exist_ok=True)
    created.append(f"✅ {base_dir}/")

    for subdir in subdirs:
        sub_path = base_path / subdir
        sub_path.mkdir(parents=True, exist_ok=True)
        created.append(f"   ✅ {base_dir}/{subdir}/")

print("\n📂 Dossiers créés :")
for item in created:
    print(item)

print(f"\n✅ Arborescence prête ! ({len(created)} dossiers)")


📁 Création de l'arborescence projet
Racine projet : c:\Users\Utilisateur\Desktop\Datasens_Project

📂 Dossiers créés :
✅ data/
   ✅ data/raw/
   ✅ data/silver/
   ✅ data/gold/
✅ data/raw/
   ✅ data/raw/kaggle/
   ✅ data/raw/api/
   ✅ data/raw/scraping/
   ✅ data/raw/gdelt/
   ✅ data/raw/manifests/
✅ data/raw/api/
   ✅ data/raw/api/owm/
✅ data/raw/scraping/
   ✅ data/raw/scraping/mav/
✅ logs/
✅ docs/
✅ notebooks/

✅ Arborescence prête ! (17 dossiers)


## ⚙️ Configuration .env

Création du fichier `.env` de développement avec variables PostgreSQL et API keys.

**⚠️ IMPORTANT** : Ce fichier ne doit JAMAIS être commité (dans .gitignore)


In [4]:
import os

from dotenv import load_dotenv

# Charger .env s'il existe
env_path = PROJECT_ROOT / ".env"
env_loaded = load_dotenv(env_path)

if env_loaded:
    print(f"✅ Fichier .env chargé : {env_path}")
else:
    print(f"⚠️ Fichier .env non trouvé : {env_path}")
    print("   Création d'un .env.example pour référence...")

    # Créer un .env.example
    env_example = PROJECT_ROOT / ".env.example"
    env_example.write_text("""
# PostgreSQL
POSTGRES_HOST=localhost
POSTGRES_PORT=5432
POSTGRES_DB=datasens
POSTGRES_USER=ds_user
POSTGRES_PASS=ds_pass

# API Keys (optionnelles pour démo)
OWM_API_KEY=your_openweathermap_key_here
KAGGLE_USERNAME=your_kaggle_username
KAGGLE_KEY=your_kaggle_key

# Git (optionnel)
GIT_USER_NAME=Your Name
GIT_USER_EMAIL=your.email@example.com
""")
    print(f"   📄 Template créé : {env_example}")

# Afficher configuration (sans afficher les mots de passe)
print("\n🔐 Configuration chargée :")
print(f"   POSTGRES_HOST : {os.getenv('POSTGRES_HOST', 'localhost')}")
print(f"   POSTGRES_PORT : {os.getenv('POSTGRES_PORT', '5432')}")
print(f"   POSTGRES_DB   : {os.getenv('POSTGRES_DB', 'datasens')}")
print(f"   POSTGRES_USER : {os.getenv('POSTGRES_USER', 'ds_user')}")
print(f"   OWM_API_KEY   : {'✅ Configurée' if os.getenv('OWM_API_KEY') else '❌ Manquante (optionnelle)'}")
print(f"   KAGGLE_USERNAME: {'✅ Configurée' if os.getenv('KAGGLE_USERNAME') else '❌ Manquante (optionnelle)'}")


✅ Fichier .env chargé : c:\Users\Utilisateur\Desktop\Datasens_Project\.env

🔐 Configuration chargée :
   POSTGRES_HOST : localhost
   POSTGRES_PORT : 5432
   POSTGRES_DB   : datasens
   POSTGRES_USER : ds_user
   OWM_API_KEY   : ✅ Configurée
   KAGGLE_USERNAME: ✅ Configurée


## 🗄️ Connexion PostgreSQL

Test de connexion à la base PostgreSQL (via Docker ou locale)


In [5]:
from sqlalchemy import create_engine, text

# Récupérer variables d'environnement
PG_HOST = os.getenv("POSTGRES_HOST", "localhost")
PG_PORT = int(os.getenv("POSTGRES_PORT", "5432"))
PG_DB = os.getenv("POSTGRES_DB", "datasens")
PG_USER = os.getenv("POSTGRES_USER", "ds_user")
PG_PASS = os.getenv("POSTGRES_PASS", "ds_pass")

# URL de connexion
PG_URL = f"postgresql+psycopg2://{PG_USER}:{PG_PASS}@{PG_HOST}:{PG_PORT}/{PG_DB}"

print("🔌 Test connexion PostgreSQL")
print("=" * 80)
print(f"URL : postgresql://{PG_USER}:***@{PG_HOST}:{PG_PORT}/{PG_DB}")

try:
    engine = create_engine(PG_URL, future=True)

    # Test simple : SELECT 1
    with engine.connect() as conn:
        result = conn.execute(text("SELECT 1 as test"))
        test_value = result.scalar()

    if test_value == 1:
        print("✅ Connexion PostgreSQL réussie !")
        print(f"   🗄️ Base de données : {PG_DB}")
        print(f"   👤 Utilisateur : {PG_USER}")
        print(f"   📍 Serveur : {PG_HOST}:{PG_PORT}")
    else:
        print("⚠️ Connexion OK mais test inattendu")

except Exception as e:
    print(f"❌ Erreur de connexion : {e}")
    print("\n💡 Vérifications :")
    print("   1. Docker Compose est-il démarré ? → docker-compose up -d")
    print("   2. PostgreSQL est-il accessible sur le port 5432 ?")
    print("   3. Les credentials dans .env sont-ils corrects ?")


🔌 Test connexion PostgreSQL
URL : postgresql://ds_user:***@localhost:5432/datasens
✅ Connexion PostgreSQL réussie !
   🗄️ Base de données : datasens
   👤 Utilisateur : ds_user
   📍 Serveur : localhost:5432


## 🔄 Initialisation Git

Initialisation du dépôt Git (si ce n'est pas déjà fait) et premier commit


In [6]:
import subprocess

print("🔄 Vérification Git")
print("=" * 80)

# Vérifier si Git est installé
try:
    git_version = subprocess.run(
        ["git", "--version"],
        check=False, capture_output=True,
        text=True
    )
    print(f"✅ {git_version.stdout.strip()}")
except FileNotFoundError:
    print("❌ Git non installé — Installation requise : https://git-scm.com/")
    exit(1)

# Vérifier si le projet est déjà un dépôt Git
git_dir = PROJECT_ROOT / ".git"
if git_dir.exists():
    print(f"\n✅ Dépôt Git déjà initialisé : {PROJECT_ROOT}")

    # Afficher git status
    try:
        status = subprocess.run(
            ["git", "status", "--short"],
            check=False, cwd=PROJECT_ROOT,
            capture_output=True,
            text=True
        )
        if status.stdout.strip():
            print("\n📋 Fichiers modifiés/non suivis :")
            print(status.stdout)
        else:
            print("\n📋 Aucun changement (working tree clean)")
    except Exception as e:
        print(f"⚠️ Impossible de lire git status : {e}")
else:
    print(f"\n⚠️ Dépôt Git non initialisé dans {PROJECT_ROOT}")
    print("   💡 Initialisation manuelle recommandée :")
    print(f"      cd {PROJECT_ROOT}")
    print("      git init")
    print("      git add .")
    print('      git commit -m "Initial commit E1"')

print("\n✅ Setup environnement terminé !")
print("   ➡️ Passez au notebook 02_schema_create.ipynb")


🔄 Vérification Git
✅ git version 2.49.0.windows.1

✅ Dépôt Git déjà initialisé : c:\Users\Utilisateur\Desktop\Datasens_Project

📋 Fichiers modifiés/non suivis :
 D docs/FIX_PDF_QUICK.md
 M docs/GUIDE_TECHNIQUE_JURY.md
 M docs/GUIDE_TECHNIQUE_JURY.pdf
 D docs/PDF_FORMATTING_INSTRUCTIONS.md
 D docs/fix_pdf_formatting.ps1
 M notebooks/datasens_E1_v2.ipynb
?? docs/ARCHITECTURE_PIPELINE_E1.md
?? docs/GUIDE_TECHNIQUE_JURY_V2.md
?? docs/datasens_dictionary.md
?? docs/e1_schema.sql
?? notebooks/01_setup_env.ipynb
?? notebooks/02_schema_create.ipynb
?? notebooks/03_ingest_sources.ipynb
?? notebooks/04_crud_tests.ipynb
?? notebooks/05_snapshot_and_readme.ipynb
?? notebooks/README_VERSIONNING.md
?? notebooks/data/raw/api/
?? notebooks/data/raw/gdelt/
?? notebooks/data/raw/kaggle/
?? notebooks/data/raw/manifests/
?? notebooks/data/raw/rss/
?? notebooks/data/raw/scraping/multi/scraping_multi_20251029T122841Z.csv


✅ Setup environnement terminé !
   ➡️ Passez au notebook 02_schema_create.ipynb
