In [None]:
# DataSens E1_v3 — 01_setup_env

- Objectifs: Configuration complète MinIO + PostgreSQL + arborescence + logging
- Prérequis: Docker Compose lancé (MinIO + PostgreSQL), Python + venv, `pip install -r requirements.txt`
- Ordre global E1_v3: 01 → 02 → 03 → 04 → 05
- Guide: docs/GUIDE_TECHNIQUE_E1.md

> **E1_v3** : Architecture complète **36/37 tables** avec **TOUTES les sources réelles**
> - Sources complètes : Kaggle, OpenWeatherMap, RSS Multi, NewsAPI, Web Scraping (6 sources), GDELT Big Data
> - Baromètres : 10 types de baromètres d'opinion et indicateurs sociaux
> - Schéma complet : T01-T36 + T37 (archive_flux) selon MPD.sql


In [None]:
> Notes:
> - Configuration des connexions **MinIO (DataLake)** et **PostgreSQL (SGBD)**
> - Création de l'arborescence `data/raw/` avec **tous les sous-dossiers** pour sources complètes
> - Système de logging pour tracer toutes les opérations
> - Fonctions utilitaires (timestamp UTC, hash SHA256 pour déduplication)
> - **Références** : docs/datasens_MPD.sql (36 tables), docs/datasens_sources_dictionary.md, docs/datasens_barometer_themes.md
    ROOT = ROOT
except NameError:
    from pathlib import Path
    ROOT = Path.cwd().resolve().parents[2]
DATA_DIR = ROOT / 'data'
DOCS_DIR = ROOT / 'docs'
LOGS_DIR = ROOT / 'logs'
print('ROOT=', ROOT)
print('DATA_DIR=', DATA_DIR)
print('DOCS_DIR=', DOCS_DIR)
print('LOGS_DIR=', LOGS_DIR)


# DataSens E1_v3 - 01_setup_env
# 🔧 Configuration environnement : MinIO + PostgreSQL + Arborescence + Logging
# Architecture complète : 36/37 tables + Toutes les sources

import datetime as dt
import hashlib
import logging
import os
from datetime import UTC, datetime
from pathlib import Path

from dotenv import load_dotenv

# Détection robuste du dossier projet
current = Path.cwd()
PROJECT_ROOT = None
while current != current.parent:
    if (current / "notebooks").exists() and (current / "docs").exists():
        PROJECT_ROOT = current
        break
    current = current.parent
else:
    PROJECT_ROOT = Path.cwd()

print(f"📂 Racine projet détectée : {PROJECT_ROOT}")

# Chargement .env
env_path = PROJECT_ROOT / '.env'
loaded = load_dotenv(env_path)
if loaded:
    print(f'✅ .env chargé: {env_path}')
else:
    print(f'⚠️ .env non trouvé: {env_path}')
    # Créer .env.example si absent
    env_example = PROJECT_ROOT / '.env.example'
    if not env_example.exists():
        env_example.write_text("""
# PostgreSQL
POSTGRES_HOST=localhost
POSTGRES_PORT=5433
POSTGRES_DB=postgres
POSTGRES_USER=postgres
POSTGRES_PASS=postgres

# MinIO
MINIO_ENDPOINT=http://localhost:9002
MINIO_ACCESS_KEY=admin
MINIO_SECRET_KEY=admin123
MINIO_BUCKET=datasens-raw

# API Keys (pour toutes les sources E1_v3)
OWM_API_KEY=
NEWSAPI_KEY=
KAGGLE_USERNAME=
KAGGLE_KEY=
GDELT_BASE=http://data.gdeltproject.org/gkg/
""".strip() + "\n", encoding='utf-8')
        print(f'📄 .env.example créé: {env_example}')

# Configuration MinIO (DataLake)
MINIO_ENDPOINT = os.getenv("MINIO_ENDPOINT", "http://localhost:9002")
MINIO_ACCESS_KEY = os.getenv("MINIO_ACCESS_KEY", "admin")
MINIO_SECRET_KEY = os.getenv("MINIO_SECRET_KEY", "admin123")
MINIO_BUCKET = os.getenv("MINIO_BUCKET", "datasens-raw")

# Configuration PostgreSQL (SGBD) - 36/37 tables E1_v3
PG_HOST = os.getenv("POSTGRES_HOST", "localhost")
PG_PORT = int(os.getenv("POSTGRES_PORT", "5433"))
PG_DB = os.getenv("POSTGRES_DB", "postgres")
PG_USER = os.getenv("POSTGRES_USER", "postgres")
PG_PASS = os.getenv("POSTGRES_PASS", "postgres")
PG_URL = f"postgresql+psycopg2://{PG_USER}:{PG_PASS}@{PG_HOST}:{PG_PORT}/{PG_DB}"

# Clés API (pour toutes les sources E1_v3)
KAGGLE_USERNAME = os.getenv("KAGGLE_USERNAME")
KAGGLE_KEY = os.getenv("KAGGLE_KEY")
OWM_API_KEY = os.getenv("OWM_API_KEY")
NEWSAPI_KEY = os.getenv("NEWSAPI_KEY")
GDELT_BASE = os.getenv("GDELT_BASE", "http://data.gdeltproject.org/gkg/")

print("\n🔐 Configuration MinIO (DataLake) :")
print(f"   • Endpoint : {MINIO_ENDPOINT}")
print(f"   • Bucket   : {MINIO_BUCKET}")

print("\n🗄️ Configuration PostgreSQL (SGBD) :")
print(f"   • Host     : {PG_HOST}:{PG_PORT}")
print(f"   • Database : {PG_DB}")
print(f"   • User     : {PG_USER}")
print(f"   • Schéma   : 36/37 tables (T01-T36 + T37) selon datasens_MPD.sql")

print("\n🔑 Clés API (E1_v3 - Toutes les sources) :")
print(f"   • Kaggle        : {'✅ Configurée' if KAGGLE_USERNAME else '❌ Manquante'}")
print(f"   • OpenWeatherMap: {'✅ Configurée' if OWM_API_KEY else '❌ Manquante'}")
print(f"   • NewsAPI       : {'✅ Configurée' if NEWSAPI_KEY else '❌ Manquante'}")

# Arborescence complète pour TOUTES les sources E1_v3
DATA_DIR = PROJECT_ROOT / 'data'
RAW_DIR = DATA_DIR / 'raw'
LOGS_DIR = PROJECT_ROOT / 'logs'

RAW_DIR.mkdir(parents=True, exist_ok=True)
LOGS_DIR.mkdir(parents=True, exist_ok=True)

# Tous les sous-dossiers pour sources complètes E1_v3 (selon docs)
folders = [
    "kaggle",                    # Source 1 : Fichier plat
    "api/owm",                   # Source 2 : API OpenWeatherMap
    "api/newsapi",               # Source 2 : API NewsAPI
    "rss",                       # Source 3 : Flux RSS Multi-Sources
    "scraping/multi",            # Source 4 : Web Scraping Multi (6 sources)
    "scraping/viepublique",      # Source 4 : Vie-publique.fr
    "scraping/datagouv",         # Source 4 : data.gouv.fr
    "gdelt",                     # Source 5 : GDELT Big Data
    "manifests"                  # Manifest JSON par run
]
for sub in folders:
    (RAW_DIR / sub).mkdir(parents=True, exist_ok=True)

print(f"\n✅ Arborescence créée: {RAW_DIR}")
print(f"   • {len(folders)} sous-dossiers prêts (toutes sources E1_v3)")

# Logging
stamp = datetime.now(UTC).strftime("%Y%m%d_%H%M%S")
log_file = LOGS_DIR / f"collecte_{stamp}.log"
logging.basicConfig(
    level=logging.INFO,
    format='[%(asctime)s] %(levelname)s - %(message)s',
    datefmt='%H:%M:%S',
    handlers=[
        logging.FileHandler(log_file, encoding='utf-8'),
        logging.StreamHandler()
    ]
)
logging.info("Système de logging initialisé - E1_v3 (36/37 tables)")
print(f"📄 Log: {log_file}")

# Fonctions utilitaires
def ts() -> str:
    """Timestamp UTC ISO compact (YYYYMMDDTHHMMSSZ)"""
    return dt.datetime.now(tz=dt.UTC).strftime("%Y%m%dT%H%M%SZ")

def sha256_hash(s: str) -> str:
    """Hash SHA256 pour déduplication"""
    return hashlib.sha256(s.encode("utf-8")).hexdigest()

print(f"\n🔧 Utilitaires : ts()={ts()}, sha256()={sha256_hash('test')[:16]}...")

print("\n✅ Configuration E1_v3 terminée !")



In [None]:
# ============================================================
# 🎬 DASHBOARD NARRATIF - OÙ SOMMES-NOUS ?
# ============================================================
# Ce dashboard vous guide à travers le pipeline DataSens E1
# Il montre la progression et l'état actuel des données
# ============================================================

import matplotlib.pyplot as plt
from matplotlib.patches import FancyBboxPatch
import matplotlib.patches as mpatches

print("\n" + "="*80)
print("🎬 FIL D'ARIANE VISUEL - PIPELINE DATASENS E1")
print("="*80)

# Créer figure dashboard
fig = plt.figure(figsize=(16, 8))
ax = fig.add_subplot(111)
ax.set_xlim(0, 10)
ax.set_ylim(0, 6)
ax.axis('off')

# Étapes du pipeline
etapes = [
    {"nom": "📥 COLLECTE", "status": "✅", "desc": "Sources brutes"},
    {"nom": "☁️ DATALAKE", "status": "✅", "desc": "MinIO Raw"},
    {"nom": "🧹 NETTOYAGE", "status": "🔄", "desc": "Déduplication"},
    {"nom": "💾 ETL", "status": "⏳", "desc": "PostgreSQL"},
    {"nom": "📊 ANNOTATION", "status": "⏳", "desc": "Enrichissement"},
    {"nom": "📦 EXPORT", "status": "⏳", "desc": "Dataset IA"}
]

# Couleurs selon statut
colors = {
    "✅": "#4ECDC4",
    "🔄": "#FECA57", 
    "⏳": "#E8E8E8"
}

# Dessiner timeline
y_pos = 4
x_start = 1
x_spacing = 1.4

for i, etape in enumerate(etapes):
    x_pos = x_start + i * x_spacing
    
    # Cercle étape
    circle = plt.Circle((x_pos, y_pos), 0.25, color=colors[etape["status"]], zorder=3)
    ax.add_patch(circle)
    ax.text(x_pos, y_pos, etape["status"], ha='center', va='center', fontsize=14, fontweight='bold', zorder=4)
    
    # Nom étape
    ax.text(x_pos, y_pos - 0.6, etape["nom"], ha='center', va='top', fontsize=11, fontweight='bold')
    ax.text(x_pos, y_pos - 0.85, etape["desc"], ha='center', va='top', fontsize=9, style='italic')
    
    # Flèche vers prochaine étape
    if i < len(etapes) - 1:
        ax.arrow(x_pos + 0.3, y_pos, x_spacing - 0.6, 0, 
                head_width=0.1, head_length=0.15, fc='gray', ec='gray', zorder=2)

# Titre narratif
ax.text(5, 5.5, "🎯 PROGRESSION DU PIPELINE E1", ha='center', va='center', 
        fontsize=16, fontweight='bold', bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# Légende
legend_elements = [
    mpatches.Patch(facecolor='#4ECDC4', label='Terminé'),
    mpatches.Patch(facecolor='#FECA57', label='En cours'),
    mpatches.Patch(facecolor='#E8E8E8', label='À venir')
]
ax.legend(handles=legend_elements, loc='upper left', fontsize=10)

# Statistiques rapides (si disponibles)
stats_text = "\n📊 SNAPSHOT ACTUEL :\n"
try:
    # Essayer de charger des stats si base disponible
    stats_text += "   • Pipeline en cours d'exécution...\n"
except:
    stats_text += "   • Démarrage du pipeline...\n"

ax.text(5, 1.5, stats_text, ha='center', va='center', fontsize=10,
        bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.3))

plt.title("🎬 FIL D'ARIANE VISUEL - Accompagnement narratif du jury", 
          fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\n💡 Le fil d'Ariane vous guide étape par étape à travers le pipeline")
print("   Chaque visualisation s'inscrit dans cette progression narrative\n")



In [None]:
# Test des connexions MinIO et PostgreSQL

print("🔌 Test des connexions...")
print("=" * 80)

# Connexion MinIO
try:
    from minio import Minio
    
    minio_client = Minio(
        MINIO_ENDPOINT.replace("http://", "").replace("https://", ""),
        access_key=MINIO_ACCESS_KEY,
        secret_key=MINIO_SECRET_KEY,
        secure=False
    )
    
    # Créer le bucket s'il n'existe pas
    if not minio_client.bucket_exists(MINIO_BUCKET):
        minio_client.make_bucket(MINIO_BUCKET)
        print(f"✅ MinIO : Bucket '{MINIO_BUCKET}' créé")
    else:
        print(f"✅ MinIO : Bucket '{MINIO_BUCKET}' existe déjà")
    
    # Lister les objets existants
    objects = list(minio_client.list_objects(MINIO_BUCKET, recursive=False))
    print(f"   • {len(list(objects))} objets existants dans le bucket")
    
except Exception as e:
    print(f"❌ MinIO : Erreur de connexion - {e}")
    print("   💡 Vérifiez que Docker Compose est lancé : docker compose up -d")
    minio_client = None

# Connexion PostgreSQL
try:
    from sqlalchemy import create_engine, text
    
    engine = create_engine(PG_URL, future=True)
    
    with engine.connect() as conn:
        result = conn.execute(text("SELECT 1 as test"))
        test_value = result.scalar()
    
    if test_value == 1:
        print(f"✅ PostgreSQL : Connexion réussie ({PG_HOST}:{PG_PORT}/{PG_DB})")
        
        # Compter les tables existantes
        with engine.connect() as conn:
            result = conn.execute(text("""
                SELECT COUNT(*) FROM information_schema.tables 
                WHERE table_schema = 'public'
            """))
            nb_tables = result.scalar()
            print(f"   • {nb_tables} tables existantes dans la base")
            print(f"   • E1_v3 attend 36/37 tables (architecture complète selon datasens_MPD.sql)")
    else:
        print("⚠️ PostgreSQL : Connexion OK mais test inattendu")
        
except Exception as e:
    print(f"❌ PostgreSQL : Erreur de connexion - {e}")
    print("   💡 Vérifiez que Docker Compose est lancé : docker compose up -d")
    engine = None

print("\n✅ Tests de connexion terminés !")
print("   ➡️ Passez au notebook 02_schema_create.ipynb pour créer les 36/37 tables")


## 🎯 Introduction & Objectifs E1

**DataSens E1** : Construction du socle data avec :
- ✅ Modélisation Merise (MCD → MLD → MPD ciblé)
- ✅ Création et remplissage PostgreSQL (18 tables)
- ✅ CRUD complet testé depuis le notebook
- ✅ Ingestion réelle des **5 types de sources** :
  1. **Fichier plat** : Kaggle CSV
  2. **Base de données** : Export Kaggle SQLite → Postgres
  3. **API** : OpenWeatherMap (météo communes)
  4. **Web Scraping** : MonAvisCitoyen (dry-run, robots.txt)
  5. **Big Data** : GDELT GKG (échantillon journalier)
- ✅ Traçabilité et gouvernance (flux, manifest, versionning Git)

**Mode d'exécution** : Cellule par cellule (pas à pas)


In [1]:
# Vérification environnement Python
import subprocess
import sys
from pathlib import Path

print("🔍 Vérification environnement Python")
print("=" * 80)
print(f"Python version : {sys.version}")
print(f"Python executable : {sys.executable}")

# Vérifier version Python >= 3.11
version_info = sys.version_info
if version_info.major >= 3 and version_info.minor >= 11:
    print(f"✅ Python {version_info.major}.{version_info.minor}.{version_info.micro} OK")
else:
    print(f"⚠️ Python {version_info.major}.{version_info.minor} — Recommandé Python 3.11+")


🔍 Vérification environnement Python
Python version : 3.12.7 | packaged by Anaconda, Inc. | (main, Oct  4 2024, 13:17:27) [MSC v.1929 64 bit (AMD64)]
Python executable : c:\Users\Utilisateur\Desktop\Datasens_Project\.venv\Scripts\python.exe
✅ Python 3.12.7 OK


In [2]:
# Liste des packages installés
print("\n📦 Packages Python installés")
print("=" * 80)

packages_to_check = [
    "pandas",
    "sqlalchemy",
    "psycopg2",
    "requests",
    "beautifulsoup4",
    "python-dotenv",
]

result = subprocess.run(
    [sys.executable, "-m", "pip", "list"],
    check=False, capture_output=True,
    text=True
)

if result.returncode == 0:
    installed_packages = result.stdout
    print("\nVérification packages critiques :\n")
    for pkg in packages_to_check:
        if pkg in installed_packages.lower():
            version = [line for line in installed_packages.split("\n") if pkg.lower() in line.lower()]
            if version:
                print(f"  ✅ {version[0]}")
            else:
                print(f"  ✅ {pkg} (version non détectée)")
        else:
            print(f"  ❌ {pkg} - À installer : pip install {pkg}")

    print("\n📋 Liste complète (pip list) :")
    print(installed_packages[:500] + "..." if len(installed_packages) > 500 else installed_packages)
else:
    print("⚠️ Impossible d'exécuter pip list")



📦 Packages Python installés

Vérification packages critiques :

  ✅ pandas                   2.3.3
  ✅ SQLAlchemy               2.0.44
  ✅ psycopg2-binary          2.9.11
  ✅ requests                 2.32.5
  ✅ beautifulsoup4           4.14.2
  ✅ python-dotenv            1.2.1

📋 Liste complète (pip list) :
Package                  Version
------------------------ -----------
annotated-types          0.7.0
argon2-cffi              25.1.0
argon2-cffi-bindings     25.1.0
asttokens                3.0.0
beautifulsoup4           4.14.2
cachetools               6.2.1
certifi                  2025.10.5
cffi                     2.0.0
charset-normalizer       3.4.4
colorama                 0.4.6
comm                     0.2.3
contourpy                1.3.3
cycler                   0.12.1
debugpy            ...


## 📁 Création de l'arborescence projet

Structure du projet selon les conventions DataSens :


In [3]:
# Déterminer la racine du projet (parent de notebooks/)
NOTEBOOK_DIR = Path.cwd()
PROJECT_ROOT = NOTEBOOK_DIR.parent if NOTEBOOK_DIR.name == "notebooks" else NOTEBOOK_DIR

print("📁 Création de l'arborescence projet")
print("=" * 80)
print(f"Racine projet : {PROJECT_ROOT}")

# Arborescence à créer
directories = {
    "data": ["raw", "silver", "gold"],
    "data/raw": ["kaggle", "api", "scraping", "gdelt", "manifests"],
    "data/raw/api": ["owm"],
    "data/raw/scraping": ["mav"],  # MonAvisCitoyen
    "logs": [],
    "docs": [],
    "notebooks": [],
}

created = []
for base_dir, subdirs in directories.items():
    base_path = PROJECT_ROOT / base_dir
    base_path.mkdir(parents=True, exist_ok=True)
    created.append(f"✅ {base_dir}/")

    for subdir in subdirs:
        sub_path = base_path / subdir
        sub_path.mkdir(parents=True, exist_ok=True)
        created.append(f"   ✅ {base_dir}/{subdir}/")

print("\n📂 Dossiers créés :")
for item in created:
    print(item)

print(f"\n✅ Arborescence prête ! ({len(created)} dossiers)")


📁 Création de l'arborescence projet
Racine projet : c:\Users\Utilisateur\Desktop\Datasens_Project

📂 Dossiers créés :
✅ data/
   ✅ data/raw/
   ✅ data/silver/
   ✅ data/gold/
✅ data/raw/
   ✅ data/raw/kaggle/
   ✅ data/raw/api/
   ✅ data/raw/scraping/
   ✅ data/raw/gdelt/
   ✅ data/raw/manifests/
✅ data/raw/api/
   ✅ data/raw/api/owm/
✅ data/raw/scraping/
   ✅ data/raw/scraping/mav/
✅ logs/
✅ docs/
✅ notebooks/

✅ Arborescence prête ! (17 dossiers)


## ⚙️ Configuration .env

Création du fichier `.env` de développement avec variables PostgreSQL et API keys.

**⚠️ IMPORTANT** : Ce fichier ne doit JAMAIS être commité (dans .gitignore)


In [4]:
import os

from dotenv import load_dotenv

# Charger .env s'il existe
env_path = PROJECT_ROOT / ".env"
env_loaded = load_dotenv(env_path)

if env_loaded:
    print(f"✅ Fichier .env chargé : {env_path}")
else:
    print(f"⚠️ Fichier .env non trouvé : {env_path}")
    print("   Création d'un .env.example pour référence...")

    # Créer un .env.example
    env_example = PROJECT_ROOT / ".env.example"
    env_example.write_text("""
# PostgreSQL
POSTGRES_HOST=localhost
POSTGRES_PORT=5432
POSTGRES_DB=datasens
POSTGRES_USER=ds_user
POSTGRES_PASS=ds_pass

# API Keys (optionnelles pour démo)
OWM_API_KEY=your_openweathermap_key_here
KAGGLE_USERNAME=your_kaggle_username
KAGGLE_KEY=your_kaggle_key

# Git (optionnel)
GIT_USER_NAME=Your Name
GIT_USER_EMAIL=your.email@example.com
""")
    print(f"   📄 Template créé : {env_example}")

# Afficher configuration (sans afficher les mots de passe)
print("\n🔐 Configuration chargée :")
print(f"   POSTGRES_HOST : {os.getenv('POSTGRES_HOST', 'localhost')}")
print(f"   POSTGRES_PORT : {os.getenv('POSTGRES_PORT', '5432')}")
print(f"   POSTGRES_DB   : {os.getenv('POSTGRES_DB', 'datasens')}")
print(f"   POSTGRES_USER : {os.getenv('POSTGRES_USER', 'ds_user')}")
print(f"   OWM_API_KEY   : {'✅ Configurée' if os.getenv('OWM_API_KEY') else '❌ Manquante (optionnelle)'}")
print(f"   KAGGLE_USERNAME: {'✅ Configurée' if os.getenv('KAGGLE_USERNAME') else '❌ Manquante (optionnelle)'}")


✅ Fichier .env chargé : c:\Users\Utilisateur\Desktop\Datasens_Project\.env

🔐 Configuration chargée :
   POSTGRES_HOST : localhost
   POSTGRES_PORT : 5432
   POSTGRES_DB   : datasens
   POSTGRES_USER : ds_user
   OWM_API_KEY   : ✅ Configurée
   KAGGLE_USERNAME: ✅ Configurée


## 🗄️ Connexion PostgreSQL

Test de connexion à la base PostgreSQL (via Docker ou locale)


In [5]:
from sqlalchemy import create_engine, text

# Récupérer variables d'environnement
PG_HOST = os.getenv("POSTGRES_HOST", "localhost")
PG_PORT = int(os.getenv("POSTGRES_PORT", "5432"))
PG_DB = os.getenv("POSTGRES_DB", "datasens")
PG_USER = os.getenv("POSTGRES_USER", "ds_user")
PG_PASS = os.getenv("POSTGRES_PASS", "ds_pass")

# URL de connexion
PG_URL = f"postgresql+psycopg2://{PG_USER}:{PG_PASS}@{PG_HOST}:{PG_PORT}/{PG_DB}"

print("🔌 Test connexion PostgreSQL")
print("=" * 80)
print(f"URL : postgresql://{PG_USER}:***@{PG_HOST}:{PG_PORT}/{PG_DB}")

try:
    engine = create_engine(PG_URL, future=True)

    # Test simple : SELECT 1
    with engine.connect() as conn:
        result = conn.execute(text("SELECT 1 as test"))
        test_value = result.scalar()

    if test_value == 1:
        print("✅ Connexion PostgreSQL réussie !")
        print(f"   🗄️ Base de données : {PG_DB}")
        print(f"   👤 Utilisateur : {PG_USER}")
        print(f"   📍 Serveur : {PG_HOST}:{PG_PORT}")
    else:
        print("⚠️ Connexion OK mais test inattendu")

except Exception as e:
    print(f"❌ Erreur de connexion : {e}")
    print("\n💡 Vérifications :")
    print("   1. Docker Compose est-il démarré ? → docker-compose up -d")
    print("   2. PostgreSQL est-il accessible sur le port 5432 ?")
    print("   3. Les credentials dans .env sont-ils corrects ?")


🔌 Test connexion PostgreSQL
URL : postgresql://ds_user:***@localhost:5432/datasens
✅ Connexion PostgreSQL réussie !
   🗄️ Base de données : datasens
   👤 Utilisateur : ds_user
   📍 Serveur : localhost:5432


## 🔄 Initialisation Git

Initialisation du dépôt Git (si ce n'est pas déjà fait) et premier commit


In [6]:
import subprocess

print("🔄 Vérification Git")
print("=" * 80)

# Vérifier si Git est installé
try:
    git_version = subprocess.run(
        ["git", "--version"],
        check=False, capture_output=True,
        text=True
    )
    print(f"✅ {git_version.stdout.strip()}")
except FileNotFoundError:
    print("❌ Git non installé — Installation requise : https://git-scm.com/")
    exit(1)

# Vérifier si le projet est déjà un dépôt Git
git_dir = PROJECT_ROOT / ".git"
if git_dir.exists():
    print(f"\n✅ Dépôt Git déjà initialisé : {PROJECT_ROOT}")

    # Afficher git status
    try:
        status = subprocess.run(
            ["git", "status", "--short"],
            check=False, cwd=PROJECT_ROOT,
            capture_output=True,
            text=True
        )
        if status.stdout.strip():
            print("\n📋 Fichiers modifiés/non suivis :")
            print(status.stdout)
        else:
            print("\n📋 Aucun changement (working tree clean)")
    except Exception as e:
        print(f"⚠️ Impossible de lire git status : {e}")
else:
    print(f"\n⚠️ Dépôt Git non initialisé dans {PROJECT_ROOT}")
    print("   💡 Initialisation manuelle recommandée :")
    print(f"      cd {PROJECT_ROOT}")
    print("      git init")
    print("      git add .")
    print('      git commit -m "Initial commit E1"')

print("\n✅ Setup environnement terminé !")
print("   ➡️ Passez au notebook 02_schema_create.ipynb")


🔄 Vérification Git
✅ git version 2.49.0.windows.1

✅ Dépôt Git déjà initialisé : c:\Users\Utilisateur\Desktop\Datasens_Project

📋 Fichiers modifiés/non suivis :
 D docs/FIX_PDF_QUICK.md
 M docs/GUIDE_TECHNIQUE_JURY.md
 M docs/GUIDE_TECHNIQUE_JURY.pdf
 D docs/PDF_FORMATTING_INSTRUCTIONS.md
 D docs/fix_pdf_formatting.ps1
 M notebooks/datasens_E1_v2.ipynb
?? docs/ARCHITECTURE_PIPELINE_E1.md
?? docs/GUIDE_TECHNIQUE_JURY_V2.md
?? docs/datasens_dictionary.md
?? docs/e1_schema.sql
?? notebooks/01_setup_env.ipynb
?? notebooks/02_schema_create.ipynb
?? notebooks/03_ingest_sources.ipynb
?? notebooks/04_crud_tests.ipynb
?? notebooks/05_snapshot_and_readme.ipynb
?? notebooks/README_VERSIONNING.md
?? notebooks/data/raw/api/
?? notebooks/data/raw/gdelt/
?? notebooks/data/raw/kaggle/
?? notebooks/data/raw/manifests/
?? notebooks/data/raw/rss/
?? notebooks/data/raw/scraping/multi/scraping_multi_20251029T122841Z.csv


✅ Setup environnement terminé !
   ➡️ Passez au notebook 02_schema_create.ipynb
