# DataSens E1_v2 — 05_snapshot_and_readme

- Objectifs: Manifest JSON complet, snapshot PostgreSQL, versioning, bilan final
- Prérequis: 04_quality_checks exécuté
- Sorties: `data/raw/manifests/manifest_*.json` + snapshot DB + `README_VERSIONNING.md`
- Guide: docs/GUIDE_TECHNIQUE_E1.md

> **E1_v2** : Finalisation avec traçabilité complète et snapshot versionné



In [None]:
# ============================================================
# 🎬 DASHBOARD NARRATIF - OÙ SOMMES-NOUS ?
# ============================================================
# Ce dashboard vous guide à travers le pipeline DataSens E1
# Il montre la progression et l'état actuel des données
# ============================================================

import matplotlib.pyplot as plt
from matplotlib.patches import FancyBboxPatch
import matplotlib.patches as mpatches

print("\n" + "="*80)
print("🎬 FIL D'ARIANE VISUEL - PIPELINE DATASENS E1")
print("="*80)

# Créer figure dashboard
fig = plt.figure(figsize=(16, 8))
ax = fig.add_subplot(111)
ax.set_xlim(0, 10)
ax.set_ylim(0, 6)
ax.axis('off')

# Étapes du pipeline
etapes = [
    {"nom": "📥 COLLECTE", "status": "✅", "desc": "Sources brutes"},
    {"nom": "☁️ DATALAKE", "status": "✅", "desc": "MinIO Raw"},
    {"nom": "🧹 NETTOYAGE", "status": "🔄", "desc": "Déduplication"},
    {"nom": "💾 ETL", "status": "⏳", "desc": "PostgreSQL"},
    {"nom": "📊 ANNOTATION", "status": "⏳", "desc": "Enrichissement"},
    {"nom": "📦 EXPORT", "status": "⏳", "desc": "Dataset IA"}
]

# Couleurs selon statut
colors = {
    "✅": "#4ECDC4",
    "🔄": "#FECA57", 
    "⏳": "#E8E8E8"
}

# Dessiner timeline
y_pos = 4
x_start = 1
x_spacing = 1.4

for i, etape in enumerate(etapes):
    x_pos = x_start + i * x_spacing
    
    # Cercle étape
    circle = plt.Circle((x_pos, y_pos), 0.25, color=colors[etape["status"]], zorder=3)
    ax.add_patch(circle)
    ax.text(x_pos, y_pos, etape["status"], ha='center', va='center', fontsize=14, fontweight='bold', zorder=4)
    
    # Nom étape
    ax.text(x_pos, y_pos - 0.6, etape["nom"], ha='center', va='top', fontsize=11, fontweight='bold')
    ax.text(x_pos, y_pos - 0.85, etape["desc"], ha='center', va='top', fontsize=9, style='italic')
    
    # Flèche vers prochaine étape
    if i < len(etapes) - 1:
        ax.arrow(x_pos + 0.3, y_pos, x_spacing - 0.6, 0, 
                head_width=0.1, head_length=0.15, fc='gray', ec='gray', zorder=2)

# Titre narratif
ax.text(5, 5.5, "🎯 PROGRESSION DU PIPELINE E1", ha='center', va='center', 
        fontsize=16, fontweight='bold', bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# Légende
legend_elements = [
    mpatches.Patch(facecolor='#4ECDC4', label='Terminé'),
    mpatches.Patch(facecolor='#FECA57', label='En cours'),
    mpatches.Patch(facecolor='#E8E8E8', label='À venir')
]
ax.legend(handles=legend_elements, loc='upper left', fontsize=10)

# Statistiques rapides (si disponibles)
stats_text = "\n📊 SNAPSHOT ACTUEL :\n"
try:
    # Essayer de charger des stats si base disponible
    stats_text += "   • Pipeline en cours d'exécution...\n"
except:
    stats_text += "   • Démarrage du pipeline...\n"

ax.text(5, 1.5, stats_text, ha='center', va='center', fontsize=10,
        bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.3))

plt.title("🎬 FIL D'ARIANE VISUEL - Accompagnement narratif du jury", 
          fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\n💡 Le fil d'Ariane vous guide étape par étape à travers le pipeline")
print("   Chaque visualisation s'inscrit dans cette progression narrative\n")



> Notes:
> - Génère un manifest JSON (traçabilité: version, timestamp, sources).
> - Met à jour `README_VERSIONNING.md` pour garder l’historique.
> - À adapter selon les sources réellement activées (OWM, RSS, NewsAPI, GDELT…).



In [None]:
# DataSens E1_v2 - 05_snapshot_and_readme
# 📦 Manifest + Snapshot + Versioning + Bilan final

import json
import os
from datetime import UTC, datetime
from pathlib import Path

import matplotlib.pyplot as plt
import pandas as pd
from sqlalchemy import create_engine, text

# Récupérer variables
if 'PROJECT_ROOT' not in globals():
    current = Path.cwd()
    PROJECT_ROOT = None
    while current != current.parent:
        if (current / "notebooks").exists() and (current / "docs").exists():
            PROJECT_ROOT = current
            break
        current = current.parent
    else:
        PROJECT_ROOT = Path.cwd()

if 'PG_URL' not in globals():
    PG_URL = os.getenv("DATASENS_PG_URL", "postgresql+psycopg2://postgres:postgres@localhost:5433/postgres")

engine = create_engine(PG_URL, future=True)
RAW_DIR = PROJECT_ROOT / "data" / "raw"
VERSIONS_DIR = PROJECT_ROOT / "data" / "raw" / "manifests"
VERSION_FILE = PROJECT_ROOT / "README_VERSIONNING.md"

print("📦 FINALISATION E1_V2")
print("=" * 80)

# ============================================================
# 1. MANIFEST JSON (Traçabilité complète)
# ============================================================
print("\n📄 1. GENERATION MANIFEST JSON")
print("-" * 80)

with engine.connect() as conn:
    # Statistiques complètes
    stats_sources = pd.read_sql_query("""
        SELECT 
            s.nom AS source,
            COUNT(DISTINCT f.id_flux) AS nb_flux,
            COUNT(DISTINCT d.id_doc) AS nb_documents
        FROM source s
        LEFT JOIN flux f ON s.id_source = f.id_source
        LEFT JOIN document d ON f.id_flux = d.id_flux
        GROUP BY s.nom
        ORDER BY nb_documents DESC
    """, conn)

VERSIONS_DIR.mkdir(parents=True, exist_ok=True)

manifest = {
    "run_id": datetime.now(UTC).strftime("%Y%m%dT%H%M%SZ"),
    "notebook_version": "E1_v2",
    "created_utc": datetime.now(UTC).isoformat(),
    "sources_collected": stats_sources["source"].tolist(),
    "statistics": {
        "total_documents": int(stats_sources["nb_documents"].sum()),
        "total_flux": int(stats_sources["nb_flux"].sum()),
        "sources_count": len(stats_sources)
    },
    "pg_db": PG_URL.split("/")[-1] if "/" in PG_URL else "postgres",
    "minio_bucket": os.getenv("MINIO_BUCKET", "datasens-raw")
}

manifest_path = VERSIONS_DIR / f"manifest_{manifest['run_id']}.json"
manifest_path.write_text(json.dumps(manifest, ensure_ascii=False, indent=2), encoding="utf-8")

print(f"✅ Manifest créé : {manifest_path}")
print(f"\n📊 Contenu du manifest :")
print(json.dumps(manifest, indent=2, ensure_ascii=False))

# Afficher le manifest comme DataFrame
df_manifest = pd.DataFrame([manifest])
print("\n📋 Manifest (format tableau) :")
display(pd.DataFrame([{
    "Run ID": manifest["run_id"],
    "Version": manifest["notebook_version"],
    "Total Documents": manifest["statistics"]["total_documents"],
    "Total Flux": manifest["statistics"]["total_flux"],
    "Sources": len(manifest["sources_collected"])
}]))

# ============================================================
# 2. SNAPSHOT POSTGRESQL (Optionnel - instruction manuelle)
# ============================================================
print("\n💾 2. SNAPSHOT POSTGRESQL")
print("-" * 80)

print("💡 Pour créer un snapshot PostgreSQL, exécutez dans le terminal :")
print(f"   docker exec datasens_pg pg_dump -U postgres postgres > data/raw/manifests/pg_snapshot_{manifest['run_id']}.sql")
print("\n   Ou via SQLAlchemy (export CSV des tables principales) :")

# Export CSV des tables principales pour backup léger
VERSIONS_DIR.mkdir(parents=True, exist_ok=True)
snapshot_dir = VERSIONS_DIR / f"snapshot_{manifest['run_id']}"
snapshot_dir.mkdir(exist_ok=True)

tables_to_export = ["type_donnee", "source", "flux", "document"]
for table in tables_to_export:
    try:
        df_snap = pd.read_sql_query(f"SELECT * FROM {table}", engine)
        snap_file = snapshot_dir / f"{table}.csv"
        df_snap.to_csv(snap_file, index=False)
        print(f"   ✅ {table}: {len(df_snap)} lignes → {snap_file.name}")
    except Exception as e:
        print(f"   ⚠️ {table}: {e}")

print(f"\n📂 Snapshot CSV : {snapshot_dir}")

# ============================================================
# 3. VERSIONING
# ============================================================
print("\n📘 3. VERSIONING")
print("-" * 80)

VERSION_FILE.parent.mkdir(parents=True, exist_ok=True)

entry = f"- **{datetime.now(UTC).strftime('%Y-%m-%d %H:%M:%S UTC')}** | `E1_V2_COMPLETE` | Collecte réelle {manifest['statistics']['total_documents']} documents, {manifest['statistics']['sources_count']} sources actives\n"

with open(VERSION_FILE, "a", encoding="utf-8") as f:
    f.write(entry)

print(f"✅ Versionning mis à jour : {VERSION_FILE}")

# Afficher les dernières entrées
if VERSION_FILE.exists():
    print("\n📋 Dernières 5 entrées de l'historique :")
    with open(VERSION_FILE, "r", encoding="utf-8") as f:
        lines = f.readlines()
        for line in lines[-5:]:
            print(f"   {line.strip()}")

# ============================================================
# 4. BILAN FINAL AVEC VISUALISATIONS
# ============================================================
print("\n📊 4. BILAN FINAL E1_V2")
print("-" * 80)

with engine.connect() as conn:
    # Vue complète chaîne de traçabilité
    df_chain = pd.read_sql_query("""
        SELECT
            td.libelle AS type_donnee,
            s.nom AS source,
            COUNT(DISTINCT f.id_flux) AS nb_flux,
            COUNT(DISTINCT d.id_doc) AS nb_documents,
            ROUND(s.fiabilite * 100, 1) AS fiabilite_pct
        FROM type_donnee td
        LEFT JOIN source s ON s.id_type_donnee = td.id_type_donnee
        LEFT JOIN flux f ON f.id_source = s.id_source
        LEFT JOIN document d ON d.id_flux = f.id_flux
        GROUP BY td.libelle, s.nom, s.fiabilite
        ORDER BY nb_documents DESC
    """, conn)

print("\n📋 Vue complète chaîne de traçabilité (Type → Source → Flux → Document) :")
display(df_chain)

# Graphique final
if len(df_chain) > 0:
    plt.figure(figsize=(14, 6))
    plt.subplot(1, 2, 1)
    bars = plt.barh(df_chain["source"], df_chain["nb_documents"], color=plt.cm.Set3(range(len(df_chain))))
    for i, (bar, value) in enumerate(zip(bars, df_chain["nb_documents"])):
        plt.text(bar.get_width() + max(df_chain["nb_documents"]) * 0.01, bar.get_y() + bar.get_height()/2,
                f"{int(value):,}", ha='left', va='center', fontweight='bold', fontsize=9)
    plt.title("📊 Documents collectés par source", fontsize=12, fontweight='bold')
    plt.xlabel("Nombre de documents", fontsize=11)
    plt.tight_layout()
    
    plt.subplot(1, 2, 2)
    if len(df_chain["type_donnee"].unique()) > 0:
        type_counts = df_chain.groupby("type_donnee")["nb_documents"].sum()
        plt.pie(type_counts.values, labels=type_counts.index, autopct='%1.1f%%', startangle=90)
        plt.title("📊 Répartition par type de donnée", fontsize=12, fontweight='bold')
    plt.tight_layout()
    plt.show()

# Tableau récapitulatif final
print("\n📋 Tableau récapitulatif final :")
display(df_chain)

print(f"\n✅ E1_V2 TERMINE :")
print(f"   • {manifest['statistics']['total_documents']:,} documents collectés")
print(f"   • {manifest['statistics']['total_flux']} flux de collecte")
print(f"   • {manifest['statistics']['sources_count']} sources actives")
print(f"   • Manifest : {manifest_path.name}")
print(f"\n🎯 Prêt pour E2 (Enrichissement IA) !")



# ============================================================
# EXPORT DATASET STRUCTURÉ POUR IA (Parquet/CSV)
# ============================================================
print("\n" + "=" * 80)
print("📦 EXPORT DATASET STRUCTURÉ POUR TÉLÉCHARGEMENT (Jury)")
print("=" * 80)

import pandas as pd
from pathlib import Path

# Créer le dossier export
export_dir = PROJECT_ROOT / "data" / "gold" / "dataset_ia"
export_dir.mkdir(parents=True, exist_ok=True)

timestamp = datetime.now(UTC).strftime("%Y%m%d_%H%M%S")

# Requête consolidée : Documents + métadonnées prêtes pour IA
dataset_query = """
    SELECT 
        d.id_doc,
        d.titre,
        d.texte,
        d.langue,
        d.date_publication,
        d.hash_fingerprint,
        td.libelle AS type_donnee,
        s.nom AS source_nom,
        f.date_collecte,
        f.format AS flux_format,
        t.ville AS territoire
    FROM document d
    LEFT JOIN flux f ON d.id_flux = f.id_flux
    LEFT JOIN source s ON f.id_source = s.id_source
    LEFT JOIN type_donnee td ON s.id_type_donnee = td.id_type_donnee
    LEFT JOIN territoire t ON d.id_territoire = t.id_territoire
    ORDER BY d.date_publication DESC
"""

with engine.connect() as conn:
    df_dataset = pd.read_sql_query(dataset_query, conn)

if len(df_dataset) > 0:
    # Export CSV (compatible universel)
    csv_path = export_dir / f"datasens_dataset_v2_{timestamp}.csv"
    df_dataset.to_csv(csv_path, index=False, encoding='utf-8')
    csv_size_mb = csv_path.stat().st_size / (1024 * 1024)
    
    print(f"\n✅ Dataset v2 exporté :")
    print(f"   📄 CSV : {csv_path.name}")
    print(f"   📊 {len(df_dataset):,} documents")
    print(f"   💾 Taille : {csv_size_mb:.2f} MB")
    print(f"   📁 Chemin : {csv_path}")
    
    # Export Parquet si disponible (format optimal pour IA)
    try:
        import pyarrow as pa
        import pyarrow.parquet as pq
        
        parquet_path = export_dir / f"datasens_dataset_v2_{timestamp}.parquet"
        df_dataset.to_parquet(parquet_path, engine='pyarrow', compression='snappy', index=False)
        parquet_size_mb = parquet_path.stat().st_size / (1024 * 1024)
        
        print(f"\n✅ Export Parquet (format optimal) :")
        print(f"   📄 Parquet : {parquet_path.name}")
        print(f"   💾 Taille : {parquet_size_mb:.2f} MB")
        
    except ImportError:
        print("\n⚠️ PyArrow non installé - export Parquet ignoré")
        print("   💡 Installez : pip install pyarrow")
    
    # Aperçu du dataset
    print("\n📋 Aperçu dataset (5 premiers documents) :")
    display(df_dataset.head())
    
    # Visualisation statistiques
    print("\n📊 Statistiques dataset :")
    stats_data = {
        'Total documents': [len(df_dataset)],
        'Langues': [df_dataset['langue'].value_counts().to_dict()],
        'Sources (top 5)': [df_dataset['source_nom'].value_counts().head(5).to_dict()]
    }
    df_stats = pd.DataFrame(stats_data)
    display(df_stats)
    
    # Graphique distribution par langue
    if 'langue' in df_dataset.columns:
        plt.figure(figsize=(10, 6))
        lang_counts = df_dataset['langue'].value_counts()
        colors = plt.cm.Set3(range(len(lang_counts)))
        bars = plt.bar(lang_counts.index, lang_counts.values, color=colors)
        for bar, value in zip(bars, lang_counts.values):
            plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + max(lang_counts.values) * 0.02,
                    f"{int(value):,}", ha='center', va='bottom', fontweight='bold')
        plt.title("📊 Distribution des documents par langue (Dataset v2)", fontsize=12, fontweight='bold')
        plt.ylabel("Nombre de documents", fontsize=11)
        plt.xlabel("Langue", fontsize=11)
        plt.grid(axis="y", linestyle="--", alpha=0.3)
        plt.tight_layout()
        plt.show()
        
else:
    print("⚠️ Aucun document à exporter")

print("\n" + "=" * 80)
print("✅ EXPORT DATASET TERMINÉ - PRÊT POUR TÉLÉCHARGEMENT")
print("=" * 80)
print("\n📋 Fichiers disponibles pour le jury :")
print(f"   • CSV : data/gold/dataset_ia/datasens_dataset_v2_{timestamp}.csv")
try:
    print(f"   • Parquet : data/gold/dataset_ia/datasens_dataset_v2_{timestamp}.parquet")
except:
    pass
print("\n🎯 Ce dataset est prêt pour présentation au jury !")

