# DataSens E1_v2 — 04_quality_checks

- Objectifs: Contrôles qualité PostgreSQL + MinIO (doublons, intégrité, volumes)
- Prérequis: 03_ingest_sources exécuté
- Sortie: Rapports QA avec visualisations + tables de données réelles
- Guide: docs/GUIDE_TECHNIQUE_E1.md

> **E1_v2** : Validation qualité des données collectées réelles



In [None]:
# ============================================================
# 🎬 DASHBOARD NARRATIF - OÙ SOMMES-NOUS ?
# ============================================================
# Ce dashboard vous guide à travers le pipeline DataSens E1
# Il montre la progression et l'état actuel des données
# ============================================================

import matplotlib.pyplot as plt
from matplotlib.patches import FancyBboxPatch
import matplotlib.patches as mpatches

print("\n" + "="*80)
print("🎬 FIL D'ARIANE VISUEL - PIPELINE DATASENS E1")
print("="*80)

# Créer figure dashboard
fig = plt.figure(figsize=(16, 8))
ax = fig.add_subplot(111)
ax.set_xlim(0, 10)
ax.set_ylim(0, 6)
ax.axis('off')

# Étapes du pipeline
etapes = [
    {"nom": "📥 COLLECTE", "status": "✅", "desc": "Sources brutes"},
    {"nom": "☁️ DATALAKE", "status": "✅", "desc": "MinIO Raw"},
    {"nom": "🧹 NETTOYAGE", "status": "🔄", "desc": "Déduplication"},
    {"nom": "💾 ETL", "status": "⏳", "desc": "PostgreSQL"},
    {"nom": "📊 ANNOTATION", "status": "⏳", "desc": "Enrichissement"},
    {"nom": "📦 EXPORT", "status": "⏳", "desc": "Dataset IA"}
]

# Couleurs selon statut
colors = {
    "✅": "#4ECDC4",
    "🔄": "#FECA57", 
    "⏳": "#E8E8E8"
}

# Dessiner timeline
y_pos = 4
x_start = 1
x_spacing = 1.4

for i, etape in enumerate(etapes):
    x_pos = x_start + i * x_spacing
    
    # Cercle étape
    circle = plt.Circle((x_pos, y_pos), 0.25, color=colors[etape["status"]], zorder=3)
    ax.add_patch(circle)
    ax.text(x_pos, y_pos, etape["status"], ha='center', va='center', fontsize=14, fontweight='bold', zorder=4)
    
    # Nom étape
    ax.text(x_pos, y_pos - 0.6, etape["nom"], ha='center', va='top', fontsize=11, fontweight='bold')
    ax.text(x_pos, y_pos - 0.85, etape["desc"], ha='center', va='top', fontsize=9, style='italic')
    
    # Flèche vers prochaine étape
    if i < len(etapes) - 1:
        ax.arrow(x_pos + 0.3, y_pos, x_spacing - 0.6, 0, 
                head_width=0.1, head_length=0.15, fc='gray', ec='gray', zorder=2)

# Titre narratif
ax.text(5, 5.5, "🎯 PROGRESSION DU PIPELINE E1", ha='center', va='center', 
        fontsize=16, fontweight='bold', bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# Légende
legend_elements = [
    mpatches.Patch(facecolor='#4ECDC4', label='Terminé'),
    mpatches.Patch(facecolor='#FECA57', label='En cours'),
    mpatches.Patch(facecolor='#E8E8E8', label='À venir')
]
ax.legend(handles=legend_elements, loc='upper left', fontsize=10)

# Statistiques rapides (si disponibles)
stats_text = "\n📊 SNAPSHOT ACTUEL :\n"
try:
    # Essayer de charger des stats si base disponible
    stats_text += "   • Pipeline en cours d'exécution...\n"
except:
    stats_text += "   • Démarrage du pipeline...\n"

ax.text(5, 1.5, stats_text, ha='center', va='center', fontsize=10,
        bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.3))

plt.title("🎬 FIL D'ARIANE VISUEL - Accompagnement narratif du jury", 
          fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\n💡 Le fil d'Ariane vous guide étape par étape à travers le pipeline")
print("   Chaque visualisation s'inscrit dans cette progression narrative\n")



> Notes:
> - Vérifications rapides côté PostgreSQL: volumes (documents/flux) et doublons potentiels.
> - `read_sql_query` avec SQL paramétré évite l’injection et facilite l’affichage.
> - Étendre au besoin: contrôle nulls critiques, intégrité FK, index sur hash_fingerprint.



In [None]:
# DataSens E1_v2 - 04_quality_checks
# 🔍 Contrôles qualité PostgreSQL + MinIO avec visualisations

import json
import os
from pathlib import Path

import matplotlib.pyplot as plt
import pandas as pd
from minio import Minio
from sqlalchemy import create_engine, text

# Récupérer variables notebook 01
if 'PG_URL' not in globals():
    PG_URL = os.getenv("DATASENS_PG_URL", "postgresql+psycopg2://postgres:postgres@localhost:5433/postgres")

if 'MINIO_ENDPOINT' not in globals():
    MINIO_ENDPOINT = os.getenv("MINIO_ENDPOINT", "http://localhost:9002")
    MINIO_ACCESS_KEY = os.getenv("MINIO_ACCESS_KEY", "admin")
    MINIO_SECRET_KEY = os.getenv("MINIO_SECRET_KEY", "admin123")
    MINIO_BUCKET = os.getenv("MINIO_BUCKET", "datasens-raw")

if 'PROJECT_ROOT' not in globals():
    current = Path.cwd()
    PROJECT_ROOT = None
    while current != current.parent:
        if (current / "notebooks").exists() and (current / "docs").exists():
            PROJECT_ROOT = current
            break
        current = current.parent
    else:
        PROJECT_ROOT = Path.cwd()

engine = create_engine(PG_URL, future=True)

print("🔍 CONTROLES QUALITE E1_V2")
print("=" * 80)

# ============================================================
# 1. VOLUMES PostgreSQL
# ============================================================
print("\n📊 1. VOLUMES PostgreSQL")
print("-" * 80)

with engine.connect() as conn:
    stats = pd.read_sql_query("""
        SELECT 
            'document' AS table_name, COUNT(*) AS nb_lignes
        FROM document
        UNION ALL
        SELECT 'flux', COUNT(*) FROM flux
        UNION ALL
        SELECT 'source', COUNT(*) FROM source
        UNION ALL
        SELECT 'meteo', COUNT(*) FROM meteo
        UNION ALL
        SELECT 'territoire', COUNT(*) FROM territoire
    """, conn)

print("\n📋 Table des volumes :")
display(stats)

# Graphique volumes
if len(stats) > 0:
    plt.figure(figsize=(10, 6))
    bars = plt.bar(stats["table_name"], stats["nb_lignes"], color=plt.cm.Pastel1(range(len(stats))))
    for bar, value in zip(bars, stats["nb_lignes"]):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + max(stats["nb_lignes"]) * 0.01,
                f"{int(value):,}", ha='center', va='bottom', fontweight='bold')
    plt.title("📊 Volumes par table PostgreSQL", fontsize=14, fontweight='bold')
    plt.ylabel("Nombre de lignes", fontsize=12)
    plt.xticks(rotation=45, ha='right')
    plt.grid(axis="y", linestyle="--", alpha=0.3)
    plt.tight_layout()
    plt.show()

total_docs = stats[stats['table_name'] == 'document']['nb_lignes'].iloc[0] if len(stats[stats['table_name'] == 'document']) > 0 else 0
print(f"\n✅ Total documents : {total_docs:,}")

# ============================================================
# 2. DOUBLONS (hash_fingerprint)
# ============================================================
print("\n🔎 2. DETECTION DOUBLONS")
print("-" * 80)

with engine.connect() as conn:
    dup_query = text("""
        SELECT hash_fingerprint, COUNT(*) AS nb_occurrences
        FROM document
        WHERE hash_fingerprint IS NOT NULL
        GROUP BY hash_fingerprint
        HAVING COUNT(*) > 1
        ORDER BY nb_occurrences DESC
    """)
    df_doublons = pd.read_sql_query(dup_query, conn)

if len(df_doublons) == 0:
    print("✅ Aucun doublon détecté (hash_fingerprint unique)")
else:
    print(f"⚠️ {len(df_doublons)} doublons détectés !")
    display(df_doublons)

# Graphique doublons si présents
if len(df_doublons) > 0:
    plt.figure(figsize=(10, 5))
    plt.barh(range(len(df_doublons)), df_doublons["nb_occurrences"], color='#FF6B6B')
    plt.yticks(range(len(df_doublons)), [f"{hash[:16]}..." for hash in df_doublons["hash_fingerprint"]])
    plt.xlabel("Nombre d'occurrences", fontsize=11)
    plt.title("⚠️ Doublons détectés par hash_fingerprint", fontsize=12, fontweight='bold')
    plt.grid(axis="x", linestyle="--", alpha=0.3)
    plt.tight_layout()
    plt.show()

# ============================================================
# 3. VALEURS NULL CRITIQUES
# ============================================================
print("\n🔍 3. VALEURS NULL CRITIQUES")
print("-" * 80)

with engine.connect() as conn:
    nulls = pd.read_sql_query("""
        SELECT 
            'titre' AS champ, COUNT(*) FILTER (WHERE titre IS NULL) AS nb_nulls,
            COUNT(*) AS nb_total,
            ROUND(100.0 * COUNT(*) FILTER (WHERE titre IS NULL) / COUNT(*), 2) AS pct_null
        FROM document
        UNION ALL
        SELECT 'texte', COUNT(*) FILTER (WHERE texte IS NULL), COUNT(*),
               ROUND(100.0 * COUNT(*) FILTER (WHERE texte IS NULL) / COUNT(*), 2)
        FROM document
        UNION ALL
        SELECT 'hash_fingerprint', COUNT(*) FILTER (WHERE hash_fingerprint IS NULL), COUNT(*),
               ROUND(100.0 * COUNT(*) FILTER (WHERE hash_fingerprint IS NULL) / COUNT(*), 2)
        FROM document
    """, conn)

print("\n📋 Taux de NULL par champ critique :")
display(nulls)

if len(nulls) > 0:
    plt.figure(figsize=(10, 5))
    bars = plt.bar(nulls["champ"], nulls["pct_null"], color=['#FF6B6B' if p > 20 else '#4ECDC4' for p in nulls["pct_null"]])
    for bar, value in zip(bars, nulls["pct_null"]):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                f"{value}%", ha='center', va='bottom', fontweight='bold')
    plt.axhline(y=20, color='r', linestyle='--', label='Seuil 20%')
    plt.title("📊 Taux de valeurs NULL par champ", fontsize=12, fontweight='bold')
    plt.ylabel("Pourcentage NULL (%)", fontsize=11)
    plt.legend()
    plt.grid(axis="y", linestyle="--", alpha=0.3)
    plt.tight_layout()
    plt.show()

# ============================================================
# 4. INTEGRITE REFERENCES (Foreign Keys)
# ============================================================
print("\n🔗 4. INTEGRITE REFERENCES (Foreign Keys)")
print("-" * 80)

with engine.connect() as conn:
    integrity = pd.read_sql_query("""
        SELECT 
            'document → flux' AS relation,
            COUNT(*) FILTER (WHERE d.id_flux NOT IN (SELECT id_flux FROM flux)) AS orphelins
        FROM document d
        UNION ALL
        SELECT 'flux → source',
               COUNT(*) FILTER (WHERE f.id_source NOT IN (SELECT id_source FROM source))
        FROM flux f
        UNION ALL
        SELECT 'meteo → territoire',
               COUNT(*) FILTER (WHERE m.id_territoire NOT IN (SELECT id_territoire FROM territoire))
        FROM meteo m
    """, conn)

print("\n📋 Vérification intégrité référentielle :")
display(integrity)

orphelins_total = integrity['orphelins'].sum()
if orphelins_total == 0:
    print("✅ Intégrité référentielle : OK (aucun orphelin)")
else:
    print(f"⚠️ {orphelins_total} orphelins détectés !")

# ============================================================
# 5. MINIO DATALAKE
# ============================================================
print("\n☁️ 5. MINIO DATALAKE")
print("-" * 80)

try:
    minio_client = Minio(
        MINIO_ENDPOINT.replace("http://", "").replace("https://", ""),
        access_key=MINIO_ACCESS_KEY,
        secret_key=MINIO_SECRET_KEY,
        secure=False
    )
    
    objects = list(minio_client.list_objects(MINIO_BUCKET, recursive=True))
    total_size = sum(obj.size for obj in objects)
    
    print(f"\n📊 Bucket '{MINIO_BUCKET}' :")
    print(f"   • {len(objects)} objets")
    print(f"   • Taille totale : {total_size / (1024*1024):.2f} MB")
    
    # Répartition par préfixe (type de source)
    prefixes = {}
    for obj in objects:
        prefix = obj.object_name.split('/')[0] if '/' in obj.object_name else 'root'
        prefixes[prefix] = prefixes.get(prefix, 0) + 1
    
    if prefixes:
        df_minio = pd.DataFrame(list(prefixes.items()), columns=["Préfixe", "Nb objets"])
        display(df_minio)
        
        plt.figure(figsize=(10, 5))
        bars = plt.bar(df_minio["Préfixe"], df_minio["Nb objets"], color='#45B7D1')
        for bar, value in zip(bars, df_minio["Nb objets"]):
            plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                    str(value), ha='center', va='bottom', fontweight='bold')
        plt.title("📊 Répartition des objets MinIO par type de source", fontsize=12, fontweight='bold')
        plt.ylabel("Nombre d'objets", fontsize=11)
        plt.xticks(rotation=45, ha='right')
        plt.grid(axis="y", linestyle="--", alpha=0.3)
        plt.tight_layout()
        plt.show()
    
except Exception as e:
    print(f"⚠️ MinIO non accessible : {e}")

# ============================================================
# 6. BILAN QA GLOBAL
# ============================================================
print("\n✅ 6. BILAN QA GLOBAL")
print("-" * 80)

qa_summary = {
    "Volumes": f"{total_docs:,} documents",
    "Doublons": "✅ OK" if len(df_doublons) == 0 else f"⚠️ {len(df_doublons)} doublons",
    "NULL critiques": "✅ OK" if nulls['pct_null'].max() < 20 else f"⚠️ {nulls['pct_null'].max()}% max",
    "Intégrité FK": "✅ OK" if orphelins_total == 0 else f"⚠️ {orphelins_total} orphelins",
    "MinIO": f"✅ {len(objects) if 'objects' in locals() else 0} objets"
}

df_qa = pd.DataFrame(list(qa_summary.items()), columns=["Check", "Résultat"])
display(df_qa)

print("\n✅ Contrôles qualité terminés !")

