In [None]:
# DataSens logging setup (marker:datasens_logging)
import logging
import os
os.makedirs('logs', exist_ok=True)
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s [%(levelname)s] %(message)s',
    handlers=[
        logging.StreamHandler(),
        logging.FileHandler('logs/datasens.log', encoding='utf-8')
    ]
)
logging.info('D√©marrage')


# DataSens E1_v3 ‚Äî 02_schema_create

- Objectifs: Cr√©er le sch√©ma PostgreSQL complet **36/37 tables** (T01-T36 + T37) selon MPD.sql
- Pr√©requis: 01_setup_env ex√©cut√© + PostgreSQL d√©marr√©
- Sortie: Sch√©ma complet avec contraintes, index, r√©f√©rentiels + visualisations
- Guide: docs/GUIDE_TECHNIQUE_E1.md + docs/datasens_MPD.sql

> **E1_v3** : Architecture compl√®te selon MPD.sql (T01-T36 + T37 archive_flux)
> - Domaine Collecte : T01-T03 + T37
> - Documents & Annotations : T04-T12
> - G√©ographie : T13-T17
> - M√©t√©o : T18-T19
> - Indicateurs/Barom√®tres : T20-T22 + T28-T29
> - Th√®mes & √âv√©nements : T23-T27
> - Pipeline & Qualit√© : T30-T34
> - Audit/Versionning : T35-T36



# ============================================================
# üé¨ DASHBOARD NARRATIF - O√ô SOMMES-NOUS ?
# ============================================================
# Ce dashboard vous guide √† travers le pipeline DataSens E1
# Il montre la progression et l'√©tat actuel des donn√©es
# ============================================================

import matplotlib.pyplot as plt
from matplotlib.patches import FancyBboxPatch
import matplotlib.patches as mpatches

print("\n" + "="*80)
print("üé¨ FIL D'ARIANE VISUEL - PIPELINE DATASENS E1")
print("="*80)

# Cr√©er figure dashboard
fig = plt.figure(figsize=(16, 8))
ax = fig.add_subplot(111)
ax.set_xlim(0, 10)
ax.set_ylim(0, 6)
ax.axis('off')

# √âtapes du pipeline
etapes = [
    {"nom": "üì• COLLECTE", "status": "‚úÖ", "desc": "Sources brutes"},
    {"nom": "‚òÅÔ∏è DATALAKE", "status": "‚úÖ", "desc": "MinIO Raw"},
    {"nom": "üßπ NETTOYAGE", "status": "üîÑ", "desc": "D√©duplication"},
    {"nom": "üíæ ETL", "status": "‚è≥", "desc": "PostgreSQL"},
    {"nom": "üìä ANNOTATION", "status": "‚è≥", "desc": "Enrichissement"},
    {"nom": "üì¶ EXPORT", "status": "‚è≥", "desc": "Dataset IA"}
]

# Couleurs selon statut
colors = {
    "‚úÖ": "#4ECDC4",
    "üîÑ": "#FECA57", 
    "‚è≥": "#E8E8E8"
}

# Dessiner timeline
y_pos = 4
x_start = 1
x_spacing = 1.4

for i, etape in enumerate(etapes):
    x_pos = x_start + i * x_spacing
    
    # Cercle √©tape
    circle = plt.Circle((x_pos, y_pos), 0.25, color=colors[etape["status"]], zorder=3)
    ax.add_patch(circle)
    ax.text(x_pos, y_pos, etape["status"], ha='center', va='center', fontsize=14, fontweight='bold', zorder=4)
    
    # Nom √©tape
    ax.text(x_pos, y_pos - 0.6, etape["nom"], ha='center', va='top', fontsize=11, fontweight='bold')
    ax.text(x_pos, y_pos - 0.85, etape["desc"], ha='center', va='top', fontsize=9, style='italic')
    
    # Fl√®che vers prochaine √©tape
    if i < len(etapes) - 1:
        ax.arrow(x_pos + 0.3, y_pos, x_spacing - 0.6, 0, 
                head_width=0.1, head_length=0.15, fc='gray', ec='gray', zorder=2)

# Titre narratif
ax.text(5, 5.5, "üéØ PROGRESSION DU PIPELINE E1", ha='center', va='center', 
        fontsize=16, fontweight='bold', bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# L√©gende
legend_elements = [
    mpatches.Patch(facecolor='#4ECDC4', label='Termin√©'),
    mpatches.Patch(facecolor='#FECA57', label='En cours'),
    mpatches.Patch(facecolor='#E8E8E8', label='√Ä venir')
]
ax.legend(handles=legend_elements, loc='upper left', fontsize=10)

# Statistiques rapides (si disponibles)
stats_text = "\nüìä SNAPSHOT ACTUEL :\n"
try:
    # Essayer de charger des stats si base disponible
    stats_text += "   ‚Ä¢ Pipeline en cours d'ex√©cution...\n"
except:
    stats_text += "   ‚Ä¢ D√©marrage du pipeline...\n"

ax.text(5, 1.5, stats_text, ha='center', va='center', fontsize=10,
        bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.3))

plt.title("üé¨ FIL D'ARIANE VISUEL - Accompagnement narratif du jury", 
          fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\nüí° Le fil d'Ariane vous guide √©tape par √©tape √† travers le pipeline")
print("   Chaque visualisation s'inscrit dans cette progression narrative\n")



> Notes:
> - **Chargement depuis docs/datasens_MPD.sql** : DDL complet avec toutes les contraintes
> - **Pr√©fixe T01-T37** : Nomenclature selon MPD (t01_type_donnee, t02_source, etc.)
> - **Bootstrap r√©f√©rentiels** : type_donnee (5 types), valence (3), pays (France)
> - **Visualisations** : Graphique r√©partition par domaine + tables pandas pour le jury
> - **R√©f√©rences** : docs/datasens_MPD.sql, docs/datasens_tables_dictionary.md
- `pays`, `region`, `departement`, `commune`, `territoire`

**Contexte** (5 tables) :
- `type_meteo`, `meteo`, `type_indicateur`, `source_indicateur`, `indicateur`

**Th√®mes & √âv√©nements** (5 tables) :
- `theme_category`, `theme`, `evenement`, `document_theme`, `document_evenement`

**Barom√®tres** (2 tables) :
- `source_barometre`, `document_baro`

**Pipeline & Qualit√©** (5 tables) :
- `pipeline`, `etape_etl`, `exec_etape`, `qc_rule`, `qc_result`

**Gouvernance** (2 tables) :
- `table_audit`, `table_version`

**Collecte** :
- `type_donnee` : Cat√©gorisation des sources (Fichier, Base de donn√©es, API, Web Scraping, Big Data)
- `source` : Sources r√©elles (Kaggle, OpenWeatherMap, MonAvisCitoyen, etc.)
- `flux` : Tra√ßabilit√© des collectes (date, format, manifest_uri)

**Corpus** :
- `document` : Documents bruts collect√©s (titre, texte, langue, hash_fingerprint)
- `territoire` : G√©olocalisation (ville, code_insee, lat, lon)

**Contexte** :
- `type_meteo` : Types de conditions m√©t√©o (clair, nuageux, pluie...)
- `meteo` : Relev√©s m√©t√©o (temp√©rature, humidit√©, pression, vent)
- `type_indicateur` : Types d'indicateurs (population, revenu, etc.)
- `source_indicateur` : Sources des indicateurs (INSEE, IGN...)
- `indicateur` : Valeurs d'indicateurs par territoire

**Th√®mes/√©v√©nements** :
- `theme` : Th√®mes documentaires (politique, √©conomie, environnement...)
- `evenement` : √âv√©nements temporels (date_event, avg_tone)
- `document_evenement` : Relation N-N documents ‚Üî √©v√©nements

**Gouvernance pipeline** :
- `pipeline` : Description des pipelines ETL
- `etape_etl` : √âtapes du pipeline avec ordre d'ex√©cution

**Utilisateurs (trace)** :
- `utilisateur` : Utilisateurs du syst√®me (pour futures annotations)

**Qualit√© (min)** :
- `qc_rule` : R√®gles de contr√¥le qualit√© (placeholder)
- `qc_result` : R√©sultats des contr√¥les qualit√© (optionnel)

---

### Sch√©ma Mermaid (simplifi√©)

```mermaid
erDiagram
    TYPE_DONNEE ||--o{ SOURCE : "a pour"
    SOURCE ||--o{ FLUX : "g√©n√®re"
    FLUX ||--o{ DOCUMENT : "contient"
    TERRITOIRE ||--o{ DOCUMENT : "g√©olocalise"
    TERRITOIRE ||--o{ METEO : "mesure"
    TERRITOIRE ||--o{ INDICATEUR : "agr√®ge"
    THEME ||--o{ EVENEMENT : "classe"
    DOCUMENT ||--o{ DOCUMENT_EVENEMENT : "ref√®re"
    EVENEMENT ||--o{ DOCUMENT_EVENEMENT : "associe"
```



# DataSens E1_v3 - 02_schema_create
# üíæ Sch√©ma PostgreSQL complet 36/37 tables selon MPD.sql + Bootstrap + Visualisations

import os
from pathlib import Path

import matplotlib.pyplot as plt
import pandas as pd
from sqlalchemy import create_engine, text

# Utiliser les variables du notebook 01
if 'PROJECT_ROOT' not in globals():
    current = Path.cwd()
    PROJECT_ROOT = None
    while current != current.parent:
        if (current / "notebooks").exists() and (current / "docs").exists():
            PROJECT_ROOT = current
            break
        current = current.parent
    else:
        PROJECT_ROOT = Path.cwd()

if 'PG_URL' not in globals():
    PG_URL = os.getenv("DATASENS_PG_URL", "postgresql+psycopg2://postgres:postgres@localhost:5433/postgres")

engine = create_engine(PG_URL, future=True)
print(f"üìÇ Connexion PostgreSQL : {engine.url.host}:{engine.url.port}/{engine.url.database}")

# =====================================================
# FONCTIONS UTILITAIRES DE S√âCURIT√â
# =====================================================
def assert_valid_identifier(name: str) -> None:
    """
    Valide qu'un identifiant SQL (nom de table, colonne) est s√ªr.
    L√®ve une ValueError si l'identifiant contient des caract√®res non autoris√©s.
    """
    if not isinstance(name, str):
        raise ValueError("L'identifiant doit √™tre une cha√Æne de caract√®res.")
    # Autorise lettres, chiffres, underscores, et points (pour sch√©mas.tables)
    if not name.replace('_', '').replace('.', '').isalnum():
        raise ValueError(f"Identifiant SQL invalide : {name}. Seuls les caract√®res alphanum√©riques, underscores et points sont autoris√©s.")

print("‚úÖ Fonctions de s√©curit√© charg√©es")
print("=" * 80)


## üìê DDL PostgreSQL : Cr√©ation des 36 tables E2

Cr√©ation des tables avec contraintes d'int√©grit√© r√©f√©rentielle.  
**Ordre de cr√©ation** : Respect des d√©pendances FK (r√©f√©rentiels ‚Üí m√©tier ‚Üí liaisons).

**Note** : Les sources obsol√®tes/payantes ne sont **pas** impl√©ment√©es.  
**Sources E1 test√©es** : Kaggle CSV, OpenWeatherMap API, RSS Multi-sources, Web Scraping (Vie-publique, data.gouv), GDELT GKG  
**Voir** `docs/SOURCES_STATUS.md` pour statut complet des sources.


# DDL complet : 36/37 tables E1_v3
# Bas√© sur MCD/MLD/MPD valid√©s - Ordre respecte d√©pendances FK
# Chargement depuis docs/datasens_MPD.sql (architecture compl√®te)

ddl_file = PROJECT_ROOT / "docs" / "datasens_MPD.sql"

if ddl_file.exists():
    with open(ddl_file, encoding='utf-8') as f:
        ddl_sql = f.read()
    print(f"‚úÖ DDL charg√© depuis {ddl_file.name}")
    print(f"   üìÑ Fichier : {ddl_file}")
else:
    print(f"‚ùå Fichier DDL non trouv√©: {ddl_file}")
    print("   üí° V√©rifiez que docs/datasens_MPD.sql existe")
    raise FileNotFoundError(f"MPD.sql introuvable : {ddl_file}")

print("\n‚úÖ DDL charg√© depuis MPD.sql - Pr√™t pour cr√©ation des 36/37 tables")
print("=" * 80)

# Option : Supprimer toutes les tables existantes avant de les recr√©er
DROP_TABLES = os.getenv("DROP_TABLES", "false").lower() == "true"  # S√©curit√© : false par d√©faut

with engine.begin() as conn:
    if DROP_TABLES:
        print("‚ö†Ô∏è Suppression des tables existantes...")
        # Supprimer toutes les tables selon MPD (ordre inverse des d√©pendances)
        drop_order = [
            "t34_qc_result", "t33_qc_rule", "t32_exec_etape", "t31_etape_etl", "t30_pipeline",
            "t29_document_baro", "t28_source_barometre",
            "t27_document_evenement", "t26_document_theme", "t25_evenement", "t24_theme", "t23_theme_category",
            "t22_indicateur", "t21_source_indicateur", "t20_type_indicateur",
            "t19_meteo", "t18_type_meteo",
            "t17_territoire", "t16_commune", "t15_departement", "t14_region", "t13_pays",
            "t07_meta_annotation", "t06_annotation_emotion", "t05_annotation", "t08_emotion", "t09_type_emotion", 
            "t10_valence", "t11_modele_ia", "t12_utilisateur",
            "t04_document",
            "t37_archive_flux", "t03_flux", "t02_source", "t01_type_donnee",
            "t36_table_version", "t35_table_audit"
        ]
        # S√©curit√© : Valider tous les noms de tables avant utilisation
        for table in drop_order:
            assert_valid_identifier(table)  # Protection anti-injection SQL
        # Suppression s√©curis√©e
        for table in drop_order:
            try:
                assert_valid_identifier(table)  # Double validation pour s√©curit√© maximale
                conn.execute(text(f"DROP TABLE IF EXISTS datasens.{table} CASCADE"))
                conn.execute(text(f"DROP TABLE IF EXISTS {table} CASCADE"))
            except:
                pass
        # Supprimer le type enum
        conn.execute(text("DROP TYPE IF EXISTS polarity_enum CASCADE"))
        print("‚úÖ Tables supprim√©es")
    else:
        print("‚ÑπÔ∏è DROP_TABLES=false ‚Üí Tables existantes conserv√©es (utiliser IF NOT EXISTS)")

    # Cr√©er le sch√©ma datasens si n√©cessaire
    conn.execute(text("CREATE SCHEMA IF NOT EXISTS datasens"))
    conn.execute(text("SET search_path TO datasens, public"))
    
    # Ex√©cuter le DDL complet depuis MPD.sql
    # Le MPD.sql contient d√©j√† les CREATE TABLE avec IF NOT EXISTS, donc on peut l'ex√©cuter directement
    # S√©parer les statements (en ignorant les commentaires et lignes vides)
    statements = []
    current_stmt = []
    
    for line in ddl_sql.split('\n'):
        line_stripped = line.strip()
        # Ignorer commentaires et lignes vides
        if not line_stripped or line_stripped.startswith('--'):
            continue
        current_stmt.append(line)
        # Si la ligne se termine par ';', c'est la fin d'un statement
        if line_stripped.endswith(';'):
            stmt = '\n'.join(current_stmt)
            if stmt.strip():
                statements.append(stmt)
            current_stmt = []
    
    # Si on a encore du texte dans current_stmt, l'ajouter
    if current_stmt:
        stmt = '\n'.join(current_stmt)
        if stmt.strip():
            statements.append(stmt)
    
    # Ex√©cuter chaque statement
    created_tables = 0
    for i, stmt in enumerate(statements, 1):
        try:
            conn.execute(text(stmt))
            # Compter les CREATE TABLE
            if 'CREATE TABLE' in stmt.upper():
                created_tables += 1
        except Exception as e:
            # Ignorer erreurs "already exists" pour IF NOT EXISTS
            if 'already exists' not in str(e).lower() and 'duplicate' not in str(e).lower():
                print(f"‚ö†Ô∏è Erreur statement {i}: {str(e)[:100]}")

print(f"\n‚úÖ Sch√©ma E1_v3 cr√©√© : {created_tables} tables cr√©√©es")
print("   üìä Architecture compl√®te selon MPD.sql (T01-T36 + T37)")


## üîó Index et contraintes additionnelles

Cr√©ation des index pour optimiser les requ√™tes (hash_fingerprint, dates, cl√©s √©trang√®res)


# Index pour performance
indexes_sql = """
-- Index sur hash_fingerprint pour d√©duplication rapide
CREATE INDEX IF NOT EXISTS idx_document_hash_fingerprint ON document(hash_fingerprint);

-- Index sur dates pour requ√™tes temporelles
CREATE INDEX IF NOT EXISTS idx_document_date_publication ON document(date_publication);
CREATE INDEX IF NOT EXISTS idx_flux_date_collecte ON flux(date_collecte);
CREATE INDEX IF NOT EXISTS idx_meteo_date_obs ON meteo(date_obs);
CREATE INDEX IF NOT EXISTS idx_evenement_date_event ON evenement(date_event);

-- Index sur cl√©s √©trang√®res fr√©quentes
CREATE INDEX IF NOT EXISTS idx_document_id_flux ON document(id_flux);
CREATE INDEX IF NOT EXISTS idx_document_id_territoire ON document(id_territoire);
CREATE INDEX IF NOT EXISTS idx_flux_id_source ON flux(id_source);
CREATE INDEX IF NOT EXISTS idx_meteo_id_territoire ON meteo(id_territoire);
CREATE INDEX IF NOT EXISTS idx_indicateur_id_territoire ON indicateur(id_territoire);

-- Index composite pour recherche par territoire + date
CREATE INDEX IF NOT EXISTS idx_meteo_territoire_date ON meteo(id_territoire, date_obs DESC);
"""

print("üîó Cr√©ation des index")
print("=" * 80)

with engine.begin() as conn:
    conn.exec_driver_sql(indexes_sql)

print("‚úÖ Index cr√©√©s avec succ√®s !")


## üìù Insertion des r√©f√©rentiels

Insertion des donn√©es de r√©f√©rence n√©cessaires pour normaliser les donn√©es


# üìù Bootstrap des r√©f√©rentiels selon MPD.sql
# Le MPD.sql contient d√©j√† des INSERT dans la section 9, mais on les ex√©cute ici pour s'assurer

print("üìù Bootstrap des r√©f√©rentiels")
print("=" * 80)

with engine.begin() as conn:
    # V√©rifier et ins√©rer les r√©f√©rentiels de base selon MPD.sql
    # T10_VALENCE (d√©j√† dans MPD.sql mais on v√©rifie)
    conn.execute(text("""
        INSERT INTO t10_valence (label, description)
        VALUES ('positive','valence positive'), ('neutre','valence neutre'), ('negative','valence n√©gative')
        ON CONFLICT (label) DO NOTHING
    """))
    
    # T01_TYPE_DONNEE (selon MPD.sql section 9) - Classification professionnelle m√©diam√©trie
    conn.execute(text("""
        INSERT INTO t01_type_donnee (libelle, description, frequence_maj, categorie_metier)
        VALUES
          -- 1. Donn√©es de classification ou Nomenclatures (Reference Data)
          ('Nomenclature','Syst√®me de cat√©gorisation/classification servant de r√©f√©rence aux autres donn√©es (unit√©s de mesure, codes pays ISO, CSP...)','mensuelle','classification'),
          -- 2. Donn√©es de r√©f√©rences ou donn√©es ma√Ætres (Master Data)
          ('Donn√©es Ma√Ætres','Donn√©es partag√©es par un ensemble de processus et d''applications (clients, produits, r√©f√©rentiels...)','quotidienne','reference'),
          -- 3. Donn√©es op√©rationnelles (Operational Data)
          ('Donn√©es Op√©rationnelles','Donn√©es li√©es √† des op√©rations et activit√©s (transactions, demandes, tickets...)','secondes','operationnelle'),
          -- 4. Donn√©es d√©cisionnelles (Analytical Data)
          ('Donn√©es D√©cisionnelles','Donn√©es consolid√©es permettant de faire des analyses √† des fins de prise de d√©cisions (faits de vente, dimensions...)','quotidienne','decisionnelle'),
          -- 5. M√©tadonn√©es (Metadata)
          ('M√©tadonn√©es','Donn√©es sur les donn√©es (descriptives, structurelles, administratives, usages, r√©f√©rence, statistiques, l√©gales...)','variable','metadonnees')
        ON CONFLICT DO NOTHING
    """))
    
    # T13_PAYS (France)
    conn.execute(text("""
        INSERT INTO t13_pays (nom) VALUES ('France') ON CONFLICT DO NOTHING
    """))
    
    # V√©rifier les entr√©es ins√©r√©es
    nb_valence = conn.execute(text("SELECT COUNT(*) FROM t10_valence")).scalar()
    nb_types = conn.execute(text("SELECT COUNT(*) FROM t01_type_donnee")).scalar()
    nb_pays = conn.execute(text("SELECT COUNT(*) FROM t13_pays")).scalar()
    
    print(f"‚úÖ Bootstrap r√©f√©rentiels :")
    print(f"   ‚Ä¢ T10_valence : {nb_valence} entr√©es")
    print(f"   ‚Ä¢ T01_type_donnee : {nb_types} entr√©es")
    print(f"   ‚Ä¢ T13_pays : {nb_pays} entr√©es")
    
    # Afficher le contenu des r√©f√©rentiels
    print("\nüìã Table t01_type_donnee :")
    df_type_donnee = pd.read_sql_query("SELECT * FROM t01_type_donnee", engine)
    display(df_type_donnee)
    
    print("\nüìã Table t10_valence :")
    df_valence = pd.read_sql_query("SELECT * FROM t10_valence", engine)
    display(df_valence)

print("\n‚úÖ Bootstrap des r√©f√©rentiels termin√© !")

# Ancien code de r√©f√©rentiels (gard√© pour r√©f√©rence si besoin d'enrichissement)
referentiels_old = {
    "type_donnee": [
        ("Nomenclature", "Syst√®me de cat√©gorisation/classification servant de r√©f√©rence"),
        ("Donn√©es Ma√Ætres", "Donn√©es partag√©es par un ensemble de processus et d'applications"),
        ("Donn√©es Op√©rationnelles", "Donn√©es li√©es √† des op√©rations et activit√©s"),
        ("Donn√©es D√©cisionnelles", "Donn√©es consolid√©es pour analyses et prise de d√©cisions"),
        ("M√©tadonn√©es", "Donn√©es sur les donn√©es (descriptives, structurelles, administratives...)"),
    ],
    "type_meteo": [
        ("CLEAR", "Ciel clair"),
        ("CLOUDS", "Nuageux"),
        ("RAIN", "Pluie"),
        ("SNOW", "Neige"),
        ("THUNDERSTORM", "Orage"),
        ("FOG", "Brouillard"),
    ],
    "type_indicateur": [
        ("POPULATION", "Population totale", "habitants"),
        ("REVENU_MEDIAN", "Revenu m√©dian", "‚Ç¨"),
        ("TAUX_CHOMAGE", "Taux de ch√¥mage", "%"),
        ("SUPERFICIE", "Superficie", "km¬≤"),
    ],
    "source_indicateur": [
        ("INSEE", "https://www.insee.fr/"),
        ("IGN", "https://www.ign.fr/"),
        ("data.gouv.fr", "https://www.data.gouv.fr/"),
    ],
    "theme_category": [
        ("Soci√©t√©", "Th√®mes li√©s √† la soci√©t√©"),
        ("Politique", "Th√®mes politiques"),
        ("√âconomie", "Th√®mes √©conomiques"),
        ("Environnement", "Th√®mes environnementaux"),
        ("Sant√©", "Th√®mes de sant√©"),
    ],
    "theme": [
        ("Politique", "√âv√©nements et analyses politiques"),
        ("√âconomie", "Actualit√©s √©conomiques"),
        ("Soci√©t√©", "Faits de soci√©t√©"),
        ("Environnement", "√âcologie, climat, biodiversit√©"),
        ("Sant√©", "Sant√© publique, m√©dical"),
        ("Sport", "√âv√©nements sportifs"),
        ("Culture", "Arts, spectacles, culture"),
        ("Technologie", "Innovation, num√©rique"),
    ],
    "valence": [
        ("Positive", "√âmotions positives (joie, espoir, satisfaction)"),
        ("Neutre", "√âmotions neutres (indiff√©rence, calme)"),
        ("Negative", "√âmotions n√©gatives (col√®re, tristesse, peur)"),
    ],
    "type_emotion": [
        ("Joie", "Sentiment de bonheur", "Positive"),
        ("Col√®re", "Sentiment de frustration ou agressivit√©", "Negative"),
        ("Tristesse", "Sentiment de peine", "Negative"),
        ("Peur", "Sentiment d'anxi√©t√©", "Negative"),
        ("Espoir", "Sentiment d'optimisme", "Positive"),
        ("Neutre", "Pas d'√©motion particuli√®re", "Neutre"),
    ],
    "pays": [
        ("France",),
    ],
    "source_barometre": [
        ("INSEE Barom√®tre Social", "https://www.insee.fr/"),
        ("Data.gouv.fr", "https://www.data.gouv.fr/"),
    ],
    "qc_rule": [
        ("No duplicates", "V√©rifier absence de doublons via hash_fingerprint", "SELECT COUNT(*) FROM document GROUP BY hash_fingerprint HAVING COUNT(*) > 1"),
        ("No NULL titles", "Tous les documents doivent avoir un titre", "SELECT COUNT(*) FROM document WHERE titre IS NULL"),
        ("Date range valid", "Les dates de publication doivent √™tre raisonnables", "SELECT COUNT(*) FROM document WHERE date_publication < '1900-01-01' OR date_publication > NOW()"),
    ],
}

print("üìù Insertion des r√©f√©rentiels")
print("=" * 80)

with engine.begin() as conn:
    # V√©rifier et corriger la structure de type_donnee si n√©cessaire
    try:
        # V√©rifier si la colonne description existe
        result = conn.execute(text("""
            SELECT column_name
            FROM information_schema.columns
            WHERE table_name = 'type_donnee' AND column_name = 'description'
        """)).fetchone()

        if not result:
            # Ajouter la colonne description si elle n'existe pas
            print("‚ö†Ô∏è Colonne 'description' manquante dans type_donnee, ajout en cours...")
            conn.execute(text("ALTER TABLE type_donnee ADD COLUMN IF NOT EXISTS description TEXT"))
            print("‚úÖ Colonne 'description' ajout√©e")

        # V√©rifier si la contrainte UNIQUE sur libelle existe
        constraint_exists = conn.execute(text("""
            SELECT 1
            FROM information_schema.table_constraints
            WHERE table_name = 'type_donnee'
              AND constraint_type = 'UNIQUE'
              AND constraint_name LIKE '%libelle%'
        """)).fetchone()

        if not constraint_exists:
            # V√©rifier si un index unique existe
            index_exists = conn.execute(text("""
                SELECT 1
                FROM pg_indexes
                WHERE tablename = 'type_donnee'
                  AND indexdef LIKE '%libelle%'
                  AND indexdef LIKE '%UNIQUE%'
            """)).fetchone()

            if not index_exists:
                print("‚ö†Ô∏è Contrainte UNIQUE manquante sur libelle, ajout en cours...")
                conn.execute(text("ALTER TABLE type_donnee ADD CONSTRAINT type_donnee_libelle_unique UNIQUE (libelle)"))
                print("‚úÖ Contrainte UNIQUE sur libelle ajout√©e")
    except Exception as e:
        print(f"‚ö†Ô∏è V√©rification structure: {e}")

    # type_donnee - Insertion avec gestion robuste des conflits
    inserted_count = 0
    for libelle, desc in referentiels["type_donnee"]:
        try:
            # Essayer d'abord avec ON CONFLICT
            result = conn.execute(text("""
                INSERT INTO type_donnee (libelle, description)
                VALUES (:libelle, :desc)
                ON CONFLICT (libelle) DO NOTHING
                RETURNING id_type_donnee
            """), {"libelle": libelle, "desc": desc})
            if result.scalar():
                inserted_count += 1
        except Exception:
            # Si ON CONFLICT √©choue, v√©rifier si l'entr√©e existe d√©j√†
            existing = conn.execute(text("""
                SELECT id_type_donnee
                FROM type_donnee
                WHERE libelle = :libelle
            """), {"libelle": libelle}).fetchone()
            if not existing:
                # Si n'existe pas, ins√©rer sans ON CONFLICT
                conn.execute(text("""
                    INSERT INTO type_donnee (libelle, description)
                    VALUES (:libelle, :desc)
                """), {"libelle": libelle, "desc": desc})
                inserted_count += 1

    print(f"‚úÖ type_donnee : {inserted_count} entr√©es ins√©r√©es (total: {len(referentiels['type_donnee'])})")

    # type_meteo
    for code, libelle in referentiels["type_meteo"]:
        conn.execute(text("""
            INSERT INTO type_meteo (code, libelle)
            VALUES (:code, :libelle)
            ON CONFLICT (code) DO NOTHING
        """), {"code": code, "libelle": libelle})
    print(f"‚úÖ type_meteo : {len(referentiels['type_meteo'])} entr√©es")

    # type_indicateur
    for code, libelle, unite in referentiels["type_indicateur"]:
        conn.execute(text("""
            INSERT INTO type_indicateur (code, libelle, unite)
            VALUES (:code, :libelle, :unite)
            ON CONFLICT (code) DO NOTHING
        """), {"code": code, "libelle": libelle, "unite": unite})
    print(f"‚úÖ type_indicateur : {len(referentiels['type_indicateur'])} entr√©es")

    # source_indicateur
    for nom, url in referentiels["source_indicateur"]:
        conn.execute(text("""
            INSERT INTO source_indicateur (nom, url)
            VALUES (:nom, :url)
            ON CONFLICT DO NOTHING
        """), {"nom": nom, "url": url})
    print(f"‚úÖ source_indicateur : {len(referentiels['source_indicateur'])} entr√©es")

    # theme
    for libelle, desc in referentiels["theme"]:
        conn.execute(text("""
            INSERT INTO theme (libelle, description)
            VALUES (:libelle, :desc)
            ON CONFLICT DO NOTHING
        """), {"libelle": libelle, "desc": desc})
    print(f"‚úÖ theme : {len(referentiels['theme'])} entr√©es")

    # qc_rule
    for nom, desc, expr in referentiels["qc_rule"]:
        try:
            conn.execute(text("""
                INSERT INTO qc_rule (nom_regle, description, expression_sql)
                VALUES (:nom, :desc, :expr)
                ON CONFLICT DO NOTHING
            """), {"nom": nom, "desc": desc, "expr": expr})
        except Exception:
            # Si colonne expression_sql n'existe pas (E2), utiliser colonnes E2
            conn.execute(text("""
                INSERT INTO qc_rule (code, libelle, definition)
                VALUES (:nom, :desc, :expr)
                ON CONFLICT (code) DO NOTHING
            """), {"nom": nom.lower().replace(' ', '_'), "desc": nom, "expr": desc})
    print(f"‚úÖ qc_rule : {len(referentiels['qc_rule'])} entr√©es")

    # Nouveaux r√©f√©rentiels E2
    if "valence" in referentiels:
        for label, desc in referentiels["valence"]:
            conn.execute(text("""
                INSERT INTO valence (label, description)
                VALUES (:label, :desc)
                ON CONFLICT (label) DO NOTHING
            """), {"label": label, "desc": desc})
        print(f"‚úÖ valence : {len(referentiels['valence'])} entr√©es")

    if "type_emotion" in referentiels:
        for libelle, desc, valence_label in referentiels["type_emotion"]:
            id_valence = conn.execute(text("SELECT id_valence FROM valence WHERE label = :label"), {"label": valence_label}).scalar()
            if id_valence:
                conn.execute(text("""
                    INSERT INTO type_emotion (id_valence, libelle, description)
                    VALUES (:id_valence, :libelle, :desc)
                    ON CONFLICT (libelle) DO NOTHING
                """), {"id_valence": id_valence, "libelle": libelle, "desc": desc})
        print(f"‚úÖ type_emotion : {len(referentiels['type_emotion'])} entr√©es")

    if "pays" in referentiels:
        for nom in referentiels["pays"]:
            conn.execute(text("""
                INSERT INTO pays (nom)
                VALUES (:nom)
                ON CONFLICT (nom) DO NOTHING
            """), {"nom": nom})
        print(f"‚úÖ pays : {len(referentiels['pays'])} entr√©es")

    if "theme_category" in referentiels:
        for libelle, desc in referentiels["theme_category"]:
            conn.execute(text("""
                INSERT INTO t23_theme_category (libelle, description)
                VALUES (:libelle, :desc)
                ON CONFLICT DO NOTHING
            """), {"libelle": libelle, "desc": desc})
        print(f"‚úÖ theme_category (E1_v3) : {len(referentiels['theme_category'])} cat√©gories ins√©r√©es")

    if "source_barometre" in referentiels:
        for nom, url in referentiels["source_barometre"]:
            conn.execute(text("""
                INSERT INTO source_barometre (nom, url)
                VALUES (:nom, :url)
                ON CONFLICT DO NOTHING
            """), {"nom": nom, "url": url})
        print(f"‚úÖ source_barometre : {len(referentiels['source_barometre'])} entr√©es")

    # theme avec FK vers theme_category (mapping selon datasens_barometer_themes.md)
    if "theme" in referentiels and "theme_category" in referentiels:
        # Mapping des th√®mes vers leurs cat√©gories
        theme_to_category = {
            "Confiance institutionnelle": "Soci√©t√© & Confiance",
            "Pouvoir d'achat": "√âconomie & Pouvoir d'achat",
            "Changement climatique": "√âcologie & Climat",
            "Sant√© mentale": "Sant√© & Bien-√™tre",
            "Diversit√© et √©galit√©": "Inclusion & √âgalit√©",
            "Intelligence artificielle": "Innovation & Num√©rique",
            "Jeux Olympiques 2024": "Sport & Coh√©sion",
            "M√©dias et information": "Culture & Identit√©",
            "March√© du travail": "Travail & Formation",
            "Syst√®me √©ducatif": "Jeunesse & √âducation",
            "Engagement associatif": "Solidarit√© & Engagement",
            "Tensions politiques": "Politique & Gouvernance",
        }
        
        for libelle, desc in referentiels["theme"]:
            # Trouver la cat√©gorie correspondante
            cat_libelle = theme_to_category.get(libelle, "Soci√©t√© & Confiance")  # D√©faut si non trouv√©
            id_cat = conn.execute(text("""
                SELECT id_theme_cat FROM t23_theme_category WHERE libelle = :libelle
            """), {"libelle": cat_libelle}).scalar()
            
            if id_cat:
                conn.execute(text("""
                    INSERT INTO t24_theme (id_theme_cat, libelle, description)
                    VALUES (:id_cat, :libelle, :desc)
                    ON CONFLICT DO NOTHING
                """), {"id_cat": id_cat, "libelle": libelle, "desc": desc})
        print(f"‚úÖ theme (E1_v3) : {len(referentiels['theme'])} entr√©es avec mapping cat√©gories")

print("\n‚úÖ Tous les r√©f√©rentiels ins√©r√©s !")


## ‚úÖ Contr√¥les : V√©rification des tables cr√©√©es

Liste des tables et comptage des entr√©es par table


# üìä Visualisations : R√©partition des tables par domaine + Tables pandas

print("\nüìä LISTE DES TABLES E1_V3 (36/37 tables)")
print("=" * 80)

# Lister toutes les tables (sch√©ma datasens + public)
query_tables = """
SELECT 
    table_schema,
    table_name
FROM information_schema.tables
WHERE table_type = 'BASE TABLE'
  AND (table_schema = 'datasens' OR table_schema = 'public')
  AND table_name LIKE 't%'
ORDER BY table_name;
"""

df_tables = pd.read_sql(query_tables, engine)
print(f"\n‚úÖ {len(df_tables)} tables d√©tect√©es :\n")

# Afficher le DataFrame
display(df_tables)

# R√©partition par domaine (selon MPD)
domaines = {
    "Collecte": ["t01_type_donnee", "t02_source", "t03_flux", "t37_archive_flux"],
    "Documents & Annotations": ["t04_document", "t05_annotation", "t06_annotation_emotion", "t07_meta_annotation", 
                                 "t08_emotion", "t09_type_emotion", "t10_valence", "t11_modele_ia", "t12_utilisateur"],
    "G√©ographie": ["t13_pays", "t14_region", "t15_departement", "t16_commune", "t17_territoire"],
    "M√©t√©o": ["t18_type_meteo", "t19_meteo"],
    "Indicateurs/Barom√®tres": ["t20_type_indicateur", "t21_source_indicateur", "t22_indicateur", 
                               "t28_source_barometre", "t29_document_baro"],
    "Th√®mes & √âv√©nements": ["t23_theme_category", "t24_theme", "t25_evenement", "t26_document_theme", "t27_document_evenement"],
    "Pipeline & Qualit√©": ["t30_pipeline", "t31_etape_etl", "t32_exec_etape", "t33_qc_rule", "t34_qc_result"],
    "Audit/Versionning": ["t35_table_audit", "t36_table_version"]
}

# Compter par domaine
counts_domaines = {}
for domaine, tables in domaines.items():
    counts_domaines[domaine] = len(tables)

df_domaines = pd.DataFrame(list(counts_domaines.items()), columns=["Domaine", "Nb tables"])
print("\nüìã R√©partition par domaine :")
display(df_domaines)

# Graphique r√©partition par domaine
if len(df_domaines) > 0:
    plt.figure(figsize=(12, 7))
    bars = plt.barh(df_domaines["Domaine"], df_domaines["Nb tables"], color=plt.cm.Set3(range(len(df_domaines))))
    for bar, value in zip(bars, df_domaines["Nb tables"]):
        plt.text(bar.get_width() + 0.1, bar.get_y() + bar.get_height()/2,
                str(value), ha='left', va='center', fontweight='bold', fontsize=11)
    plt.title("üìä R√©partition des 36/37 tables par domaine (E1_v3)", fontsize=14, fontweight='bold')
    plt.xlabel("Nombre de tables", fontsize=12)
    plt.grid(axis="x", linestyle="--", alpha=0.3)
    plt.tight_layout()
    plt.show()

# Compter les entr√©es par table (seulement les tables non-vides)
print("\nüìà Nombre d'entr√©es par table (r√©f√©rentiels) :")
print("-" * 80)

counts = {}
for _, row in df_tables.iterrows():
    schema = row['table_schema']
    table = row['table_name']
    full_name = f"{schema}.{table}" if schema != 'public' else table
    try:
        count = pd.read_sql(text(f"SELECT COUNT(*) as count FROM {full_name}"), engine).iloc[0]['count']
        if count > 0:  # Afficher seulement les tables avec donn√©es
            counts[table] = count
    except Exception as e:
        pass

if counts:
    df_counts = pd.DataFrame(list(counts.items()), columns=['Table', 'Nb entr√©es'])
    df_counts = df_counts.sort_values('Nb entr√©es', ascending=False)
    display(df_counts)
else:
    print("   ‚ÑπÔ∏è Aucune donn√©e dans les tables (bootstrap √† venir)")

print(f"\n‚úÖ Sch√©ma PostgreSQL E1_v3 cr√©√© avec succ√®s !")
print(f"   üìä {len(df_tables)} tables cr√©√©es (architecture compl√®te)")
print(f"   üìÇ Sch√©ma : datasens + public")
print("\n   ‚û°Ô∏è Passez au notebook 03_ingest_sources.ipynb pour collecter les donn√©es")
