# DataSens E1_v3 — 02_schema_create

- Objectifs: Créer le schéma PostgreSQL complet **36/37 tables** (T01-T36 + T37) selon MPD.sql
- Prérequis: 01_setup_env exécuté + PostgreSQL démarré
- Sortie: Schéma complet avec contraintes, index, référentiels + visualisations
- Guide: docs/GUIDE_TECHNIQUE_E1.md + docs/datasens_MPD.sql

> **E1_v3** : Architecture complète selon MPD.sql (T01-T36 + T37 archive_flux)
> - Domaine Collecte : T01-T03 + T37
> - Documents & Annotations : T04-T12
> - Géographie : T13-T17
> - Météo : T18-T19
> - Indicateurs/Baromètres : T20-T22 + T28-T29
> - Thèmes & Événements : T23-T27
> - Pipeline & Qualité : T30-T34
> - Audit/Versionning : T35-T36



> Notes:
> - **Chargement depuis docs/datasens_MPD.sql** : DDL complet avec toutes les contraintes
> - **Préfixe T01-T37** : Nomenclature selon MPD (t01_type_donnee, t02_source, etc.)
> - **Bootstrap référentiels** : type_donnee (5 types), valence (3), pays (France)
> - **Visualisations** : Graphique répartition par domaine + tables pandas pour le jury
> - **Références** : docs/datasens_MPD.sql, docs/datasens_tables_dictionary.md
- `pays`, `region`, `departement`, `commune`, `territoire`

**Contexte** (5 tables) :
- `type_meteo`, `meteo`, `type_indicateur`, `source_indicateur`, `indicateur`

**Thèmes & Événements** (5 tables) :
- `theme_category`, `theme`, `evenement`, `document_theme`, `document_evenement`

**Baromètres** (2 tables) :
- `source_barometre`, `document_baro`

**Pipeline & Qualité** (5 tables) :
- `pipeline`, `etape_etl`, `exec_etape`, `qc_rule`, `qc_result`

**Gouvernance** (2 tables) :
- `table_audit`, `table_version`

**Collecte** :
- `type_donnee` : Catégorisation des sources (Fichier, Base de données, API, Web Scraping, Big Data)
- `source` : Sources réelles (Kaggle, OpenWeatherMap, MonAvisCitoyen, etc.)
- `flux` : Traçabilité des collectes (date, format, manifest_uri)

**Corpus** :
- `document` : Documents bruts collectés (titre, texte, langue, hash_fingerprint)
- `territoire` : Géolocalisation (ville, code_insee, lat, lon)

**Contexte** :
- `type_meteo` : Types de conditions météo (clair, nuageux, pluie...)
- `meteo` : Relevés météo (température, humidité, pression, vent)
- `type_indicateur` : Types d'indicateurs (population, revenu, etc.)
- `source_indicateur` : Sources des indicateurs (INSEE, IGN...)
- `indicateur` : Valeurs d'indicateurs par territoire

**Thèmes/événements** :
- `theme` : Thèmes documentaires (politique, économie, environnement...)
- `evenement` : Événements temporels (date_event, avg_tone)
- `document_evenement` : Relation N-N documents ↔ événements

**Gouvernance pipeline** :
- `pipeline` : Description des pipelines ETL
- `etape_etl` : Étapes du pipeline avec ordre d'exécution

**Utilisateurs (trace)** :
- `utilisateur` : Utilisateurs du système (pour futures annotations)

**Qualité (min)** :
- `qc_rule` : Règles de contrôle qualité (placeholder)
- `qc_result` : Résultats des contrôles qualité (optionnel)

---

### Schéma Mermaid (simplifié)

```mermaid
erDiagram
    TYPE_DONNEE ||--o{ SOURCE : "a pour"
    SOURCE ||--o{ FLUX : "génère"
    FLUX ||--o{ DOCUMENT : "contient"
    TERRITOIRE ||--o{ DOCUMENT : "géolocalise"
    TERRITOIRE ||--o{ METEO : "mesure"
    TERRITOIRE ||--o{ INDICATEUR : "agrège"
    THEME ||--o{ EVENEMENT : "classe"
    DOCUMENT ||--o{ DOCUMENT_EVENEMENT : "refère"
    EVENEMENT ||--o{ DOCUMENT_EVENEMENT : "associe"
```



In [None]:
# DataSens E1_v3 - 02_schema_create
# 💾 Schéma PostgreSQL complet 36/37 tables selon MPD.sql + Bootstrap + Visualisations

import os
from pathlib import Path

import matplotlib.pyplot as plt
import pandas as pd
from sqlalchemy import create_engine, text

# Utiliser les variables du notebook 01
if 'PROJECT_ROOT' not in globals():
    current = Path.cwd()
    PROJECT_ROOT = None
    while current != current.parent:
        if (current / "notebooks").exists() and (current / "docs").exists():
            PROJECT_ROOT = current
            break
        current = current.parent
    else:
        PROJECT_ROOT = Path.cwd()

if 'PG_URL' not in globals():
    PG_URL = os.getenv("DATASENS_PG_URL", "postgresql+psycopg2://postgres:postgres@localhost:5433/postgres")

engine = create_engine(PG_URL, future=True)
print(f"📂 Connexion PostgreSQL : {engine.url.host}:{engine.url.port}/{engine.url.database}")
print("=" * 80)


## 📐 DDL PostgreSQL : Création des 36 tables E2

Création des tables avec contraintes d'intégrité référentielle.  
**Ordre de création** : Respect des dépendances FK (référentiels → métier → liaisons).

**Note** : Les sources obsolètes/payantes ne sont **pas** implémentées.  
**Sources E1 testées** : Kaggle CSV, OpenWeatherMap API, RSS Multi-sources, Web Scraping (Vie-publique, data.gouv), GDELT GKG  
**Voir** `docs/SOURCES_STATUS.md` pour statut complet des sources.


In [None]:
# DDL complet : 36/37 tables E1_v3
# Basé sur MCD/MLD/MPD validés - Ordre respecte dépendances FK
# Chargement depuis docs/datasens_MPD.sql (architecture complète)

ddl_file = PROJECT_ROOT / "docs" / "datasens_MPD.sql"

if ddl_file.exists():
    with open(ddl_file, encoding='utf-8') as f:
        ddl_sql = f.read()
    print(f"✅ DDL chargé depuis {ddl_file.name}")
    print(f"   📄 Fichier : {ddl_file}")
else:
    print(f"❌ Fichier DDL non trouvé: {ddl_file}")
    print("   💡 Vérifiez que docs/datasens_MPD.sql existe")
    raise FileNotFoundError(f"MPD.sql introuvable : {ddl_file}")

print("\n✅ DDL chargé depuis MPD.sql - Prêt pour création des 36/37 tables")
print("=" * 80)

# Option : Supprimer toutes les tables existantes avant de les recréer
DROP_TABLES = os.getenv("DROP_TABLES", "false").lower() == "true"  # Sécurité : false par défaut

with engine.begin() as conn:
    if DROP_TABLES:
        print("⚠️ Suppression des tables existantes...")
        # Supprimer toutes les tables selon MPD (ordre inverse des dépendances)
        drop_order = [
            "t34_qc_result", "t33_qc_rule", "t32_exec_etape", "t31_etape_etl", "t30_pipeline",
            "t29_document_baro", "t28_source_barometre",
            "t27_document_evenement", "t26_document_theme", "t25_evenement", "t24_theme", "t23_theme_category",
            "t22_indicateur", "t21_source_indicateur", "t20_type_indicateur",
            "t19_meteo", "t18_type_meteo",
            "t17_territoire", "t16_commune", "t15_departement", "t14_region", "t13_pays",
            "t07_meta_annotation", "t06_annotation_emotion", "t05_annotation", "t08_emotion", "t09_type_emotion", 
            "t10_valence", "t11_modele_ia", "t12_utilisateur",
            "t04_document",
            "t37_archive_flux", "t03_flux", "t02_source", "t01_type_donnee",
            "t36_table_version", "t35_table_audit"
        ]
        for table in drop_order:
            try:
                conn.execute(text(f"DROP TABLE IF EXISTS datasens.{table} CASCADE"))
                conn.execute(text(f"DROP TABLE IF EXISTS {table} CASCADE"))
            except:
                pass
        # Supprimer le type enum
        conn.execute(text("DROP TYPE IF EXISTS polarity_enum CASCADE"))
        print("✅ Tables supprimées")
    else:
        print("ℹ️ DROP_TABLES=false → Tables existantes conservées (utiliser IF NOT EXISTS)")

    # Créer le schéma datasens si nécessaire
    conn.execute(text("CREATE SCHEMA IF NOT EXISTS datasens"))
    conn.execute(text("SET search_path TO datasens, public"))
    
    # Exécuter le DDL complet depuis MPD.sql
    # Le MPD.sql contient déjà les CREATE TABLE avec IF NOT EXISTS, donc on peut l'exécuter directement
    # Séparer les statements (en ignorant les commentaires et lignes vides)
    statements = []
    current_stmt = []
    
    for line in ddl_sql.split('\n'):
        line_stripped = line.strip()
        # Ignorer commentaires et lignes vides
        if not line_stripped or line_stripped.startswith('--'):
            continue
        current_stmt.append(line)
        # Si la ligne se termine par ';', c'est la fin d'un statement
        if line_stripped.endswith(';'):
            stmt = '\n'.join(current_stmt)
            if stmt.strip():
                statements.append(stmt)
            current_stmt = []
    
    # Si on a encore du texte dans current_stmt, l'ajouter
    if current_stmt:
        stmt = '\n'.join(current_stmt)
        if stmt.strip():
            statements.append(stmt)
    
    # Exécuter chaque statement
    created_tables = 0
    for i, stmt in enumerate(statements, 1):
        try:
            conn.execute(text(stmt))
            # Compter les CREATE TABLE
            if 'CREATE TABLE' in stmt.upper():
                created_tables += 1
        except Exception as e:
            # Ignorer erreurs "already exists" pour IF NOT EXISTS
            if 'already exists' not in str(e).lower() and 'duplicate' not in str(e).lower():
                print(f"⚠️ Erreur statement {i}: {str(e)[:100]}")

print(f"\n✅ Schéma E1_v3 créé : {created_tables} tables créées")
print("   📊 Architecture complète selon MPD.sql (T01-T36 + T37)")


## 🔗 Index et contraintes additionnelles

Création des index pour optimiser les requêtes (hash_fingerprint, dates, clés étrangères)


In [None]:
# Index pour performance
indexes_sql = """
-- Index sur hash_fingerprint pour déduplication rapide
CREATE INDEX IF NOT EXISTS idx_document_hash_fingerprint ON document(hash_fingerprint);

-- Index sur dates pour requêtes temporelles
CREATE INDEX IF NOT EXISTS idx_document_date_publication ON document(date_publication);
CREATE INDEX IF NOT EXISTS idx_flux_date_collecte ON flux(date_collecte);
CREATE INDEX IF NOT EXISTS idx_meteo_date_obs ON meteo(date_obs);
CREATE INDEX IF NOT EXISTS idx_evenement_date_event ON evenement(date_event);

-- Index sur clés étrangères fréquentes
CREATE INDEX IF NOT EXISTS idx_document_id_flux ON document(id_flux);
CREATE INDEX IF NOT EXISTS idx_document_id_territoire ON document(id_territoire);
CREATE INDEX IF NOT EXISTS idx_flux_id_source ON flux(id_source);
CREATE INDEX IF NOT EXISTS idx_meteo_id_territoire ON meteo(id_territoire);
CREATE INDEX IF NOT EXISTS idx_indicateur_id_territoire ON indicateur(id_territoire);

-- Index composite pour recherche par territoire + date
CREATE INDEX IF NOT EXISTS idx_meteo_territoire_date ON meteo(id_territoire, date_obs DESC);
"""

print("🔗 Création des index")
print("=" * 80)

with engine.begin() as conn:
    conn.exec_driver_sql(indexes_sql)

print("✅ Index créés avec succès !")


## 📝 Insertion des référentiels

Insertion des données de référence nécessaires pour normaliser les données


In [None]:
# 📝 Bootstrap des référentiels selon MPD.sql
# Le MPD.sql contient déjà des INSERT dans la section 9, mais on les exécute ici pour s'assurer

print("📝 Bootstrap des référentiels")
print("=" * 80)

with engine.begin() as conn:
    # Vérifier et insérer les référentiels de base selon MPD.sql
    # T10_VALENCE (déjà dans MPD.sql mais on vérifie)
    conn.execute(text("""
        INSERT INTO t10_valence (label, description)
        VALUES ('positive','valence positive'), ('neutre','valence neutre'), ('negative','valence négative')
        ON CONFLICT (label) DO NOTHING
    """))
    
    # T01_TYPE_DONNEE (selon MPD.sql section 9) - Classification professionnelle médiamétrie
    conn.execute(text("""
        INSERT INTO t01_type_donnee (libelle, description, frequence_maj, categorie_metier)
        VALUES
          -- 1. Données de classification ou Nomenclatures (Reference Data)
          ('Nomenclature','Système de catégorisation/classification servant de référence aux autres données (unités de mesure, codes pays ISO, CSP...)','mensuelle','classification'),
          -- 2. Données de références ou données maîtres (Master Data)
          ('Données Maîtres','Données partagées par un ensemble de processus et d''applications (clients, produits, référentiels...)','quotidienne','reference'),
          -- 3. Données opérationnelles (Operational Data)
          ('Données Opérationnelles','Données liées à des opérations et activités (transactions, demandes, tickets...)','secondes','operationnelle'),
          -- 4. Données décisionnelles (Analytical Data)
          ('Données Décisionnelles','Données consolidées permettant de faire des analyses à des fins de prise de décisions (faits de vente, dimensions...)','quotidienne','decisionnelle'),
          -- 5. Métadonnées (Metadata)
          ('Métadonnées','Données sur les données (descriptives, structurelles, administratives, usages, référence, statistiques, légales...)','variable','metadonnees')
        ON CONFLICT DO NOTHING
    """))
    
    # T13_PAYS (France)
    conn.execute(text("""
        INSERT INTO t13_pays (nom) VALUES ('France') ON CONFLICT DO NOTHING
    """))
    
    # Vérifier les entrées insérées
    nb_valence = conn.execute(text("SELECT COUNT(*) FROM t10_valence")).scalar()
    nb_types = conn.execute(text("SELECT COUNT(*) FROM t01_type_donnee")).scalar()
    nb_pays = conn.execute(text("SELECT COUNT(*) FROM t13_pays")).scalar()
    
    print(f"✅ Bootstrap référentiels :")
    print(f"   • T10_valence : {nb_valence} entrées")
    print(f"   • T01_type_donnee : {nb_types} entrées")
    print(f"   • T13_pays : {nb_pays} entrées")
    
    # Afficher le contenu des référentiels
    print("\n📋 Table t01_type_donnee :")
    df_type_donnee = pd.read_sql_query("SELECT * FROM t01_type_donnee", engine)
    display(df_type_donnee)
    
    print("\n📋 Table t10_valence :")
    df_valence = pd.read_sql_query("SELECT * FROM t10_valence", engine)
    display(df_valence)

print("\n✅ Bootstrap des référentiels terminé !")

# Ancien code de référentiels (gardé pour référence si besoin d'enrichissement)
referentiels_old = {
    "type_donnee": [
        ("Nomenclature", "Système de catégorisation/classification servant de référence"),
        ("Données Maîtres", "Données partagées par un ensemble de processus et d'applications"),
        ("Données Opérationnelles", "Données liées à des opérations et activités"),
        ("Données Décisionnelles", "Données consolidées pour analyses et prise de décisions"),
        ("Métadonnées", "Données sur les données (descriptives, structurelles, administratives...)"),
    ],
    "type_meteo": [
        ("CLEAR", "Ciel clair"),
        ("CLOUDS", "Nuageux"),
        ("RAIN", "Pluie"),
        ("SNOW", "Neige"),
        ("THUNDERSTORM", "Orage"),
        ("FOG", "Brouillard"),
    ],
    "type_indicateur": [
        ("POPULATION", "Population totale", "habitants"),
        ("REVENU_MEDIAN", "Revenu médian", "€"),
        ("TAUX_CHOMAGE", "Taux de chômage", "%"),
        ("SUPERFICIE", "Superficie", "km²"),
    ],
    "source_indicateur": [
        ("INSEE", "https://www.insee.fr/"),
        ("IGN", "https://www.ign.fr/"),
        ("data.gouv.fr", "https://www.data.gouv.fr/"),
    ],
    "theme_category": [
        ("Société", "Thèmes liés à la société"),
        ("Politique", "Thèmes politiques"),
        ("Économie", "Thèmes économiques"),
        ("Environnement", "Thèmes environnementaux"),
        ("Santé", "Thèmes de santé"),
    ],
    "theme": [
        ("Politique", "Événements et analyses politiques"),
        ("Économie", "Actualités économiques"),
        ("Société", "Faits de société"),
        ("Environnement", "Écologie, climat, biodiversité"),
        ("Santé", "Santé publique, médical"),
        ("Sport", "Événements sportifs"),
        ("Culture", "Arts, spectacles, culture"),
        ("Technologie", "Innovation, numérique"),
    ],
    "valence": [
        ("Positive", "Émotions positives (joie, espoir, satisfaction)"),
        ("Neutre", "Émotions neutres (indifférence, calme)"),
        ("Negative", "Émotions négatives (colère, tristesse, peur)"),
    ],
    "type_emotion": [
        ("Joie", "Sentiment de bonheur", "Positive"),
        ("Colère", "Sentiment de frustration ou agressivité", "Negative"),
        ("Tristesse", "Sentiment de peine", "Negative"),
        ("Peur", "Sentiment d'anxiété", "Negative"),
        ("Espoir", "Sentiment d'optimisme", "Positive"),
        ("Neutre", "Pas d'émotion particulière", "Neutre"),
    ],
    "pays": [
        ("France",),
    ],
    "source_barometre": [
        ("INSEE Baromètre Social", "https://www.insee.fr/"),
        ("Data.gouv.fr", "https://www.data.gouv.fr/"),
    ],
    "qc_rule": [
        ("No duplicates", "Vérifier absence de doublons via hash_fingerprint", "SELECT COUNT(*) FROM document GROUP BY hash_fingerprint HAVING COUNT(*) > 1"),
        ("No NULL titles", "Tous les documents doivent avoir un titre", "SELECT COUNT(*) FROM document WHERE titre IS NULL"),
        ("Date range valid", "Les dates de publication doivent être raisonnables", "SELECT COUNT(*) FROM document WHERE date_publication < '1900-01-01' OR date_publication > NOW()"),
    ],
}

print("📝 Insertion des référentiels")
print("=" * 80)

with engine.begin() as conn:
    # Vérifier et corriger la structure de type_donnee si nécessaire
    try:
        # Vérifier si la colonne description existe
        result = conn.execute(text("""
            SELECT column_name
            FROM information_schema.columns
            WHERE table_name = 'type_donnee' AND column_name = 'description'
        """)).fetchone()

        if not result:
            # Ajouter la colonne description si elle n'existe pas
            print("⚠️ Colonne 'description' manquante dans type_donnee, ajout en cours...")
            conn.execute(text("ALTER TABLE type_donnee ADD COLUMN IF NOT EXISTS description TEXT"))
            print("✅ Colonne 'description' ajoutée")

        # Vérifier si la contrainte UNIQUE sur libelle existe
        constraint_exists = conn.execute(text("""
            SELECT 1
            FROM information_schema.table_constraints
            WHERE table_name = 'type_donnee'
              AND constraint_type = 'UNIQUE'
              AND constraint_name LIKE '%libelle%'
        """)).fetchone()

        if not constraint_exists:
            # Vérifier si un index unique existe
            index_exists = conn.execute(text("""
                SELECT 1
                FROM pg_indexes
                WHERE tablename = 'type_donnee'
                  AND indexdef LIKE '%libelle%'
                  AND indexdef LIKE '%UNIQUE%'
            """)).fetchone()

            if not index_exists:
                print("⚠️ Contrainte UNIQUE manquante sur libelle, ajout en cours...")
                conn.execute(text("ALTER TABLE type_donnee ADD CONSTRAINT type_donnee_libelle_unique UNIQUE (libelle)"))
                print("✅ Contrainte UNIQUE sur libelle ajoutée")
    except Exception as e:
        print(f"⚠️ Vérification structure: {e}")

    # type_donnee - Insertion avec gestion robuste des conflits
    inserted_count = 0
    for libelle, desc in referentiels["type_donnee"]:
        try:
            # Essayer d'abord avec ON CONFLICT
            result = conn.execute(text("""
                INSERT INTO type_donnee (libelle, description)
                VALUES (:libelle, :desc)
                ON CONFLICT (libelle) DO NOTHING
                RETURNING id_type_donnee
            """), {"libelle": libelle, "desc": desc})
            if result.scalar():
                inserted_count += 1
        except Exception:
            # Si ON CONFLICT échoue, vérifier si l'entrée existe déjà
            existing = conn.execute(text("""
                SELECT id_type_donnee
                FROM type_donnee
                WHERE libelle = :libelle
            """), {"libelle": libelle}).fetchone()
            if not existing:
                # Si n'existe pas, insérer sans ON CONFLICT
                conn.execute(text("""
                    INSERT INTO type_donnee (libelle, description)
                    VALUES (:libelle, :desc)
                """), {"libelle": libelle, "desc": desc})
                inserted_count += 1

    print(f"✅ type_donnee : {inserted_count} entrées insérées (total: {len(referentiels['type_donnee'])})")

    # type_meteo
    for code, libelle in referentiels["type_meteo"]:
        conn.execute(text("""
            INSERT INTO type_meteo (code, libelle)
            VALUES (:code, :libelle)
            ON CONFLICT (code) DO NOTHING
        """), {"code": code, "libelle": libelle})
    print(f"✅ type_meteo : {len(referentiels['type_meteo'])} entrées")

    # type_indicateur
    for code, libelle, unite in referentiels["type_indicateur"]:
        conn.execute(text("""
            INSERT INTO type_indicateur (code, libelle, unite)
            VALUES (:code, :libelle, :unite)
            ON CONFLICT (code) DO NOTHING
        """), {"code": code, "libelle": libelle, "unite": unite})
    print(f"✅ type_indicateur : {len(referentiels['type_indicateur'])} entrées")

    # source_indicateur
    for nom, url in referentiels["source_indicateur"]:
        conn.execute(text("""
            INSERT INTO source_indicateur (nom, url)
            VALUES (:nom, :url)
            ON CONFLICT DO NOTHING
        """), {"nom": nom, "url": url})
    print(f"✅ source_indicateur : {len(referentiels['source_indicateur'])} entrées")

    # theme
    for libelle, desc in referentiels["theme"]:
        conn.execute(text("""
            INSERT INTO theme (libelle, description)
            VALUES (:libelle, :desc)
            ON CONFLICT DO NOTHING
        """), {"libelle": libelle, "desc": desc})
    print(f"✅ theme : {len(referentiels['theme'])} entrées")

    # qc_rule
    for nom, desc, expr in referentiels["qc_rule"]:
        try:
            conn.execute(text("""
                INSERT INTO qc_rule (nom_regle, description, expression_sql)
                VALUES (:nom, :desc, :expr)
                ON CONFLICT DO NOTHING
            """), {"nom": nom, "desc": desc, "expr": expr})
        except Exception:
            # Si colonne expression_sql n'existe pas (E2), utiliser colonnes E2
            conn.execute(text("""
                INSERT INTO qc_rule (code, libelle, definition)
                VALUES (:nom, :desc, :expr)
                ON CONFLICT (code) DO NOTHING
            """), {"nom": nom.lower().replace(' ', '_'), "desc": nom, "expr": desc})
    print(f"✅ qc_rule : {len(referentiels['qc_rule'])} entrées")

    # Nouveaux référentiels E2
    if "valence" in referentiels:
        for label, desc in referentiels["valence"]:
            conn.execute(text("""
                INSERT INTO valence (label, description)
                VALUES (:label, :desc)
                ON CONFLICT (label) DO NOTHING
            """), {"label": label, "desc": desc})
        print(f"✅ valence : {len(referentiels['valence'])} entrées")

    if "type_emotion" in referentiels:
        for libelle, desc, valence_label in referentiels["type_emotion"]:
            id_valence = conn.execute(text("SELECT id_valence FROM valence WHERE label = :label"), {"label": valence_label}).scalar()
            if id_valence:
                conn.execute(text("""
                    INSERT INTO type_emotion (id_valence, libelle, description)
                    VALUES (:id_valence, :libelle, :desc)
                    ON CONFLICT (libelle) DO NOTHING
                """), {"id_valence": id_valence, "libelle": libelle, "desc": desc})
        print(f"✅ type_emotion : {len(referentiels['type_emotion'])} entrées")

    if "pays" in referentiels:
        for nom in referentiels["pays"]:
            conn.execute(text("""
                INSERT INTO pays (nom)
                VALUES (:nom)
                ON CONFLICT (nom) DO NOTHING
            """), {"nom": nom})
        print(f"✅ pays : {len(referentiels['pays'])} entrées")

    if "theme_category" in referentiels:
        for libelle, desc in referentiels["theme_category"]:
            conn.execute(text("""
                INSERT INTO t23_theme_category (libelle, description)
                VALUES (:libelle, :desc)
                ON CONFLICT DO NOTHING
            """), {"libelle": libelle, "desc": desc})
        print(f"✅ theme_category (E1_v3) : {len(referentiels['theme_category'])} catégories insérées")

    if "source_barometre" in referentiels:
        for nom, url in referentiels["source_barometre"]:
            conn.execute(text("""
                INSERT INTO source_barometre (nom, url)
                VALUES (:nom, :url)
                ON CONFLICT DO NOTHING
            """), {"nom": nom, "url": url})
        print(f"✅ source_barometre : {len(referentiels['source_barometre'])} entrées")

    # theme avec FK vers theme_category (mapping selon datasens_barometer_themes.md)
    if "theme" in referentiels and "theme_category" in referentiels:
        # Mapping des thèmes vers leurs catégories
        theme_to_category = {
            "Confiance institutionnelle": "Société & Confiance",
            "Pouvoir d'achat": "Économie & Pouvoir d'achat",
            "Changement climatique": "Écologie & Climat",
            "Santé mentale": "Santé & Bien-être",
            "Diversité et égalité": "Inclusion & Égalité",
            "Intelligence artificielle": "Innovation & Numérique",
            "Jeux Olympiques 2024": "Sport & Cohésion",
            "Médias et information": "Culture & Identité",
            "Marché du travail": "Travail & Formation",
            "Système éducatif": "Jeunesse & Éducation",
            "Engagement associatif": "Solidarité & Engagement",
            "Tensions politiques": "Politique & Gouvernance",
        }
        
        for libelle, desc in referentiels["theme"]:
            # Trouver la catégorie correspondante
            cat_libelle = theme_to_category.get(libelle, "Société & Confiance")  # Défaut si non trouvé
            id_cat = conn.execute(text("""
                SELECT id_theme_cat FROM t23_theme_category WHERE libelle = :libelle
            """), {"libelle": cat_libelle}).scalar()
            
            if id_cat:
                conn.execute(text("""
                    INSERT INTO t24_theme (id_theme_cat, libelle, description)
                    VALUES (:id_cat, :libelle, :desc)
                    ON CONFLICT DO NOTHING
                """), {"id_cat": id_cat, "libelle": libelle, "desc": desc})
        print(f"✅ theme (E1_v3) : {len(referentiels['theme'])} entrées avec mapping catégories")

print("\n✅ Tous les référentiels insérés !")


## ✅ Contrôles : Vérification des tables créées

Liste des tables et comptage des entrées par table


In [None]:
# 📊 Visualisations : Répartition des tables par domaine + Tables pandas

print("\n📊 LISTE DES TABLES E1_V3 (36/37 tables)")
print("=" * 80)

# Lister toutes les tables (schéma datasens + public)
query_tables = """
SELECT 
    table_schema,
    table_name
FROM information_schema.tables
WHERE table_type = 'BASE TABLE'
  AND (table_schema = 'datasens' OR table_schema = 'public')
  AND table_name LIKE 't%'
ORDER BY table_name;
"""

df_tables = pd.read_sql(query_tables, engine)
print(f"\n✅ {len(df_tables)} tables détectées :\n")

# Afficher le DataFrame
display(df_tables)

# Répartition par domaine (selon MPD)
domaines = {
    "Collecte": ["t01_type_donnee", "t02_source", "t03_flux", "t37_archive_flux"],
    "Documents & Annotations": ["t04_document", "t05_annotation", "t06_annotation_emotion", "t07_meta_annotation", 
                                 "t08_emotion", "t09_type_emotion", "t10_valence", "t11_modele_ia", "t12_utilisateur"],
    "Géographie": ["t13_pays", "t14_region", "t15_departement", "t16_commune", "t17_territoire"],
    "Météo": ["t18_type_meteo", "t19_meteo"],
    "Indicateurs/Baromètres": ["t20_type_indicateur", "t21_source_indicateur", "t22_indicateur", 
                               "t28_source_barometre", "t29_document_baro"],
    "Thèmes & Événements": ["t23_theme_category", "t24_theme", "t25_evenement", "t26_document_theme", "t27_document_evenement"],
    "Pipeline & Qualité": ["t30_pipeline", "t31_etape_etl", "t32_exec_etape", "t33_qc_rule", "t34_qc_result"],
    "Audit/Versionning": ["t35_table_audit", "t36_table_version"]
}

# Compter par domaine
counts_domaines = {}
for domaine, tables in domaines.items():
    counts_domaines[domaine] = len(tables)

df_domaines = pd.DataFrame(list(counts_domaines.items()), columns=["Domaine", "Nb tables"])
print("\n📋 Répartition par domaine :")
display(df_domaines)

# Graphique répartition par domaine
if len(df_domaines) > 0:
    plt.figure(figsize=(12, 7))
    bars = plt.barh(df_domaines["Domaine"], df_domaines["Nb tables"], color=plt.cm.Set3(range(len(df_domaines))))
    for bar, value in zip(bars, df_domaines["Nb tables"]):
        plt.text(bar.get_width() + 0.1, bar.get_y() + bar.get_height()/2,
                str(value), ha='left', va='center', fontweight='bold', fontsize=11)
    plt.title("📊 Répartition des 36/37 tables par domaine (E1_v3)", fontsize=14, fontweight='bold')
    plt.xlabel("Nombre de tables", fontsize=12)
    plt.grid(axis="x", linestyle="--", alpha=0.3)
    plt.tight_layout()
    plt.show()

# Compter les entrées par table (seulement les tables non-vides)
print("\n📈 Nombre d'entrées par table (référentiels) :")
print("-" * 80)

counts = {}
for _, row in df_tables.iterrows():
    schema = row['table_schema']
    table = row['table_name']
    full_name = f"{schema}.{table}" if schema != 'public' else table
    try:
        count = pd.read_sql(text(f"SELECT COUNT(*) as count FROM {full_name}"), engine).iloc[0]['count']
        if count > 0:  # Afficher seulement les tables avec données
            counts[table] = count
    except Exception as e:
        pass

if counts:
    df_counts = pd.DataFrame(list(counts.items()), columns=['Table', 'Nb entrées'])
    df_counts = df_counts.sort_values('Nb entrées', ascending=False)
    display(df_counts)
else:
    print("   ℹ️ Aucune donnée dans les tables (bootstrap à venir)")

print(f"\n✅ Schéma PostgreSQL E1_v3 créé avec succès !")
print(f"   📊 {len(df_tables)} tables créées (architecture complète)")
print(f"   📂 Schéma : datasens + public")
print("\n   ➡️ Passez au notebook 03_ingest_sources.ipynb pour collecter les données")
