# DataSens E1_v1 — 03_ingest_sources

- Objectifs: insérer données simulées (seed) pour tests
- Prérequis: 02_schema_create
- Sortie: lignes de démonstration dans `document`
- Guide: docs/GUIDE_TECHNIQUE_E1.md



In [None]:
# ============================================================
# 🎬 DASHBOARD NARRATIF - OÙ SOMMES-NOUS ?
# ============================================================
# Ce dashboard vous guide à travers le pipeline DataSens E1
# Il montre la progression et l'état actuel des données
# ============================================================

import matplotlib.pyplot as plt
from matplotlib.patches import FancyBboxPatch
import matplotlib.patches as mpatches

print("\n" + "="*80)
print("🎬 FIL D'ARIANE VISUEL - PIPELINE DATASENS E1")
print("="*80)

# Créer figure dashboard
fig = plt.figure(figsize=(16, 8))
ax = fig.add_subplot(111)
ax.set_xlim(0, 10)
ax.set_ylim(0, 6)
ax.axis('off')

# Étapes du pipeline
etapes = [
    {"nom": "📥 COLLECTE", "status": "✅", "desc": "Sources brutes"},
    {"nom": "☁️ DATALAKE", "status": "✅", "desc": "MinIO Raw"},
    {"nom": "🧹 NETTOYAGE", "status": "🔄", "desc": "Déduplication"},
    {"nom": "💾 ETL", "status": "⏳", "desc": "PostgreSQL"},
    {"nom": "📊 ANNOTATION", "status": "⏳", "desc": "Enrichissement"},
    {"nom": "📦 EXPORT", "status": "⏳", "desc": "Dataset IA"}
]

# Couleurs selon statut
colors = {
    "✅": "#4ECDC4",
    "🔄": "#FECA57", 
    "⏳": "#E8E8E8"
}

# Dessiner timeline
y_pos = 4
x_start = 1
x_spacing = 1.4

for i, etape in enumerate(etapes):
    x_pos = x_start + i * x_spacing
    
    # Cercle étape
    circle = plt.Circle((x_pos, y_pos), 0.25, color=colors[etape["status"]], zorder=3)
    ax.add_patch(circle)
    ax.text(x_pos, y_pos, etape["status"], ha='center', va='center', fontsize=14, fontweight='bold', zorder=4)
    
    # Nom étape
    ax.text(x_pos, y_pos - 0.6, etape["nom"], ha='center', va='top', fontsize=11, fontweight='bold')
    ax.text(x_pos, y_pos - 0.85, etape["desc"], ha='center', va='top', fontsize=9, style='italic')
    
    # Flèche vers prochaine étape
    if i < len(etapes) - 1:
        ax.arrow(x_pos + 0.3, y_pos, x_spacing - 0.6, 0, 
                head_width=0.1, head_length=0.15, fc='gray', ec='gray', zorder=2)

# Titre narratif
ax.text(5, 5.5, "🎯 PROGRESSION DU PIPELINE E1", ha='center', va='center', 
        fontsize=16, fontweight='bold', bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# Légende
legend_elements = [
    mpatches.Patch(facecolor='#4ECDC4', label='Terminé'),
    mpatches.Patch(facecolor='#FECA57', label='En cours'),
    mpatches.Patch(facecolor='#E8E8E8', label='À venir')
]
ax.legend(handles=legend_elements, loc='upper left', fontsize=10)

# Statistiques rapides (si disponibles)
stats_text = "\n📊 SNAPSHOT ACTUEL :\n"
try:
    # Essayer de charger des stats si base disponible
    stats_text += "   • Pipeline en cours d'exécution...\n"
except:
    stats_text += "   • Démarrage du pipeline...\n"

ax.text(5, 1.5, stats_text, ha='center', va='center', fontsize=10,
        bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.3))

plt.title("🎬 FIL D'ARIANE VISUEL - Accompagnement narratif du jury", 
          fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\n💡 Le fil d'Ariane vous guide étape par étape à travers le pipeline")
print("   Chaque visualisation s'inscrit dans cette progression narrative\n")



> Notes:
> - Cette étape peuple la base avec un échantillon minimal pour tester CRUD.
> - `executescript` exécute plusieurs INSERT d’un coup (référentiels + un document).
> - Le `document` est rattaché à un `flux` pour la traçabilité.
> - L’opération (`DB_SEED`) est inscrite dans le fichier de versioning.


In [None]:
# ============================================================
# 🎭 STORYTELLING : PRÉPARATION COLLECTE - Kaggle CSV
# ============================================================
# Cette section raconte l'histoire de la collecte avant de l'effectuer
# ============================================================

print("\n" + "="*80)
print(f"🎭 CHAPITRE 1 : COLLECTE Kaggle CSV")
print("="*80)

# Vérifier l'état actuel avant cette collecte
try:
    # Statistiques avant cette source (SQLite)
    nb_sources_avant = cur.execute("SELECT COUNT(*) FROM source").fetchone()[0] or 0
    nb_docs_avant = cur.execute("SELECT COUNT(*) FROM document").fetchone()[0] or 0
    nb_flux_avant = cur.execute("SELECT COUNT(*) FROM flux").fetchone()[0] or 0
    
    print(f"\n📊 ÉTAT ACTUEL DU PIPELINE (avant Kaggle CSV):")
    print(f"   • Sources configurées : {nb_sources_avant}")
    print(f"   • Documents collectés : {nb_docs_avant:,}")
    print(f"   • Flux de collecte : {nb_flux_avant}")
    
    # Visualisation état actuel
    if nb_docs_avant > 0:
        # Graphique progression
        import matplotlib.pyplot as plt
        fig, ax = plt.subplots(figsize=(10, 6))
        
        categories = ['Sources', 'Flux', 'Documents']
        valeurs = [nb_sources_avant, nb_flux_avant, nb_docs_avant]
        colors = ['#FF6B6B', '#FECA57', '#4ECDC4']
        
        bars = ax.bar(categories, valeurs, color=colors)
        for bar, val in zip(bars, valeurs):
            ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + max(valeurs) * 0.02,
                   f"{int(val):,}", ha='center', va='bottom', fontweight='bold')
        
        ax.set_title(f"📊 État du pipeline AVANT collecte Kaggle CSV", fontsize=12, fontweight='bold')
        ax.set_ylabel("Volume", fontsize=11)
        ax.grid(axis='y', linestyle='--', alpha=0.3)
        plt.tight_layout()
        plt.show()
        
        print(f"\n💡 Prochaine étape : Collecte Kaggle CSV pour enrichir le dataset...")
    else:
        print(f"\n💡 Démarrage : Première collecte avec Kaggle CSV...")
        
except Exception as e:
    print(f"\n💡 Prêt pour collecte Kaggle CSV...")

print("\n" + "-"*80)
print(f"➡️ Lancement de la collecte Kaggle CSV...")
print("-"*80 + "\n")



In [None]:
# DataSens E1_v1 - 03_ingest_sources
# 🌱 Bootstrap: données de test (repris du monolithe)
import sqlite3
from datetime import datetime
from pathlib import Path

# Détection robuste du dossier projet (remonte jusqu'à trouver le dossier avec notebooks/ et docs/)
current = Path.cwd()
PROJECT_ROOT = None
# Remonter jusqu'à trouver un dossier qui contient à la fois notebooks/ et docs/
while current != current.parent:
    if (current / "notebooks").exists() and (current / "docs").exists():
        PROJECT_ROOT = current
        break
    current = current.parent
else:
    # Fallback: utilise le répertoire courant si pas trouvé
    PROJECT_ROOT = Path.cwd()

DB_PATH = PROJECT_ROOT / "datasens" / "datasens.db"
print(f"📂 Racine projet détectée : {PROJECT_ROOT}")

# Vérifier que la base existe et a des tables
conn = sqlite3.connect(DB_PATH)
cur = conn.cursor()

# Vérifier si les tables existent, sinon créer le minimum
cur.execute("SELECT name FROM sqlite_master WHERE type='table' AND name='type_donnee'")
if not cur.fetchone():
    print("⚠️ Les tables n'existent pas. Exécutez d'abord 02_schema_create.ipynb")
    print(f"   Base trouvée: {DB_PATH}")
    conn.close()
    raise Exception("Schéma manquant: exécutez 02_schema_create.ipynb avant 03_ingest_sources.ipynb")

cur.executescript("""
INSERT INTO type_donnee (libelle, description, frequence_maj, categorie_metier)
VALUES ('Fichier','CSV Kaggle','hebdomadaire','descriptive');

INSERT INTO source (id_type_donnee, nom, url, fiabilite)
VALUES (1,'Kaggle CSV – FR textes','https://kaggle.com/xxx',0.8);

INSERT INTO flux (id_source, date_collecte, format, manifest_uri)
VALUES (1,'2025-10-27T10:00:00','csv','data/raw/kaggle/sample.csv');

INSERT INTO document (id_flux, titre, texte, langue, date_publication)
VALUES (1,'JO 2024 : fierté nationale','Les JO ont boosté le moral','fr','2024-07-27');
""")

conn.commit()

# 📊 Visualisation : Afficher les données insérées avec pandas
import pandas as pd
import matplotlib.pyplot as plt

# 📋 Tables de données réelles : Afficher toutes les données insérées

# Table 1 : Type de donnée
print("\n📊 Table 'type_donnee' :")
df_type_donnee = pd.read_sql_query("SELECT * FROM type_donnee", conn)
display(df_type_donnee)

# Table 2 : Source
print("\n📊 Table 'source' :")
df_source = pd.read_sql_query("SELECT * FROM source", conn)
display(df_source)

# Table 3 : Flux
print("\n📊 Table 'flux' :")
df_flux = pd.read_sql_query("SELECT * FROM flux", conn)
display(df_flux)

# Table 4 : Document (avec jointures pour contexte)
print("\n📊 Table 'document' (avec contexte) :")
df_docs = pd.read_sql_query("""
    SELECT d.id_doc, d.titre, d.texte, d.langue, d.date_publication,
           s.nom AS source, f.format, f.date_collecte
    FROM document d
    JOIN flux f ON d.id_flux = f.id_flux
    JOIN source s ON f.id_source = s.id_source
    ORDER BY d.id_doc
""", conn)
display(df_docs)

# Graphique : Répartition par langue (si plusieurs)
if len(df_docs) > 0:
    if len(df_docs['langue'].unique()) > 1:
        lang_counts = df_docs['langue'].value_counts()
        plt.figure(figsize=(8, 6))
        colors = plt.cm.Set2(range(len(lang_counts)))
        plt.pie(lang_counts.values, labels=lang_counts.index, autopct='%1.1f%%', 
                colors=colors, startangle=90)
        plt.title("📊 Répartition des documents par langue", fontsize=14, fontweight='bold')
        plt.tight_layout()
        plt.show()
    else:
        print(f"   ✅ Tous les documents sont en '{df_docs['langue'].iloc[0]}'")

# Statistiques de la chaîne de traçabilité
stats = {
    "Types de données": len(pd.read_sql_query("SELECT COUNT(*) as c FROM type_donnee", conn).iloc[0]),
    "Sources": len(pd.read_sql_query("SELECT COUNT(*) as c FROM source", conn).iloc[0]),
    "Flux": len(pd.read_sql_query("SELECT COUNT(*) as c FROM flux", conn).iloc[0]),
    "Documents": len(df_docs)
}

print("\n📈 Chaîne de traçabilité complète :")
for label, count in stats.items():
    print(f"   • {label} : {count}")

# Visualisation de la chaîne
if stats["Documents"] > 0:
    plt.figure(figsize=(10, 5))
    bars = plt.bar(stats.keys(), stats.values(), color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4'])
    for bar, value in zip(bars, stats.values()):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.05,
                str(value), ha='center', va='bottom', fontweight='bold')
    plt.title("📊 Chaîne de traçabilité : type_donnee → source → flux → document", 
              fontsize=12, fontweight='bold')
    plt.ylabel("Nombre d'éléments", fontsize=11)
    plt.grid(axis="y", linestyle="--", alpha=0.3)
    plt.tight_layout()
    plt.show()

with open(PROJECT_ROOT / "README_VERSIONNING.md", "a", encoding="utf-8") as f:
    f.write(f"- **{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}** | `DB_SEED` | Insertion du jeu de données minimal\n")
print("\n✅ Données de test insérées et visualisées.")


📂 Racine projet détectée : c:\Users\Utilisateur\Desktop\DataSens\notebooks\datasens_E1_v1
🌱 Données de test insérées.
