# DataSens E1_v1 ‚Äî 03_ingest_sources

- Objectifs: ins√©rer donn√©es simul√©es (seed) pour tests
- Pr√©requis: 02_schema_create
- Sortie: lignes de d√©monstration dans `document`
- Guide: docs/GUIDE_TECHNIQUE_E1.md



> Notes:
> - Cette √©tape peuple la base avec un √©chantillon minimal pour tester CRUD.
> - `executescript` ex√©cute plusieurs INSERT d‚Äôun coup (r√©f√©rentiels + un document).
> - Le `document` est rattach√© √† un `flux` pour la tra√ßabilit√©.
> - L‚Äôop√©ration (`DB_SEED`) est inscrite dans le fichier de versioning.


In [None]:
# DataSens E1_v1 - 03_ingest_sources
# üå± Bootstrap: donn√©es de test (repris du monolithe)
import sqlite3
from datetime import datetime
from pathlib import Path

# D√©tection robuste du dossier projet (remonte jusqu'√† trouver le dossier avec notebooks/ et docs/)
current = Path.cwd()
PROJECT_ROOT = None
# Remonter jusqu'√† trouver un dossier qui contient √† la fois notebooks/ et docs/
while current != current.parent:
    if (current / "notebooks").exists() and (current / "docs").exists():
        PROJECT_ROOT = current
        break
    current = current.parent
else:
    # Fallback: utilise le r√©pertoire courant si pas trouv√©
    PROJECT_ROOT = Path.cwd()

DB_PATH = PROJECT_ROOT / "datasens" / "datasens.db"
print(f"üìÇ Racine projet d√©tect√©e : {PROJECT_ROOT}")

# V√©rifier que la base existe et a des tables
conn = sqlite3.connect(DB_PATH)
cur = conn.cursor()

# V√©rifier si les tables existent, sinon cr√©er le minimum
cur.execute("SELECT name FROM sqlite_master WHERE type='table' AND name='type_donnee'")
if not cur.fetchone():
    print("‚ö†Ô∏è Les tables n'existent pas. Ex√©cutez d'abord 02_schema_create.ipynb")
    print(f"   Base trouv√©e: {DB_PATH}")
    conn.close()
    raise Exception("Sch√©ma manquant: ex√©cutez 02_schema_create.ipynb avant 03_ingest_sources.ipynb")

cur.executescript("""
INSERT INTO type_donnee (libelle, description, frequence_maj, categorie_metier)
VALUES ('Fichier','CSV Kaggle','hebdomadaire','descriptive');

INSERT INTO source (id_type_donnee, nom, url, fiabilite)
VALUES (1,'Kaggle CSV ‚Äì FR textes','https://kaggle.com/xxx',0.8);

INSERT INTO flux (id_source, date_collecte, format, manifest_uri)
VALUES (1,'2025-10-27T10:00:00','csv','data/raw/kaggle/sample.csv');

INSERT INTO document (id_flux, titre, texte, langue, date_publication)
VALUES (1,'JO 2024 : fiert√© nationale','Les JO ont boost√© le moral','fr','2024-07-27');
""")

conn.commit()

# üìä Visualisation : Afficher les donn√©es ins√©r√©es avec pandas
import pandas as pd
import matplotlib.pyplot as plt

# üìã Tables de donn√©es r√©elles : Afficher toutes les donn√©es ins√©r√©es

# Table 1 : Type de donn√©e
print("\nüìä Table 'type_donnee' :")
df_type_donnee = pd.read_sql_query("SELECT * FROM type_donnee", conn)
display(df_type_donnee)

# Table 2 : Source
print("\nüìä Table 'source' :")
df_source = pd.read_sql_query("SELECT * FROM source", conn)
display(df_source)

# Table 3 : Flux
print("\nüìä Table 'flux' :")
df_flux = pd.read_sql_query("SELECT * FROM flux", conn)
display(df_flux)

# Table 4 : Document (avec jointures pour contexte)
print("\nüìä Table 'document' (avec contexte) :")
df_docs = pd.read_sql_query("""
    SELECT d.id_doc, d.titre, d.texte, d.langue, d.date_publication,
           s.nom AS source, f.format, f.date_collecte
    FROM document d
    JOIN flux f ON d.id_flux = f.id_flux
    JOIN source s ON f.id_source = s.id_source
    ORDER BY d.id_doc
""", conn)
display(df_docs)

# Graphique : R√©partition par langue (si plusieurs)
if len(df_docs) > 0:
    if len(df_docs['langue'].unique()) > 1:
        lang_counts = df_docs['langue'].value_counts()
        plt.figure(figsize=(8, 6))
        colors = plt.cm.Set2(range(len(lang_counts)))
        plt.pie(lang_counts.values, labels=lang_counts.index, autopct='%1.1f%%', 
                colors=colors, startangle=90)
        plt.title("üìä R√©partition des documents par langue", fontsize=14, fontweight='bold')
        plt.tight_layout()
        plt.show()
    else:
        print(f"   ‚úÖ Tous les documents sont en '{df_docs['langue'].iloc[0]}'")

# Statistiques de la cha√Æne de tra√ßabilit√©
stats = {
    "Types de donn√©es": len(pd.read_sql_query("SELECT COUNT(*) as c FROM type_donnee", conn).iloc[0]),
    "Sources": len(pd.read_sql_query("SELECT COUNT(*) as c FROM source", conn).iloc[0]),
    "Flux": len(pd.read_sql_query("SELECT COUNT(*) as c FROM flux", conn).iloc[0]),
    "Documents": len(df_docs)
}

print("\nüìà Cha√Æne de tra√ßabilit√© compl√®te :")
for label, count in stats.items():
    print(f"   ‚Ä¢ {label} : {count}")

# Visualisation de la cha√Æne
if stats["Documents"] > 0:
    plt.figure(figsize=(10, 5))
    bars = plt.bar(stats.keys(), stats.values(), color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4'])
    for bar, value in zip(bars, stats.values()):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.05,
                str(value), ha='center', va='bottom', fontweight='bold')
    plt.title("üìä Cha√Æne de tra√ßabilit√© : type_donnee ‚Üí source ‚Üí flux ‚Üí document", 
              fontsize=12, fontweight='bold')
    plt.ylabel("Nombre d'√©l√©ments", fontsize=11)
    plt.grid(axis="y", linestyle="--", alpha=0.3)
    plt.tight_layout()
    plt.show()

with open(PROJECT_ROOT / "README_VERSIONNING.md", "a", encoding="utf-8") as f:
    f.write(f"- **{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}** | `DB_SEED` | Insertion du jeu de donn√©es minimal\n")
print("\n‚úÖ Donn√©es de test ins√©r√©es et visualis√©es.")


üìÇ Racine projet d√©tect√©e : c:\Users\Utilisateur\Desktop\DataSens\notebooks\datasens_E1_v1
üå± Donn√©es de test ins√©r√©es.
