# DataSens E1_v1 ‚Äî 04_crud_tests

- Objectifs: d√©montrer CRUD sur `document` + QA simples
- Pr√©requis: 03_ingest_sources
- V√©rifs: counts, update, delete, doublons
- Guide: docs/GUIDE_TECHNIQUE_E1.md



In [None]:
# ============================================================
# üé¨ DASHBOARD NARRATIF - O√ô SOMMES-NOUS ?
# ============================================================
# Ce dashboard vous guide √† travers le pipeline DataSens E1
# Il montre la progression et l'√©tat actuel des donn√©es
# ============================================================

import matplotlib.pyplot as plt
from matplotlib.patches import FancyBboxPatch
import matplotlib.patches as mpatches

print("\n" + "="*80)
print("üé¨ FIL D'ARIANE VISUEL - PIPELINE DATASENS E1")
print("="*80)

# Cr√©er figure dashboard
fig = plt.figure(figsize=(16, 8))
ax = fig.add_subplot(111)
ax.set_xlim(0, 10)
ax.set_ylim(0, 6)
ax.axis('off')

# √âtapes du pipeline
etapes = [
    {"nom": "üì• COLLECTE", "status": "‚úÖ", "desc": "Sources brutes"},
    {"nom": "‚òÅÔ∏è DATALAKE", "status": "‚úÖ", "desc": "MinIO Raw"},
    {"nom": "üßπ NETTOYAGE", "status": "üîÑ", "desc": "D√©duplication"},
    {"nom": "üíæ ETL", "status": "‚è≥", "desc": "PostgreSQL"},
    {"nom": "üìä ANNOTATION", "status": "‚è≥", "desc": "Enrichissement"},
    {"nom": "üì¶ EXPORT", "status": "‚è≥", "desc": "Dataset IA"}
]

# Couleurs selon statut
colors = {
    "‚úÖ": "#4ECDC4",
    "üîÑ": "#FECA57", 
    "‚è≥": "#E8E8E8"
}

# Dessiner timeline
y_pos = 4
x_start = 1
x_spacing = 1.4

for i, etape in enumerate(etapes):
    x_pos = x_start + i * x_spacing
    
    # Cercle √©tape
    circle = plt.Circle((x_pos, y_pos), 0.25, color=colors[etape["status"]], zorder=3)
    ax.add_patch(circle)
    ax.text(x_pos, y_pos, etape["status"], ha='center', va='center', fontsize=14, fontweight='bold', zorder=4)
    
    # Nom √©tape
    ax.text(x_pos, y_pos - 0.6, etape["nom"], ha='center', va='top', fontsize=11, fontweight='bold')
    ax.text(x_pos, y_pos - 0.85, etape["desc"], ha='center', va='top', fontsize=9, style='italic')
    
    # Fl√®che vers prochaine √©tape
    if i < len(etapes) - 1:
        ax.arrow(x_pos + 0.3, y_pos, x_spacing - 0.6, 0, 
                head_width=0.1, head_length=0.15, fc='gray', ec='gray', zorder=2)

# Titre narratif
ax.text(5, 5.5, "üéØ PROGRESSION DU PIPELINE E1", ha='center', va='center', 
        fontsize=16, fontweight='bold', bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# L√©gende
legend_elements = [
    mpatches.Patch(facecolor='#4ECDC4', label='Termin√©'),
    mpatches.Patch(facecolor='#FECA57', label='En cours'),
    mpatches.Patch(facecolor='#E8E8E8', label='√Ä venir')
]
ax.legend(handles=legend_elements, loc='upper left', fontsize=10)

# Statistiques rapides (si disponibles)
stats_text = "\nüìä SNAPSHOT ACTUEL :\n"
try:
    # Essayer de charger des stats si base disponible
    stats_text += "   ‚Ä¢ Pipeline en cours d'ex√©cution...\n"
except:
    stats_text += "   ‚Ä¢ D√©marrage du pipeline...\n"

ax.text(5, 1.5, stats_text, ha='center', va='center', fontsize=10,
        bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.3))

plt.title("üé¨ FIL D'ARIANE VISUEL - Accompagnement narratif du jury", 
          fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\nüí° Le fil d'Ariane vous guide √©tape par √©tape √† travers le pipeline")
print("   Chaque visualisation s'inscrit dans cette progression narrative\n")



> Notes:
> - Ouverture de la base SQLite et d√©finition de 4 helpers: CREATE/READ/UPDATE/DELETE.
> - `list_documents()` s‚Äôappuie sur pandas pour un affichage rapide.
> - Ordre de test: lister ‚Üí ins√©rer ‚Üí relister ‚Üí mettre √† jour ‚Üí relister ‚Üí supprimer.
> - But: valider le cycle CRUD avant les analytics.


In [None]:
# DataSens E1_v1 - 04_crud_tests
# üõ†Ô∏è Utilitaires CRUD pour `document` + test
import sqlite3
from pathlib import Path

import pandas as pd

# 1) Ouvrir la base SQLite
# D√©tection robuste du dossier projet (remonte jusqu'√† trouver le dossier avec notebooks/ et docs/)
current = Path.cwd()
PROJECT_ROOT = None
# Remonter jusqu'√† trouver un dossier qui contient √† la fois notebooks/ et docs/
while current != current.parent:
    if (current / "notebooks").exists() and (current / "docs").exists():
        PROJECT_ROOT = current
        break
    current = current.parent
else:
    # Fallback: utilise le r√©pertoire courant si pas trouv√©
    PROJECT_ROOT = Path.cwd()

DB_PATH = PROJECT_ROOT / "datasens" / "datasens.db"
print(f"üìÇ Racine projet d√©tect√©e : {PROJECT_ROOT}")

# V√©rifier que le sch√©ma existe
conn = sqlite3.connect(DB_PATH)
cur = conn.cursor()
cur.execute("SELECT name FROM sqlite_master WHERE type='table' AND name='document'")
if not cur.fetchone():
    conn.close()
    print("‚ö†Ô∏è La table 'document' n'existe pas.")
    print("   Ordre d'ex√©cution requis:")
    print("   1. 02_schema_create.ipynb (cr√©er les tables)")
    print("   2. 03_ingest_sources.ipynb (ins√©rer des donn√©es de test)")
    print("   3. 04_crud_tests.ipynb (tester CRUD)")
    raise Exception("Sch√©ma manquant: ex√©cutez 02_schema_create.ipynb et 03_ingest_sources.ipynb avant 04_crud_tests.ipynb")
print(f"‚úÖ Base SQLite pr√™te : {DB_PATH}")

# 2) Petit helper pour lire des SELECT dans un DataFrame (affichage pratique)
def sql_df(query, params=None):
    return pd.read_sql_query(query, conn, params=params)

# 3) CREATE: ins√©rer un document rattach√© √† un flux (tra√ßabilit√©)
def add_document(id_flux, titre, texte, langue, date_publication):
    cur.execute(
        "INSERT INTO document (id_flux, titre, texte, langue, date_publication) VALUES (?, ?, ?, ?, ?)",
        (id_flux, titre, texte, langue, date_publication),
    )
    conn.commit()

# 4) READ: lister et lire un document

def list_documents():
    return sql_df("SELECT id_doc, titre, langue, date_publication FROM document;")

def get_document(id_doc):
    return sql_df("SELECT * FROM document WHERE id_doc = ?", params=[id_doc])

# 5) UPDATE: ne modifie que les champs fournis (mise √† jour partielle)

def update_document(id_doc, titre=None, texte=None, langue=None, date_publication=None):
    updates, params = [], []
    if titre is not None:
        updates.append("titre = ?"); params.append(titre)
    if texte is not None:
        updates.append("texte = ?"); params.append(texte)
    if langue is not None:
        updates.append("langue = ?"); params.append(langue)
    if date_publication is not None:
        updates.append("date_publication = ?"); params.append(date_publication)
    if updates:
        params.append(id_doc)
        sql = f"UPDATE document SET {', '.join(updates)} WHERE id_doc = ?"
        cur.execute(sql, params)
        conn.commit()

# 6) DELETE: suppression d‚Äôun document
def delete_document(id_doc):
    cur.execute("DELETE FROM document WHERE id_doc = ?", (id_doc,))
    conn.commit()


üìÇ Racine projet d√©tect√©e : c:\Users\Utilisateur\Desktop\DataSens\notebooks\datasens_E1_v1
‚úÖ Base SQLite pr√™te : c:\Users\Utilisateur\Desktop\DataSens\notebooks\datasens_E1_v1\datasens\datasens.db


In [None]:
# üß™ Test CRUD sur `document` avec visualisations
import matplotlib.pyplot as plt

print("üìÑ Documents initiaux :")
df_before = list_documents()
display(df_before)

# Visualisation avant CRUD
count_before = len(df_before)
plt.figure(figsize=(12, 5))

# Graphique 1 : √âvolution du nombre de documents
stages = ["Avant CRUD", "Apr√®s CREATE", "Apr√®s UPDATE", "Apr√®s DELETE"]
counts = [count_before]

print("\n‚ûï Ajout d'un document‚Ä¶")
add_document(1, "Inflation 2024", "Hausse des prix ressentie", "fr", "2024-09-15")
df_after_create = list_documents()
display(df_after_create)
counts.append(len(df_after_create))

print("\n‚úèÔ∏è Modification du document‚Ä¶")
# Trouver l'ID du dernier document ajout√©
last_id = df_after_create['id_doc'].max()
print(f"   Modifying document ID={last_id}")
update_document(last_id, titre="Inflation 2024 (mise √† jour)")
df_after_update = list_documents()
print("\nüìä Table 'document' apr√®s UPDATE :")
display(df_after_update)
# Afficher aussi le document complet modifi√©
df_full_update = get_document(last_id)
print("\nüìÑ D√©tails du document modifi√© :")
display(df_full_update)
counts.append(len(df_after_update))

print("\nüóëÔ∏è Suppression du document ID={}‚Ä¶".format(last_id))
delete_document(last_id)
df_after_delete = list_documents()
print("\nüìä Table 'document' finale apr√®s DELETE :")
display(df_after_delete)
counts.append(len(df_after_delete))

# üìã Vue compl√®te : Tous les documents restants avec tous les champs
print("\nüìã Vue compl√®te de tous les documents restants :")
df_all = sql_df("SELECT * FROM document ORDER BY id_doc")
display(df_all)

# üìä Visualisation : √âvolution du nombre de documents pendant les op√©rations CRUD
plt.subplot(1, 2, 1)
plt.plot(stages, counts, marker='o', linewidth=2, markersize=10, color='#4ECDC4')
for i, (stage, count) in enumerate(zip(stages, counts)):
    plt.text(i, count + 0.05, str(count), ha='center', va='bottom', fontweight='bold')
plt.title("üìä √âvolution du nombre de documents (CRUD)", fontsize=12, fontweight='bold')
plt.ylabel("Nombre de documents", fontsize=11)
plt.xticks(rotation=45, ha='right')
plt.grid(axis="y", linestyle="--", alpha=0.3)
plt.ylim(0, max(counts) + 1)

# Graphique 2 : R√©partition par langue (√©tat final)
plt.subplot(1, 2, 2)
if len(df_after_delete) > 0:
    lang_counts = df_after_delete['langue'].value_counts()
    colors = plt.cm.Set2(range(len(lang_counts)))
    bars = plt.bar(lang_counts.index, lang_counts.values, color=colors)
    for bar, value in zip(bars, lang_counts.values):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.05,
                str(value), ha='center', va='bottom', fontweight='bold')
    plt.title("üìä R√©partition finale par langue", fontsize=12, fontweight='bold')
    plt.ylabel("Nombre de documents", fontsize=11)
    plt.grid(axis="y", linestyle="--", alpha=0.3)
else:
    plt.text(0.5, 0.5, "Aucun document", ha='center', va='center', fontsize=12)
    plt.title("üìä R√©partition finale par langue", fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

print(f"\n‚úÖ CRUD valid√© : {counts[0]} ‚Üí {counts[1]} ‚Üí {counts[2]} ‚Üí {counts[3]} documents")
print("   ‚Ä¢ CREATE : +1 document")
print("   ‚Ä¢ UPDATE : Titre modifi√©")
print("   ‚Ä¢ DELETE : -1 document")
print("\nüéØ Toutes les op√©rations CRUD fonctionnent correctement !")


üìÑ Documents initiaux :


Unnamed: 0,id_doc,titre,langue,date_publication
0,1,JO 2024 : fiert√© nationale,fr,2024-07-27


‚ûï Ajout‚Ä¶


Unnamed: 0,id_doc,titre,langue,date_publication
0,1,JO 2024 : fiert√© nationale,fr,2024-07-27
1,2,Inflation 2024,fr,2024-09-15


‚úèÔ∏è Modification‚Ä¶


Unnamed: 0,id_doc,titre,langue,date_publication
0,1,JO 2024 : fiert√© nationale,fr,2024-07-27
1,2,Inflation 2024 (mise a jour),fr,2024-09-15


üóëÔ∏è Suppression‚Ä¶


Unnamed: 0,id_doc,titre,langue,date_publication
0,1,JO 2024 : fiert√© nationale,fr,2024-07-27


CRUD OK
