In [None]:
# DataSens logging setup (marker:datasens_logging)
import logging, os
os.makedirs('logs', exist_ok=True)
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s [%(levelname)s] %(message)s',
    handlers=[
        logging.StreamHandler(),
        logging.FileHandler('logs/datasens.log', encoding='utf-8')
    ]
)
logging.info('D√©marrage')


## üé≠ Chapitre 2 : OpenWeatherMap

**Contexte narratif** : Collecte de donn√©es depuis OpenWeatherMap

**Avant cette collecte** :
- Sources pr√©c√©dentes : 1 source(s) d√©j√† collect√©e(s)
- Documents en base : [V√©rification en cours...]

**Objectif de cette √©tape** :
- Collecter de nouvelles donn√©es depuis OpenWeatherMap
- Enrichir notre dataset avec cette source
- Progression du pipeline vers le dataset final

---



In [None]:
# ============================================================
# üé≠ STORYTELLING : PR√âPARATION COLLECTE 2 - OpenWeatherMap
# ============================================================
# Cette section raconte l'histoire de la collecte avant de l'effectuer
# ============================================================

print("\n" + "="*80)
print(f"üé≠ CHAPITRE 2 : COLLECTE OpenWeatherMap")
print("="*80)

# V√©rifier l'√©tat actuel avant cette collecte
try:
    with engine.connect() as conn:
        # Statistiques avant cette source
        nb_sources_avant = conn.execute(text("SELECT COUNT(*) FROM source")).scalar() or 0
        nb_docs_avant = conn.execute(text("SELECT COUNT(*) FROM document")).scalar() or 0
        nb_flux_avant = conn.execute(text("SELECT COUNT(*) FROM flux")).scalar() or 0
        
        print(f"\nüìä √âTAT ACTUEL DU PIPELINE (avant OpenWeatherMap):")
        print(f"   ‚Ä¢ Sources configur√©es : {nb_sources_avant}")
        print(f"   ‚Ä¢ Documents collect√©s : {nb_docs_avant:,}")
        print(f"   ‚Ä¢ Flux de collecte : {nb_flux_avant}")
        
        # Visualisation √©tat actuel
        if nb_docs_avant > 0:
            # Graphique progression
            fig, ax = plt.subplots(figsize=(10, 6))
            
            categories = ['Sources', 'Flux', 'Documents']
            valeurs = [nb_sources_avant, nb_flux_avant, nb_docs_avant]
            colors = ['#FF6B6B', '#FECA57', '#4ECDC4']
            
            bars = ax.bar(categories, valeurs, color=colors)
            for bar, val in zip(bars, valeurs):
                ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + max(valeurs) * 0.02,
                       f"{int(val):,}", ha='center', va='bottom', fontweight='bold')
            
            ax.set_title(f"üìä √âtat du pipeline AVANT collecte OpenWeatherMap", fontsize=12, fontweight='bold')
            ax.set_ylabel("Volume", fontsize=11)
            ax.grid(axis='y', linestyle='--', alpha=0.3)
            plt.tight_layout()
            plt.show()
            
            print(f"\nüí° Prochaine √©tape : Collecte OpenWeatherMap pour enrichir le dataset...")
        else:
            print(f"\nüí° D√©marrage : Premi√®re collecte avec OpenWeatherMap...")
            
except Exception as e:
    print(f"\nüí° Pr√™t pour collecte OpenWeatherMap...")

print("\n" + "-"*80)
print(f"‚û°Ô∏è Lancement de la collecte OpenWeatherMap...")
print("-"*80 + "\n")



## üé≠ Chapitre 2 : OpenWeatherMap

**Contexte narratif** : Collecte de donn√©es depuis OpenWeatherMap

**Avant cette collecte** :
- Sources pr√©c√©dentes : 1 source(s) d√©j√† collect√©e(s)
- Documents en base : [V√©rification en cours...]

**Objectif de cette √©tape** :
- Collecter de nouvelles donn√©es depuis OpenWeatherMap
- Enrichir notre dataset avec cette source
- Progression du pipeline vers le dataset final

---



# DataSens E1_v2 ‚Äî 03_ingest_sources

- Objectifs: Collecte r√©elle des **5 types de sources** avec stockage hybride (PostgreSQL + MinIO)
- Pr√©requis: 01_setup_env + 02_schema_create ex√©cut√©s
- Sortie: Donn√©es collect√©es + visualisations + tables r√©elles √† chaque √©tape
- Guide: docs/GUIDE_TECHNIQUE_E1.md

> **E1_v2** : Collecte r√©elle fonctionnelle (18 tables PostgreSQL)
> - Source 1 : Kaggle Dataset (split 50/50 PostgreSQL/MinIO)
> - Source 2 : API OpenWeatherMap (m√©t√©o 4 villes)
> - Source 3 : Flux RSS Multi-Sources (Franceinfo + 20 Minutes + Le Monde)
> - Source 4 : NewsAPI (optionnel si cl√© API disponible)
> - Source 5 : GDELT Big Data (√©chantillon France)



In [None]:
# ============================================================
# üé¨ DASHBOARD NARRATIF - O√ô SOMMES-NOUS ?
# ============================================================
# Ce dashboard vous guide √† travers le pipeline DataSens E1
# Il montre la progression et l'√©tat actuel des donn√©es
# ============================================================

import matplotlib.pyplot as plt
from matplotlib.patches import FancyBboxPatch
import matplotlib.patches as mpatches

print("\n" + "="*80)
print("üé¨ FIL D'ARIANE VISUEL - PIPELINE DATASENS E1")
print("="*80)

# Cr√©er figure dashboard
fig = plt.figure(figsize=(16, 8))
ax = fig.add_subplot(111)
ax.set_xlim(0, 10)
ax.set_ylim(0, 6)
ax.axis('off')

# √âtapes du pipeline
etapes = [
    {"nom": "üì• COLLECTE", "status": "‚úÖ", "desc": "Sources brutes"},
    {"nom": "‚òÅÔ∏è DATALAKE", "status": "‚úÖ", "desc": "MinIO Raw"},
    {"nom": "üßπ NETTOYAGE", "status": "üîÑ", "desc": "D√©duplication"},
    {"nom": "üíæ ETL", "status": "‚è≥", "desc": "PostgreSQL"},
    {"nom": "üìä ANNOTATION", "status": "‚è≥", "desc": "Enrichissement"},
    {"nom": "üì¶ EXPORT", "status": "‚è≥", "desc": "Dataset IA"}
]

# Couleurs selon statut
colors = {
    "‚úÖ": "#4ECDC4",
    "üîÑ": "#FECA57", 
    "‚è≥": "#E8E8E8"
}

# Dessiner timeline
y_pos = 4
x_start = 1
x_spacing = 1.4

for i, etape in enumerate(etapes):
    x_pos = x_start + i * x_spacing
    
    # Cercle √©tape
    circle = plt.Circle((x_pos, y_pos), 0.25, color=colors[etape["status"]], zorder=3)
    ax.add_patch(circle)
    ax.text(x_pos, y_pos, etape["status"], ha='center', va='center', fontsize=14, fontweight='bold', zorder=4)
    
    # Nom √©tape
    ax.text(x_pos, y_pos - 0.6, etape["nom"], ha='center', va='top', fontsize=11, fontweight='bold')
    ax.text(x_pos, y_pos - 0.85, etape["desc"], ha='center', va='top', fontsize=9, style='italic')
    
    # Fl√®che vers prochaine √©tape
    if i < len(etapes) - 1:
        ax.arrow(x_pos + 0.3, y_pos, x_spacing - 0.6, 0, 
                head_width=0.1, head_length=0.15, fc='gray', ec='gray', zorder=2)

# Titre narratif
ax.text(5, 5.5, "üéØ PROGRESSION DU PIPELINE E1", ha='center', va='center', 
        fontsize=16, fontweight='bold', bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# L√©gende
legend_elements = [
    mpatches.Patch(facecolor='#4ECDC4', label='Termin√©'),
    mpatches.Patch(facecolor='#FECA57', label='En cours'),
    mpatches.Patch(facecolor='#E8E8E8', label='√Ä venir')
]
ax.legend(handles=legend_elements, loc='upper left', fontsize=10)

# Statistiques rapides (si disponibles)
stats_text = "\nüìä SNAPSHOT ACTUEL :\n"
try:
    # Essayer de charger des stats si base disponible
    stats_text += "   ‚Ä¢ Pipeline en cours d'ex√©cution...\n"
except:
    stats_text += "   ‚Ä¢ D√©marrage du pipeline...\n"

ax.text(5, 1.5, stats_text, ha='center', va='center', fontsize=10,
        bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.3))

plt.title("üé¨ FIL D'ARIANE VISUEL - Accompagnement narratif du jury", 
          fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\nüí° Le fil d'Ariane vous guide √©tape par √©tape √† travers le pipeline")
print("   Chaque visualisation s'inscrit dans cette progression narrative\n")



> Notes:
> - Lecture d‚Äôun flux RSS (Franceinfo) via `feedparser`.
> - Construction d‚Äôun DataFrame normalis√©: `titre`, `texte`, `date_publication`, `langue`.
> - Sauvegarde du brut en CSV (tra√ßabilit√©) et insertion en base.
> - `get_source_id` assure l‚Äôexistence de la source; `flux` mat√©rialise la collecte.


In [None]:
# DataSens E1_v2 - 03_ingest_sources
# üì• Collecte r√©elle des 5 types de sources avec visualisations

import datetime as dt
import hashlib
import io
import os
import time
from pathlib import Path

import feedparser
import matplotlib.pyplot as plt
import pandas as pd
import requests
from minio import Minio
from sqlalchemy import create_engine, text
from tqdm import tqdm

# R√©cup√©rer les variables du notebook 01
if 'PROJECT_ROOT' not in globals():
    current = Path.cwd()
    PROJECT_ROOT = None
    while current != current.parent:
        if (current / "notebooks").exists() and (current / "docs").exists():
            PROJECT_ROOT = current
            break
        current = current.parent
    else:
        PROJECT_ROOT = Path.cwd()

if 'RAW_DIR' not in globals():
    RAW_DIR = PROJECT_ROOT / 'data' / 'raw'

if 'PG_URL' not in globals():
    PG_URL = os.getenv("DATASENS_PG_URL", "postgresql+psycopg2://postgres:postgres@localhost:5433/postgres")

if 'MINIO_ENDPOINT' not in globals():
    MINIO_ENDPOINT = os.getenv("MINIO_ENDPOINT", "http://localhost:9002")
    MINIO_ACCESS_KEY = os.getenv("MINIO_ACCESS_KEY", "admin")
    MINIO_SECRET_KEY = os.getenv("MINIO_SECRET_KEY", "admin123")
    MINIO_BUCKET = os.getenv("MINIO_BUCKET", "datasens-raw")

if 'ts' not in globals():
    def ts() -> str:
        return dt.datetime.now(tz=dt.UTC).strftime("%Y%m%dT%H%M%SZ")

if 'sha256_hash' not in globals():
    def sha256_hash(s: str) -> str:
        return hashlib.sha256(s.encode("utf-8")).hexdigest()

# Connexions
engine = create_engine(PG_URL, future=True)

try:
    minio_client = Minio(
        MINIO_ENDPOINT.replace("http://", "").replace("https://", ""),
        access_key=MINIO_ACCESS_KEY,
        secret_key=MINIO_SECRET_KEY,
        secure=False
    )
    if not minio_client.bucket_exists(MINIO_BUCKET):
        minio_client.make_bucket(MINIO_BUCKET)
except Exception as e:
    print(f"‚ö†Ô∏è MinIO: {e}")
    minio_client = None

print("‚úÖ Connexions pr√™tes (PostgreSQL + MinIO)")
print("=" * 80)



‚úÖ RSS: 20 articles ins√©r√©s


## üõ†Ô∏è Utilitaires : Fonctions helpers pour la collecte

Fonctions r√©utilisables pour :
- **minio_upload()** : Upload fichier vers MinIO (DataLake)
- **get_source_id()** : R√©cup√©rer ou cr√©er une source
- **create_flux()** : Cr√©er un flux de collecte avec tra√ßabilit√©
- **ensure_territoire()** : Cr√©er ou r√©cup√©rer un territoire
- **insert_documents()** : Insertion batch avec gestion des doublons


In [None]:
# üõ†Ô∏è Fonctions utilitaires pour la collecte

def minio_upload(local_path: Path, minio_path: str) -> str:
    """Upload un fichier vers MinIO et retourne l'URI"""
    if minio_client is None:
        return f"local://{local_path}"
    try:
        minio_client.fput_object(MINIO_BUCKET, minio_path, str(local_path))
        return f"s3://{MINIO_BUCKET}/{minio_path}"
    except Exception as e:
        print(f"   ‚ö†Ô∏è Erreur MinIO upload: {e}")
        return f"local://{local_path}"

def get_source_id(conn, nom: str) -> int:
    """R√©cup√®re l'ID d'une source ou la cr√©e si absente"""
    result = conn.execute(text("SELECT id_source FROM source WHERE nom = :nom"), {"nom": nom}).scalar()
    if result:
        return result
    # Cr√©er la source (trouver type_donnee 'API' par d√©faut)
    tid = conn.execute(text("SELECT id_type_donnee FROM type_donnee WHERE libelle = 'API' LIMIT 1")).scalar()
    if not tid:
        tid = conn.execute(text("INSERT INTO type_donnee(libelle) VALUES ('API') RETURNING id_type_donnee")).scalar()
    return conn.execute(text("""
        INSERT INTO source(id_type_donnee, nom, url, fiabilite) 
        VALUES (:tid, :nom, '', 0.8) RETURNING id_source
    """), {"tid": tid, "nom": nom}).scalar()

def create_flux(conn, source_nom: str, format_type: str = "csv", manifest_uri: str = None) -> int:
    """Cr√©e un flux de collecte et retourne son ID"""
    sid = get_source_id(conn, source_nom)
    return conn.execute(text("""
        INSERT INTO flux(id_source, format, manifest_uri, date_collecte)
        VALUES (:sid, :format, :manifest, NOW()) RETURNING id_flux
    """), {"sid": sid, "format": format_type, "manifest": manifest_uri}).scalar()

def ensure_territoire(conn, ville: str, code_insee: str = None, lat: float = None, lon: float = None) -> int:
    """Cr√©e ou r√©cup√®re un territoire"""
    result = conn.execute(text("SELECT id_territoire FROM territoire WHERE ville = :ville"), {"ville": ville}).scalar()
    if result:
        return result
    return conn.execute(text("""
        INSERT INTO territoire(ville, code_insee, lat, lon) 
        VALUES (:ville, :code, :lat, :lon) RETURNING id_territoire
    """), {"ville": ville, "code": code_insee, "lat": lat, "lon": lon}).scalar()

def insert_documents(conn, df: pd.DataFrame, flux_id: int):
    """Insertion batch de documents avec gestion des doublons"""
    inserted = 0
    for _, row in df.iterrows():
        try:
            conn.execute(text("""
                INSERT INTO document(id_flux, titre, texte, langue, date_publication, hash_fingerprint)
                VALUES(:fid, :titre, :texte, :langue, :date, :hash)
                ON CONFLICT (hash_fingerprint) DO NOTHING
            """), {
                "fid": flux_id,
                "titre": row.get("titre", ""),
                "texte": row.get("texte", ""),
                "langue": row.get("langue", "fr"),
                "date": row.get("date_publication"),
                "hash": row.get("hash_fingerprint", "")
            })
            inserted += 1
        except Exception as e:
            pass  # Doublon ou erreur silencieuse
    return inserted

# =====================================================
# FONCTIONS UTILITAIRES DE S√âCURIT√â
# =====================================================
def assert_valid_identifier(name: str) -> None:
    """
    Valide qu'un identifiant SQL (nom de table, colonne) est s√ªr.
    L√®ve une ValueError si l'identifiant contient des caract√®res non autoris√©s.
    """
    if not isinstance(name, str):
        raise ValueError("L'identifiant doit √™tre une cha√Æne de caract√®res.")
    # Autorise lettres, chiffres, underscores, et points (pour sch√©mas.tables)
    if not name.replace('_', '').replace('.', '').isalnum():
        raise ValueError(f"Identifiant SQL invalide : {name}. Seuls les caract√®res alphanum√©riques, underscores et points sont autoris√©s.")

def load_whitelist_tables(conn, schema: str = 'public') -> set[str]:
    """
    Charge une liste blanche des noms de tables valides depuis information_schema.
    Retourne un set des noms de tables pour validation.
    """
    try:
        result = conn.execute(text(f"""
            SELECT table_name FROM information_schema.tables
            WHERE table_schema = :schema_name
        """), {"schema_name": schema}).fetchall()
        return {row[0] for row in result}
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur lors du chargement de la whitelist des tables: {e}")
        return set()  # Retourne un set vide en cas d'erreur

print("‚úÖ Fonctions utilitaires charg√©es")
print("‚úÖ Fonctions de s√©curit√© (assert_valid_identifier, load_whitelist_tables) charg√©es.")


## üé≠ Chapitre 1 : RSS Multi-Sources

**Contexte narratif** : Collecte de donn√©es depuis RSS Multi-Sources

**Avant cette collecte** :
- Sources pr√©c√©dentes : 0 source(s) d√©j√† collect√©e(s)
- Documents en base : [V√©rification en cours...]

**Objectif de cette √©tape** :
- Collecter de nouvelles donn√©es depuis RSS Multi-Sources
- Enrichir notre dataset avec cette source
- Progression du pipeline vers le dataset final

---



In [None]:
# ============================================================
# üé≠ STORYTELLING : PR√âPARATION COLLECTE 1 - RSS Multi-Sources
# ============================================================
# Cette section raconte l'histoire de la collecte avant de l'effectuer
# ============================================================

print("\n" + "="*80)
print(f"üé≠ CHAPITRE 1 : COLLECTE RSS Multi-Sources")
print("="*80)

# V√©rifier l'√©tat actuel avant cette collecte
try:
    with engine.connect() as conn:
        # Statistiques avant cette source
        nb_sources_avant = conn.execute(text("SELECT COUNT(*) FROM source")).scalar() or 0
        nb_docs_avant = conn.execute(text("SELECT COUNT(*) FROM document")).scalar() or 0
        nb_flux_avant = conn.execute(text("SELECT COUNT(*) FROM flux")).scalar() or 0
        
        print(f"\nüìä √âTAT ACTUEL DU PIPELINE (avant RSS Multi-Sources):")
        print(f"   ‚Ä¢ Sources configur√©es : {nb_sources_avant}")
        print(f"   ‚Ä¢ Documents collect√©s : {nb_docs_avant:,}")
        print(f"   ‚Ä¢ Flux de collecte : {nb_flux_avant}")
        
        # Visualisation √©tat actuel
        if nb_docs_avant > 0:
            # Graphique progression
            fig, ax = plt.subplots(figsize=(10, 6))
            
            categories = ['Sources', 'Flux', 'Documents']
            valeurs = [nb_sources_avant, nb_flux_avant, nb_docs_avant]
            colors = ['#FF6B6B', '#FECA57', '#4ECDC4']
            
            bars = ax.bar(categories, valeurs, color=colors)
            for bar, val in zip(bars, valeurs):
                ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + max(valeurs) * 0.02,
                       f"{int(val):,}", ha='center', va='bottom', fontweight='bold')
            
            ax.set_title(f"üìä √âtat du pipeline AVANT collecte RSS Multi-Sources", fontsize=12, fontweight='bold')
            ax.set_ylabel("Volume", fontsize=11)
            ax.grid(axis='y', linestyle='--', alpha=0.3)
            plt.tight_layout()
            plt.show()
            
            print(f"\nüí° Prochaine √©tape : Collecte RSS Multi-Sources pour enrichir le dataset...")
        else:
            print(f"\nüí° D√©marrage : Premi√®re collecte avec RSS Multi-Sources...")
            
except Exception as e:
    print(f"\nüí° Pr√™t pour collecte RSS Multi-Sources...")

print("\n" + "-"*80)
print(f"‚û°Ô∏è Lancement de la collecte RSS Multi-Sources...")
print("-"*80 + "\n")



## üé≠ Chapitre 1 : RSS Multi-Sources

**Contexte narratif** : Collecte de donn√©es depuis RSS Multi-Sources

**Avant cette collecte** :
- Sources pr√©c√©dentes : 0 source(s) d√©j√† collect√©e(s)
- Documents en base : [V√©rification en cours...]

**Objectif de cette √©tape** :
- Collecter de nouvelles donn√©es depuis RSS Multi-Sources
- Enrichir notre dataset avec cette source
- Progression du pipeline vers le dataset final

---



## üì∞ Source 1 : Flux RSS Multi-Sources (Presse fran√ßaise)

Collecte d'articles depuis 3 flux RSS fran√ßais :
- **Franceinfo** : Service public, actualit√©s g√©n√©rales
- **20 Minutes** : Presse gratuite, grand public  
- **Le Monde** : Presse de r√©f√©rence

**Process** : Parsing RSS ‚Üí DataFrame ‚Üí D√©duplication SHA256 ‚Üí PostgreSQL + MinIO


In [None]:
# üì∞ Source 1 : Flux RSS Multi-Sources
print("üì∞ SOURCE 1 : Flux RSS Multi-Sources")
print("=" * 80)

RSS_SOURCES = {
    "Franceinfo": "https://www.francetvinfo.fr/titres.rss",
    "20 Minutes": "https://www.20minutes.fr/feeds/rss-une.xml",
    "Le Monde": "https://www.lemonde.fr/rss/une.xml"
}

all_rss_items = []

for source_name, rss_url in RSS_SOURCES.items():
    print(f"\nüì° Source : {source_name}")
    try:
        feed = feedparser.parse(rss_url)
        if len(feed.entries) == 0:
            print("   ‚ö†Ô∏è Aucun article")
            continue
        
        source_items = []
        for e in feed.entries[:30]:  # Max 30 par source
            titre = e.get("title", "").strip()
            texte = (e.get("summary", "") or e.get("description", "") or "").strip()
            if titre and texte:
                source_items.append({
                    "titre": titre,
                    "texte": texte,
                    "date_publication": pd.to_datetime(e.get("published", ""), errors="coerce"),
                    "langue": "fr",
                    "source_media": source_name,
                    "url": e.get("link", "")
                })
        all_rss_items.extend(source_items)
        print(f"   ‚úÖ {len(source_items)} articles collect√©s")
    except Exception as e:
        print(f"   ‚ùå Erreur : {str(e)[:80]}")
    time.sleep(1)

# Consolidation
df_rss = pd.DataFrame(all_rss_items)
if len(df_rss) == 0:
    print("\n‚ö†Ô∏è Aucun article RSS collect√©")
else:
    print(f"\nüìä Total brut : {len(df_rss)} articles")
    
    # D√©duplication
    df_rss["hash_fingerprint"] = df_rss.apply(
        lambda row: sha256_hash(row["titre"] + " " + row["texte"]), axis=1
    )
    nb_avant = len(df_rss)
    df_rss = df_rss.drop_duplicates(subset=["hash_fingerprint"])
    nb_apres = len(df_rss)
    print(f"üßπ D√©duplication : {nb_avant} ‚Üí {nb_apres} articles uniques")
    
    # Sauvegarde locale + MinIO
    local = RAW_DIR / "rss" / f"rss_multi_{ts()}.csv"
    local.parent.mkdir(parents=True, exist_ok=True)
    df_rss.to_csv(local, index=False)
    minio_uri = minio_upload(local, f"rss/{local.name}")
    
    # Insertion PostgreSQL
    with engine.begin() as conn:
        flux_id = create_flux(conn, "Flux RSS Multi-Sources (Franceinfo + 20 Minutes + Le Monde)", "rss", minio_uri)
        inserted = insert_documents(conn, df_rss[["titre", "texte", "langue", "date_publication", "hash_fingerprint"]], flux_id)
    
    print(f"\n‚úÖ RSS : {inserted} articles ins√©r√©s en base + MinIO")
    print(f"‚òÅÔ∏è MinIO : {minio_uri}")
    
    # üìä Visualisations
    print("\nüìä R√©partition par source m√©diatique :")
    lang_counts = df_rss['source_media'].value_counts()
    display(pd.DataFrame({"Source": lang_counts.index, "Nombre": lang_counts.values}))
    
    if len(lang_counts) > 0:
        plt.figure(figsize=(10, 5))
        bars = plt.bar(lang_counts.index, lang_counts.values, color=['#FF6B6B', '#4ECDC4', '#45B7D1'])
        for bar, value in zip(bars, lang_counts.values):
            plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                    str(value), ha='center', va='bottom', fontweight='bold')
        plt.title("üìä R√©partition des articles RSS par source", fontsize=12, fontweight='bold')
        plt.ylabel("Nombre d'articles", fontsize=11)
        plt.xticks(rotation=15, ha='right')
        plt.grid(axis="y", linestyle="--", alpha=0.3)
        plt.tight_layout()
        plt.show()
    
    # üìã Table de donn√©es r√©elles
    print("\nüìã Table 'document' - Articles RSS ins√©r√©s (aper√ßu 10 premiers) :")
    df_docs = pd.read_sql_query("""
        SELECT d.id_doc, d.titre, d.langue, d.date_publication, s.nom AS source
        FROM document d
        JOIN flux f ON d.id_flux = f.id_flux
        JOIN source s ON f.id_source = s.id_source
        WHERE s.nom LIKE '%RSS%'
        ORDER BY d.id_doc DESC
        LIMIT 10
    """, engine)
    display(df_docs)


## üé≠ Chapitre 2 : OpenWeatherMap

**Contexte narratif** : Collecte de donn√©es depuis OpenWeatherMap

**Avant cette collecte** :
- Sources pr√©c√©dentes : 1 source(s) d√©j√† collect√©e(s)
- Documents en base : [V√©rification en cours...]

**Objectif de cette √©tape** :
- Collecter de nouvelles donn√©es depuis OpenWeatherMap
- Enrichir notre dataset avec cette source
- Progression du pipeline vers le dataset final

---



## üé≠ Chapitre 2 : OpenWeatherMap

**Contexte narratif** : Collecte de donn√©es depuis OpenWeatherMap

**Avant cette collecte** :
- Sources pr√©c√©dentes : 1 source(s) d√©j√† collect√©e(s)
- Documents en base : [V√©rification en cours...]

**Objectif de cette √©tape** :
- Collecter de nouvelles donn√©es depuis OpenWeatherMap
- Enrichir notre dataset avec cette source
- Progression du pipeline vers le dataset final

---



## üå¶Ô∏è Source 2 : API OpenWeatherMap (M√©t√©o en temps r√©el)

Collecte de donn√©es m√©t√©o pour 4 villes fran√ßaises :
- **Paris, Lyon, Marseille, Toulouse**

**Donn√©es** : Temp√©rature, humidit√©, vent, pression, type m√©t√©o

**Stockage** : PostgreSQL (table `meteo` + `territoire`) + MinIO


In [None]:
# üå¶Ô∏è Source 2 : API OpenWeatherMap
print("\nüå¶Ô∏è SOURCE 2 : API OpenWeatherMap")
print("=" * 80)

OWM_CITIES = ["Paris,FR", "Lyon,FR", "Marseille,FR", "Toulouse,FR"]
OWM_API_KEY = os.getenv("OWM_API_KEY")

if not OWM_API_KEY:
    print("‚ö†Ô∏è OWM_API_KEY manquante - Source 2 ignor√©e")
else:
    rows = []
    for city in tqdm(OWM_CITIES, desc="OWM"):
        try:
            r = requests.get(
                "https://api.openweathermap.org/data/2.5/weather",
                params={"q": city, "appid": OWM_API_KEY, "units": "metric", "lang": "fr"},
                timeout=10
            )
            if r.status_code == 200:
                j = r.json()
                rows.append({
                    "ville": j["name"],
                    "lat": j["coord"]["lat"],
                    "lon": j["coord"]["lon"],
                    "date_obs": pd.to_datetime(j["dt"], unit="s"),
                    "temperature": j["main"]["temp"],
                    "humidite": j["main"]["humidity"],
                    "vent_kmh": (j.get("wind", {}).get("speed") or 0) * 3.6,
                    "pression": j.get("main", {}).get("pressure"),
                    "meteo_type": j["weather"][0]["main"] if j.get("weather") else None
                })
            time.sleep(1)
        except Exception as e:
            print(f"   ‚ö†Ô∏è Erreur {city}: {str(e)[:60]}")
    
    if rows:
        df_owm = pd.DataFrame(rows)
        local = RAW_DIR / "api" / "owm" / f"owm_{ts()}.csv"
        local.parent.mkdir(parents=True, exist_ok=True)
        df_owm.to_csv(local, index=False)
        minio_uri = minio_upload(local, f"api/owm/{local.name}")
        
        # Insertion PostgreSQL
        with engine.begin() as conn:
            flux_id = create_flux(conn, "OpenWeatherMap", "json", minio_uri)
            for _, r in df_owm.iterrows():
                tid = ensure_territoire(conn, r["ville"], lat=r["lat"], lon=r["lon"])
                conn.execute(text("""
                    INSERT INTO meteo(id_territoire, date_obs, temperature, humidite, vent_kmh, pression, meteo_type)
                    VALUES(:t, :d, :T, :H, :V, :P, :MT)
                """), {
                    "t": tid, "d": r["date_obs"], "T": r["temperature"],
                    "H": r["humidite"], "V": r["vent_kmh"], "P": r["pression"], "MT": r["meteo_type"]
                })
        
        print(f"\n‚úÖ OWM : {len(df_owm)} relev√©s ins√©r√©s en base + MinIO")
        print(f"‚òÅÔ∏è MinIO : {minio_uri}")
        
        # üìä Visualisations
        print("\nüìä R√©partition des relev√©s par ville :")
        display(df_owm[["ville", "temperature", "humidite", "meteo_type"]])
        
        plt.figure(figsize=(12, 5))
        plt.subplot(1, 2, 1)
        bars = plt.bar(df_owm["ville"], df_owm["temperature"], color='#FF6B6B')
        for bar, value in zip(bars, df_owm["temperature"]):
            plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                    f"{value:.1f}¬∞C", ha='center', va='bottom', fontweight='bold')
        plt.title("üå°Ô∏è Temp√©rature par ville", fontsize=12, fontweight='bold')
        plt.ylabel("Temp√©rature (¬∞C)", fontsize=11)
        plt.xticks(rotation=15)
        plt.grid(axis="y", linestyle="--", alpha=0.3)
        
        plt.subplot(1, 2, 2)
        bars = plt.bar(df_owm["ville"], df_owm["humidite"], color='#4ECDC4')
        for bar, value in zip(bars, df_owm["humidite"]):
            plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1,
                    f"{value}%", ha='center', va='bottom', fontweight='bold')
        plt.title("üíß Humidit√© par ville", fontsize=12, fontweight='bold')
        plt.ylabel("Humidit√© (%)", fontsize=11)
        plt.xticks(rotation=15)
        plt.grid(axis="y", linestyle="--", alpha=0.3)
        plt.tight_layout()
        plt.show()
        
        # üìã Tables de donn√©es r√©elles
        print("\nüìã Table 'meteo' - Relev√©s ins√©r√©s :")
        df_meteo = pd.read_sql_query("""
            SELECT m.id_meteo, t.ville, m.date_obs, m.temperature, m.humidite, m.meteo_type
            FROM meteo m
            JOIN territoire t ON m.id_territoire = t.id_territoire
            ORDER BY m.id_meteo DESC
            LIMIT 10
        """, engine)
        display(df_meteo)
    else:
        print("‚ö†Ô∏è Aucun relev√© m√©t√©o collect√©")


## üé≠ Chapitre 3 : NewsAPI

**Contexte narratif** : Collecte de donn√©es depuis NewsAPI

**Avant cette collecte** :
- Sources pr√©c√©dentes : 2 source(s) d√©j√† collect√©e(s)
- Documents en base : [V√©rification en cours...]

**Objectif de cette √©tape** :
- Collecter de nouvelles donn√©es depuis NewsAPI
- Enrichir notre dataset avec cette source
- Progression du pipeline vers le dataset final

---



In [None]:
# ============================================================
# üé≠ STORYTELLING : PR√âPARATION COLLECTE 3 - NewsAPI
# ============================================================
# Cette section raconte l'histoire de la collecte avant de l'effectuer
# ============================================================

print("\n" + "="*80)
print(f"üé≠ CHAPITRE 3 : COLLECTE NewsAPI")
print("="*80)

# V√©rifier l'√©tat actuel avant cette collecte
try:
    with engine.connect() as conn:
        # Statistiques avant cette source
        nb_sources_avant = conn.execute(text("SELECT COUNT(*) FROM source")).scalar() or 0
        nb_docs_avant = conn.execute(text("SELECT COUNT(*) FROM document")).scalar() or 0
        nb_flux_avant = conn.execute(text("SELECT COUNT(*) FROM flux")).scalar() or 0
        
        print(f"\nüìä √âTAT ACTUEL DU PIPELINE (avant NewsAPI):")
        print(f"   ‚Ä¢ Sources configur√©es : {nb_sources_avant}")
        print(f"   ‚Ä¢ Documents collect√©s : {nb_docs_avant:,}")
        print(f"   ‚Ä¢ Flux de collecte : {nb_flux_avant}")
        
        # Visualisation √©tat actuel
        if nb_docs_avant > 0:
            # Graphique progression
            fig, ax = plt.subplots(figsize=(10, 6))
            
            categories = ['Sources', 'Flux', 'Documents']
            valeurs = [nb_sources_avant, nb_flux_avant, nb_docs_avant]
            colors = ['#FF6B6B', '#FECA57', '#4ECDC4']
            
            bars = ax.bar(categories, valeurs, color=colors)
            for bar, val in zip(bars, valeurs):
                ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + max(valeurs) * 0.02,
                       f"{int(val):,}", ha='center', va='bottom', fontweight='bold')
            
            ax.set_title(f"üìä √âtat du pipeline AVANT collecte NewsAPI", fontsize=12, fontweight='bold')
            ax.set_ylabel("Volume", fontsize=11)
            ax.grid(axis='y', linestyle='--', alpha=0.3)
            plt.tight_layout()
            plt.show()
            
            print(f"\nüí° Prochaine √©tape : Collecte NewsAPI pour enrichir le dataset...")
        else:
            print(f"\nüí° D√©marrage : Premi√®re collecte avec NewsAPI...")
            
except Exception as e:
    print(f"\nüí° Pr√™t pour collecte NewsAPI...")

print("\n" + "-"*80)
print(f"‚û°Ô∏è Lancement de la collecte NewsAPI...")
print("-"*80 + "\n")



## üé≠ Chapitre 3 : NewsAPI

**Contexte narratif** : Collecte de donn√©es depuis NewsAPI

**Avant cette collecte** :
- Sources pr√©c√©dentes : 2 source(s) d√©j√† collect√©e(s)
- Documents en base : [V√©rification en cours...]

**Objectif de cette √©tape** :
- Collecter de nouvelles donn√©es depuis NewsAPI
- Enrichir notre dataset avec cette source
- Progression du pipeline vers le dataset final

---



## üì∞ Source 3 : NewsAPI (Actualit√©s - Optionnel)

Collecte d'articles via l'API NewsAPI si la cl√© est configur√©e.

**Quota gratuit** : 1000 requ√™tes/jour (peut √™tre √©puis√©)


In [None]:
# üì∞ Source 3 : NewsAPI (Optionnel)
print("\nüì∞ SOURCE 3 : NewsAPI (Optionnel)")
print("=" * 80)

NEWSAPI_KEY = os.getenv("NEWSAPI_KEY")

if not NEWSAPI_KEY:
    print("‚ö†Ô∏è NEWSAPI_KEY manquante - Source 3 ignor√©e")
else:
    NEWS_CATEGORIES = ["general", "technology", "health", "business"]
    all_articles = []
    
    for category in NEWS_CATEGORIES:
        try:
            r = requests.get(
                "https://newsapi.org/v2/top-headlines",
                params={"apiKey": NEWSAPI_KEY, "country": "fr", "category": category, "pageSize": 20},
                timeout=10
            )
            if r.status_code == 200:
                data = r.json()
                articles = data.get("articles", [])
                for art in articles:
                    all_articles.append({
                        "titre": (art.get("title") or "").strip(),
                        "texte": (art.get("description") or art.get("content") or "").strip(),
                        "date_publication": pd.to_datetime(art.get("publishedAt"), errors="coerce"),
                        "langue": "fr",
                        "categorie": category
                    })
            elif r.status_code in [426, 429]:
                print(f"   ‚ö†Ô∏è Quota √©puis√© pour {category}")
                break
            time.sleep(1)
        except Exception as e:
            print(f"   ‚ö†Ô∏è Erreur {category}: {str(e)[:60]}")
    
    if all_articles:
        df_news = pd.DataFrame(all_articles)
        df_news = df_news[df_news["texte"].str.len() > 20].copy()
        df_news["hash_fingerprint"] = df_news.apply(
            lambda row: sha256_hash(row["titre"] + " " + row["texte"]), axis=1
        )
        df_news = df_news.drop_duplicates(subset=["hash_fingerprint"])
        
        local = RAW_DIR / "api" / "newsapi" / f"newsapi_{ts()}.csv"
        local.parent.mkdir(parents=True, exist_ok=True)
        df_news.to_csv(local, index=False)
        minio_uri = minio_upload(local, f"api/newsapi/{local.name}")
        
        with engine.begin() as conn:
            flux_id = create_flux(conn, "NewsAPI", "json", minio_uri)
            inserted = insert_documents(conn, df_news[["titre", "texte", "langue", "date_publication", "hash_fingerprint"]], flux_id)
        
        print(f"\n‚úÖ NewsAPI : {inserted} articles ins√©r√©s")
        
        # üìä Visualisation
        if len(df_news) > 0:
            cat_counts = df_news['categorie'].value_counts()
            plt.figure(figsize=(8, 5))
            plt.pie(cat_counts.values, labels=cat_counts.index, autopct='%1.1f%%', startangle=90)
            plt.title("üìä R√©partition NewsAPI par cat√©gorie", fontsize=12, fontweight='bold')
            plt.tight_layout()
            plt.show()
        
        # üìã Table de donn√©es
        print("\nüìã Table 'document' - Articles NewsAPI (aper√ßu 5 premiers) :")
        df_newsapi = pd.read_sql_query("""
            SELECT d.id_doc, d.titre, d.date_publication
            FROM document d
            JOIN flux f ON d.id_flux = f.id_flux
            JOIN source s ON f.id_source = s.id_source
            WHERE s.nom = 'NewsAPI'
            ORDER BY d.id_doc DESC
            LIMIT 5
        """, engine)
        display(df_newsapi)
    else:
        print("‚ö†Ô∏è Aucun article NewsAPI r√©cup√©r√© (quota √©puis√© ou cl√© invalide)")


## üìä Bilan de la collecte E1_v2

R√©capitulatif de toutes les sources collect√©es avec statistiques globales.


In [None]:
# üìä Bilan global de la collecte
print("\nüìä BILAN GLOBAL DE LA COLLECTE E1_v2")
print("=" * 80)

# Statistiques par source
with engine.connect() as conn:
    stats = pd.read_sql_query("""
        SELECT 
            s.nom AS source,
            COUNT(DISTINCT f.id_flux) AS nb_flux,
            COUNT(DISTINCT d.id_doc) AS nb_documents,
            td.libelle AS type_donnee
        FROM source s
        LEFT JOIN flux f ON s.id_source = f.id_source
        LEFT JOIN document d ON f.id_flux = d.id_flux
        LEFT JOIN type_donnee td ON s.id_type_donnee = td.id_type_donnee
        GROUP BY s.nom, td.libelle
        ORDER BY nb_documents DESC
    """, conn)

print("\nüìà Statistiques par source :")
display(stats)

# Total documents
total_docs = stats['nb_documents'].sum()
print(f"\nüìä Total documents collect√©s : {total_docs}")

# Graphique global
if len(stats) > 0:
    plt.figure(figsize=(12, 6))
    bars = plt.bar(stats["source"], stats["nb_documents"], color=plt.cm.Set3(range(len(stats))))
    for bar, value in zip(bars, stats["nb_documents"]):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                str(int(value)), ha='center', va='bottom', fontweight='bold', fontsize=10)
    plt.title("üìä Nombre de documents collect√©s par source", fontsize=14, fontweight='bold')
    plt.ylabel("Nombre de documents", fontsize=12)
    plt.xticks(rotation=45, ha='right')
    plt.grid(axis="y", linestyle="--", alpha=0.3)
    plt.tight_layout()
    plt.show()

# Vue compl√®te : tous les documents avec contexte
print("\nüìã Vue compl√®te - Tous les documents avec contexte (50 premiers) :")
df_all_docs = pd.read_sql_query("""
    SELECT 
        d.id_doc,
        d.titre,
        LEFT(d.texte, 100) AS texte_apercu,
        d.langue,
        d.date_publication,
        s.nom AS source,
        f.date_collecte,
        f.format
    FROM document d
    JOIN flux f ON d.id_flux = f.id_flux
    JOIN source s ON f.id_source = s.id_source
    ORDER BY d.id_doc DESC
    LIMIT 50
""", engine)
display(df_all_docs)

# Statistiques par type de donn√©e
print("\nüìä R√©partition par type de donn√©e :")
df_types = pd.read_sql_query("""
    SELECT 
        td.libelle AS type_donnee,
        COUNT(DISTINCT s.id_source) AS nb_sources,
        COUNT(DISTINCT d.id_doc) AS nb_documents
    FROM type_donnee td
    LEFT JOIN source s ON td.id_type_donnee = s.id_type_donnee
    LEFT JOIN flux f ON s.id_source = f.id_source
    LEFT JOIN document d ON f.id_flux = d.id_flux
    GROUP BY td.libelle
    ORDER BY nb_documents DESC
""", engine)
display(df_types)

if len(df_types) > 0:
    plt.figure(figsize=(10, 6))
    bars = plt.bar(df_types["type_donnee"], df_types["nb_documents"], color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4'])
    for bar, value in zip(bars, df_types["nb_documents"]):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                str(int(value)), ha='center', va='bottom', fontweight='bold')
    plt.title("üìä R√©partition des documents par type de donn√©e", fontsize=12, fontweight='bold')
    plt.ylabel("Nombre de documents", fontsize=11)
    plt.xticks(rotation=45, ha='right')
    plt.grid(axis="y", linestyle="--", alpha=0.3)
    plt.tight_layout()
    plt.show()

print(f"\n‚úÖ Collecte E1_v2 termin√©e : {total_docs} documents collect√©s et stock√©s")
