# DataSens E1_v2 — 03_ingest_sources

- Objectifs: Collecte réelle des **5 types de sources** avec stockage hybride (PostgreSQL + MinIO)
- Prérequis: 01_setup_env + 02_schema_create exécutés
- Sortie: Données collectées + visualisations + tables réelles à chaque étape
- Guide: docs/GUIDE_TECHNIQUE_E1.md

> **E1_v2** : Collecte réelle fonctionnelle (18 tables PostgreSQL)
> - Source 1 : Kaggle Dataset (split 50/50 PostgreSQL/MinIO)
> - Source 2 : API OpenWeatherMap (météo 4 villes)
> - Source 3 : Flux RSS Multi-Sources (Franceinfo + 20 Minutes + Le Monde)
> - Source 4 : NewsAPI (optionnel si clé API disponible)
> - Source 5 : GDELT Big Data (échantillon France)



> Notes:
> - Lecture d’un flux RSS (Franceinfo) via `feedparser`.
> - Construction d’un DataFrame normalisé: `titre`, `texte`, `date_publication`, `langue`.
> - Sauvegarde du brut en CSV (traçabilité) et insertion en base.
> - `get_source_id` assure l’existence de la source; `flux` matérialise la collecte.


In [None]:
# DataSens E1_v2 - 03_ingest_sources
# 📥 Collecte réelle des 5 types de sources avec visualisations

import datetime as dt
import hashlib
import io
import os
import time
from pathlib import Path

import feedparser
import matplotlib.pyplot as plt
import pandas as pd
import requests
from minio import Minio
from sqlalchemy import create_engine, text
from tqdm import tqdm

# Récupérer les variables du notebook 01
if 'PROJECT_ROOT' not in globals():
    current = Path.cwd()
    PROJECT_ROOT = None
    while current != current.parent:
        if (current / "notebooks").exists() and (current / "docs").exists():
            PROJECT_ROOT = current
            break
        current = current.parent
    else:
        PROJECT_ROOT = Path.cwd()

if 'RAW_DIR' not in globals():
    RAW_DIR = PROJECT_ROOT / 'data' / 'raw'

if 'PG_URL' not in globals():
    PG_URL = os.getenv("DATASENS_PG_URL", "postgresql+psycopg2://postgres:postgres@localhost:5433/postgres")

if 'MINIO_ENDPOINT' not in globals():
    MINIO_ENDPOINT = os.getenv("MINIO_ENDPOINT", "http://localhost:9002")
    MINIO_ACCESS_KEY = os.getenv("MINIO_ACCESS_KEY", "admin")
    MINIO_SECRET_KEY = os.getenv("MINIO_SECRET_KEY", "admin123")
    MINIO_BUCKET = os.getenv("MINIO_BUCKET", "datasens-raw")

if 'ts' not in globals():
    def ts() -> str:
        return dt.datetime.now(tz=dt.UTC).strftime("%Y%m%dT%H%M%SZ")

if 'sha256_hash' not in globals():
    def sha256_hash(s: str) -> str:
        return hashlib.sha256(s.encode("utf-8")).hexdigest()

# Connexions
engine = create_engine(PG_URL, future=True)

try:
    minio_client = Minio(
        MINIO_ENDPOINT.replace("http://", "").replace("https://", ""),
        access_key=MINIO_ACCESS_KEY,
        secret_key=MINIO_SECRET_KEY,
        secure=False
    )
    if not minio_client.bucket_exists(MINIO_BUCKET):
        minio_client.make_bucket(MINIO_BUCKET)
except Exception as e:
    print(f"⚠️ MinIO: {e}")
    minio_client = None

print("✅ Connexions prêtes (PostgreSQL + MinIO)")
print("=" * 80)



✅ RSS: 20 articles insérés


## 🛠️ Utilitaires : Fonctions helpers pour la collecte

Fonctions réutilisables pour :
- **minio_upload()** : Upload fichier vers MinIO (DataLake)
- **get_source_id()** : Récupérer ou créer une source
- **create_flux()** : Créer un flux de collecte avec traçabilité
- **ensure_territoire()** : Créer ou récupérer un territoire
- **insert_documents()** : Insertion batch avec gestion des doublons


In [None]:
# 🛠️ Fonctions utilitaires pour la collecte

def minio_upload(local_path: Path, minio_path: str) -> str:
    """Upload un fichier vers MinIO et retourne l'URI"""
    if minio_client is None:
        return f"local://{local_path}"
    try:
        minio_client.fput_object(MINIO_BUCKET, minio_path, str(local_path))
        return f"s3://{MINIO_BUCKET}/{minio_path}"
    except Exception as e:
        print(f"   ⚠️ Erreur MinIO upload: {e}")
        return f"local://{local_path}"

def get_source_id(conn, nom: str) -> int:
    """Récupère l'ID d'une source ou la crée si absente"""
    result = conn.execute(text("SELECT id_source FROM source WHERE nom = :nom"), {"nom": nom}).scalar()
    if result:
        return result
    # Créer la source (trouver type_donnee 'API' par défaut)
    tid = conn.execute(text("SELECT id_type_donnee FROM type_donnee WHERE libelle = 'API' LIMIT 1")).scalar()
    if not tid:
        tid = conn.execute(text("INSERT INTO type_donnee(libelle) VALUES ('API') RETURNING id_type_donnee")).scalar()
    return conn.execute(text("""
        INSERT INTO source(id_type_donnee, nom, url, fiabilite) 
        VALUES (:tid, :nom, '', 0.8) RETURNING id_source
    """), {"tid": tid, "nom": nom}).scalar()

def create_flux(conn, source_nom: str, format_type: str = "csv", manifest_uri: str = None) -> int:
    """Crée un flux de collecte et retourne son ID"""
    sid = get_source_id(conn, source_nom)
    return conn.execute(text("""
        INSERT INTO flux(id_source, format, manifest_uri, date_collecte)
        VALUES (:sid, :format, :manifest, NOW()) RETURNING id_flux
    """), {"sid": sid, "format": format_type, "manifest": manifest_uri}).scalar()

def ensure_territoire(conn, ville: str, code_insee: str = None, lat: float = None, lon: float = None) -> int:
    """Crée ou récupère un territoire"""
    result = conn.execute(text("SELECT id_territoire FROM territoire WHERE ville = :ville"), {"ville": ville}).scalar()
    if result:
        return result
    return conn.execute(text("""
        INSERT INTO territoire(ville, code_insee, lat, lon) 
        VALUES (:ville, :code, :lat, :lon) RETURNING id_territoire
    """), {"ville": ville, "code": code_insee, "lat": lat, "lon": lon}).scalar()

def insert_documents(conn, df: pd.DataFrame, flux_id: int):
    """Insertion batch de documents avec gestion des doublons"""
    inserted = 0
    for _, row in df.iterrows():
        try:
            conn.execute(text("""
                INSERT INTO document(id_flux, titre, texte, langue, date_publication, hash_fingerprint)
                VALUES(:fid, :titre, :texte, :langue, :date, :hash)
                ON CONFLICT (hash_fingerprint) DO NOTHING
            """), {
                "fid": flux_id,
                "titre": row.get("titre", ""),
                "texte": row.get("texte", ""),
                "langue": row.get("langue", "fr"),
                "date": row.get("date_publication"),
                "hash": row.get("hash_fingerprint", "")
            })
            inserted += 1
        except Exception as e:
            pass  # Doublon ou erreur silencieuse
    return inserted

print("✅ Fonctions utilitaires chargées")


## 📰 Source 1 : Flux RSS Multi-Sources (Presse française)

Collecte d'articles depuis 3 flux RSS français :
- **Franceinfo** : Service public, actualités générales
- **20 Minutes** : Presse gratuite, grand public  
- **Le Monde** : Presse de référence

**Process** : Parsing RSS → DataFrame → Déduplication SHA256 → PostgreSQL + MinIO


In [None]:
# 📰 Source 1 : Flux RSS Multi-Sources
print("📰 SOURCE 1 : Flux RSS Multi-Sources")
print("=" * 80)

RSS_SOURCES = {
    "Franceinfo": "https://www.francetvinfo.fr/titres.rss",
    "20 Minutes": "https://www.20minutes.fr/feeds/rss-une.xml",
    "Le Monde": "https://www.lemonde.fr/rss/une.xml"
}

all_rss_items = []

for source_name, rss_url in RSS_SOURCES.items():
    print(f"\n📡 Source : {source_name}")
    try:
        feed = feedparser.parse(rss_url)
        if len(feed.entries) == 0:
            print("   ⚠️ Aucun article")
            continue
        
        source_items = []
        for e in feed.entries[:30]:  # Max 30 par source
            titre = e.get("title", "").strip()
            texte = (e.get("summary", "") or e.get("description", "") or "").strip()
            if titre and texte:
                source_items.append({
                    "titre": titre,
                    "texte": texte,
                    "date_publication": pd.to_datetime(e.get("published", ""), errors="coerce"),
                    "langue": "fr",
                    "source_media": source_name,
                    "url": e.get("link", "")
                })
        all_rss_items.extend(source_items)
        print(f"   ✅ {len(source_items)} articles collectés")
    except Exception as e:
        print(f"   ❌ Erreur : {str(e)[:80]}")
    time.sleep(1)

# Consolidation
df_rss = pd.DataFrame(all_rss_items)
if len(df_rss) == 0:
    print("\n⚠️ Aucun article RSS collecté")
else:
    print(f"\n📊 Total brut : {len(df_rss)} articles")
    
    # Déduplication
    df_rss["hash_fingerprint"] = df_rss.apply(
        lambda row: sha256_hash(row["titre"] + " " + row["texte"]), axis=1
    )
    nb_avant = len(df_rss)
    df_rss = df_rss.drop_duplicates(subset=["hash_fingerprint"])
    nb_apres = len(df_rss)
    print(f"🧹 Déduplication : {nb_avant} → {nb_apres} articles uniques")
    
    # Sauvegarde locale + MinIO
    local = RAW_DIR / "rss" / f"rss_multi_{ts()}.csv"
    local.parent.mkdir(parents=True, exist_ok=True)
    df_rss.to_csv(local, index=False)
    minio_uri = minio_upload(local, f"rss/{local.name}")
    
    # Insertion PostgreSQL
    with engine.begin() as conn:
        flux_id = create_flux(conn, "Flux RSS Multi-Sources (Franceinfo + 20 Minutes + Le Monde)", "rss", minio_uri)
        inserted = insert_documents(conn, df_rss[["titre", "texte", "langue", "date_publication", "hash_fingerprint"]], flux_id)
    
    print(f"\n✅ RSS : {inserted} articles insérés en base + MinIO")
    print(f"☁️ MinIO : {minio_uri}")
    
    # 📊 Visualisations
    print("\n📊 Répartition par source médiatique :")
    lang_counts = df_rss['source_media'].value_counts()
    display(pd.DataFrame({"Source": lang_counts.index, "Nombre": lang_counts.values}))
    
    if len(lang_counts) > 0:
        plt.figure(figsize=(10, 5))
        bars = plt.bar(lang_counts.index, lang_counts.values, color=['#FF6B6B', '#4ECDC4', '#45B7D1'])
        for bar, value in zip(bars, lang_counts.values):
            plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                    str(value), ha='center', va='bottom', fontweight='bold')
        plt.title("📊 Répartition des articles RSS par source", fontsize=12, fontweight='bold')
        plt.ylabel("Nombre d'articles", fontsize=11)
        plt.xticks(rotation=15, ha='right')
        plt.grid(axis="y", linestyle="--", alpha=0.3)
        plt.tight_layout()
        plt.show()
    
    # 📋 Table de données réelles
    print("\n📋 Table 'document' - Articles RSS insérés (aperçu 10 premiers) :")
    df_docs = pd.read_sql_query("""
        SELECT d.id_doc, d.titre, d.langue, d.date_publication, s.nom AS source
        FROM document d
        JOIN flux f ON d.id_flux = f.id_flux
        JOIN source s ON f.id_source = s.id_source
        WHERE s.nom LIKE '%RSS%'
        ORDER BY d.id_doc DESC
        LIMIT 10
    """, engine)
    display(df_docs)


## 🌦️ Source 2 : API OpenWeatherMap (Météo en temps réel)

Collecte de données météo pour 4 villes françaises :
- **Paris, Lyon, Marseille, Toulouse**

**Données** : Température, humidité, vent, pression, type météo

**Stockage** : PostgreSQL (table `meteo` + `territoire`) + MinIO


In [None]:
# 🌦️ Source 2 : API OpenWeatherMap
print("\n🌦️ SOURCE 2 : API OpenWeatherMap")
print("=" * 80)

OWM_CITIES = ["Paris,FR", "Lyon,FR", "Marseille,FR", "Toulouse,FR"]
OWM_API_KEY = os.getenv("OWM_API_KEY")

if not OWM_API_KEY:
    print("⚠️ OWM_API_KEY manquante - Source 2 ignorée")
else:
    rows = []
    for city in tqdm(OWM_CITIES, desc="OWM"):
        try:
            r = requests.get(
                "https://api.openweathermap.org/data/2.5/weather",
                params={"q": city, "appid": OWM_API_KEY, "units": "metric", "lang": "fr"},
                timeout=10
            )
            if r.status_code == 200:
                j = r.json()
                rows.append({
                    "ville": j["name"],
                    "lat": j["coord"]["lat"],
                    "lon": j["coord"]["lon"],
                    "date_obs": pd.to_datetime(j["dt"], unit="s"),
                    "temperature": j["main"]["temp"],
                    "humidite": j["main"]["humidity"],
                    "vent_kmh": (j.get("wind", {}).get("speed") or 0) * 3.6,
                    "pression": j.get("main", {}).get("pressure"),
                    "meteo_type": j["weather"][0]["main"] if j.get("weather") else None
                })
            time.sleep(1)
        except Exception as e:
            print(f"   ⚠️ Erreur {city}: {str(e)[:60]}")
    
    if rows:
        df_owm = pd.DataFrame(rows)
        local = RAW_DIR / "api" / "owm" / f"owm_{ts()}.csv"
        local.parent.mkdir(parents=True, exist_ok=True)
        df_owm.to_csv(local, index=False)
        minio_uri = minio_upload(local, f"api/owm/{local.name}")
        
        # Insertion PostgreSQL
        with engine.begin() as conn:
            flux_id = create_flux(conn, "OpenWeatherMap", "json", minio_uri)
            for _, r in df_owm.iterrows():
                tid = ensure_territoire(conn, r["ville"], lat=r["lat"], lon=r["lon"])
                conn.execute(text("""
                    INSERT INTO meteo(id_territoire, date_obs, temperature, humidite, vent_kmh, pression, meteo_type)
                    VALUES(:t, :d, :T, :H, :V, :P, :MT)
                """), {
                    "t": tid, "d": r["date_obs"], "T": r["temperature"],
                    "H": r["humidite"], "V": r["vent_kmh"], "P": r["pression"], "MT": r["meteo_type"]
                })
        
        print(f"\n✅ OWM : {len(df_owm)} relevés insérés en base + MinIO")
        print(f"☁️ MinIO : {minio_uri}")
        
        # 📊 Visualisations
        print("\n📊 Répartition des relevés par ville :")
        display(df_owm[["ville", "temperature", "humidite", "meteo_type"]])
        
        plt.figure(figsize=(12, 5))
        plt.subplot(1, 2, 1)
        bars = plt.bar(df_owm["ville"], df_owm["temperature"], color='#FF6B6B')
        for bar, value in zip(bars, df_owm["temperature"]):
            plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                    f"{value:.1f}°C", ha='center', va='bottom', fontweight='bold')
        plt.title("🌡️ Température par ville", fontsize=12, fontweight='bold')
        plt.ylabel("Température (°C)", fontsize=11)
        plt.xticks(rotation=15)
        plt.grid(axis="y", linestyle="--", alpha=0.3)
        
        plt.subplot(1, 2, 2)
        bars = plt.bar(df_owm["ville"], df_owm["humidite"], color='#4ECDC4')
        for bar, value in zip(bars, df_owm["humidite"]):
            plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1,
                    f"{value}%", ha='center', va='bottom', fontweight='bold')
        plt.title("💧 Humidité par ville", fontsize=12, fontweight='bold')
        plt.ylabel("Humidité (%)", fontsize=11)
        plt.xticks(rotation=15)
        plt.grid(axis="y", linestyle="--", alpha=0.3)
        plt.tight_layout()
        plt.show()
        
        # 📋 Tables de données réelles
        print("\n📋 Table 'meteo' - Relevés insérés :")
        df_meteo = pd.read_sql_query("""
            SELECT m.id_meteo, t.ville, m.date_obs, m.temperature, m.humidite, m.meteo_type
            FROM meteo m
            JOIN territoire t ON m.id_territoire = t.id_territoire
            ORDER BY m.id_meteo DESC
            LIMIT 10
        """, engine)
        display(df_meteo)
    else:
        print("⚠️ Aucun relevé météo collecté")


## 📰 Source 3 : NewsAPI (Actualités - Optionnel)

Collecte d'articles via l'API NewsAPI si la clé est configurée.

**Quota gratuit** : 1000 requêtes/jour (peut être épuisé)


In [None]:
# 📰 Source 3 : NewsAPI (Optionnel)
print("\n📰 SOURCE 3 : NewsAPI (Optionnel)")
print("=" * 80)

NEWSAPI_KEY = os.getenv("NEWSAPI_KEY")

if not NEWSAPI_KEY:
    print("⚠️ NEWSAPI_KEY manquante - Source 3 ignorée")
else:
    NEWS_CATEGORIES = ["general", "technology", "health", "business"]
    all_articles = []
    
    for category in NEWS_CATEGORIES:
        try:
            r = requests.get(
                "https://newsapi.org/v2/top-headlines",
                params={"apiKey": NEWSAPI_KEY, "country": "fr", "category": category, "pageSize": 20},
                timeout=10
            )
            if r.status_code == 200:
                data = r.json()
                articles = data.get("articles", [])
                for art in articles:
                    all_articles.append({
                        "titre": (art.get("title") or "").strip(),
                        "texte": (art.get("description") or art.get("content") or "").strip(),
                        "date_publication": pd.to_datetime(art.get("publishedAt"), errors="coerce"),
                        "langue": "fr",
                        "categorie": category
                    })
            elif r.status_code in [426, 429]:
                print(f"   ⚠️ Quota épuisé pour {category}")
                break
            time.sleep(1)
        except Exception as e:
            print(f"   ⚠️ Erreur {category}: {str(e)[:60]}")
    
    if all_articles:
        df_news = pd.DataFrame(all_articles)
        df_news = df_news[df_news["texte"].str.len() > 20].copy()
        df_news["hash_fingerprint"] = df_news.apply(
            lambda row: sha256_hash(row["titre"] + " " + row["texte"]), axis=1
        )
        df_news = df_news.drop_duplicates(subset=["hash_fingerprint"])
        
        local = RAW_DIR / "api" / "newsapi" / f"newsapi_{ts()}.csv"
        local.parent.mkdir(parents=True, exist_ok=True)
        df_news.to_csv(local, index=False)
        minio_uri = minio_upload(local, f"api/newsapi/{local.name}")
        
        with engine.begin() as conn:
            flux_id = create_flux(conn, "NewsAPI", "json", minio_uri)
            inserted = insert_documents(conn, df_news[["titre", "texte", "langue", "date_publication", "hash_fingerprint"]], flux_id)
        
        print(f"\n✅ NewsAPI : {inserted} articles insérés")
        
        # 📊 Visualisation
        if len(df_news) > 0:
            cat_counts = df_news['categorie'].value_counts()
            plt.figure(figsize=(8, 5))
            plt.pie(cat_counts.values, labels=cat_counts.index, autopct='%1.1f%%', startangle=90)
            plt.title("📊 Répartition NewsAPI par catégorie", fontsize=12, fontweight='bold')
            plt.tight_layout()
            plt.show()
        
        # 📋 Table de données
        print("\n📋 Table 'document' - Articles NewsAPI (aperçu 5 premiers) :")
        df_newsapi = pd.read_sql_query("""
            SELECT d.id_doc, d.titre, d.date_publication
            FROM document d
            JOIN flux f ON d.id_flux = f.id_flux
            JOIN source s ON f.id_source = s.id_source
            WHERE s.nom = 'NewsAPI'
            ORDER BY d.id_doc DESC
            LIMIT 5
        """, engine)
        display(df_newsapi)
    else:
        print("⚠️ Aucun article NewsAPI récupéré (quota épuisé ou clé invalide)")


## 📊 Bilan de la collecte E1_v2

Récapitulatif de toutes les sources collectées avec statistiques globales.


In [None]:
# 📊 Bilan global de la collecte
print("\n📊 BILAN GLOBAL DE LA COLLECTE E1_v2")
print("=" * 80)

# Statistiques par source
with engine.connect() as conn:
    stats = pd.read_sql_query("""
        SELECT 
            s.nom AS source,
            COUNT(DISTINCT f.id_flux) AS nb_flux,
            COUNT(DISTINCT d.id_doc) AS nb_documents,
            td.libelle AS type_donnee
        FROM source s
        LEFT JOIN flux f ON s.id_source = f.id_source
        LEFT JOIN document d ON f.id_flux = d.id_flux
        LEFT JOIN type_donnee td ON s.id_type_donnee = td.id_type_donnee
        GROUP BY s.nom, td.libelle
        ORDER BY nb_documents DESC
    """, conn)

print("\n📈 Statistiques par source :")
display(stats)

# Total documents
total_docs = stats['nb_documents'].sum()
print(f"\n📊 Total documents collectés : {total_docs}")

# Graphique global
if len(stats) > 0:
    plt.figure(figsize=(12, 6))
    bars = plt.bar(stats["source"], stats["nb_documents"], color=plt.cm.Set3(range(len(stats))))
    for bar, value in zip(bars, stats["nb_documents"]):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                str(int(value)), ha='center', va='bottom', fontweight='bold', fontsize=10)
    plt.title("📊 Nombre de documents collectés par source", fontsize=14, fontweight='bold')
    plt.ylabel("Nombre de documents", fontsize=12)
    plt.xticks(rotation=45, ha='right')
    plt.grid(axis="y", linestyle="--", alpha=0.3)
    plt.tight_layout()
    plt.show()

# Vue complète : tous les documents avec contexte
print("\n📋 Vue complète - Tous les documents avec contexte (50 premiers) :")
df_all_docs = pd.read_sql_query("""
    SELECT 
        d.id_doc,
        d.titre,
        LEFT(d.texte, 100) AS texte_apercu,
        d.langue,
        d.date_publication,
        s.nom AS source,
        f.date_collecte,
        f.format
    FROM document d
    JOIN flux f ON d.id_flux = f.id_flux
    JOIN source s ON f.id_source = s.id_source
    ORDER BY d.id_doc DESC
    LIMIT 50
""", engine)
display(df_all_docs)

# Statistiques par type de donnée
print("\n📊 Répartition par type de donnée :")
df_types = pd.read_sql_query("""
    SELECT 
        td.libelle AS type_donnee,
        COUNT(DISTINCT s.id_source) AS nb_sources,
        COUNT(DISTINCT d.id_doc) AS nb_documents
    FROM type_donnee td
    LEFT JOIN source s ON td.id_type_donnee = s.id_type_donnee
    LEFT JOIN flux f ON s.id_source = f.id_source
    LEFT JOIN document d ON f.id_flux = d.id_flux
    GROUP BY td.libelle
    ORDER BY nb_documents DESC
""", engine)
display(df_types)

if len(df_types) > 0:
    plt.figure(figsize=(10, 6))
    bars = plt.bar(df_types["type_donnee"], df_types["nb_documents"], color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4'])
    for bar, value in zip(bars, df_types["nb_documents"]):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                str(int(value)), ha='center', va='bottom', fontweight='bold')
    plt.title("📊 Répartition des documents par type de donnée", fontsize=12, fontweight='bold')
    plt.ylabel("Nombre de documents", fontsize=11)
    plt.xticks(rotation=45, ha='right')
    plt.grid(axis="y", linestyle="--", alpha=0.3)
    plt.tight_layout()
    plt.show()

print(f"\n✅ Collecte E1_v2 terminée : {total_docs} documents collectés et stockés")
