# üîÑ DataSens - Collecte Journali√®re Automatis√©e

**Objectif** : Orchestrer la collecte quotidienne des 5 sources de donn√©es en production

**Strat√©gie d'enrichissement continu** :
- ‚è∞ Ex√©cution planifi√©e (CRON, Prefect, Airflow)
- üîí D√©duplication automatique (hash SHA256)
- üìä Monitoring et logs de collecte
- üîÑ Reprise sur erreur (retry automatique)
- üíæ Backup PostgreSQL quotidien

**Sources collect√©es** :
1. Kaggle CSV (hebdomadaire)
2. OpenWeatherMap API (4x/jour)
3. RSS Multi-Sources (toutes les heures)
4. Web Scraping (quotidien)
5. GDELT Big Data (toutes les 15 min)

## üì¶ Imports et Configuration

In [10]:
import os
import sys
from pathlib import Path
import datetime as dt
import pandas as pd
import subprocess
from dotenv import load_dotenv

# Environnement
ROOT = Path.cwd().parent
load_dotenv(ROOT / ".env")

# PostgreSQL
PG_USER = os.getenv("POSTGRES_USER", "ds_user")
PG_PASS = os.getenv("POSTGRES_PASSWORD", "ds_pass")
PG_HOST = os.getenv("POSTGRES_HOST", "localhost")
PG_PORT = int(os.getenv("POSTGRES_PORT", 5432))
PG_DB = os.getenv("POSTGRES_DB", "datasens")

print("‚úÖ Configuration charg√©e")
print(f"üìÇ ROOT : {ROOT}")
print(f"üóÑÔ∏è  PostgreSQL : {PG_USER}@{PG_HOST}:{PG_PORT}/{PG_DB}")

‚úÖ Configuration charg√©e
üìÇ ROOT : c:\Users\Utilisateur\Desktop\Datasens_Project
üóÑÔ∏è  PostgreSQL : ds_user@localhost:5432/datasens


## üìù Syst√®me de versioning et logs

Tra√ßabilit√© compl√®te de chaque collecte journali√®re

In [17]:
VERSION_FILE = ROOT / "README_VERSIONNING.md"
VERSIONS_DIR = ROOT / "datasens" / "versions"
VERSIONS_DIR.mkdir(parents=True, exist_ok=True)

def log_version(action: str, details: str = ""):
    """Logger simple : timestamp + action + d√©tails ‚Üí README_VERSIONNING.md"""
    now = dt.datetime.now(dt.UTC).strftime("%Y-%m-%d %H:%M:%S")
    entry = f"- **{now} UTC** | `{action}` | {details}\n"
    
    with open(VERSION_FILE, "a", encoding="utf-8") as f:
        f.write(entry)
    
    print(f"üìù Log : {action} ‚Äî {details}")

def save_postgres_snapshot(note="Snapshot PostgreSQL quotidien"):
    """Cr√©e un dump PostgreSQL horodat√© via Docker"""
    timestamp = dt.datetime.now(dt.UTC).strftime("%Y%m%d_%H%M%S")
    dump_name = f"datasens_pg_v{timestamp}.sql"
    dump_path = VERSIONS_DIR / dump_name
    
    # D√©tecter automatiquement le conteneur PostgreSQL
    try:
        result_ps = subprocess.run(
            ["docker", "ps", "--filter", "name=postgres", "--format", "{{.Names}}"],
            capture_output=True, text=True, check=True
        )
        container_name = result_ps.stdout.strip().split('\n')[0]
        
        if not container_name:
            raise Exception("Aucun conteneur PostgreSQL trouv√©")
        
        print(f"üê≥ Conteneur d√©tect√© : {container_name}")
    except Exception as e:
        print(f"‚ö†Ô∏è Impossible de d√©tecter le conteneur : {e}")
        print("   Tentative avec nom par d√©faut 'datasens-postgres'")
        container_name = "datasens-postgres"
    
    # Utiliser Docker pour pg_dump
    cmd = [
        "docker", "exec",
        container_name,
        "pg_dump",
        "-U", PG_USER,
        PG_DB
    ]
    
    try:
        # Ex√©cuter la commande avec encodage UTF-8 pour g√©rer les caract√®res fran√ßais
        result = subprocess.run(cmd, check=True, capture_output=True, text=True, encoding='utf-8', errors='replace')
        
        # √âcrire le dump dans le fichier avec encodage UTF-8
        with open(dump_path, "w", encoding="utf-8") as f:
            f.write(result.stdout)
        
        log_version("PG_SNAPSHOT", f"{dump_name} ‚Äî {note}")
        print(f"‚úÖ Snapshot PostgreSQL cr√©√© : {dump_name}")
        print(f"   Taille : {dump_path.stat().st_size / 1024 / 1024:.2f} MB")
        return dump_path
    except FileNotFoundError:
        print("‚ö†Ô∏è Docker non trouv√©. Assurez-vous que Docker Desktop est d√©marr√©.")
        log_version("PG_SNAPSHOT_FAIL", "Docker manquant ou non d√©marr√©")
        return None
    except subprocess.CalledProcessError as e:
        print(f"‚ùå Erreur pg_dump via Docker : {e.stderr}")
        print(f"   Conteneur utilis√© : {container_name}")
        print("   V√©rifiez que le conteneur PostgreSQL est running avec : docker ps")
        log_version("PG_SNAPSHOT_ERROR", str(e.stderr)[:100])
        return None

# Initialiser le fichier de versioning s'il n'existe pas
if not VERSION_FILE.exists():
    with open(VERSION_FILE, "w", encoding="utf-8") as f:
        f.write("# üìò Historique des versions DataSens\n\n")
    print(f"‚úÖ Fichier de versioning cr√©√© : {VERSION_FILE}")

log_version("COLLECTE_JOURNALIERE_INIT", "D√©marrage script collecte quotidienne")
print("\nüîß Fonctions de versioning charg√©es")

üìù Log : COLLECTE_JOURNALIERE_INIT ‚Äî D√©marrage script collecte quotidienne

üîß Fonctions de versioning charg√©es


## üìä Statistiques pr√©-collecte

√âtat de la base avant la collecte journali√®re

In [13]:
from sqlalchemy import create_engine, text

PG_URL = f"postgresql+psycopg2://{PG_USER}:{PG_PASS}@{PG_HOST}:{PG_PORT}/{PG_DB}"
engine = create_engine(PG_URL, future=True)

with engine.connect() as conn:
    # Total documents
    total_docs = conn.execute(text("SELECT COUNT(*) FROM document")).scalar()
    
    # Par source (uniquement les sources actives avec documents)
    query_sources = text("""
        SELECT s.nom, COUNT(d.id_doc) as nb_docs
        FROM source s
        LEFT JOIN flux f ON s.id_source = f.id_source
        LEFT JOIN document d ON f.id_flux = d.id_flux
        GROUP BY s.id_source, s.nom
        HAVING COUNT(d.id_doc) > 0
        ORDER BY nb_docs DESC
    """)
    df_sources = pd.read_sql_query(query_sources, conn)

print(f"üìä √âTAT PR√â-COLLECTE")
print(f"{'='*60}")
print(f"Total documents : {total_docs:,}")
print(f"\nR√©partition par source (sources actives uniquement) :")
print(df_sources.to_string(index=False))
print(f"\nüìà {len(df_sources)} sources actives | {total_docs:,} documents au total")
print(f"‚è∞ Timestamp : {dt.datetime.now(dt.UTC).isoformat()}Z")

üìä √âTAT PR√â-COLLECTE
Total documents : 25,047

R√©partition par source (sources actives uniquement) :
                                                        nom  nb_docs
                                                 Kaggle CSV    24683
                                 Web Scraping Multi-Sources      265
Flux RSS Multi-Sources (Franceinfo + 20 Minutes + Le Monde)       99

üìà 3 sources actives | 25,047 documents au total
‚è∞ Timestamp : 2025-10-28T13:49:16.265701+00:00Z


## üîÑ Planification des collectes

### Strat√©gie de fr√©quence par source

| Source | Fr√©quence | Justification |
|--------|-----------|---------------|
| **Kaggle CSV** | Hebdomadaire | Datasets statiques peu mis √† jour |
| **OpenWeatherMap** | 4x/jour (6h, 12h, 18h, 00h) | M√©t√©o temps r√©el, 4 relev√©s quotidiens suffisants |
| **RSS Multi-Sources** | Toutes les heures | Actualit√©s changeantes, rythme m√©diatique |
| **Web Scraping** | Quotidien (2h du matin) | √âviter surcharge serveurs, respect rate limits |
| **GDELT Big Data** | Toutes les 15 min | Flux temps r√©el, events mondiaux |

### Impl√©mentation avec Prefect (recommand√©)

```python
# Exemple avec Prefect pour orchestration
from prefect import flow, task
from prefect.schedules import CronSchedule

@task(retries=3, retry_delay_seconds=300)
def collect_rss():
    # Code collecte RSS
    pass

@task(retries=3)
def collect_owm():
    # Code collecte OpenWeatherMap
    pass

@flow(name="datasens-daily-collection")
def daily_collection_flow():
    collect_rss()
    collect_owm()
    # ... autres sources

# Planification CRON
# RSS : 0 * * * * (toutes les heures)
# OWM : 0 6,12,18,0 * * * (6h, 12h, 18h, 00h)
# Scraping : 0 2 * * * (2h du matin)
```

### Alternative : Airflow DAG

```python
from airflow import DAG
from airflow.operators.python import PythonOperator
from datetime import timedelta

default_args = {
    'owner': 'datasens',
    'retries': 3,
    'retry_delay': timedelta(minutes=5)
}

dag = DAG(
    'datasens_daily_collection',
    default_args=default_args,
    schedule_interval='0 2 * * *',  # 2h du matin
    catchup=False
)

task_rss = PythonOperator(
    task_id='collect_rss',
    python_callable=collect_rss_function,
    dag=dag
)
```

## üéØ D√©duplication intelligente

M√©canisme pour √©viter les doublons lors des collectes r√©p√©t√©es

In [14]:
import hashlib

def sha256(text: str) -> str:
    """Hash SHA256 pour empreinte unique de document"""
    return hashlib.sha256(text.encode('utf-8')).hexdigest()

# La d√©duplication se fait automatiquement gr√¢ce √† :
# 1. Colonne hash_fingerprint UNIQUE dans PostgreSQL
# 2. Clause ON CONFLICT DO NOTHING dans insert_documents()

print("‚úÖ D√©duplication automatique activ√©e")
print("   M√©thode : SHA256 hash_fingerprint + UNIQUE constraint")
print("   Comportement : Les doublons sont silencieusement ignor√©s (ON CONFLICT DO NOTHING)")

‚úÖ D√©duplication automatique activ√©e
   M√©thode : SHA256 hash_fingerprint + UNIQUE constraint
   Comportement : Les doublons sont silencieusement ignor√©s (ON CONFLICT DO NOTHING)


## üìà Monitoring et alertes

Suivi de la sant√© des collectes

In [15]:
def check_collection_health():
    """V√©rifie que chaque source a collect√© des donn√©es r√©cemment (< 24h)"""
    
    with engine.connect() as conn:
        query = text("""
            SELECT 
                s.nom,
                COUNT(d.id_doc) as total_docs,
                MAX(f.date_collecte) as derniere_collecte,
                NOW() - MAX(f.date_collecte) as age_dernier_flux
            FROM source s
            LEFT JOIN flux f ON s.id_source = f.id_source
            LEFT JOIN document d ON f.id_flux = d.id_flux
            GROUP BY s.id_source, s.nom
            HAVING COUNT(d.id_doc) > 0 OR MAX(f.date_collecte) IS NOT NULL
            ORDER BY derniere_collecte DESC NULLS LAST
        """)
        df = pd.read_sql_query(query, conn)
    
    print("üè• SANT√â DES COLLECTES")
    print("="*80)
    
    sources_actives = 0
    sources_obsoletes = 0
    
    for _, row in df.iterrows():
        nom = row['nom']
        total = row['total_docs']
        derniere = row['derniere_collecte']
        
        if pd.isna(derniere):
            status = "‚ùå JAMAIS COLLECT√â"
        elif row['age_dernier_flux'].total_seconds() > 86400:  # > 24h
            status = f"‚ö†Ô∏è OBSOL√àTE ({derniere})"
            sources_obsoletes += 1
        else:
            status = f"‚úÖ OK ({derniere})"
            sources_actives += 1
        
        print(f"{nom:50s} | {total:6,} docs | {status}")
    
    print(f"\n{'='*80}")
    print(f"üìä R√©sum√© : {sources_actives} sources actives (<24h) | {sources_obsoletes} sources obsol√®tes (>24h)")
    
    # Avertissements si n√©cessaire
    if sources_obsoletes > 0:
        print(f"‚ö†Ô∏è  {sources_obsoletes} source(s) n'ont pas collect√© depuis >24h - V√©rifier les planifications")
    
    return df

health_df = check_collection_health()

üè• SANT√â DES COLLECTES
Web Scraping Multi-Sources                         |    265 docs | ‚úÖ OK (2025-10-28 13:19:43.201839)
Flux RSS Multi-Sources (Franceinfo + 20 Minutes + Le Monde) |     99 docs | ‚úÖ OK (2025-10-28 13:19:13.302066)
OpenWeatherMap                                     |      0 docs | ‚úÖ OK (2025-10-28 13:19:09.552343)
Kaggle CSV                                         | 24,683 docs | ‚úÖ OK (2025-10-28 13:18:30.750655)

üìä R√©sum√© : 4 sources actives (<24h) | 0 sources obsol√®tes (>24h)


## üíæ Backup automatique quotidien

In [18]:
# Cr√©er le snapshot PostgreSQL quotidien
snapshot_path = save_postgres_snapshot("Backup quotidien automatique")

if snapshot_path:
    print(f"\n‚úÖ Backup PostgreSQL : {snapshot_path}")
    print(f"   Taille : {snapshot_path.stat().st_size / 1024:.2f} Ko")
else:
    print("\n‚ö†Ô∏è Snapshot non cr√©√© automatiquement.")
    print("   Commande manuelle (dans le terminal) :")
    print(f"   docker exec datasens-postgres pg_dump -U {PG_USER} {PG_DB} > backup.sql")

üê≥ Conteneur d√©tect√© : datasens-postgres
üìù Log : PG_SNAPSHOT ‚Äî datasens_pg_v20251028_135152.sql ‚Äî Backup quotidien automatique
‚úÖ Snapshot PostgreSQL cr√©√© : datasens_pg_v20251028_135152.sql
   Taille : 5.81 MB

‚úÖ Backup PostgreSQL : c:\Users\Utilisateur\Desktop\Datasens_Project\datasens\versions\datasens_pg_v20251028_135152.sql
   Taille : 5949.72 Ko
üìù Log : PG_SNAPSHOT ‚Äî datasens_pg_v20251028_135152.sql ‚Äî Backup quotidien automatique
‚úÖ Snapshot PostgreSQL cr√©√© : datasens_pg_v20251028_135152.sql
   Taille : 5.81 MB

‚úÖ Backup PostgreSQL : c:\Users\Utilisateur\Desktop\Datasens_Project\datasens\versions\datasens_pg_v20251028_135152.sql
   Taille : 5949.72 Ko


## üìä Rapport final post-collecte

In [19]:
with engine.connect() as conn:
    # Total documents apr√®s collecte
    total_docs_after = conn.execute(text("SELECT COUNT(*) FROM document")).scalar()
    
    # Nouveaux documents (derni√®res 24h)
    query_new = text("""
        SELECT COUNT(*) 
        FROM document d
        JOIN flux f ON d.id_flux = f.id_flux
        WHERE f.date_collecte >= NOW() - INTERVAL '24 hours'
    """)
    new_docs = conn.execute(query_new).scalar()

print(f"\nüìä RAPPORT POST-COLLECTE")
print(f"{'='*60}")
print(f"Total documents : {total_docs_after:,} (avant: {total_docs:,})")
print(f"Nouveaux documents (24h) : {new_docs:,}")
print(f"Croissance : +{total_docs_after - total_docs:,} documents")
print(f"\n‚è∞ Fin collecte : {dt.datetime.now(dt.UTC).isoformat()}Z")

log_version("COLLECTE_JOURNALIERE_FIN", f"+{new_docs} nouveaux documents en 24h")


üìä RAPPORT POST-COLLECTE
Total documents : 25,047 (avant: 25,047)
Nouveaux documents (24h) : 25,047
Croissance : +0 documents

‚è∞ Fin collecte : 2025-10-28T13:52:00.552932+00:00Z
üìù Log : COLLECTE_JOURNALIERE_FIN ‚Äî +25047 nouveaux documents en 24h


## üöÄ D√©ploiement en production - GitHub Actions (OPTION RETENUE)

### ‚úÖ Configuration GitHub Actions d√©ploy√©e

Le fichier `.github/workflows/daily-collection.yml` a √©t√© cr√©√© avec :

**Fonctionnalit√©s** :
- üïê Ex√©cution automatique quotidienne √† 2h UTC (CRON)
- üñ±Ô∏è Ex√©cution manuelle possible (workflow_dispatch)
- üê≥ Services Docker int√©gr√©s (PostgreSQL, Redis, MinIO)
- üìä G√©n√©ration de rapports HTML automatique
- üíæ Sauvegarde des artifacts pendant 30 jours
- üö® Notifications en cas d'√©chec
- üìà Extraction automatique des statistiques

**Services d√©marr√©s automatiquement** :
- PostgreSQL 15-alpine (port 5432)
- Redis Alpine (port 6379)
- MinIO (ports 9000, 9001)

### üîê Secrets GitHub √† configurer

Allez dans **Settings ‚Üí Secrets and variables ‚Üí Actions ‚Üí New repository secret** :

```
KAGGLE_USERNAME=votre_username_kaggle
KAGGLE_KEY=votre_cle_api_kaggle
OWM_API_KEY=votre_cle_openweathermap
```

### üìù √âtapes de d√©ploiement

1. **Pousser le code sur GitHub** :
   ```bash
   git add .github/workflows/daily-collection.yml
   git add notebooks/collecte_journaliere.ipynb
   git commit -m "üöÄ Add GitHub Actions daily collection workflow"
   git push origin main
   ```

2. **Configurer les secrets** (voir ci-dessus)

3. **Tester l'ex√©cution manuelle** :
   - Aller dans l'onglet **Actions** du repository
   - S√©lectionner le workflow "üìä DataSens - Collecte Quotidienne Automatis√©e"
   - Cliquer sur **Run workflow** ‚Üí **Run workflow**

4. **V√©rifier les artifacts** :
   - Apr√®s ex√©cution, t√©l√©charger `collection-report-XXX.zip`
   - Contient : notebooks ex√©cut√©s (.ipynb), rapports HTML, dumps SQL

### üïê Planification CRON

```yaml
schedule:
  - cron: '0 2 * * *'  # 2h UTC = 3h Paris (hiver) / 4h Paris (√©t√©)
```

**Modifier la fr√©quence** (si n√©cessaire) :
- Toutes les 6h : `'0 */6 * * *'`
- Deux fois par jour (2h et 14h) : `'0 2,14 * * *'`
- Toutes les heures : `'0 * * * *'`

### üìä Monitoring des ex√©cutions

- **Statut temps r√©el** : Onglet Actions ‚Üí dernier run
- **Logs d√©taill√©s** : Cliquer sur un job ‚Üí voir les steps
- **Rapports HTML** : Artifacts ‚Üí t√©l√©charger ‚Üí ouvrir .html
- **Historique** : Actions ‚Üí filtrer par statut (success/failure)

### üéØ Avantages GitHub Actions vs autres solutions

| Crit√®re | GitHub Actions | CRON local | Windows Task Scheduler |
|---------|----------------|------------|------------------------|
| **Infrastructure** | ‚òÅÔ∏è Cloud gratuit | üíª Serveur local | üíª Machine locale |
| **Co√ªt** | Gratuit (2000 min/mois) | Co√ªt serveur | Gratuit |
| **Fiabilit√©** | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê |
| **Logs** | Interface web | Fichiers logs | Observateur d'√©v√©nements |
| **Artifacts** | Stockage 30j | Manuel | Manuel |
| **Rapports HTML** | Auto-g√©n√©r√© | √Ä coder | √Ä coder |
| **Notifications** | Int√©gr√© | √Ä configurer | √Ä configurer |
| **Services Docker** | Int√©gr√© | √Ä installer | √Ä installer |