# Migration des données vers MongoDB
Ce script réalise l’étape finale du pipeline : il charge le fichier JSON fusionné, nettoie les valeurs, enrichit les documents, les insère dans MongoDB, exécute des contrôles qualité post‑migration et démontre les opérations CRUD.

## 1. Configuration MongoDB
Le script définit : URI MongoDB avec authentification:
 - Base de données : projet_meteo
 - Collection : stations_measures
 - Fichier source : final_mongo.json (généré par le pipeline précédent)

Des index sont créés automatiquement :
 - record_id (unique)
 - (station_id, timestamp) pour optimiser les requêtes temporelles

## 2. Fonctions utilitaires
* Chargement du fichier final
* Connexion MongoDB
* Enrichissement des documents
* Nettoyage des valeurs

## 3. Contrôles qualité post‑migration
post_migration_quality(col) :compte le nombre total de documents,détecte les timestamps manquants,détecte les températures manquantes

affiche un résumé clair de la qualité des données insérées

## 4. Démonstration CRUD
crud_demo(col) illustre les opérations MongoDB :
 * CREATE : insertion d’un document test
 * READ : récupération du document
 * UPDATE : modification d’un champ
 * DELETE : suppression du document

Cette démonstration prouve que la collection est fonctionnelle et correctement indexée.

## 5. Exécution principale
Le bloc MAIN :
 * Charge le fichier final_mongo.json
 * Nettoie et enrichit les documents
 * Connecte MongoDB
 * Vide la collection pour éviter les doublons
 * Insère tous les documents
 * Exécute les contrôles qualité
 * Lance la démonstration CRUD


In [2]:
import json
from pathlib import Path
from pymongo import MongoClient
from datetime import datetime, timezone
from uuid import uuid4
import math
import pandas as pd

# =================== CONFIG ===================
MONGO_URI = "mongodb://mteo_user:********@localhost:27017/?authSource=admin"
DB_NAME = "projet_meteo"
COLLECTION_NAME = "stations_measures"
FINAL_FILE = "C:/Users/cheik/projet8/output/final_mongo.json"

METEO_FIELDS = [
    "temperature", "humidity", "pressure",
    "wind_speed", "wind_gust",
    "rain_rate", "rain_total",
    "uv", "solar"
]

# =================== UTILITAIRES ===================
def load_final_json():
    if not Path(FINAL_FILE).exists():
        raise FileNotFoundError("final_mongo.json introuvable")
    with open(FINAL_FILE, encoding="utf-8") as f:
        return json.load(f)

def connect_mongo():
    client = MongoClient(MONGO_URI)
    client.admin.command("ping")
    db = client[DB_NAME]
    col = db[COLLECTION_NAME]
    col.create_index("record_id", unique=True)
    col.create_index([("station_id", 1), ("timestamp", 1)])
    return col

def enrich_record(record):
    record["record_id"] = uuid4().hex
    record["rain_rate"] = record.get("rain_rate") or 0.0
    record["rain_total"] = record.get("rain_total") or 0.0
    return record

def replace_nan_with_none(record):
    for k, v in record.items():
        if isinstance(v, float) and math.isnan(v):
            record[k] = None
    return record

def remove_empty_measures(records):
    # On ne supprime plus aucun relevé pour garder toutes les infos
    return records

def post_migration_quality(col):
    df = pd.DataFrame(list(col.find({}, {"_id": 0})))
    total = len(df)

    # Colonnes météo
    METEO_FIELDS = [
        "temperature", "humidity", "pressure",
        "wind_speed", "wind_gust",
        "rain_rate", "rain_total",
        "uv", "solar"
    ]

    print("\n===== QUALITÉ POST MIGRATION =====")
    print(f"Documents : {total}")

    # Comptage valeurs manquantes
    missing = df[METEO_FIELDS].isna().sum()
    print("Valeurs manquantes par champ :")
    for col_name, count in missing.items():
        print(f"  {col_name}: {count}")

    # Doublons sur station + timestamp
    duplicates = df.duplicated(["station_id", "timestamp"]).sum()
    print(f"Doublons techniques détectés : {duplicates}")

    # Calcul taux d’erreur global
    total_missing = missing.sum()
    error_rate = ((total_missing + duplicates) / total * 100) if total > 0 else 0
    print(f"Taux d'erreurs global : {round(error_rate, 2)} %")

# =================== POST MIGRATION ===================
def post_migration_quality(col):
    df = pd.DataFrame(list(col.find({}, {"_id": 0})))
    total = len(df)
    missing_ts = df["timestamp"].isna().sum()
    missing_temp = df["temperature"].isna().sum()
    print("\n===== QUALITÉ POST MIGRATION =====")
    print(f"Documents : {total}")
    print(f"Timestamps manquants : {missing_ts}")
    print(f"Températures manquantes : {missing_temp}")

# =================== CRUD DEMO ===================
def crud_demo(col):
    print("\n===== DEMO CRUD =====")
    doc = {
        "record_id": uuid4().hex,
        "station_id": "TEST_STATION",
        "timestamp": datetime.now(timezone.utc).isoformat(),
        "temperature": 20.5,
        "humidity": 60,
        "source": "Demo"
    }
    col.insert_one(doc)
    print(" CREATE : document inséré")
    found = col.find_one({"station_id": "TEST_STATION"})
    print(" READ :", found)
    col.update_one({"station_id": "TEST_STATION"}, {"$set": {"temperature": 22.0}})
    print(" UPDATE : température modifiée")
    col.delete_one({"station_id": "TEST_STATION"})
    print(" DELETE : document supprimé")

    

# =================== MAIN ===================
if __name__ == "__main__":
    print("===== MIGRATION MONGODB =====")
    raw_data = load_final_json()
    print(f"Relevés chargés : {len(raw_data)}")

    data = remove_empty_measures(raw_data)
    data = [replace_nan_with_none(r) for r in data]
    data = [enrich_record(r) for r in data]

    col = connect_mongo()
    col.delete_many({})
    print(" Collection nettoyée")

    col.insert_many(data, ordered=False)
    print(f"{len(data)} documents insérés")

    post_migration_quality(col)
  
    crud_demo(col)
    print("\nMigration terminée avec succès")


===== MIGRATION MONGODB =====
Relevés chargés : 3821
 Collection nettoyée
3821 documents insérés

===== QUALITÉ POST MIGRATION =====
Documents : 3821
Timestamps manquants : 14
Températures manquantes : 14

===== DEMO CRUD =====
 CREATE : document inséré
 READ : {'_id': ObjectId('6974d5f894aed5e8a6fb69a0'), 'record_id': '3e9fee53bcb449dfb57fee3297ccc4f7', 'station_id': 'TEST_STATION', 'timestamp': '2026-01-24T14:23:52.655029+00:00', 'temperature': 20.5, 'humidity': 60, 'source': 'Demo'}
 UPDATE : température modifiée
 DELETE : document supprimé

Migration terminée avec succès
