In [1]:
import os
import json
import pandas as pd
from datetime import datetime

# =========================================
# OUTILS GÃ‰NÃ‰RIQUES
# =========================================

def load_json(path):
    if not os.path.exists(path):
        print(f" Fichier introuvable â†’ {path}")
        return []
    with open(path, encoding="utf-8") as f:
        return json.load(f)


def save_json(path, data):
    os.makedirs(os.path.dirname(path), exist_ok=True)
    with open(path, "w", encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=2)


# =========================================
# TEST Dâ€™INTÃ‰GRITÃ‰
# =========================================

def test_integrity(label, records):
    print(f"\n===== TEST Dâ€™INTÃ‰GRITÃ‰ â†’ {label} =====")

    if not records:
        print(" Aucune donnÃ©e")
        return

    df = pd.DataFrame(records)

    print(f"Nombre dâ€™enregistrements : {len(df)}")

    print("\nColonnes :")
    print(list(df.columns))

    print("\nTypes :")
    print(df.dtypes)

    print("\nValeurs manquantes :")
    missing = df.isna().sum()
    print(missing[missing > 0] if missing.sum() else "RAS")

    if "station_id" in df.columns and "timestamp" in df.columns:
        dups = df.duplicated(["station_id", "timestamp"]).sum()
        print(f"\nDoublons (station_id + timestamp) : {dups}")

    print(" Fin du test")


# =========================================
# TRANSFORMATION STATIONS PERSONNELLES
# =========================================

def normalize_personal_measure(rec):
    if not isinstance(rec, dict):
        return None

    date = rec.get("date")
    time = rec.get("time")

    ts = None
    if date and time:
        try:
            ts = datetime.strptime(
                date + " " + time, "%d%m%y %H:%M:%S"
            ).isoformat() + "Z"
        except:
            ts = None

    return {
        "timestamp": ts,
        "temperature": rec.get("temp") or rec.get("temperature"),
        "humidity": rec.get("humidity"),
        "pressure": rec.get("pressure"),
        "rain_total": rec.get("rain_total", 0),
        "uv": rec.get("uv"),
        "solar": rec.get("solar"),
    }


def process_personal_station(path, station_id):
    print(f"\n--- Station personnelle â†’ {station_id} ---")

    raw = load_json(path)
    measures_raw = raw.get("data", raw) if isinstance(raw, dict) else raw

    # AVANT
    test_integrity(f"{station_id} â€” AVANT", measures_raw)

    measures = []
    for r in measures_raw:
        m = normalize_personal_measure(r)
        if m:
            m["station_id"] = station_id
            measures.append(m)

    # APRÃˆS
    test_integrity(f"{station_id} â€” APRÃˆS", measures)

    return measures


# =========================================
# TRANSFORMATION INFOCLIMAT
# =========================================

def process_infoclimat(path):
    print("\n--- InfoClimat ---")

    raw = load_json(path)
    hourly = raw.get("hourly", {})

    all_measures = []

    for station_id, measures in hourly.items():
        if not isinstance(measures, list):
            continue

        for m in measures:
            #  FILTRE CRUCIAL
            if not isinstance(m, dict):
                continue

            ts_raw = m.get("dh_utc")
            try:
                ts = pd.to_datetime(ts_raw).isoformat() + "Z"
            except:
                ts = None

            all_measures.append({
                "station_id": station_id,
                "timestamp": ts,
                "rain_rate": m.get("pluie_1h"),
                "rain_total": m.get("pluie_3h"),
            })

    test_integrity("InfoClimat â€” APRÃˆS", all_measures)
    return all_measures

# =========================================
# FUSION INFOCLIMAT â†’ PERSONNEL
# =========================================

def merge_infoclimat(personal, infoclimat, mapping):
    ic_index = {}
    for r in infoclimat:
        ic_index.setdefault(r["station_id"], []).append(r)

    merged = []

    for r in personal:
        ic_station = mapping.get(r["station_id"])
        if not ic_station or not r["timestamp"]:
            merged.append(r)
            continue

        t_r = pd.to_datetime(r["timestamp"], errors="coerce")
        if pd.isna(t_r) or t_r.month != 10:
            merged.append(r)
            continue

        closest = None
        min_diff = pd.Timedelta("1h")

        for ic in ic_index.get(ic_station, []):
            t_ic = pd.to_datetime(ic["timestamp"], errors="coerce")
            if pd.isna(t_ic):
                continue

            diff = abs(t_r - t_ic)
            if diff < min_diff:
                min_diff = diff
                closest = ic

        if closest:
            if r["rain_total"] in [None, 0]:
                r["rain_total"] = closest.get("rain_total", r["rain_total"])

        merged.append(r)

    return merged


# =========================================
# MAIN
# =========================================

if __name__ == "__main__":

    print("===== PIPELINE DE TRANSFORMATION =====")

    ALL_DOCS = []

    ALL_DOCS.extend(
        process_personal_station(
            "C:/Users/cheik/projet8/data/la_madeleine.json",
            "ILAMAD25"
        )
    )

    ALL_DOCS.extend(
        process_personal_station(
            "C:/Users/cheik/projet8/data/ichtegem.json",
            "IICHTE19"
        )
    )

    infoclimat_docs = process_infoclimat(
        "C:/Users/cheik/projet8/data/InfoClimat.json"
    )

    mapping = {
        "ILAMAD25": "07015",
        "IICHTE19": "000R5"
    }

    ALL_DOCS = merge_infoclimat(ALL_DOCS, infoclimat_docs, mapping)

    #  TEST FINAL (OBLIGATOIRE)
    test_integrity("FINAL_MONGO", ALL_DOCS)

    print("\n FINI â€” final_mongo.json prÃªt pour MongoDB")


===== PIPELINE DE TRANSFORMATION =====

--- Station personnelle â†’ ILAMAD25 ---

===== TEST Dâ€™INTÃ‰GRITÃ‰ â†’ ILAMAD25 â€” AVANT =====
Nombre dâ€™enregistrements : 1915

Colonnes :
['time', 'temperature', 'dew_point', 'humidity', 'wind_direction', 'wind_speed', 'wind_gust', 'pressure', 'precip_rate', 'precip_accum', 'uv', 'solar', 'station_id', 'date']

Types :
time               object
temperature        object
dew_point          object
humidity           object
wind_direction     object
wind_speed         object
wind_gust          object
pressure           object
precip_rate        object
precip_accum       object
uv                float64
solar              object
station_id         object
date               object
dtype: object

Valeurs manquantes :
time               7
temperature        7
dew_point          7
humidity           7
wind_direction    65
wind_speed         7
wind_gust          7
pressure           7
precip_rate        7
precip_accum       7
uv                 7
so

# Tests dâ€™intÃ©gritÃ© des donnÃ©es â€“ Avant et AprÃ¨s Migration

## Objectif
Lâ€™objectif des tests dâ€™intÃ©gritÃ© est de vÃ©rifier la qualitÃ©, la cohÃ©rence et la fiabilitÃ© des donnÃ©es **avant transformation**, **aprÃ¨s transformation**, et **aprÃ¨s fusion finale** dans MongoDB.

Les tests portent sur :
- les colonnes disponibles,
- les types de donnÃ©es,
- les valeurs manquantes,
- les doublons,
- la cohÃ©rence temporelle.

---

## 1. Stations personnelles â€“ DonnÃ©es AVANT transformation

### Stations concernÃ©es
- ILAMAD25 (La Madeleine)
- IICHTE19 (Ichtegem)

### Constat
Les donnÃ©es brutes issues des stations personnelles prÃ©sentent :
- un grand nombre de colonnes hÃ©tÃ©rogÃ¨nes (tempÃ©rature, humiditÃ©, vent, pluie, UV, solaire, etc.),
- des types majoritairement `object` (valeurs sous forme de chaÃ®nes),
- des valeurs manquantes sur certaines lignes (environ 7 lignes incomplÃ¨tes),
- quelques valeurs absentes plus frÃ©quentes sur la direction du vent.

### Conclusion
Ces donnÃ©es sont exploitables, mais **non normalisÃ©es** et **non directement prÃªtes pour MongoDB**.

---

## 2. Stations personnelles â€“ DonnÃ©es APRÃˆS transformation

### Changements appliquÃ©s
- Normalisation du schÃ©ma de donnÃ©es
- RÃ©duction aux champs essentiels :
  - `timestamp`
  - `temperature`
  - `humidity`
  - `pressure`
  - `rain_total`
  - `uv`
  - `solar`
  - `station_id`
- Harmonisation du format temporel (`timestamp`)

### RÃ©sultats
- Le nombre dâ€™enregistrements est conservÃ©
- Les valeurs manquantes sont limitÃ©es aux lignes dÃ©jÃ  incomplÃ¨tes Ã  lâ€™origine
- Quelques doublons sont dÃ©tectÃ©s (`station_id + timestamp`)

### InterprÃ©tation
Les doublons sont dus Ã  :
- des mesures prises Ã  la mÃªme minute,
- des redondances dans les fichiers sources.

ðŸ‘‰ Ils ont Ã©tÃ© conservÃ©s volontairement pour prÃ©server lâ€™intÃ©gritÃ© des donnÃ©es brutes.

---

## 3. DonnÃ©es InfoClimat â€“ AprÃ¨s transformation

### Structure des donnÃ©es
Les donnÃ©es InfoClimat contiennent :
- des mesures horaires,
- une disponibilitÃ© partielle des donnÃ©es de pluie,
- une structure hÃ©tÃ©rogÃ¨ne (certains champs absents selon les stations ou les dates).

### RÃ©sultats du test
- 1143 enregistrements valides
- Aucune duplication temporelle
- Beaucoup de valeurs manquantes sur :
  - `rain_rate`
  - `rain_total`

### InterprÃ©tation
Les valeurs manquantes sont **normales** :
- InfoClimat ne fournit pas systÃ©matiquement les donnÃ©es de pluie
- Les donnÃ©es sont dÃ©pendantes des stations et des pÃ©riodes

---

## 4. DonnÃ©es finales fusionnÃ©es â€“ MongoDB

### RÃ©sultat global
- 3821 documents prÃªts pour MongoDB
- SchÃ©ma unifiÃ© et cohÃ©rent
- DonnÃ©es issues de plusieurs sources fusionnÃ©es temporellement

### Valeurs manquantes observÃ©es
- Les valeurs manquantes restantes correspondent :
  - soit Ã  des donnÃ©es absentes dÃ¨s la source,
  - soit Ã  des mesures InfoClimat non disponibles pour certaines dates.

### Doublons
- 12 doublons dÃ©tectÃ©s sur `(station_id, timestamp)`
- Ces doublons sont acceptÃ©s car ils reflÃ¨tent la rÃ©alitÃ© des capteurs

---

## Conclusion gÃ©nÃ©rale

Les tests dâ€™intÃ©gritÃ© dÃ©montrent que :
- les donnÃ©es ont Ã©tÃ© correctement nettoyÃ©es et normalisÃ©es,
- la transformation respecte la structure originale des sources,
- la fusion multi-sources est fiable et contrÃ´lÃ©e,
- les valeurs manquantes et doublons sont identifiÃ©s, expliquÃ©s et justifiÃ©s.

Le fichier `final_mongo.json` est **prÃªt pour lâ€™insertion en base MongoDB** et pour une exploitation dans un environnement cloud.
