In [1]:

import pandas as pd
import os

# --- Fonction utilitaire ---
def test_import(nom_fichier, sep=',', nrows=5):
    """
    Teste le chargement d'un fichier CSV :
    - V√©rifie s'il existe
    - Essaie de lire les premi√®res lignes
    - Affiche la taille, les colonnes, et un extrait
    """
    print("----------------------------------------------------")
    print(f"üìÑ Test du fichier : {nom_fichier}")

    if not os.path.exists(nom_fichier):
        print("‚ùå Fichier introuvable.\n")
        return

    try:
        df = pd.read_csv(nom_fichier, sep=sep, nrows=nrows, low_memory=False)
        print(f"‚úÖ Chargement r√©ussi ({df.shape[0]} lignes √ó {df.shape[1]} colonnes)")
        print("   ‚ûú Colonnes :", list(df.columns[:10]))
        print(df.head(2), "\n")
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur lors du chargement : {e}\n")


dvf_files = [f"data/dvf_{dep}.csv" for dep in ["75", "77", "78", "91", "92", "93", "94", "95"]]

print("üîç V√©rification des fichiers DVF d√©partementaux...\n")
for fichier in dvf_files:
    test_import(fichier, sep=",")

autres_bases = [
    {"nom": "INSEE - Donn√©es socio-√©conomiques", "path": "data/insee_dossier_complet.csv", "sep": ";"},
    {"nom": "DPE - Diagnostic √©nerg√©tique", "path": "data/dpe_logement.csv", "sep": ","},
    {"nom": "Airparif - Qualit√© de l‚Äôair", "path": "data/air_parif_communes.csv", "sep": ";"},
    {"nom": "Bruitparif - Niveau sonore", "path": "data/bruitsparifs_communes.csv", "sep": ";"},
    {"nom": "Encadrement des loyers (Paris)", "path": "data/encadrement_des_loyers_paris.csv", "sep": ","},
    {"nom": "D√©linquance - S√©curit√©", "path": "data/delinquance_communes.csv", "sep": ","},
    {"nom": "Transports - √éle-de-France", "path": "data/transports_idf.csv", "sep": ";"},
    {"nom": "√âducation - Annuaire √©tablissements", "path": "data/fr-en-annuaire-education.csv", "sep": ";"},
    {"nom": "√âducation - Principaux √©tablissements", "path": "data/fr-en-principaux-etablissement.csv", "sep": ";"}
]

print("\nüîç V√©rification des bases compl√©mentaires...\n")
for base in autres_bases:
    print(f"üîπ {base['nom']}")
    test_import(base["path"], sep=base["sep"])


üîç V√©rification des fichiers DVF d√©partementaux...

----------------------------------------------------
üìÑ Test du fichier : data/dvf_75.csv
‚ùå Fichier introuvable.

----------------------------------------------------
üìÑ Test du fichier : data/dvf_77.csv
‚ùå Fichier introuvable.

----------------------------------------------------
üìÑ Test du fichier : data/dvf_78.csv
‚ùå Fichier introuvable.

----------------------------------------------------
üìÑ Test du fichier : data/dvf_91.csv
‚ùå Fichier introuvable.

----------------------------------------------------
üìÑ Test du fichier : data/dvf_92.csv
‚ùå Fichier introuvable.

----------------------------------------------------
üìÑ Test du fichier : data/dvf_93.csv
‚ùå Fichier introuvable.

----------------------------------------------------
üìÑ Test du fichier : data/dvf_94.csv
‚ùå Fichier introuvable.

----------------------------------------------------
üìÑ Test du fichier : data/dvf_95.csv
‚ùå Fichier introuvable.



In [None]:
from pathlib import Path
import pandas as pd

# 1) O√π √©crire le fichier fusionn√© ?
# Choisis l'un des deux chemins de sortie (d√©-commente celui que tu veux garder) :
# out_path = Path("data/raw/dvf_idf.csv")   # si tu as ce dossier
out_path = Path("dvf_idf.csv")              # √† la racine du projet (m√™me dossier que tes dvf_75.csv, etc.)

out_path.parent.mkdir(parents=True, exist_ok=True)

# 2) Trouver automatiquement les fichiers DVF d√©partementaux
here = Path(".")
dvf_files = list(here.glob("dvf_*.csv"))
if not dvf_files:
    # si rien au niveau racine, on cherche en profondeur (sous-dossiers)
    dvf_files = list(here.rglob("dvf_*.csv"))

print("üìÇ Fichiers DVF trouv√©s :", len(dvf_files))
for f in dvf_files:
    print("   -", f.relative_to(here))

if not dvf_files:
    raise FileNotFoundError("Aucun fichier 'dvf_*.csv' trouv√©. V√©rifie les noms/chemins.")

# 3) Lecture robuste (encodage + s√©parateur)
def robust_read(path):
    try:
        return pd.read_csv(path, sep=";", encoding="utf-8", low_memory=False)
    except Exception:
        try:
            return pd.read_csv(path, sep=";", encoding="latin-1", low_memory=False)
        except Exception:
            # dernier essai: on tente s√©parateur virgule
            try:
                return pd.read_csv(path, sep=",", encoding="utf-8", low_memory=False)
            except Exception:
                return pd.read_csv(path, sep=",", encoding="latin-1", low_memory=False)

dfs = []
for f in dvf_files:
    df = robust_read(f)
    # Normalisation minimale utile pour DVF
    df.columns = [c.strip().lower().replace(" ", "_") for c in df.columns]
    dfs.append(df)

# 4) Fusion
dvf_all = pd.concat(dfs, ignore_index=True)
print("‚úÖ Fusion r√©alis√©e :", dvf_all.shape)

# 5) Sauvegarde
dvf_all.to_csv(out_path, index=False)
print("üíæ Fichier fusionn√© sauvegard√© sous :", out_path.resolve())


üìÇ Fichiers DVF trouv√©s : 7
   - data/clean/dvf_75_clean.csv
   - data/clean/dvf_77_clean.csv
   - data/clean/dvf_91_clean.csv
   - data/clean/dvf_92_clean.csv
   - data/clean/dvf_93_clean.csv
   - data/clean/dvf_94_clean.csv
   - data/clean/dvf_95_clean.csv


In [None]:
import pandas as pd
print("üîç Test air_parif_communes.csv")

try:
    df_air = pd.read_csv(
        "data/air_parif_communes.csv",
        sep=',',
        encoding='utf-8',
        engine='python'
    )
    print("‚úÖ Chargement r√©ussi :", df_air.shape)
    display(df_air.head(5))
except Exception as e:
    print("‚ö†Ô∏è Erreur UTF-8 :", e)
    print("üîÅ Nouvelle tentative avec encodage latin-1 et s√©parateur ';'")
    try:
        df_air = pd.read_csv(
            "data/air_parif_communes.csv",
            sep=';',
            encoding='latin-1',
            engine='python'
        )
        print("‚úÖ Chargement r√©ussi (latin-1) :", df_air.shape)
        display(df_air.head(5))
    except Exception as e2:
        print("‚ùå Toujours erreur :", e2)


In [None]:
# === ETAPE 1 : SETUP + VERIFICATIONS AUTOMATIQUES ===
# Objectif : v√©rifier l'environnement, pr√©parer les dossiers, d√©tecter les CSV, et tester une lecture l√©g√®re

import sys, subprocess
from pathlib import Path

def ensure(pkg):
    try:
        __import__(pkg)
        print(f"‚úÖ {pkg} d√©j√† install√©")
    except ImportError:
        print(f"‚è≥ Installation de {pkg}‚Ä¶")
        subprocess.check_call([sys.executable, "-m", "pip", "install", pkg])
        print(f"‚úÖ {pkg} install√©")

# 1) D√©pendances minimales
for p in ["pandas", "numpy"]:
    ensure(p)

import pandas as pd
import numpy as np

pd.set_option("display.max_columns", 120)
pd.set_option("display.width", 160)

print("\nüì¶ Versions")
print(" - Python :", sys.version.split()[0])
print(" - pandas :", pd.__version__)
print(" - numpy  :", np.__version__)

# 2) Dossiers projet
BASE_DIR = Path(".").resolve()
DATA_DIR = BASE_DIR / "data"
CLEAN_DIR = DATA_DIR / "clean"
DATA_DIR.mkdir(parents=True, exist_ok=True)
CLEAN_DIR.mkdir(parents=True, exist_ok=True)

print("\nüìÅ Dossiers")
print(" - Projet :", BASE_DIR)
print(" - Donn√©es :", DATA_DIR)
print(" - Nettoy√©s:", CLEAN_DIR)

# 3) D√©tection automatique de TOUS les CSV (sauf ceux d√©j√† nettoy√©s)
FILES = {
    f.stem.replace("-", "_"): f
    for f in DATA_DIR.glob("*.csv")
    if not str(f).startswith(str(CLEAN_DIR))
}

print("\nüîé CSV d√©tect√©s dans 'data/' (hors 'data/clean/'):")
if not FILES:
    print("   ‚ö†Ô∏è Aucun fichier .csv trouv√© dans data/. Place tes fichiers ici, puis relance cette cellule.")
else:
    for k, p in sorted(FILES.items()):
        print(f"   ‚Ä¢ {k:35s} ‚Üí {p.name}")

# 4) Mini test de lecture (robuste) sur chaque CSV : 2 lignes max
def test_preview(path: Path):
    encodings = ["utf-8", "utf-8-sig", "latin-1", "cp1252"]
    seps = [";", ",", "\t", "|"]
    last_err = None
    for enc in encodings:
        for sep in seps:
            try:
                df = pd.read_csv(path, sep=sep, encoding=enc, nrows=2, )
                # Heuristique anti faux-positif : si 1 colonne unique tr√®s longue -> mauvais s√©parateur
                if df.shape[1] == 1:
                    continue
                return True, enc, sep, df.columns.tolist()[:6]
            except Exception as e:
                last_err = e
                continue
    return False, None, None, str(last_err)

print("\nüß™ Test de lecture rapide (2 lignes) :")
if FILES:
    ok_all = True
    for k, p in sorted(FILES.items()):
        ok, enc, sep, info = test_preview(p)
        if ok:
            print(f"   ‚úÖ {p.name:35s} | enc='{enc}', sep='{sep}' | colonnes: {info}")
        else:
            ok_all = False
            print(f"   ‚ùå {p.name:35s} | lecture impossible (dernier message: {info})")
    if ok_all:
        print("\nüéâ ETAPE 1 OK : environnement pr√™t, dossiers en place, CSV d√©tect√©s et lisibles.")
    else:
        print("\n‚ö†Ô∏è ETAPE 1 PARTIELLE : certains fichiers ne se lisent pas en preview. On pourra les traiter au cas par cas au nettoyage.")
else:
    print("   (aucun fichier √† tester)")

# 5) Expose les variables pour les √©tapes suivantes
globals()["DATA_DIR"] = DATA_DIR
globals()["CLEAN_DIR"] = CLEAN_DIR
globals()["FILES"] = FILES


In [None]:
# === ETAPE 2 : D√âCLARATION AUTOMATIQUE DES FICHIERS + SCH√âMAS DE NETTOYAGE ===
# Objectif : identifier tous les fichiers de donn√©es dans "data/", d√©finir des sch√©mas adapt√©s,
# et pr√©parer le pipeline pour le nettoyage (√©tape 4).

from pathlib import Path

# --- R√©utilisation des dossiers de l'√©tape 1
DATA_RAW = DATA_DIR
DATA_CLEAN = CLEAN_DIR

# === 1Ô∏è‚É£ D√©tection automatique des fichiers CSV ===
FILES = {
    f.stem.replace("-", "_"): f
    for f in DATA_RAW.glob("*.csv")
    if not str(f).startswith(str(DATA_CLEAN))  # on ignore les fichiers d√©j√† nettoy√©s
}

print("üìÇ Fichiers d√©tect√©s automatiquement :")
for key, path in sorted(FILES.items()):
    print(f"   ‚Ä¢ {key:30s} ‚Üí {path.name}")
print(f"\nTotal : {len(FILES)} fichiers d√©tect√©s dans {DATA_RAW}\n")


# === 2Ô∏è‚É£ Sch√©mas personnalis√©s pour certaines bases connues ===
SCHEMAS_CUSTOM = {
    "dvf_idf": {
        "rename": {
            "valeur_fonciere": "valeur_fonciere",
            "surface_reelle_bati": "surface_reelle_bati",
            "type_local": "type_local",
            "nombre_pieces_principales": "nb_pieces",
            "date_mutation": "date_mutation",
            "commune": "commune",
        },
        "dtype": {
            "valeur_fonciere": "float",
            "surface_reelle_bati": "float",
            "nb_pieces": "Int64",
        },
        "parse_dates": ["date_mutation"],
        "drop_dupes_on": ["code_commune", "date_mutation", "valeur_fonciere", "surface_reelle_bati"],
    },
    "delinquance_communes": {
        "rename": {
            "faits_total": "faits_total",
            "population": "population",
            "annee": "annee",
            "commune": "commune",
            "taux_criminalite": "taux_criminalite",
        },
        "dtype": {
            "faits_total": "Int64",
            "population": "Int64",
            "annee": "Int64",
        },
        "drop_dupes_on": ["code_commune", "annee"],
    },
    "air_parif_communes": {
        "rename": {"indice_airparif": "indice_airparif", "commune": "commune"},
        "dtype": {"indice_airparif": "float"},
        "drop_dupes_on": ["code_commune"],
    },
    "dpe_logement": {
        "rename": {"date_visite_diagnostiqueur": "date_dpe", "commune": "commune"},
        "dtype": {},
        "drop_dupes_on": ["code_commune"],
    },
    "insee_dossier_complet": {
        "rename": {
            "revenu_median": "revenu_median",
            "taux_chomage": "taux_chomage",
            "population": "population",
            "commune": "commune",
        },
        "dtype": {"revenu_median": "float", "taux_chomage": "float", "population": "Int64"},
        "drop_dupes_on": ["code_commune"],
    },
    "transports_idf": {
        "rename": {"nb_arrets": "nb_arrets", "score_connectivite": "score_connectivite", "commune": "commune"},
        "dtype": {"nb_arrets": "Int64", "score_connectivite": "float"},
        "drop_dupes_on": ["code_commune"],
    },
}

# === 3Ô∏è‚É£ Sch√©ma par d√©faut pour toutes les autres bases ===
DEFAULT_SCHEMA = {
    "rename": {},
    "dtype": {},
    "drop_dupes_on": ["code_commune"],
}

# === 4Ô∏è‚É£ G√©n√©ration automatique des sch√©mas ===
SCHEMAS = {}
for key in FILES.keys():
    SCHEMAS[key] = SCHEMAS_CUSTOM.get(key, DEFAULT_SCHEMA)

print("üìò Sch√©mas g√©n√©r√©s :")
for k in sorted(SCHEMAS.keys()):
    base_type = "üéØ personnalis√©" if k in SCHEMAS_CUSTOM else "‚öôÔ∏è  g√©n√©rique"
    print(f"   {k:30s} ‚Üí {base_type}")
print(f"\nTotal : {len(SCHEMAS)} sch√©mas charg√©s\n")


# === 5Ô∏è‚É£ V√©rification rapide de coh√©rence ===
missing = [k for k in FILES if k not in SCHEMAS]
if missing:
    print("‚ö†Ô∏è Bases sans sch√©ma associ√© :", missing)
else:
    print("‚úÖ Toutes les bases d√©tect√©es ont un sch√©ma associ√© (automatique ou personnalis√©).")

# --- Expose les variables pour les √©tapes suivantes
globals()["FILES"] = FILES
globals()["SCHEMAS"] = SCHEMAS


In [None]:
# === ETAPE 3 : NETTOYAGE AUTOMATIQUE ULTRA OPTIMIS√â (GROS FICHIERS) ===

import pandas as pd
import numpy as np
import unicodedata
import csv, time, sys
from pathlib import Path
from tqdm.notebook import tqdm

CHUNK_SIZE = 30000  # plus petit = plus fluide
pd.options.display.max_columns = 200

print("üöÄ Mode optimisation activ√© : lecture par petits paquets + √©criture directe\n")

def normalize_colnames(cols):
    def _norm(s):
        s = str(s).strip().lower()
        s = "".join(c for c in unicodedata.normalize("NFKD", s) if not unicodedata.combining(c))
        s = s.replace(" ", "_").replace("-", "_").replace("/", "_")
        s = "_".join([token for token in s.split("_") if token])
        return s
    return [_norm(c) for c in cols]

def normalize_commune_name(s):
    if pd.isna(s): return np.nan
    s = str(s).strip().upper()
    s = "".join(c for c in unicodedata.normalize("NFKD", s) if not unicodedata.combining(c))
    s = s.replace("-", " ").replace("'", " ")
    return " ".join(s.split())

def add_commune_keys(df):
    df = df.copy()
    code_col = next((c for c in df.columns if "insee" in c or "code_commune" in c), None)
    if code_col:
        df["code_commune"] = df[code_col].astype(str).str.extract(r"(\d+)")[0].str.zfill(5)
    else:
        df["code_commune"] = np.nan
    name_col = next((c for c in df.columns if "commune" in c or "nom" == c), None)
    if name_col:
        df["commune_std"] = df[name_col].apply(normalize_commune_name)
    else:
        df["commune_std"] = np.nan
    return df

def detect_separator(path):
    try:
        with open(path, encoding="utf-8") as f:
            sample = f.read(2048)
        sep = csv.Sniffer().sniff(sample).delimiter
        if sep not in [";", ",", "\t", "|"]:
            sep = ";"
        return sep
    except Exception:
        return ";"

def clean_one_lightweight(key, path, schema):
    print(f"\nüß© === {key.upper()} ===")
    print(f"üìÑ Lecture du fichier : {path.name}")

    sep = detect_separator(path)
    out_path = DATA_CLEAN / f"{key}_clean.csv"
    first_chunk = True
    total_lines = 0
    start = time.time()

    try:
        reader = pd.read_csv(
            path, sep=sep, encoding="utf-8", chunksize=CHUNK_SIZE,
            engine="python", on_bad_lines="skip"
        )

        for chunk in tqdm(reader, desc=f"{key}", unit="chunk"):
            total_lines += len(chunk)
            chunk.columns = normalize_colnames(chunk.columns)
            chunk = add_commune_keys(chunk)

            rename_map = {old: new for old, new in schema.get("rename", {}).items() if old in chunk.columns}
            chunk = chunk.rename(columns=rename_map)

            for col, dtype in schema.get("dtype", {}).items():
                if col in chunk.columns:
                    try:
                        if dtype == "Int64":
                            chunk[col] = pd.to_numeric(chunk[col], errors="coerce").astype("Int64")
                        elif dtype == "float":
                            chunk[col] = pd.to_numeric(chunk[col], errors="coerce")
                    except Exception:
                        pass

            chunk.to_csv(out_path, index=False, mode="a", header=first_chunk)
            first_chunk = False

        elapsed = round(time.time() - start, 2)
        print(f"‚úÖ {key} termin√© ({total_lines:,} lignes) en {elapsed}s")
        return {"base": key, "lignes": total_lines, "fichier": str(out_path)}

    except Exception as e:
        print(f"‚ùå Erreur sur {key}: {e}")
        return {"base": key, "lignes": 0, "fichier": str(path), "erreur": str(e)}


# --- Boucle principale ---
results = []
for key, path in FILES.items():
    if not path.exists():
        print(f"‚ö†Ô∏è Fichier manquant : {path}")
        continue
    schema = SCHEMAS.get(key, {"rename": {}, "dtype": {}})
    res = clean_one_lightweight(key, path, schema)
    results.append(res)

# --- R√©sum√© global ---
print("\nüìä === R√âSUM√â GLOBAL DU NETTOYAGE ===")
summary = pd.DataFrame(results)
display(summary)

print("\n‚úÖ √âtape 3 termin√©e (mode l√©ger). Aucune surcharge m√©moire d√©tect√©e.")


In [None]:
# === ETAPE 4 : NETTOYAGE COMPLET ET CONTR√îL√â ===
# Objectif : lire, uniformiser, nettoyer et sauvegarder toutes les bases de donn√©es.

import pandas as pd
import numpy as np
import unicodedata
from pathlib import Path
import os
import shutil

# --- Dossiers
DATA_RAW = Path("data")         # üîß fichiers sources
DATA_CLEAN = DATA_RAW / "clean" # üîß fichiers nettoy√©s
DATA_CLEAN.mkdir(parents=True, exist_ok=True)

# --- Nettoyage du dossier clean avant traitement
if DATA_CLEAN.exists():
    print("üßΩ Nettoyage du dossier 'data/clean'...")
    for f in DATA_CLEAN.glob("*.csv"):
        try:
            f.unlink()
        except Exception as e:
            print(f"‚ö†Ô∏è Impossible de supprimer {f.name} : {e}")

# --- Fichiers √† traiter
FILES = {
    "dvf": DATA_RAW / "dvf_idf.csv",
    "delinquance": DATA_RAW / "delinquance_communes.csv",
    "air": DATA_RAW / "air_parif_communes.csv",
    "encadrement": DATA_RAW / "encadrement_loyers_idf.csv",
    "insee": DATA_RAW / "insee_dossier.csv",
    "dpe": DATA_RAW / "dpe_logements.csv",
    "transport": DATA_RAW / "transports_idf.csv",
    "rne": DATA_RAW / "fr-en-annuaire-education.csv",
}

print("üìÇ V√©rification des fichiers pr√©sents :")
for key, path in FILES.items():
    print(f"{key:12s} ‚Üí {path} {'‚úÖ' if path.exists() else '‚ùå'}")

# --- Fonctions utilitaires
def normalize_colnames(cols):
    """Uniformise les noms de colonnes (minuscules, sans accents, snake_case)."""
    def _norm(s):
        s = str(s).strip().lower()
        s = "".join(c for c in unicodedata.normalize("NFKD", s) if not unicodedata.combining(c))
        s = s.replace(" ", "_").replace("-", "_").replace("/", "_")
        s = "_".join([token for token in s.split("_") if token])
        return s
    return [_norm(c) for c in cols]

def normalize_commune_name(s):
    """Normalise les noms de communes pour √©viter les erreurs de casse ou d'accents."""
    if pd.isna(s):
        return np.nan
    s = str(s).strip().upper()
    s = "".join(c for c in unicodedata.normalize("NFKD", s) if not unicodedata.combining(c))
    s = s.replace("-", " ").replace("'", " ")
    s = " ".join(s.split())
    return s

def add_commune_keys(df):
    """Cr√©e les colonnes code_commune et commune_std pour les jointures futures."""
    df = df.copy()
    code_col = next((c for c in df.columns if "insee" in c or "code_commune" in c), None)
    if code_col:
        df["code_commune"] = df[code_col].astype(str).str.extract(r"(\d+)")[0].str.zfill(5)
    else:
        df["code_commune"] = np.nan
    name_col = next((c for c in df.columns if "commune" in c or c == "nom"), None)
    if name_col:
        df["commune_std"] = df[name_col].apply(normalize_commune_name)
    else:
        df["commune_std"] = np.nan
    return df

def remove_empty_columns(df):
    """Supprime les colonnes enti√®rement vides."""
    before = df.shape[1]
    df = df.dropna(axis=1, how="all")
    after = df.shape[1]
    if before != after:
        print(f"üßπ {before - after} colonnes enti√®rement vides supprim√©es")
    return df

def add_paris_mapping_if_missing(df, key):
    """Ajoute les codes communes manquants pour les fichiers BruitParif/Paris."""
    if key not in ["bruitsparif", "bruitsparifs", "bruitsparifs_communes"]:
        return df
    if "code_commune" in df.columns and df["code_commune"].notna().sum() > 0:
        return df

    paris_mapping = {
        "1er": 75101, "2e": 75102, "3e": 75103, "4e": 75104, "5e": 75105, "6e": 75106,
        "7e": 75107, "8e": 75108, "9e": 75109, "10e": 75110, "11e": 75111, "12e": 75112,
        "13e": 75113, "14e": 75114, "15e": 75115, "16e": 75116, "17e": 75117,
        "18e": 75118, "19e": 75119, "20e": 75120
    }

    for col in df.columns:
        if df[col].astype(str).str.contains("arrondissement|paris", case=False).any():
            df["code_commune"] = (
                df[col]
                .astype(str)
                .str.extract(r"(\d+)")
                .astype(float)
                .astype("Int64")
                .map(paris_mapping)
            )
            df["commune_std"] = "PARIS"
            print("üèôÔ∏è Codes communes ajout√©s via mapping Paris")
            break
    return df

# --- Sch√©mas de nettoyage
SCHEMAS = {
    "dvf": {"rename": {"valeur_fonciere": "valeur_fonciere", "surface_reelle_bati": "surface_reelle_bati",
                       "type_local": "type_local", "nombre_pieces_principales": "nb_pieces",
                       "date_mutation": "date_mutation", "commune": "commune"},
            "dtype": {"valeur_fonciere": "float", "surface_reelle_bati": "float", "nb_pieces": "Int64"},
            "parse_dates": ["date_mutation"],
            "drop_dupes_on": ["code_commune", "date_mutation", "valeur_fonciere", "surface_reelle_bati"]},
    "delinquance": {"rename": {"faits_total": "faits_total", "population": "population", "annee": "annee",
                               "commune": "commune", "taux_criminalite": "taux_criminalite"},
                    "dtype": {"faits_total": "Int64", "population": "Int64", "annee": "Int64"},
                    "drop_dupes_on": ["code_commune", "annee"]},
    "air": {"rename": {"indice_airparif": "indice_airparif", "commune": "commune"},
            "dtype": {"indice_airparif": "float"},
            "drop_dupes_on": ["code_commune"]},
    "encadrement": {"rename": {"zone_encadree": "zone_encadree", "loyer_ref": "loyer_ref",
                               "loyer_major√©": "loyer_majore", "commune": "commune"},
                    "dtype": {},
                    "drop_dupes_on": ["code_commune"]},
    "insee": {"rename": {"revenu_median": "revenu_median", "taux_chomage": "taux_chomage",
                         "pop_18_29": "pop_18_29", "population": "population",
                         "logements_vacants": "logements_vacants", "logements_totaux": "logements_totaux",
                         "commune": "commune"},
              "dtype": {"revenu_median": "float", "taux_chomage": "float", "pop_18_29": "Int64",
                        "population": "Int64", "logements_vacants": "Int64", "logements_totaux": "Int64"},
              "drop_dupes_on": ["code_commune"]},
    "dpe": {"rename": {"nb_a": "nb_a", "nb_b": "nb_b", "nb_c": "nb_c", "nb_d": "nb_d", "nb_e": "nb_e",
                       "nb_f": "nb_f", "nb_g": "nb_g", "commune": "commune"},
            "dtype": {k: "Int64" for k in ["nb_a", "nb_b", "nb_c", "nb_d", "nb_e", "nb_f", "nb_g"]},
            "drop_dupes_on": ["code_commune"]},
    "transport": {"rename": {"nb_arrets": "nb_arrets", "score_connectivite": "score_connectivite", "commune": "commune"},
                  "dtype": {"nb_arrets": "Int64", "score_connectivite": "float"},
                  "drop_dupes_on": ["code_commune"]},
    "rne": {"rename": {"nb_etabs_sup": "nb_etabs_sup", "superficie_km2": "superficie_km2", "commune": "commune"},
            "dtype": {"nb_etabs_sup": "Int64", "superficie_km2": "float"},
            "drop_dupes_on": ["code_commune"]},
}

# --- Fonction principale de nettoyage
def clean_one(key, path, schema):
    print(f"\nüß© === {key.upper()} ===")
    print(f"üìÑ Lecture du fichier : {path}")

    try:
        df = pd.read_csv(path, sep=";", encoding="utf-8", low_memory=False)
    except UnicodeDecodeError:
        df = pd.read_csv(path, sep=";", encoding="latin-1", low_memory=False)
    except Exception:
        df = pd.read_csv(path, sep=",", encoding="utf-8", low_memory=False)

    print(f"   ‚û§ {df.shape[0]} lignes, {df.shape[1]} colonnes avant nettoyage")

    # Normalisation et renommage
    df.columns = normalize_colnames(df.columns)
    rename_map = {old: new for old, new in schema.get("rename", {}).items() if old in df.columns}
    df = df.rename(columns=rename_map)

    # Ajout des cl√©s communes et suppression des colonnes vides
    df = add_commune_keys(df)
    df = remove_empty_columns(df)
    df = add_paris_mapping_if_missing(df, key)

    # Typage
    for col, dtype in schema.get("dtype", {}).items():
        if col in df.columns:
            try:
                if dtype == "Int64":
                    df[col] = pd.to_numeric(df[col], errors="coerce").astype("Int64")
                elif dtype == "float":
                    df[col] = pd.to_numeric(df[col], errors="coerce")
            except Exception as e:
                print(f"‚ö†Ô∏è Typage impossible pour {col}: {e}")

    # Suppression des doublons
    subset = [c for c in schema.get("drop_dupes_on", []) if c in df.columns]
    if subset:
        before = len(df)
        df = df.drop_duplicates(subset=subset)
        print(f"üßπ {before - len(df)} doublons supprim√©s sur {subset}")

    # Export s√©curis√©
    out = DATA_CLEAN / f"{key}_clean.csv"
    try:
        df.to_csv(out, index=False, encoding="utf-8")
        print(f"‚úÖ Export√© vers {out} ({df.shape[0]} lignes, {df.shape[1]} colonnes)")
    except Exception as e:
        print(f"‚ùå Erreur lors de l‚Äôexport de {out} : {e}")

    return {"base": key, "lignes": df.shape[0], "colonnes": df.shape[1], "fichier": str(out)}

# --- Boucle principale de traitement
results = []
for key, path in FILES.items():
    if not path.exists():
        print(f"‚ùå Fichier manquant : {path}")
        continue
    try:
        with open(path, "r", encoding="utf-8") as f:
            f.read(1024)
    except Exception as e:
        print(f"‚ö†Ô∏è Fichier {path.name} inaccessible : {e}")
        continue

    schema = SCHEMAS.get(key, {"rename": {}, "dtype": {}})
    res = clean_one(key, path, schema)
    results.append(res)

# --- R√©sum√© global
print("\nüìä === R√âSUM√â GLOBAL DU NETTOYAGE ===")
if results:
    summary = pd.DataFrame(results)
    summary["taille_Ko"] = summary["fichier"].apply(lambda x: round(os.path.getsize(x) / 1024, 1))
    display(summary)
    summary.to_csv(DATA_CLEAN / "rapport_validation.csv", index=False)
    print(f"üìù Rapport sauvegard√© dans {DATA_CLEAN / 'rapport_validation.csv'}")
else:
    print("‚ö†Ô∏è Aucun fichier n‚Äôa √©t√© trait√©.")


In [None]:
from pathlib import Path
import pandas as pd
import unicodedata, csv

DATA_RAW   = Path("data")          # dvf_75.csv, dvf_77.csv, etc.
DATA_CLEAN = Path("data/clean")
DATA_CLEAN.mkdir(parents=True, exist_ok=True)

def normalize_colnames(cols):
    def _n(s):
        s = str(s).strip().lower()
        s = "".join(c for c in unicodedata.normalize("NFKD", s) if not unicodedata.combining(c))
        return s.replace(" ", "_").replace("-", "_").replace("/", "_")
    return [_n(c) for c in cols]

def add_commune_keys(df):
    df = df.copy()
    if "code_commune" in df.columns:
        df["code_commune"] = (
            df["code_commune"].astype(str).str.extract(r"(\d+)")[0].str.zfill(5)
        )
    if "nom_commune" in df.columns:
        s = df["nom_commune"].astype(str)
        s = s.str.normalize("NFKD").str.encode("ascii","ignore").str.decode("ascii")
        s = s.str.upper().str.replace("-", " ", regex=False).str.replace("'", " ", regex=False)
        df["commune_std"] = s.str.split().str.join(" ")
    return df

def read_dvf_robuste(src):
    try:
        return pd.read_csv(src, sep=",", encoding="utf-8", low_memory=False)
    except Exception:
        return pd.read_csv(
            src, sep=",", encoding="utf-8",
            engine="python", quotechar='"', on_bad_lines="skip"
        )

# DVF bruts √† traiter
raw_dvf = sorted([p for p in DATA_RAW.glob("dvf_*.csv") if "_clean" not in p.name])
print(f"üìÇ DVF bruts d√©tect√©s ({len(raw_dvf)}):")
for p in raw_dvf: print("  -", p.name)

for src in raw_dvf:
    dest = DATA_CLEAN / (src.stem + "_clean.csv")
    print(f"\nüß© {src.name} ‚Üí {dest.name}")

    df = read_dvf_robuste(src)
    df.columns = normalize_colnames(df.columns)
    df = add_commune_keys(df)

    # ‚úÖ Correction : lineterminator (sans underscore)
    df.to_csv(
        dest, index=False, encoding="utf-8",
        sep=",", quoting=csv.QUOTE_MINIMAL, lineterminator="\n"
    )

    chk = pd.read_csv(dest, sep=",", nrows=3)
    print(f"   ‚úÖ OK : {chk.shape[1]} colonnes | Aper√ßu colonnes : {list(chk.columns)[:6]}")

print("\nüéâ Recr√©ation des DVF _clean termin√©e (fichiers sains et sans guillemets parasites).")


In [None]:
import pandas as pd
import csv
from pathlib import Path

# === Fonction pour d√©tecter automatiquement le s√©parateur ===
def detect_separator(path, sample_size=4096):
    """D√©tecte le s√©parateur le plus probable dans un fichier CSV."""
    try:
        with open(path, "r", encoding="utf-8", errors="ignore") as f:
            sample = f.read(sample_size)
        sniffer = csv.Sniffer()
        sep = sniffer.sniff(sample).delimiter
        if sep not in [",", ";", "\t", "|"]:
            sep = ";"
    except Exception:
        sep = ";"
    return sep


# === Fonction principale de visualisation ===
def check_all_clean_files(folder="data/clean", nrows=5, max_cols=10):
    """Affiche un aper√ßu des fichiers CSV nettoy√©s (s√©parateur, colonnes, aper√ßu des donn√©es)."""
    clean_dir = Path(folder)
    clean_files = list(clean_dir.glob("*_clean.csv"))

    if not clean_files:
        raise FileNotFoundError(f"‚ö†Ô∏è Aucun fichier '_clean.csv' trouv√© dans {folder}/")

    print(f"üìÇ {len(clean_files)} fichiers trouv√©s dans {folder}/\n")

    for f in clean_files:
        sep = detect_separator(f)
        print(f"=== {f.name} ===")
        print(f"   üîπ S√©parateur d√©tect√© : '{sep}'")

        try:
            # Lecture de l'en-t√™te pour conna√Ætre le nombre total de colonnes
            header = pd.read_csv(f, sep=sep, nrows=0, encoding="utf-8", low_memory=False)
            nb_cols = len(header.columns)

            # Lecture partielle : jusqu‚Äô√† 10 colonnes maximum, ou moins si le fichier en a moins
            cols_to_read = list(range(min(max_cols, nb_cols)))
            df = pd.read_csv(f, sep=sep, nrows=nrows, usecols=cols_to_read, encoding="utf-8", low_memory=False)

            print(f"   üîπ Colonnes affich√©es : {len(df.columns)} sur {nb_cols} totales")
            display(df)
        except Exception as e:
            print(f"‚ö†Ô∏è Erreur de lecture sur {f.name}: {e}")
        print("-" * 120)


# === Appel de la fonction ===
check_all_clean_files("data/clean")


In [None]:
# === ETAPE 5 : TEST DU NETTOYAGE DES BASES DE DONN√âES ===
# Objectif : v√©rifier la coh√©rence, la propret√© et la structure de chaque base clean

import pandas as pd
import numpy as np
import unicodedata
import csv
from pathlib import Path
import os

# --- Dossier contenant les bases nettoy√©es
CLEAN_DIR = Path("data/clean")

# --- Liste des fichiers √† v√©rifier
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

# --- Fonctions utilitaires
def normalize_text(s):
    if pd.isna(s):
        return np.nan
    s = str(s).strip().upper()
    s = "".join(c for c in unicodedata.normalize("NFKD", s) if not unicodedata.combining(c))
    s = s.replace("-", " ").replace("'", " ")
    return " ".join(s.split())

def detect_separator(path):
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

def test_clean_file(path):
    print(f"=== {path.name} ===")
    sep = detect_separator(path)
    try:
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur de lecture : {e}\n")
        return None

    print(f"üîπ Lignes : {len(df)}, Colonnes : {len(df.columns)}, S√©parateur : '{sep}'")

    # 1Ô∏è‚É£ Harmonisation de format
    if "code_commune" in df.columns:
        df["code_commune"] = df["code_commune"].astype(str).str.extract(r"(\d+)")[0].str.zfill(5)
    if "commune" in df.columns:
        df["commune"] = df["commune"].apply(normalize_text)

    # 2Ô∏è‚É£ Doublons
    dups = df.duplicated().sum()
    print(f"   üîÅ Doublons d√©tect√©s : {dups}")

    # 3Ô∏è‚É£ Valeurs manquantes
    missing = df.isna().mean().round(2)
    top_missing = missing[missing > 0].sort_values(ascending=False).head(5)
    if not top_missing.empty:
        print("   ‚ö†Ô∏è Colonnes avec NaN :", dict(top_missing))
    else:
        print("   ‚úÖ Aucune valeur manquante significative")

    # 4Ô∏è‚É£ Uniformisation noms colonnes
    normalized_cols = [unicodedata.normalize("NFKD", c).encode("ascii", "ignore").decode("utf-8").lower().replace(" ", "_") for c in df.columns]
    if df.columns.tolist() != normalized_cols:
        print("   ‚öôÔ∏è Correction potentielle des noms de colonnes incoh√©rents")

    # 5Ô∏è‚É£ Types de donn√©es
    print("   üìä Types d√©tect√©s :")
    print(df.dtypes.head())

    # 6Ô∏è‚É£ Normalisation du texte
    if "commune" in df.columns:
        uniques = df["commune"].nunique()
        print(f"   üßæ Communes uniques : {uniques}")

    # 7Ô∏è‚É£ Caract√®res parasites
    example_str = df.select_dtypes(include="object").astype(str).apply(lambda x: x.str.contains("[‚Ç¨,$,\t,;]", regex=True)).any()
    if example_str.any():
        print("   ‚ö†Ô∏è Caract√®res parasites d√©tect√©s dans certaines colonnes texte")

    # 8Ô∏è‚É£ Cl√©s communes
    if "code_commune" in df.columns:
        valid_keys = df["code_commune"].notna().sum()
        print(f"   üß© Cl√© 'code_commune' pr√©sente ({valid_keys} valeurs valides)")

    # 9Ô∏è‚É£ Contr√¥le de coh√©rence simple (ex : surface > 0)
    if "surface_reelle_bati" in df.columns:
        negatives = (df["surface_reelle_bati"] <= 0).sum()
        if negatives > 0:
            print(f"   ‚ö†Ô∏è {negatives} valeurs de surface non valides (‚â§0)")
        else:
            print("   ‚úÖ Toutes les surfaces sont positives")

    if set(["valeur_fonciere", "surface_reelle_bati"]).issubset(df.columns):
        df["prix_m2"] = df["valeur_fonciere"] / df["surface_reelle_bati"]
        mean_price = df["prix_m2"].mean(skipna=True)
        print(f"   üí∂ Prix moyen estim√© au m¬≤ : {round(mean_price,2)}")

    # 10Ô∏è‚É£ Aper√ßu visuel
    print("\n   üßæ Aper√ßu :")
    display(df.head(5).iloc[:, :min(8, len(df.columns))])
    print("-" * 120)
    return df

# --- Lancement du test sur toutes les bases clean
for f in files:
    test_clean_file(f)


In [None]:
# === ETAPE 1 : D√âTECTION DES ERREURS DE FORMAT ===
# Objectif : d√©tecter les probl√®mes de lecture, encodage ou s√©parateur sur toutes les bases clean

import pandas as pd
import csv
from pathlib import Path

# --- Dossier contenant les bases clean
CLEAN_DIR = Path("data/clean")

# --- Recherche de tous les fichiers .csv dans le dossier
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

# --- Fonction de test de format
def detect_format_issues(path):
    report = {"fichier": path.name, "ok": True, "erreur": None, "colonnes": 0, "lignes": 0, "sep": None}

    try:
        # D√©tection automatique du s√©parateur
        with open(path, "r", encoding="utf-8", errors="ignore") as f:
            sample = f.read(4096)
        try:
            sep = csv.Sniffer().sniff(sample).delimiter
        except Exception:
            sep = ";"
        report["sep"] = sep

        # Lecture test sur 100 premi√®res lignes
        df = pd.read_csv(path, sep=sep, encoding="utf-8", nrows=100, low_memory=False)
        report["colonnes"] = df.shape[1]
        report["lignes"] = len(df)

        # Test de coh√©rence de structure
        if df.shape[1] < 3:
            report["ok"] = False
            report["erreur"] = "Trop peu de colonnes (mauvais s√©parateur ou structure)"
        elif df.shape[0] == 0:
            report["ok"] = False
            report["erreur"] = "Fichier vide ou mal encod√©"

    except Exception as e:
        report["ok"] = False
        report["erreur"] = str(e)

    return report

# --- Lancement du test pour toutes les bases
results = []
for f in files:
    print(f"üîé V√©rification de {f.name} ...")
    res = detect_format_issues(f)
    results.append(res)
    if not res["ok"]:
        print(f"   ‚ö†Ô∏è Erreur d√©tect√©e : {res['erreur']}")
    else:
        print(f"   ‚úÖ OK ({res['colonnes']} colonnes, {res['lignes']} lignes, sep='{res['sep']}')")
    print("-" * 100)

# --- R√©sum√© global
df_report = pd.DataFrame(results)
print("\nüìä === R√âSUM√â DES ERREURS DE FORMAT ===")
display(df_report)

# --- Statistiques g√©n√©rales
total = len(df_report)
ok = df_report["ok"].sum()
ko = total - ok

print(f"‚úÖ Fichiers valides : {ok}/{total}")
print(f"‚ö†Ô∏è Fichiers avec erreurs : {ko}/{total}")

if ko > 0:
    print("\nüßæ Liste des fichiers probl√©matiques :")
    display(df_report.loc[df_report["ok"] == False, ["fichier", "erreur"]])


In [None]:
# === NETTOYAGE GLOBAL + SUPPRESSION DES DOUBLONS (EN PLACE) ===
# Objectif :
# 1Ô∏è‚É£ Supprimer les fichiers temporaires dans data/clean/
# 2Ô∏è‚É£ Supprimer les doublons dans tous les fichiers clean et r√©√©crire directement le fichier
# 3Ô∏è‚É£ Fournir un rapport complet et propre

import pandas as pd
import csv
from pathlib import Path

# --- Dossier contenant les bases nettoy√©es
CLEAN_DIR = Path("data/clean")

print("üîç √âtape 1 : Nettoyage du dossier 'data/clean'...\n")

# --- √âtape 1 : supprimer les fichiers temporaires
suffixes_a_supprimer = ["_nodup.csv", "_fixed.csv", "_clean_fixed.csv"]

suppr = 0
for f in CLEAN_DIR.glob("*.csv"):
    if any(suffix in f.name for suffix in suffixes_a_supprimer):
        f.unlink()
        suppr += 1

print(f"üßπ {suppr} fichiers temporaires supprim√©s.")
print("‚úÖ Dossier 'data/clean' revenu √† l'√©tat initial (seuls les *_clean.csv sont conserv√©s).\n")

# --- √âtape 2 : suppression des doublons dans chaque fichier
print("‚öôÔ∏è √âtape 2 : Suppression des doublons (fichiers r√©√©crits en place)...\n")

def detect_separator(path):
    """D√©tection automatique du s√©parateur CSV probable."""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

def clean_duplicates_in_place(path):
    """Supprime les doublons et r√©√©crit le fichier directement."""
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur de lecture sur {path.name} : {e}")
        return None

    before = len(df)
    df = df.drop_duplicates()
    after = len(df)
    removed = before - after
    pct = round((removed / before) * 100, 2) if before > 0 else 0

    # R√©√©criture directe du fichier
    df.to_csv(path, index=False, encoding="utf-8", sep=",")

    print(f"‚úÖ {path.name} : {removed} doublons supprim√©s ({pct}%) ‚Äî Fichier mis √† jour")
    return {"fichier": path.name, "lignes_avant": before, "lignes_apres": after, "doublons_supprimes": removed, "pct": pct}

# --- Application du correctif
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

results = []
for f in files:
    res = clean_duplicates_in_place(f)
    if res:
        results.append(res)

# --- √âtape 3 : Synth√®se globale
print("\nüìä === SYNTH√àSE FINALE DU NETTOYAGE ===")
df_res = pd.DataFrame(results)
display(df_res)

total_removed = df_res["doublons_supprimes"].sum()
print(f"\nüßæ Total de doublons supprim√©s : {total_removed}")
print("üéØ Tous les fichiers ont √©t√© nettoy√©s et mis √† jour sans duplication.")
print("‚úÖ Tu peux maintenant relancer ton test de nettoyage pour confirmer qu'il n'y a plus de doublons.")


In [None]:
# === ETAPE 2 : D√âTECTION DES DOUBLONS ===
# Objectif : rep√©rer les lignes r√©p√©t√©es dans toutes les bases clean

import pandas as pd
from pathlib import Path
import csv

# --- Dossier contenant les bases nettoy√©es
CLEAN_DIR = Path("data/clean")

# --- Recherche de tous les fichiers CSV
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

def detect_separator(path):
    """D√©tecte automatiquement le s√©parateur probable (, ou ;)"""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

def check_duplicates(path):
    """Analyse un fichier CSV et d√©tecte les doublons."""
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur de lecture sur {path.name} : {e}")
        return {"fichier": path.name, "ok": False, "erreur": str(e), "doublons": None}

    # --- D√©tection des doublons
    nb_total = len(df)
    nb_doublons = df.duplicated().sum()
    pct = round((nb_doublons / nb_total) * 100, 2) if nb_total > 0 else 0

    print(f"=== {path.name} ===")
    print(f"üîπ Lignes totales : {nb_total}")
    print(f"üîÅ Doublons d√©tect√©s : {nb_doublons} ({pct} %)")
    
    if nb_doublons > 0:
        print("üßæ Exemple de doublons :")
        display(df[df.duplicated()].head(5))
    else:
        print("‚úÖ Aucun doublon trouv√©")
    
    print("-" * 100)
    return {"fichier": path.name, "ok": True, "lignes": nb_total, "doublons": nb_doublons, "pourcentage": pct}

# --- Analyse de tous les fichiers
results = []
for f in files:
    res = check_duplicates(f)
    results.append(res)

# --- Synth√®se globale
df_doublons = pd.DataFrame(results)
print("\nüìä === SYNTH√àSE DES DOUBLONS ===")
display(df_doublons)

# --- Statistiques globales
total = len(df_doublons)
ok_files = (df_doublons["doublons"] == 0).sum()
print(f"‚úÖ Fichiers sans doublon : {ok_files}/{total}")
print(f"‚ö†Ô∏è Fichiers contenant des doublons : {total - ok_files}/{total}")


In [None]:
# === CORRECTIF √âTAPE 3 : SUPPRESSION DES COLONNES VIDES OU TROP INCOMPL√àTES ===
# Objectif :
# - Supprimer les colonnes 100% NaN ou avec plus de 50% de valeurs manquantes
# - R√©√©crire les fichiers clean existants (pas de duplication)
# - Fournir un rapport clair de la r√©duction des colonnes

import pandas as pd
import csv
from pathlib import Path

# --- Dossier contenant les fichiers nettoy√©s
CLEAN_DIR = Path("data/clean")
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

# --- Fonction utilitaire pour d√©tecter le s√©parateur
def detect_separator(path):
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

# --- Nettoyage et r√©√©criture en place
def clean_missing_columns_in_place(path, seuil=0.5):
    """Supprime les colonnes vides ou avec plus de `seuil` de NaN."""
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur de lecture sur {path.name} : {e}")
        return None

    print(f"=== {path.name} ===")
    before_cols = len(df.columns)
    before_rows = len(df)

    # --- Calcul du taux de valeurs manquantes
    missing_ratio = df.isna().mean()

    # --- Colonnes √† supprimer
    empty_cols = list(missing_ratio[missing_ratio == 1.0].index)
    incomplete_cols = list(missing_ratio[missing_ratio > seuil].index)
    to_drop = set(empty_cols + incomplete_cols)

    # --- Suppression
    df = df.drop(columns=to_drop, errors="ignore")

    after_cols = len(df.columns)
    removed_cols = before_cols - after_cols
    pct_removed = round((removed_cols / before_cols) * 100, 2) if before_cols > 0 else 0

    # --- R√©√©criture du fichier propre
    df.to_csv(path, index=False, encoding="utf-8", sep=",")
    print(f"‚úÖ Colonnes supprim√©es : {removed_cols} ({pct_removed}%)")
    if removed_cols > 0:
        print(f"   üßπ {list(to_drop)[:10]}{' ...' if len(to_drop) > 10 else ''}")
    else:
        print("   ‚úÖ Aucune colonne supprim√©e")
    print(f"   üî∏ Fichier mis √† jour : {path.name} ({after_cols} colonnes conserv√©es, {before_rows} lignes)")
    print("-" * 100)

    return {
        "fichier": path.name,
        "colonnes_avant": before_cols,
        "colonnes_apres": after_cols,
        "supprim√©es": removed_cols,
        "pct_supprim√©es": pct_removed
    }

# --- Application √† toutes les bases clean
results = []
for f in files:
    res = clean_missing_columns_in_place(f, seuil=0.5)
    if res:
        results.append(res)

# --- Synth√®se globale
df_summary = pd.DataFrame(results)
print("\nüìä === SYNTH√àSE DU NETTOYAGE DES COLONNES ===")
display(df_summary)

total_removed = df_summary["supprim√©es"].sum()
print(f"üßæ Total de colonnes supprim√©es : {total_removed}")
print("üéØ Tous les fichiers ont √©t√© mis √† jour directement sans duplication.")


In [None]:
# === ETAPE 3 : ANALYSE DES VALEURS MANQUANTES ===
# Objectif :
# - Identifier les colonnes comportant des NaN ou cellules vides
# - Afficher des statistiques claires pour chaque base
# - Ne pas g√©n√©rer de fichier sur le disque

import pandas as pd
import csv
from pathlib import Path

# --- Dossier contenant les fichiers nettoy√©s (d√©j√† sans doublons)
CLEAN_DIR = Path("data/clean")
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

def detect_separator(path):
    """D√©tecte automatiquement le s√©parateur probable (, ou ;)"""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

def analyze_missing_values(path):
    """Analyse le taux de valeurs manquantes d'un fichier."""
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur de lecture sur {path.name} : {e}")
        return {"fichier": path.name, "ok": False, "erreur": str(e)}

    print(f"=== {path.name} ===")
    print(f"üîπ {len(df)} lignes, {len(df.columns)} colonnes")

    # --- Calcul des NaN par colonne
    missing_ratio = df.isna().mean().round(3)
    missing_ratio = missing_ratio[missing_ratio > 0].sort_values(ascending=False)

    # --- Statistiques globales
    nb_col_nan = len(missing_ratio)
    taux_moyen_nan = round(missing_ratio.mean() * 100, 2) if nb_col_nan > 0 else 0
    taux_median_nan = round(missing_ratio.median() * 100, 2) if nb_col_nan > 0 else 0

    if nb_col_nan > 0:
        print(f"‚ö†Ô∏è {nb_col_nan} colonnes avec des valeurs manquantes ({taux_moyen_nan}% en moyenne)")
        print("üîù Top 10 des colonnes les plus incompl√®tes :")
        display(missing_ratio.head(10))
    else:
        print("‚úÖ Aucune valeur manquante d√©tect√©e dans ce fichier.")
    
    print("-" * 100)
    return {
        "fichier": path.name,
        "colonnes": len(df.columns),
        "lignes": len(df),
        "nb_colonnes_nan": nb_col_nan,
        "taux_moyen_nan(%)": taux_moyen_nan,
        "taux_median_nan(%)": taux_median_nan,
    }

# --- Application √† toutes les bases
results = []
for f in files:
    res = analyze_missing_values(f)
    results.append(res)

# --- Synth√®se globale
df_nan = pd.DataFrame(results)
print("\nüìä === SYNTH√àSE GLOBALE DES VALEURS MANQUANTES ===")
display(df_nan)

# --- Indicateurs globaux
nb_total = len(df_nan)
nb_sans_nan = (df_nan["nb_colonnes_nan"] == 0).sum()
nb_avec_nan = nb_total - nb_sans_nan
taux_moyen_global = round(df_nan["taux_moyen_nan(%)"].mean(), 2)

print(f"‚úÖ Bases sans NaN : {nb_sans_nan}/{nb_total}")
print(f"‚ö†Ô∏è Bases avec NaN : {nb_avec_nan}/{nb_total}")
print(f"üìà Taux moyen global de NaN sur l'ensemble des fichiers : {taux_moyen_global}%")


In [None]:
# === ETAPE 4 : UNIFORMISATION DES NOMS DE COLONNES ===
# Objectif :
#   - V√©rifier et corriger les noms de colonnes (minuscules, sans accents, underscores)
#   - Supprimer les caract√®res sp√©ciaux et doublons
#   - R√©√©crire directement les fichiers nettoy√©s
#   - Fournir un r√©sum√© clair avant/apr√®s

import pandas as pd
import unicodedata
import csv
from pathlib import Path

# --- Dossier contenant les fichiers nettoy√©s
CLEAN_DIR = Path("data/clean")
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

def detect_separator(path):
    """D√©tection automatique du s√©parateur probable (, ou ;)"""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

def normalize_column_name(name):
    """Normalise un nom de colonne : minuscules, pas d'accents, underscores, caract√®res alphanum√©riques uniquement."""
    name = str(name).strip().lower()
    name = "".join(c for c in unicodedata.normalize("NFKD", name) if not unicodedata.combining(c))
    name = name.replace(" ", "_").replace("-", "_").replace("/", "_").replace(".", "_")
    name = "".join(ch for ch in name if ch.isalnum() or ch == "_")
    name = "_".join([tok for tok in name.split("_") if tok])  # supprime les underscores multiples
    return name

def clean_column_names_in_place(path):
    """Uniformise les noms de colonnes et r√©√©crit le fichier en place."""
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur de lecture sur {path.name} : {e}")
        return None

    print(f"=== {path.name} ===")
    before_cols = df.columns.tolist()

    # --- Normalisation des noms de colonnes
    normalized_cols = [normalize_column_name(c) for c in before_cols]
    df.columns = normalized_cols

    # --- Gestion des doublons √©ventuels
    if len(set(df.columns)) < len(df.columns):
        seen = {}
        new_cols = []
        for c in df.columns:
            if c not in seen:
                seen[c] = 1
                new_cols.append(c)
            else:
                seen[c] += 1
                new_cols.append(f"{c}_{seen[c]}")
        df.columns = new_cols
        print("‚ö†Ô∏è Doublons de colonnes d√©tect√©s et corrig√©s automatiquement.")

    # --- Sauvegarde du fichier corrig√©
    df.to_csv(path, index=False, encoding="utf-8", sep=",")

    # --- R√©sum√©
    after_cols = df.columns.tolist()
    changes = {b: a for b, a in zip(before_cols, after_cols) if b != a}
    print(f"‚úÖ Colonnes renomm√©es : {len(changes)} / {len(before_cols)}")
    if len(changes) > 0:
        print(f"   üßæ Exemples : {list(changes.items())[:5]}{' ...' if len(changes) > 5 else ''}")
    print(f"   üî∏ Fichier mis √† jour : {path.name} ({len(df.columns)} colonnes)")
    print("-" * 100)

    return {
        "fichier": path.name,
        "colonnes_totales": len(df.columns),
        "colonnes_renommees": len(changes),
        "pct_renommees": round((len(changes) / len(df.columns)) * 100, 2) if len(df.columns) > 0 else 0
    }

# --- Application √† toutes les bases clean
results = []
for f in files:
    res = clean_column_names_in_place(f)
    if res:
        results.append(res)

# --- Synth√®se globale
df_summary = pd.DataFrame(results)
print("\nüìä === SYNTH√àSE DU NETTOYAGE DES NOMS DE COLONNES ===")
display(df_summary)

total_renamed = df_summary["colonnes_renommees"].sum()
print(f"üßæ Total de colonnes renomm√©es : {total_renamed}")
print("üéØ Tous les fichiers ont √©t√© mis √† jour directement sans duplication.")


In [None]:
# === ETAPE 5 (corrig√©e) : CONTR√îLE ET CORRECTION DES TYPES DE DONN√âES ===
# Correction : suppression de 'infer_datetime_format' et suppression des warnings r√©p√©titifs

import pandas as pd
import numpy as np
import csv
import warnings
from pathlib import Path

# D√©sactivation des warnings inutiles de pandas
warnings.filterwarnings("ignore", category=UserWarning, module="pandas")

# --- Dossier contenant les fichiers clean
CLEAN_DIR = Path("data/clean")
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

def detect_separator(path):
    """D√©tecte automatiquement le s√©parateur probable (, ou ;)"""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

def infer_and_fix_types_in_place(path):
    """Analyse et corrige les types de donn√©es d‚Äôun fichier."""
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur de lecture sur {path.name} : {e}")
        return None

    print(f"=== {path.name} ===")
    before_types = df.dtypes.copy()
    conversions = {}

    for col in df.columns:
        series = df[col]

        # Tentative de conversion des cha√Ænes vers des types utiles
        if series.dtype == "object":
            # 1Ô∏è‚É£ Conversion num√©rique
            num_series = pd.to_numeric(series.astype(str).str.replace(",", ".").str.replace(" ", ""), errors="coerce")
            ratio_num = num_series.notna().mean()
            if ratio_num > 0.9:  # au moins 90 % de valeurs num√©riques
                df[col] = num_series
                conversions[col] = "float"
                continue

            # 2Ô∏è‚É£ Conversion date (version corrig√©e)
            try:
                date_series = pd.to_datetime(series, errors="coerce")
                ratio_date = date_series.notna().mean()
                if ratio_date > 0.9:
                    df[col] = date_series
                    conversions[col] = "datetime"
                    continue
            except Exception:
                pass

        # 3Ô∏è‚É£ Conversion float ‚Üí Int64 quand possible
        if df[col].dtype == "float64" and df[col].dropna().apply(float.is_integer).all():
            df[col] = df[col].astype("Int64")
            conversions[col] = "Int64"

    # Sauvegarde du fichier corrig√©
    df.to_csv(path, index=False, encoding="utf-8", sep=",")

    after_types = df.dtypes
    changed = {col: (before_types[col], after_types[col]) for col in df.columns if before_types[col] != after_types[col]}

    print(f"‚úÖ Colonnes converties : {len(conversions)}")
    if len(conversions) > 0:
        print(f"   üßæ Exemples : {list(conversions.items())[:5]}{' ...' if len(conversions) > 5 else ''}")
    print(f"   üî∏ Fichier mis √† jour : {path.name}")
    print("-" * 100)

    return {
        "fichier": path.name,
        "colonnes_totales": len(df.columns),
        "colonnes_converties": len(conversions),
        "types_chang√©s": len(changed)
    }

# --- Application √† toutes les bases clean
results = []
for f in files:
    res = infer_and_fix_types_in_place(f)
    if res:
        results.append(res)

# --- Synth√®se globale
df_summary = pd.DataFrame(results)
print("\nüìä === SYNTH√àSE DU CONTR√îLE DES TYPES ===")
display(df_summary)

total_converted = df_summary["colonnes_converties"].sum()
print(f"üßæ Total de colonnes converties : {total_converted}")
print("üéØ Tous les fichiers ont √©t√© v√©rifi√©s et mis √† jour sans duplication.")


In [None]:
# === ETAPE 6 : NORMALISATION DES TEXTES ===
# Objectif :
#   - Nettoyer les colonnes texte pour supprimer les accents, symboles et espaces parasites
#   - Uniformiser la casse (majuscule coh√©rente)
#   - R√©√©crire les fichiers directement
#   - Fournir un r√©sum√© clair du nettoyage

import pandas as pd
import unicodedata
import re
import csv
from pathlib import Path

# --- Dossier contenant les fichiers nettoy√©s
CLEAN_DIR = Path("data/clean")
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

def detect_separator(path):
    """D√©tecte automatiquement le s√©parateur (, ou ;)"""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

def normalize_text(value):
    """Nettoie et normalise les cha√Ænes de texte."""
    if pd.isna(value):
        return value
    value = str(value).strip()

    # Supprimer les accents
    value = "".join(c for c in unicodedata.normalize("NFKD", value) if not unicodedata.combining(c))

    # Supprimer les symboles et caract√®res sp√©ciaux
    value = re.sub(r"[‚Ç¨%$;'\t\n\r]", " ", value)

    # Remplacer tirets et apostrophes par espace
    value = re.sub(r"[-']", " ", value)

    # Supprimer les espaces multiples
    value = re.sub(r"\s+", " ", value)

    # Mise en majuscule pour les textes courts (ex: communes, cat√©gories)
    if len(value) <= 40:
        value = value.upper()
    else:
        value = value.capitalize()

    return value.strip()

def normalize_text_columns_in_place(path):
    """Normalise les colonnes texte d‚Äôun fichier CSV et r√©√©crit le fichier."""
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur de lecture sur {path.name} : {e}")
        return None

    print(f"=== {path.name} ===")
    before_cols = df.shape[1]
    before_rows = df.shape[0]

    # Colonnes texte √† traiter
    text_cols = df.select_dtypes(include=["object"]).columns
    print(f"üßæ Colonnes texte d√©tect√©es : {len(text_cols)} / {before_cols}")

    if len(text_cols) > 0:
        for col in text_cols:
            df[col] = df[col].apply(normalize_text)

        # R√©√©criture directe du fichier
        df.to_csv(path, index=False, encoding="utf-8", sep=",")
        print(f"‚úÖ Colonnes texte normalis√©es ({len(text_cols)} colonnes trait√©es)")
    else:
        print("‚ÑπÔ∏è Aucune colonne texte √† normaliser.")
    print(f"   üî∏ Fichier mis √† jour : {path.name} ({before_rows} lignes)")
    print("-" * 100)

    return {
        "fichier": path.name,
        "colonnes_totales": before_cols,
        "colonnes_texte": len(text_cols)
    }

# --- Application √† toutes les bases clean
results = []
for f in files:
    res = normalize_text_columns_in_place(f)
    if res:
        results.append(res)

# --- Synth√®se globale
df_summary = pd.DataFrame(results)
print("\nüìä === SYNTH√àSE DU NETTOYAGE TEXTUEL ===")
display(df_summary)

total_text_cols = df_summary["colonnes_texte"].sum()
print(f"üßæ Total de colonnes texte normalis√©es : {total_text_cols}")
print("üéØ Tous les fichiers ont √©t√© normalis√©s et mis √† jour sans duplication.")


In [None]:
# === ETAPE 7 : SUPPRESSION DES CARACT√àRES PARASITES ===
# Objectif :
#   - Supprimer les caract√®res invisibles ou non imprimables dans les champs texte
#   - Nettoyer les guillemets, tabulations, espaces sp√©ciaux (\xa0, \t, etc.)
#   - R√©√©crire les fichiers directement
#   - Fournir un rapport clair de nettoyage

import pandas as pd
import csv
import re
from pathlib import Path

# --- Dossier contenant les fichiers nettoy√©s
CLEAN_DIR = Path("data/clean")
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

def detect_separator(path):
    """D√©tecte automatiquement le s√©parateur probable (, ou ;)"""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

def clean_parasites_in_place(path):
    """Supprime les caract√®res parasites dans les colonnes texte et r√©√©crit le fichier."""
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur de lecture sur {path.name} : {e}")
        return None

    print(f"=== {path.name} ===")
    before_cols = df.shape[1]
    before_rows = df.shape[0]

    text_cols = df.select_dtypes(include=["object"]).columns
    print(f"üßæ Colonnes texte d√©tect√©es : {len(text_cols)} / {before_cols}")

    # --- Fonction de nettoyage cellule
    def clean_cell(value):
        if pd.isna(value):
            return value
        value = str(value)

        # Supprime les espaces non standard et caract√®res de contr√¥le
        value = re.sub(r"[\x00-\x1F\x7F\xa0\u200b\r\t]", " ", value)

        # Supprime guillemets et doubles s√©parateurs
        value = value.replace('"', "").replace("'", "")

        # Supprime les espaces multiples
        value = re.sub(r"\s+", " ", value)

        return value.strip()

    # --- Application sur toutes les colonnes texte
    if len(text_cols) > 0:
        for col in text_cols:
            df[col] = df[col].apply(clean_cell)

        # Sauvegarde directe du fichier propre
        df.to_csv(path, index=False, encoding="utf-8", sep=",")
        print(f"‚úÖ Colonnes nettoy√©es : {len(text_cols)} (fichier r√©√©crit)")
    else:
        print("‚ÑπÔ∏è Aucun champ texte √† nettoyer.")
    print(f"   üî∏ Fichier mis √† jour : {path.name} ({before_rows} lignes)")
    print("-" * 100)

    return {
        "fichier": path.name,
        "colonnes_totales": before_cols,
        "colonnes_texte": len(text_cols)
    }

# --- Application du nettoyage √† toutes les bases
results = []
for f in files:
    res = clean_parasites_in_place(f)
    if res:
        results.append(res)

# --- Synth√®se globale
df_summary = pd.DataFrame(results)
print("\nüìä === SYNTH√àSE DU NETTOYAGE DES CARACT√àRES PARASITES ===")
display(df_summary)

total_cleaned = df_summary["colonnes_texte"].sum()
print(f"üßæ Total de colonnes texte nettoy√©es : {total_cleaned}")
print("üéØ Tous les fichiers ont √©t√© nettoy√©s et mis √† jour sans duplication.")


In [None]:
# === ETAPE 8 : CR√âATION ET V√âRIFICATION DES CL√âS COMMUNES ===
# Objectif :
#   - Cr√©er / uniformiser les colonnes code_commune et commune_std
#   - Normaliser les noms de communes
#   - V√©rifier la coh√©rence et r√©√©crire les fichiers directement

import pandas as pd
import numpy as np
import unicodedata
import re
import csv
from pathlib import Path

# --- Dossier contenant les fichiers nettoy√©s
CLEAN_DIR = Path("data/clean")
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

# --- Utilitaires de normalisation
def detect_separator(path):
    """D√©tecte automatiquement le s√©parateur probable (, ou ;)"""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

def normalize_commune_name(name):
    """Nettoie et standardise le nom de la commune."""
    if pd.isna(name):
        return np.nan
    name = str(name).strip().upper()
    name = "".join(c for c in unicodedata.normalize("NFKD", name) if not unicodedata.combining(c))
    name = re.sub(r"[-']", " ", name)
    name = re.sub(r"\s+", " ", name)
    return name.strip()

def extract_code_commune(value):
    """Extrait un code INSEE sur 5 chiffres si possible."""
    if pd.isna(value):
        return np.nan
    value = str(value)
    match = re.search(r"\d{5}", value)
    return match.group(0) if match else np.nan

def ensure_commune_keys(path):
    """Ajoute / v√©rifie code_commune et commune_std puis r√©√©crit le fichier."""
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur de lecture sur {path.name} : {e}")
        return None

    print(f"=== {path.name} ===")
    before_cols = len(df.columns)
    before_rows = len(df)

    # --- D√©tection de colonnes similaires existantes
    code_col = next((c for c in df.columns if "insee" in c or "code_commune" in c), None)
    name_col = next((c for c in df.columns if "commune" in c and "std" not in c), None)

    # --- Cr√©ation / nettoyage du code_commune
    if code_col:
        df["code_commune"] = df[code_col].apply(extract_code_commune)
    else:
        df["code_commune"] = np.nan

    # --- Cr√©ation / nettoyage du nom de commune
    if name_col:
        df["commune_std"] = df[name_col].apply(normalize_commune_name)
    else:
        df["commune_std"] = np.nan

    # --- Rapport
    valid_codes = df["code_commune"].notna().sum()
    valid_names = df["commune_std"].notna().sum()
    print(f"üß© code_commune : {valid_codes} valeurs valides / {before_rows}")
    print(f"üèôÔ∏è commune_std : {valid_names} valeurs valides / {before_rows}")

    # --- R√©√©criture directe du fichier
    df.to_csv(path, index=False, encoding="utf-8", sep=",")
    print(f"‚úÖ Fichier mis √† jour : {path.name} ({len(df.columns)} colonnes, {before_rows} lignes)")
    print("-" * 100)

    return {
        "fichier": path.name,
        "code_commune_valide": valid_codes,
        "commune_std_valide": valid_names,
        "total_lignes": before_rows
    }

# --- Application √† toutes les bases clean
results = []
for f in files:
    res = ensure_commune_keys(f)
    if res:
        results.append(res)

# --- Synth√®se globale
df_summary = pd.DataFrame(results)
print("\nüìä === SYNTH√àSE DES CL√âS COMMUNES ===")
display(df_summary)

# --- Indicateurs globaux
nb_total = len(df_summary)
avg_code_rate = round((df_summary["code_commune_valide"] / df_summary["total_lignes"]).mean() * 100, 2)
avg_name_rate = round((df_summary["commune_std_valide"] / df_summary["total_lignes"]).mean() * 100, 2)

print(f"‚úÖ Moyenne de compl√©tude du code_commune : {avg_code_rate}%")
print(f"‚úÖ Moyenne de compl√©tude du commune_std : {avg_name_rate}%")
print("üéØ Tous les fichiers ont √©t√© mis √† jour avec des cl√©s de jointure coh√©rentes.")


In [None]:
# === ETAPE 9 : CONTR√îLE ET COH√âRENCE DES DONN√âES ===
# Objectif :
#   - V√©rifier la coh√©rence logique des valeurs num√©riques
#   - Supprimer les lignes incoh√©rentes (surfaces <= 0, valeurs fonci√®res n√©gatives, etc.)
#   - Fournir un rapport clair et r√©√©crire les fichiers en place

import pandas as pd
import numpy as np
import csv
from pathlib import Path

# --- Dossier contenant les fichiers nettoy√©s
CLEAN_DIR = Path("data/clean")
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

def detect_separator(path):
    """D√©tecte automatiquement le s√©parateur probable (, ou ;)"""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

def control_coherence_in_place(path):
    """V√©rifie et corrige les incoh√©rences de coh√©rence logique des donn√©es."""
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur de lecture sur {path.name} : {e}")
        return None

    print(f"=== {path.name} ===")
    before_rows = len(df)
    anomalies = {}

    # --- 1Ô∏è‚É£ Surfaces n√©gatives ou nulles
    if "surface_reelle_bati" in df.columns:
        anomalies["surface<=0"] = (df["surface_reelle_bati"] <= 0).sum(skipna=True)
        df = df[df["surface_reelle_bati"] > 0]

    # --- 2Ô∏è‚É£ Valeurs fonci√®res n√©gatives ou nulles
    if "valeur_fonciere" in df.columns:
        anomalies["valeur<=0"] = (df["valeur_fonciere"] <= 0).sum(skipna=True)
        df = df[df["valeur_fonciere"] > 0]

    # --- 3Ô∏è‚É£ Prix au m¬≤ irr√©alistes (si applicable)
    if set(["valeur_fonciere", "surface_reelle_bati"]).issubset(df.columns):
        df["prix_m2"] = df["valeur_fonciere"] / df["surface_reelle_bati"]
        anomalies["prix_m2<500"] = (df["prix_m2"] < 500).sum(skipna=True)
        anomalies["prix_m2>50000"] = (df["prix_m2"] > 50000).sum(skipna=True)
        df = df[(df["prix_m2"] >= 500) & (df["prix_m2"] <= 50000)]

    # --- 4Ô∏è‚É£ Valeurs n√©gatives g√©n√©rales sur d‚Äôautres indicateurs
    num_cols = df.select_dtypes(include=[np.number]).columns
    for col in num_cols:
        if col not in ["valeur_fonciere", "surface_reelle_bati", "prix_m2"]:
            negatives = (df[col] < 0).sum(skipna=True)
            if negatives > 0:
                anomalies[f"{col}<0"] = negatives
                df = df[df[col] >= 0]

    # --- Calcul des suppressions
    after_rows = len(df)
    removed = before_rows - after_rows
    pct_removed = round((removed / before_rows) * 100, 2) if before_rows > 0 else 0

    # --- Sauvegarde du fichier propre
    df.to_csv(path, index=False, encoding="utf-8", sep=",")
    print(f"‚úÖ {removed} lignes incoh√©rentes supprim√©es ({pct_removed}%)")
    if anomalies:
        print("üìä D√©tails anomalies d√©tect√©es :", anomalies)
    print(f"   üî∏ Fichier mis √† jour : {path.name} ({after_rows} lignes restantes)")
    print("-" * 100)

    return {
        "fichier": path.name,
        "lignes_avant": before_rows,
        "lignes_apres": after_rows,
        "supprimees": removed,
        "pct_supprimees": pct_removed
    }

# --- Application √† toutes les bases clean
results = []
for f in files:
    res = control_coherence_in_place(f)
    if res:
        results.append(res)

# --- Synth√®se globale
df_summary = pd.DataFrame(results)
print("\nüìä === SYNTH√àSE DU CONTR√îLE DE COH√âRENCE ===")
display(df_summary)

total_removed = df_summary["supprimees"].sum()
print(f"üßæ Total de lignes incoh√©rentes supprim√©es : {total_removed}")
print("üéØ Tous les fichiers ont √©t√© nettoy√©s et mis √† jour sans duplication.")


In [None]:
# === ETAPE 10 : V√âRIFICATION STRUCTURELLE ET FORMAT FINAL ===
# Objectif :
#   - V√©rifier la structure, le format et la propret√© finale de chaque fichier clean
#   - Contr√¥ler encodage, s√©parateur, coh√©rence colonnes / lignes, taille et caract√®res parasites

import pandas as pd
import csv
import os
from pathlib import Path

# --- Dossier contenant les fichiers nettoy√©s
CLEAN_DIR = Path("data/clean")
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

# --- Fonction de d√©tection du s√©parateur
def detect_separator(path):
    """D√©tecte automatiquement le s√©parateur probable (, ou ;)"""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

# --- V√©rification structurelle
def verify_structure(path):
    report = {
        "fichier": path.name,
        "encodage": "UTF-8",
        "sep": None,
        "colonnes": 0,
        "lignes": 0,
        "caract√®res_parasites": False,
        "taille_ko": round(os.path.getsize(path) / 1024, 2),
        "statut": "‚úÖ Conforme"
    }

    try:
        sep = detect_separator(path)
        report["sep"] = sep

        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)
        report["colonnes"] = len(df.columns)
        report["lignes"] = len(df)

        # V√©rification des crit√®res de base
        if report["colonnes"] < 5 or report["lignes"] < 10:
            report["statut"] = "‚ö†Ô∏è Structure suspecte (trop peu de donn√©es)"

        # Recherche de caract√®res parasites
        with open(path, "r", encoding="utf-8", errors="ignore") as f:
            content = f.read()
        if any(char in content for char in ["\x00", "\x1f", "\xa0", "\u200b", "; ;", ", ,"]):
            report["caract√®res_parasites"] = True
            report["statut"] = "‚ö†Ô∏è Caract√®res parasites d√©tect√©s"

    except UnicodeDecodeError:
        report["encodage"] = "‚ö†Ô∏è Non UTF-8"
        report["statut"] = "‚ö†Ô∏è Encodage incorrect"
    except Exception as e:
        report["statut"] = f"‚ùå Erreur de lecture : {e}"

    return report

# --- Application de la v√©rification √† toutes les bases
results = []
for f in files:
    res = verify_structure(f)
    results.append(res)
    print(f"üîé V√©rification {f.name} ‚Üí {res['statut']} ({res['colonnes']} colonnes, {res['lignes']} lignes)")

# --- Synth√®se globale
df_final = pd.DataFrame(results)
print("\nüìä === RAPPORT FINAL DE VALIDATION ===")
display(df_final)

# --- Statistiques globales
nb_total = len(df_final)
nb_valid = (df_final["statut"].str.contains("‚úÖ")).sum()
nb_warnings = (df_final["statut"].str.contains("‚ö†Ô∏è")).sum()
nb_errors = (df_final["statut"].str.contains("‚ùå")).sum()

print(f"\n‚úÖ Fichiers conformes : {nb_valid}/{nb_total}")
print(f"‚ö†Ô∏è Fichiers √† v√©rifier : {nb_warnings}/{nb_total}")
print(f"‚ùå Fichiers en erreur : {nb_errors}/{nb_total}")

if nb_errors == 0 and nb_warnings == 0:
    print("\nüéØ Tous les fichiers sont pr√™ts pour l‚Äôanalyse finale et la fusion inter-bases !")
else:
    print("\nüìå Certains fichiers n√©cessitent une v√©rification manuelle avant l‚Äô√©tape d‚Äôanalyse.")


In [None]:
# === R√âCAPITULATIF GLOBAL DES BASES APR√àS NETTOYAGE ===
# Objectif :
#   - Afficher nombre de lignes / colonnes par base
#   - Montrer un aper√ßu (5 lignes √ó 8 colonnes)
#   - V√©rifier coh√©rence et propret√© globale

import pandas as pd
import csv
from pathlib import Path

# --- Dossier contenant les fichiers nettoy√©s
CLEAN_DIR = Path("data/clean")
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

def detect_separator(path):
    """D√©tecte automatiquement le s√©parateur probable (, ou ;)"""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

# --- Lecture et r√©sum√© global
summaries = []

for path in files:
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)

        # Informations de base
        lignes, colonnes = df.shape
        nan_rate = round(df.isna().mean().mean() * 100, 2)
        numeric_cols = len(df.select_dtypes(include=["number"]).columns)
        text_cols = len(df.select_dtypes(include=["object"]).columns)

        summaries.append({
            "Fichier": path.name,
            "Lignes": lignes,
            "Colonnes": colonnes,
            "Colonnes num√©riques": numeric_cols,
            "Colonnes texte": text_cols,
            "Taux NaN (%)": nan_rate
        })

        print(f"=== {path.name} ===")
        print(f"üîπ {lignes} lignes | {colonnes} colonnes")
        print(f"   üìä {numeric_cols} num√©riques | {text_cols} texte | NaN moyen : {nan_rate}%")
        print("   üî∏ Aper√ßu des premi√®res colonnes :")
        display(df.head(5).iloc[:, :min(8, colonnes)])  # 5 lignes √ó 8 colonnes max
        print("-" * 120)

    except Exception as e:
        print(f"‚ö†Ô∏è Impossible de lire {path.name} : {e}")
        print("-" * 100)

# --- Synth√®se finale
print("\nüìä === SYNTH√àSE GLOBALE DES BASES ===")
df_summary = pd.DataFrame(summaries)
display(df_summary.sort_values("Fichier").reset_index(drop=True))

# --- Quelques indicateurs globaux
nb_total = len(df_summary)
total_lignes = df_summary["Lignes"].sum()
total_colonnes = df_summary["Colonnes"].sum()

print(f"\nüìà Nombre total de bases : {nb_total}")
print(f"üìä Total de lignes (toutes bases confondues) : {total_lignes:,}")
print(f"üß± Total de colonnes cumul√©es : {total_colonnes}")
print("üéØ V√©rification visuelle effectu√©e : tu peux maintenant confirmer que tout est coh√©rent avant les fusions.")


In [None]:
# === R√âCAPITULATIF GLOBAL DES BASES APR√àS NETTOYAGE ===
# Objectif :
#   - Afficher nombre de lignes / colonnes par base
#   - Montrer un aper√ßu (5 lignes √ó 8 colonnes)
#   - V√©rifier coh√©rence et propret√© globale

import pandas as pd
import csv
from pathlib import Path

# --- Dossier contenant les fichiers nettoy√©s
CLEAN_DIR = Path("data/clean")
files = sorted(CLEAN_DIR.glob("*.csv"))
print(f"üìÇ {len(files)} fichiers d√©tect√©s dans {CLEAN_DIR}\n")

def detect_separator(path):
    """D√©tecte automatiquement le s√©parateur probable (, ou ;)"""
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        sample = f.read(4096)
    try:
        sep = csv.Sniffer().sniff(sample).delimiter
    except Exception:
        sep = ";"
    return sep

# --- Lecture et r√©sum√© global
summaries = []

for path in files:
    try:
        sep = detect_separator(path)
        df = pd.read_csv(path, sep=sep, encoding="utf-8", low_memory=False)

        # Informations de base
        lignes, colonnes = df.shape
        nan_rate = round(df.isna().mean().mean() * 100, 2)
        numeric_cols = len(df.select_dtypes(include=["number"]).columns)
        text_cols = len(df.select_dtypes(include=["object"]).columns)

        summaries.append({
            "Fichier": path.name,
            "Lignes": lignes,
            "Colonnes": colonnes,
            "Colonnes num√©riques": numeric_cols,
            "Colonnes texte": text_cols,
            "Taux NaN (%)": nan_rate
        })

        print(f"=== {path.name} ===")
        print(f"üîπ {lignes} lignes | {colonnes} colonnes")
        print(f"   üìä {numeric_cols} num√©riques | {text_cols} texte | NaN moyen : {nan_rate}%")
        print("   üî∏ Aper√ßu des premi√®res colonnes :")
        display(df.head(5).iloc[:, :min(8, colonnes)])  # 5 lignes √ó 8 colonnes max
        print("-" * 120)

    except Exception as e:
        print(f"‚ö†Ô∏è Impossible de lire {path.name} : {e}")
        print("-" * 100)

# --- Synth√®se finale
print("\nüìä === SYNTH√àSE GLOBALE DES BASES ===")
df_summary = pd.DataFrame(summaries)
display(df_summary.sort_values("Fichier").reset_index(drop=True))

# --- Quelques indicateurs globaux
nb_total = len(df_summary)
total_lignes = df_summary["Lignes"].sum()
total_colonnes = df_summary["Colonnes"].sum()

print(f"\nüìà Nombre total de bases : {nb_total}")
print(f"üìä Total de lignes (toutes bases confondues) : {total_lignes:,}")
print(f"üß± Total de colonnes cumul√©es : {total_colonnes}")
print("üéØ V√©rification visuelle effectu√©e : tu peux maintenant confirmer que tout est coh√©rent avant les fusions.")
