In [2]:

# ===============================================================
# üì• NE PAS EXECUTER C'EST UN FICHIER QUI A DEJA √©t√© EXECUTER
# ===============================================================







import pandas as pd
import numpy as np

# ===============================================================
# üì• Lecture du fichier source
# ===============================================================
nom_fichier = 'statistiques_communes_dvf_2020_2024.csv'
stats = pd.read_csv(nom_fichier, sep=';', low_memory=False)

# Nettoyage de base
stats = stats.dropna(subset=['nom_commune', 'annee'])
stats['annee'] = pd.to_numeric(stats['annee'], errors='coerce')
stats = stats.dropna(subset=['annee'])
stats['annee'] = stats['annee'].astype(int)

# ===============================================================
# üèôÔ∏è D√©tection et fusion des arrondissements (Paris, Lyon, Marseille)
# ===============================================================
def ville_simplifiee(nom):
    nom = str(nom)
    if nom.lower().startswith("paris"):
        return "Paris"
    elif nom.lower().startswith("lyon"):
        return "Lyon"
    elif nom.lower().startswith("marseille"):
        return "Marseille"
    else:
        return nom

stats['ville'] = stats['nom_commune'].apply(ville_simplifiee)

# On d√©tecte les colonnes num√©riques (pour les agr√©ger)
colonnes_numeriques = stats.select_dtypes(include=[np.number]).columns.tolist()
colonnes_non_num = [c for c in stats.columns if c not in colonnes_numeriques]

# Agr√©gation par ville et ann√©e :
# - Pour les colonnes num√©riques ‚Üí somme (ou moyenne pond√©r√©e si applicable)
# - Pour les colonnes non num√©riques ‚Üí premi√®re valeur (logique pour une donn√©e descriptive)
def aggreg_flexible(df):
    data = {}
    for col in df.columns:
        if col in colonnes_numeriques:
            if col == 'prix_m2_moyen' and 'nb_transactions' in df.columns:
                data[col] = (df['prix_m2_moyen'] * df['nb_transactions']).sum() / df['nb_transactions'].sum()
            else:
                data[col] = df[col].sum()
        elif col == 'nom_commune':
            data[col] = df['ville'].iloc[0]  # remplace par "Paris", "Lyon" ou "Marseille"
        else:
            data[col] = df[col].dropna().iloc[0] if not df[col].dropna().empty else np.nan
    return pd.Series(data)

agg = (
    stats.groupby(['ville', 'annee'], dropna=False)
    .apply(aggreg_flexible)
    .reset_index(drop=True)
)

# ===============================================================
# üó∫Ô∏è S√©lection des grandes villes fran√ßaises
# ===============================================================
villes_selection = [
    'Paris', 'Lyon', 'Marseille',
    'Toulouse', 'Bordeaux', 'Montpellier',
    'Lille', 'Rennes', 'Strasbourg', 'Grenoble',
]

# On garde uniquement les villes voulues (insensible √† la casse)
stats_simplifie = agg[agg['ville'].str.lower().isin([v.lower() for v in villes_selection])].copy()

# ===============================================================
# üíæ Enregistrement du CSV simplifi√©
# ===============================================================
fichier_sortie = 'statistiques_grandes_villes_2020_2024_toutes_colonnes.csv'
stats_simplifie.to_csv(fichier_sortie, sep=';', index=False, encoding='utf-8-sig')

print(f"‚úÖ Fichier simplifi√© enregistr√© : {fichier_sortie}")
print(f"Nombre de lignes : {len(stats_simplifie)}")
print(stats_simplifie[['ville', 'annee', 'prix_m2_moyen', 'nb_transactions']].head())

KeyboardInterrupt: 

In [None]:
#TRAITEMENT LOYER VILLE
warnings.filterwarnings('ignore')

# ============================================================================
# SECTION 1 : CHARGEMENT DES FICHIERS CSV PAR VILLE
# ============================================================================

print("="*80)
print("CHARGEMENT DES FICHIERS CSV PAR VILLE")
print("="*80)

# Dictionnaire des villes avec leurs chemins
villes_data = {
    "Paris": "./villes/Base_OP_2024_L7501.csv",
    "Bordeaux": "./villes/Base_OP_2024_L3300.csv",
    "Grenoble": "./villes/Base_OP_2023_L3800.csv",
    "Lille": "./villes/Base_OP_2023_L5900.csv",
    "Lyon": "./villes/Base_OP_2024_L6900.csv",
    "Marseille": "./villes/Base_OP_2024_L1300.csv",
    "Montpellier": "./villes/Base_OP_2024_L3400.csv",
    "Rennes": "./villes/Base_OP_2024_L3500.csv",
    "Toulouse": "./villes/Base_OP_2024_L3100.csv",
}

# Dictionnaire pour stocker les dataframes bruts
dataframes_bruts = {}
status_chargement = {}

# Chargement avec gestion d'erreurs
for ville, chemin in villes_data.items():
    try:
        df = pd.read_csv(chemin, sep=";", encoding="latin-1")

        # POINT DE CONTR√îLE 1 : V√©rifier le chargement brut
        print(f"\n [{ville}] Fichier charg√© avec succ√®s")
        dataframes_bruts[ville] = df
        status_chargement[ville] = "SUCC√àS"

    except FileNotFoundError:
        print(f"\n [{ville}] FICHIER NON TROUV√â")
        print(f"   ‚Üí Chemin : {chemin}")
        status_chargement[ville] = " FICHIER ABSENT"

    except Exception as e:
        print(f"\n‚ùå [{ville}] ERREUR DE CHARGEMENT")
        print(f"   ‚Üí D√©tail : {str(e)[:100]}")
        status_chargement[ville] = f"‚ùå ERREUR"

# ============================================================================
# SECTION 2 : R√âCAPITULATIF DU CHARGEMENT
# ============================================================================

print("\n" + "="*80)
print("üìä R√âCAPITULATIF DU CHARGEMENT")
print("="*80)

for ville in sorted(status_chargement.keys()):
    status = status_chargement[ville]
    print(f"{status} - {ville}")

villes_ok = [v for v, s in status_chargement.items() if "SUCC√àS" in s]
print(f"\n‚ú® Villes charg√©es avec succ√®s : {len(villes_ok)}/{len(villes_data)}")

# ============================================================================
# SECTION 3 : APER√áU DES DONN√âES BRUTES
# ============================================================================

print("\n" + "="*80)
print("üîç APER√áU DES DONN√âES BRUTES (5 premi√®res lignes)")
print("="*80)

for ville in villes_ok:
    df = dataframes_bruts[ville]
    print(f"\nüìç {ville.upper()}")
    print(f"   Shape : {df.shape[0]} lignes √ó {df.shape[1]} colonnes")
    print(f"\n{df.head(5)}")
    print("-" * 80)

# ============================================================================
# SECTION 4 : V√âRIFICATION DES COLONNES IMPORTANTES
# ============================================================================

print("\n" + "="*80)
print("üîé V√âRIFICATION DES COLONNES DISPONIBLES")
print("="*80)

colonnes_utiles_cibles = [
    "agglomeration", "Data_year", "Type_habitat",
    "loyer_median", "loyer_moyen", "loyer_mensuel_median",
    "surface_moyenne", "nombre_observations"
]

print(f"\nColonnes recherch√©es : {colonnes_utiles_cibles}\n")

for ville in villes_ok:
    df = dataframes_bruts[ville]
    print(f"üìç {ville}:")

    for col in colonnes_utiles_cibles:
        if col in df.columns:
            print(f"   ‚úÖ {col}")
        else:
            print(f"   ‚ùå {col} - MANQUANT")

    colonnes_manquantes = [c for c in colonnes_utiles_cibles if c not in df.columns]
    if colonnes_manquantes:
        print(f"   ‚ö†Ô∏è  COLONNES MANQUANTES : {colonnes_manquantes}")
    else:
        print(f"   ‚úì Toutes les colonnes utiles pr√©sentes !")
    print()

print("="*80)
print("‚ú® CHARGEMENT TERMIN√â - Pr√™t pour l'√©tape suivante !")
print("="*80)

# Stocker les dataframes bruts dans une variable globale
globals()['dataframes_bruts'] = dataframes_bruts
globals()['villes_ok'] = villes_ok

print("\nüíæ Variables disponibles pour la prochaine √©tape :")
print("   ‚Ä¢ dataframes_bruts : dictionnaire des dataframes par ville")
print("   ‚Ä¢ villes_ok : liste des villes charg√©es avec succ√®s")






# Pour chaque ville, v√©rifier les colonnes
colonnes_presentes = {}

for ville in villes_ok:
    df = dataframes_bruts[ville]
    print(f"üìç {ville}:")

    colonnes_ok = []
    colonnes_manquantes = []

    for col in colonnes_utiles_cibles:
        if col in df.columns:
            print(f"   ‚úÖ {col}")
            colonnes_ok.append(col)
        else:
            print(f"   ‚ùå {col} - MANQUANT")
            colonnes_manquantes.append(col)

    colonnes_presentes[ville] = {
        "ok": colonnes_ok,
        "manquantes": colonnes_manquantes
    }

    if colonnes_manquantes:
        print(f"   ‚ö†Ô∏è  Colonnes manquantes : {colonnes_manquantes}")
    else:
        print(f"   ‚úì Toutes les colonnes utiles pr√©sentes !")
    print()

# ============================================================================
# SECTION 2 : S√âLECTION DES COLONNES UTILES PAR VILLE
# ============================================================================

print("\n" + "="*80)
print("‚úÇÔ∏è S√âLECTION DES COLONNES UTILES")
print("="*80)

dataframes_clean = {}

for ville in villes_ok:
    df = dataframes_bruts[ville]

    # S√©lectionner uniquement les colonnes qui existent
    colonnes_presentes_ville = colonnes_presentes[ville]["ok"]
    df_clean = df[colonnes_presentes_ville].copy()

    # Ajouter colonne Ville
    df_clean["Ville"] = ville

    dataframes_clean[ville] = df_clean

    print(f"\nüìç {ville}")
    print(f"   Colonnes avant : {df.shape[1]}")
    print(f"   Colonnes apr√®s s√©lection : {df_clean.shape[1]}")
    print(f"   Colonnes finales : {list(df_clean.columns)}")

# ============================================================================
# SECTION 3 : AFFICHAGE DES 5 PREMI√àRES LIGNES NETTOY√âES
# ============================================================================

print("\n" + "="*80)
print("üìã APER√áU DES DONN√âES NETTOY√âES (5 premi√®res lignes)")
print("="*80)

for ville in villes_ok:
    df_clean = dataframes_clean[ville]
    print(f"\nüìç {ville.upper()}")
    print(f"   Shape : {df_clean.shape[0]} lignes √ó {df_clean.shape[1]} colonnes")
    print(f"\n{df_clean.head(5).to_string()}")
    print("-" * 80)

print("\n" + "="*80)
print("‚ú® NETTOYAGE TERMIN√â")
print("="*80)

print("\n‚úÖ Pr√™t pour l'√©tape suivante : Fusion des donn√©es !")


# ============================================================================
# SECTION 4 : FUSION ET EXPORT EN CSV AVEC NOM DE VILLE
# ============================================================================

print("\n" + "="*80)
print("üíæ EXPORT DES DONN√âES NETTOY√âES (avec noms de villes)")
print("="*80)

# Fusionner tous les DataFrames des villes
df_final = pd.concat(dataframes_clean.values(), ignore_index=True)

# Supprimer les colonnes inutiles si elles existent
colonnes_a_supprimer = ["agglomeration", "Zone_calcul", "Zone_complementaire"]
for col in colonnes_a_supprimer:
    if col in df_final.columns:
        df_final.drop(columns=col, inplace=True, errors="ignore")

# Nettoyer le nom de la ville (√©viter les codes comme L7501)
# Si ta colonne "Ville" contient d√©j√† le vrai nom, tu peux ignorer cette partie.
# Sinon, on peut remplacer manuellement les codes :
mapping_villes = {
    "L7501": "Paris",
    "L3300": "Bordeaux",
    "L6900": "Lyon",
    "L3100": "Toulouse",
    "L5900": "Lille",
    "L6700": "Strasbourg",
    "L3500": "Rennes",
    "L4400": "Nantes",
    "L3400": "Montpellier",
    "L3800": "Grenoble"
}

df_final["Ville"] = df_final["Ville"].replace(mapping_villes)

# Sauvegarder le fichier final
nom_fichier = "loyers_villes.csv"
df_final.to_csv(nom_fichier, index=False, encoding="utf-8-sig")

print(f"\n‚úÖ Donn√©es nettoy√©es et export√©es dans : {nom_fichier}")
print(f"Shape finale : {df_final.shape[0]} lignes √ó {df_final.shape[1]} colonnes")

# V√©rifier les premi√®res lignes
print("\nAper√ßu du DataFrame final :")
print(df_final.head(10))

