# Test et √âvaluation des Mod√®les ML
## Validation des fonctionnalit√©s Intelligence Territoriale

Ce notebook permet de tester les 3 mod√®les ML de l'application :
1. **Profils de communes** (Clustering K-Means)
2. **Score de tension immobili√®re** (Calcul composite)
3. **Pr√©diction d'√©volution** (R√©gression lin√©aire)

---

## 1. Imports et chargement des donn√©es

In [None]:
import pandas as pd
import geopandas as gpd
import sys
sys.path.append('..')
import ml_models as ml
import matplotlib.pyplot as plt
import seaborn as sns

# Style
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("‚úÖ Imports OK")

In [None]:
# Charger les donn√©es cartographiques (2022)
data_carto = pd.read_csv('../SORTIE/data_clean_2022.csv')

# Charger les donn√©es historiques (√©volution)
datahab = pd.read_csv('../SORTIE/TAB_TYPEHAB.csv')

print(f"‚úÖ Donn√©es charg√©es : {len(data_carto)} communes")
print(f"‚úÖ Donn√©es historiques : {len(datahab)} lignes")
print(f"\nAper√ßu des colonnes disponibles :")
print(data_carto.columns.tolist())

---
## 2. Test : Profils de communes (Clustering)

In [None]:
# Test avec 3 profils
n_profils = 3
data_profils, noms_profils = ml.identifier_profils_communes(data_carto, n_profils)

print(f"‚úÖ Clustering r√©ussi : {n_profils} profils identifi√©s\n")

# Afficher les profils
for profil_id, info in noms_profils.items():
    nb_communes = len(data_profils[data_profils['Profil'] == profil_id])
    print(f"\nüìä Profil {profil_id} : {info['nom']}")
    print(f"   {info['description']}")
    print(f"   ‚Üí {nb_communes} communes")

# V√©rifier la r√©partition
print("\nüîç R√©partition des communes par profil :")
print(data_profils['Profil'].value_counts().sort_index())

In [None]:
# Visualisation de la r√©partition
fig, ax = plt.subplots(figsize=(10, 6))
data_profils['Profil'].value_counts().sort_index().plot(kind='bar', ax=ax, color='#d17842')
ax.set_title('R√©partition des communes par profil', fontsize=14, fontweight='bold')
ax.set_xlabel('Profil')
ax.set_ylabel('Nombre de communes')
ax.set_xticklabels([noms_profils[i]['nom'] for i in sorted(noms_profils.keys())], rotation=45, ha='right')
plt.tight_layout()
plt.show()

print("‚úÖ Visualisation OK")

In [None]:
# Test : Rechercher une commune sp√©cifique
commune_test = "Montpellier"

if commune_test in data_profils['LIBGEO'].values:
    profil = data_profils[data_profils['LIBGEO'] == commune_test]['Profil'].iloc[0]
    nom_profil = noms_profils[profil]['nom']
    print(f"\nüîé {commune_test} appartient au profil : {nom_profil}")
    
    # Communes similaires
    communes_similaires = data_profils[data_profils['Profil'] == profil]['LIBGEO'].head(10).tolist()
    print(f"\n   Communes similaires : {', '.join(communes_similaires)}")
else:
    print(f"‚ùå {commune_test} introuvable dans les donn√©es")

---
## 3. Test : Score de tension immobili√®re

In [None]:
# Calculer les scores de tension
data_tension = ml.calculer_tension_immobiliere(data_carto)

print(f"‚úÖ Scores de tension calcul√©s pour {len(data_tension)} communes\n")

# Statistiques globales
print("üìä Statistiques des scores de tension :")
print(data_tension['Score_Tension'].describe())

# R√©partition par niveau
print("\nüîç R√©partition par niveau de tension :")
print(data_tension['Niveau'].value_counts())

In [None]:
# Visualisation de la distribution des scores
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histogramme
axes[0].hist(data_tension['Score_Tension'], bins=20, color='#d17842', edgecolor='black')
axes[0].set_title('Distribution des scores de tension', fontsize=12, fontweight='bold')
axes[0].set_xlabel('Score de tension (0-100)')
axes[0].set_ylabel('Nombre de communes')
axes[0].axvline(data_tension['Score_Tension'].mean(), color='red', linestyle='--', label='Moyenne')
axes[0].legend()

# Boxplot par niveau
data_tension.boxplot(column='Score_Tension', by='Niveau', ax=axes[1])
axes[1].set_title('Scores par niveau de tension', fontsize=12, fontweight='bold')
axes[1].set_xlabel('Niveau de tension')
axes[1].set_ylabel('Score')

plt.suptitle('')
plt.tight_layout()
plt.show()

print("‚úÖ Visualisation OK")

In [None]:
# Top 10 communes les plus tendues
print("\nüî¥ Top 10 - March√©s les PLUS tendus :")
top_tension = data_tension.nlargest(10, 'Score_Tension')[['LIBGEO', 'DEP', 'Score_Tension', 'Niveau']]
print(top_tension.to_string(index=False))

print("\n\nüü¢ Top 10 - March√©s les MOINS tendus :")
low_tension = data_tension.nsmallest(10, 'Score_Tension')[['LIBGEO', 'DEP', 'Score_Tension', 'Niveau']]
print(low_tension.to_string(index=False))

---
## 4. Test : Pr√©diction d'√©volution du parc de logements

In [None]:
# Test de pr√©diction pour une commune
commune_test = "Montpellier"
annees_pred = 5

predictions, croissance = ml.predire_evolution_logements(datahab, commune_test, annees_pred)

if predictions is not None:
    print(f"‚úÖ Pr√©diction r√©ussie pour {commune_test}")
    print(f"   Taux de croissance annuel moyen : {croissance:.2f}%\n")
    
    print("üìä R√©sultats de la pr√©diction :")
    print(predictions.to_string(index=False))
    
    # Calcul de la variation
    dernier_reel = predictions[predictions['Type'] == 'Historique']['Logements'].iloc[-1]
    dernier_pred = predictions[predictions['Type'] == 'Pr√©diction']['Logements'].iloc[-1]
    variation = dernier_pred - dernier_reel
    
    print(f"\nüìà √âvolution pr√©vue : {variation:+.0f} logements")
else:
    print(f"‚ùå Impossible de pr√©dire pour {commune_test} (donn√©es insuffisantes)")

In [None]:
# Visualisation de la pr√©diction
if predictions is not None:
    fig, ax = plt.subplots(figsize=(12, 6))
    
    # S√©parer historique et pr√©diction
    hist = predictions[predictions['Type'] == 'Historique']
    pred = predictions[predictions['Type'] == 'Pr√©diction']
    
    # Tracer
    ax.plot(hist['Ann√©e'], hist['Logements'], marker='o', linewidth=2, label='Historique', color='#8b5e3c')
    ax.plot(pred['Ann√©e'], pred['Logements'], marker='s', linewidth=2, linestyle='--', label='Pr√©diction', color='#d17842')
    
    ax.set_title(f'√âvolution du parc de logements - {commune_test}', fontsize=14, fontweight='bold')
    ax.set_xlabel('Ann√©e')
    ax.set_ylabel('Nombre de logements')
    ax.legend()
    ax.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    print("‚úÖ Visualisation OK")

---
## 5. Tests sur plusieurs communes

In [None]:
# Tester la pr√©diction sur plusieurs communes
communes_a_tester = ["Montpellier", "N√Æmes", "B√©ziers", "Al√®s", "S√®te"]

resultats_predictions = []

print("üîÑ Test de pr√©diction sur plusieurs communes...\n")

for commune in communes_a_tester:
    predictions, croissance = ml.predire_evolution_logements(datahab, commune, 3)
    
    if predictions is not None:
        dernier_reel = predictions[predictions['Type'] == 'Historique']['Logements'].iloc[-1]
        dernier_pred = predictions[predictions['Type'] == 'Pr√©diction']['Logements'].iloc[-1]
        variation = dernier_pred - dernier_reel
        
        resultats_predictions.append({
            'Commune': commune,
            'Croissance annuelle (%)': round(croissance, 2),
            'Logements 2022': int(dernier_reel),
            'Pr√©vision 2025': int(dernier_pred),
            'Variation': int(variation)
        })
        print(f"‚úÖ {commune} : {croissance:+.2f}% par an")
    else:
        print(f"‚ùå {commune} : donn√©es insuffisantes")

# Afficher le tableau r√©capitulatif
if resultats_predictions:
    df_resultats = pd.DataFrame(resultats_predictions)
    print("\nüìä Tableau r√©capitulatif :")
    print(df_resultats.to_string(index=False))

---
## 6. Validation globale

In [None]:
# R√©sum√© des tests
print("="*60)
print("           R√âSUM√â DE LA VALIDATION DES MOD√àLES ML")
print("="*60)

print("\n‚úÖ 1. Profils de communes (Clustering)")
print(f"   - {n_profils} profils identifi√©s")
print(f"   - {len(data_profils)} communes class√©es")
print(f"   - R√©partition √©quilibr√©e : OK")

print("\n‚úÖ 2. Score de tension immobili√®re")
print(f"   - {len(data_tension)} scores calcul√©s")
print(f"   - Score moyen : {data_tension['Score_Tension'].mean():.1f}/100")
print(f"   - R√©partition par niveaux : OK")

print("\n‚úÖ 3. Pr√©diction d'√©volution")
print(f"   - {len(resultats_predictions)}/{len(communes_a_tester)} communes test√©es avec succ√®s")
print(f"   - Pr√©dictions coh√©rentes : OK")

print("\n" + "="*60)
print("            TOUS LES MOD√àLES FONCTIONNENT CORRECTEMENT")
print("="*60)