In [9]:
import os
import geopandas as gpd
import rasterio
from rasterio.mask import mask
import pandas as pd
import pyodbc
import numpy as np

# ============================================================================
# CONFIGURATION DES CHEMINS
# ============================================================================
sol_path = r"C:\Users\pc\Desktop\DM\datasets\sol"
mdb_path = os.path.join(sol_path, "HWSD2.mdb")
bil_path = os.path.join(sol_path, "HWSD2.bil")
shp_path = r"C:\Users\pc\Desktop\DM\datasets\shapefiles\algerie_tunisie.shp"
output_dir = os.path.join(sol_path, "output")

os.makedirs(output_dir, exist_ok=True)

print("=" * 80)
print("EXTRACTION DONN√âES DE SOL HWSD2 - FORMAT POINTS (LAT/LON)")
print("=" * 80)

# ============================================================================
# √âTAPE 1 : CHARGER LE SHAPEFILE
# ============================================================================
print("\n[1/6] Chargement du shapefile...")

# Essayer plusieurs m√©thodes pour √©viter les probl√®mes numpy
try:
    import fiona
    with fiona.open(shp_path) as src:
        geoms = [feature['geometry'] for feature in src]
        crs = src.crs
    
    # Cr√©er un GeoDataFrame manuellement
    import shapely.geometry
    from shapely.geometry import shape
    
    geometries = [shape(geom) for geom in geoms]
    gdf_zone = gpd.GeoDataFrame({'geometry': geometries}, crs=crs)
    
    print(f"   ‚úì Shapefile charg√© : {len(gdf_zone)} entit√©s")
    print(f"   ‚úì CRS : {gdf_zone.crs}")
    
except Exception as e1:
    print(f"   ‚ö† M√©thode 1 √©chou√©e : {e1}")
    print("   üîÑ Tentative m√©thode alternative...")
    
    try:
        # M√©thode alternative sans geopandas
        gdf_zone = gpd.read_file(shp_path, engine='pyogrio')
        print(f"   ‚úì Shapefile charg√© : {len(gdf_zone)} entit√©s")
        print(f"   ‚úì CRS : {gdf_zone.crs}")
    except Exception as e2:
        print(f"   ‚úó Erreur : {e2}")
        raise

# ============================================================================
# √âTAPE 2 : EXTRAIRE LES DONN√âES D1 DE LA BASE MDB
# ============================================================================
print("\n[2/6] Extraction des donn√©es de HWSD2.mdb (LAYER = D1)...")

conn_str = (
    r'DRIVER={Microsoft Access Driver (*.mdb, *.accdb)};'
    f'DBQ={mdb_path};'
)

try:
    conn = pyodbc.connect(conn_str)
    print("   ‚úì Connexion √† la base de donn√©es √©tablie")
    
    colonnes = [
        "HWSD2_SMU_ID",
        "COARSE", "SAND", "SILT", "CLAY", 
        "TEXTURE_USDA", "TEXTURE_SOTER", 
        "BULK", "REF_BULK", "ORG_CARBON", "PH_WATER",
        "TOTAL_N", "CN_RATIO", "CEC_SOIL", "CEC_CLAY", 
        "CEC_EFF", "TEB", "BSAT", "ALUM_SAT", "ESP", 
        "TCARBON_EQ", "GYPSUM", "ELEC_COND"
    ]
    
    query = f"""
    SELECT {', '.join(colonnes)}
    FROM HWSD2_LAYERS
    WHERE LAYER = 'D1'
    """
    
    df_sol_D1 = pd.read_sql(query, conn)
    conn.close()
    
    print(f"   ‚úì Donn√©es extraites : {len(df_sol_D1)} enregistrements (couche D1)")
    print(f"   ‚úì Features extraites : {len(colonnes)-1} attributs")
    
except Exception as e:
    print(f"   ‚úó Erreur : {e}")
    raise

# ============================================================================
# √âTAPE 3 : CLIPPER LE RASTER HWSD2.bil
# ============================================================================
print("\n[3/6] Clippage du raster HWSD2.bil...")

with rasterio.open(bil_path) as src:
    print(f"   ‚úì Raster ouvert : {src.width} x {src.height} pixels")
    print(f"   ‚úì CRS raster : {src.crs}")
    
    if gdf_zone.crs != src.crs:
        print(f"   ‚ö† Reprojection du shapefile vers {src.crs}")
        gdf_zone = gdf_zone.to_crs(src.crs)
    
    shapes_geom = [feature["geometry"] for feature in gdf_zone.__geo_interface__["features"]]
    out_image, out_transform = mask(src, shapes_geom, crop=True, nodata=src.nodata)
    out_meta = src.meta.copy()
    
    out_meta.update({
        "driver": "GTiff",
        "height": out_image.shape[1],
        "width": out_image.shape[2],
        "transform": out_transform,
        "compress": "lzw"
    })
    
    raster_clip_path = os.path.join(output_dir, "HWSD2_clipped.tif")
    with rasterio.open(raster_clip_path, "w", **out_meta) as dest:
        dest.write(out_image)
    
    print(f"   ‚úì Raster clipp√© sauvegard√©")

# ============================================================================
# √âTAPE 4 : EXTRAIRE LES POINTS (LONGITUDE, LATITUDE) DU RASTER
# ============================================================================
print("\n[4/6] Extraction des points (longitude, latitude) du raster...")

# Param√®tres de filtrage et √©chantillonnage
LATITUDE_MIN = 32.0   # Garder uniquement le Nord (> 32¬∞N)
SAMPLING_STEP = 10    # √âTAPE 1: Prendre 1 pixel tous les N pixels (spatial uniforme)

print(f"   üìç Filtrage : latitude > {LATITUDE_MIN}¬∞N (zone Nord)")
print(f"   üéØ √âchantillonnage : 1 point tous les {SAMPLING_STEP} pixels")

with rasterio.open(raster_clip_path) as src:
    image = src.read(1)
    transform = src.transform
    
    # Cr√©er les listes pour stocker les donn√©es
    longitudes = []
    latitudes = []
    hwsd_ids = []
    
    # Parcourir chaque pixel non-nul
    rows, cols = np.where(image != src.nodata)
    
    print(f"   ‚è≥ Extraction de {len(rows):,} pixels valides...")
    
    # Compteurs pour statistiques
    total_pixels = len(rows)
    pixels_sampled = 0
    pixels_north = 0
    
    for idx, (row, col) in enumerate(zip(rows, cols)):
        # √âCHANTILLONNAGE : prendre 1 pixel tous les SAMPLING_STEP
        if idx % SAMPLING_STEP != 0:
            continue
        
        pixels_sampled += 1
        
        # R√©cup√©rer la valeur HWSD2_SMU_ID
        hwsd_id = int(image[row, col])
        
        # Convertir les coordonn√©es pixel en coordonn√©es g√©ographiques
        lon, lat = rasterio.transform.xy(transform, row, col, offset='center')
        
        # FILTRAGE : garder uniquement latitude > LATITUDE_MIN
        if lat < LATITUDE_MIN:
            continue
        
        pixels_north += 1
        
        longitudes.append(lon)
        latitudes.append(lat)
        hwsd_ids.append(hwsd_id)
    
    print(f"   ‚úì Pixels totaux           : {total_pixels:,}")
    print(f"   ‚úì Apr√®s √©chantillonnage   : {pixels_sampled:,}")
    print(f"   ‚úì Points Nord (lat>{LATITUDE_MIN}¬∞) : {pixels_north:,}")
    print(f"   ‚úì Taux de r√©duction       : {(1 - pixels_north/total_pixels)*100:.1f}%")

# ============================================================================
# √âTAPE 5 : √âCHANTILLONNAGE AL√âATOIRE FINAL
# ============================================================================
print("\n[5/6] √âchantillonnage al√©atoire final...")

# Nombre final de points souhait√©s (AJUSTABLE)
FINAL_SAMPLE_SIZE = 25000  # Tu peux changer : 20000, 25000, 30000, etc.

# Cr√©er DataFrame temporaire
df_points_temp = pd.DataFrame({
    'longitude': longitudes,
    'latitude': latitudes,
    'HWSD2_SMU_ID': hwsd_ids
})

print(f"   üìä Points avant √©chantillonnage final : {len(df_points_temp):,}")

# Si on a plus de points que souhait√©, √©chantillonner
if len(df_points_temp) > FINAL_SAMPLE_SIZE:
    print(f"   üé≤ √âchantillonnage al√©atoire vers {FINAL_SAMPLE_SIZE:,} points...")
    
    # √âchantillonnage al√©atoire simple avec seed fixe (reproductible)
    df_points = df_points_temp.sample(n=FINAL_SAMPLE_SIZE, random_state=42).reset_index(drop=True)
    
    print(f"   ‚úì √âchantillonnage termin√© : {len(df_points):,} points")
    print(f"   ‚úì Types de sol uniques    : {df_points['HWSD2_SMU_ID'].nunique():,}")
    print(f"   ‚úì R√©duction totale        : {(1 - len(df_points)/total_pixels)*100:.2f}%")
else:
    df_points = df_points_temp.copy()
    print(f"   ‚úì Pas besoin d'√©chantillonnage (d√©j√† < {FINAL_SAMPLE_SIZE:,} points)")

print(f"   ‚úì Dataset final : {len(df_points):,} points")

# ============================================================================
# √âTAPE 6 : JOINTURE AVEC LES ATTRIBUTS D1
# ============================================================================
print("\n[6/6] Jointure avec les attributs D1...")

# Jointure sur HWSD2_SMU_ID
df_final = df_points.merge(df_sol_D1, on='HWSD2_SMU_ID', how='left')

print(f"   ‚ö† Lignes apr√®s jointure   : {len(df_final):,}")

# PROBL√àME : Certains HWSD2_SMU_ID ont plusieurs enregistrements dans D1
# SOLUTION : Garder uniquement la premi√®re occurrence (ou faire une agr√©gation)
n_before = len(df_final)
df_final = df_final.drop_duplicates(subset=['longitude', 'latitude'], keep='first')
n_after = len(df_final)

if n_before != n_after:
    print(f"   üîß D√©doublonnage effectu√© : {n_before:,} ‚Üí {n_after:,} lignes")
    print(f"   ‚úì {n_before - n_after:,} doublons supprim√©s")

# Supprimer HWSD2_SMU_ID (pas demand√© dans le r√©sultat final)
df_final = df_final.drop(columns=['HWSD2_SMU_ID'])

print(f"   ‚úì Jointure effectu√©e : {len(df_final):,} points uniques")
print(f"   ‚úì Colonnes finales : {len(df_final.columns)} (longitude, latitude + {len(df_final.columns)-2} attributs)")

# V√©rifier les valeurs manquantes
nb_manquants = df_final['SAND'].isna().sum()
if nb_manquants > 0:
    print(f"   ‚ö† {nb_manquants} points sans attributs D1")

# R√©organiser les colonnes : longitude, latitude en premier
cols = ['longitude', 'latitude'] + [col for col in df_final.columns if col not in ['longitude', 'latitude']]
df_final = df_final[cols]

# ============================================================================
# SAUVEGARDE DES R√âSULTATS
# ============================================================================
print("\n[Sauvegarde] Exportation des r√©sultats...")

# Sauvegarder uniquement le CSV
csv_output = os.path.join(output_dir, "HWSD2_D1_points.csv")
df_final.to_csv(csv_output, index=False, encoding='utf-8-sig')
print(f"   ‚úì CSV sauvegard√© : {csv_output}")
print(f"   ‚úì Taille du fichier : {len(df_final):,} lignes √ó {len(df_final.columns)} colonnes")

# ============================================================================
# STATISTIQUES FINALES
# ============================================================================
print("\n" + "=" * 80)
print("R√âSUM√â DES DONN√âES (Couche D1 - 0-20cm de profondeur)")
print("=" * 80)

print(f"\nüìç Zone d'√©tude : {len(df_final):,} points")
print(f"üìä Features extraites : {len(df_final.columns)-2} attributs")

print("\nüìã Aper√ßu des premi√®res lignes :")
print(df_final.head(10).to_string(index=False))

print("\nüî¨ Liste des features extraites :")
for col in df_final.columns:
    if col not in ['longitude', 'latitude']:
        print(f"   - {col}")

print("\nüåæ Statistiques des propri√©t√©s num√©riques :\n")
proprietes = ['COARSE', 'SAND', 'SILT', 'CLAY', 'BULK', 'REF_BULK', 
              'ORG_CARBON', 'PH_WATER', 'TOTAL_N', 'CN_RATIO', 
              'CEC_SOIL', 'CEC_CLAY', 'CEC_EFF', 'TEB', 'BSAT', 
              'ALUM_SAT', 'ESP', 'TCARBON_EQ', 'GYPSUM', 'ELEC_COND']

for prop in proprietes:
    if prop in df_final.columns:
        valeurs = df_final[prop].dropna()
        if len(valeurs) > 0:
            print(f"   {prop:15s} : min={valeurs.min():8.2f} | "
                  f"max={valeurs.max():8.2f} | mean={valeurs.mean():8.2f}")

# Statistiques sur les coordonn√©es
print("\nüó∫Ô∏è √âtendue g√©ographique :")
print(f"   Longitude : {df_final['longitude'].min():.4f}¬∞ √† {df_final['longitude'].max():.4f}¬∞")
print(f"   Latitude  : {df_final['latitude'].min():.4f}¬∞ √† {df_final['latitude'].max():.4f}¬∞")
print(f"   Zone      : NORD uniquement (lat > {LATITUDE_MIN}¬∞N)")

print("\n‚úÖ Traitement termin√© avec succ√®s !")
print(f"\nüìÅ Fichier de sortie : {csv_output}")
print("\nüí° R√âSUM√â DU TRAITEMENT :")
print(f"   ‚Ä¢ Filtrage g√©ographique : latitude > {LATITUDE_MIN}¬∞N")
print(f"   ‚Ä¢ √âchantillonnage spatial : 1 point/{SAMPLING_STEP} pixels")
print(f"   ‚Ä¢ √âchantillonnage al√©atoire : max {FINAL_SAMPLE_SIZE:,} points")
print("   ‚Ä¢ Format : longitude, latitude + attributs de sol")
print("   ‚Ä¢ Pr√™t pour fusion avec fire data et machine learning !")

EXTRACTION DONN√âES DE SOL HWSD2 - FORMAT POINTS (LAT/LON)

[1/6] Chargement du shapefile...
   ‚úì Shapefile charg√© : 2 entit√©s
   ‚úì CRS : GEOGCS["WGS 84",DATUM["WGS_1984",SPHEROID["WGS 84",6378137,298.257223563,AUTHORITY["EPSG","7030"]],AUTHORITY["EPSG","6326"]],PRIMEM["Greenwich",0,AUTHORITY["EPSG","8901"]],UNIT["degree",0.0174532925199433,AUTHORITY["EPSG","9122"]],AXIS["Latitude",NORTH],AXIS["Longitude",EAST],AUTHORITY["EPSG","4326"]]

[2/6] Extraction des donn√©es de HWSD2.mdb (LAYER = D1)...
   ‚úì Connexion √† la base de donn√©es √©tablie


  df_sol_D1 = pd.read_sql(query, conn)


   ‚úì Donn√©es extraites : 58405 enregistrements (couche D1)
   ‚úì Features extraites : 22 attributs

[3/6] Clippage du raster HWSD2.bil...
   ‚úì Raster ouvert : 43200 x 21600 pixels
   ‚úì CRS raster : OGC:CRS84
   ‚ö† Reprojection du shapefile vers OGC:CRS84
   ‚úì Raster clipp√© sauvegard√©

[4/6] Extraction des points (longitude, latitude) du raster...
   üìç Filtrage : latitude > 32.0¬∞N (zone Nord)
   üéØ √âchantillonnage : 1 point tous les 10 pixels
   ‚è≥ Extraction de 3,295,088 pixels valides...
   ‚úì Pixels totaux           : 3,295,088
   ‚úì Apr√®s √©chantillonnage   : 329,509
   ‚úì Points Nord (lat>32.0¬∞) : 83,845
   ‚úì Taux de r√©duction       : 97.5%

[5/6] √âchantillonnage al√©atoire final...
   üìä Points avant √©chantillonnage final : 83,845
   üé≤ √âchantillonnage al√©atoire vers 25,000 points...
   ‚úì √âchantillonnage termin√© : 25,000 points
   ‚úì Types de sol uniques    : 333
   ‚úì R√©duction totale        : 99.24%
   ‚úì Dataset final : 25,000 points

In [6]:
# ============================================================================
# CODE COMPLET - VISUALISATIONS POUR HWSD2_D1_points
# ============================================================================
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import os
import warnings
warnings.filterwarnings('ignore')

print("\n" + "=" * 80)
print("üöÄ CHARGEMENT ET VISUALISATION DES DONN√âES")
print("=" * 80)

# ============================================================================
# √âTAPE 1 : CHARGEMENT DES DONN√âES
# ============================================================================
print("\n[√âtape 1/7] Chargement des donn√©es...")

# D√©finir les chemins
base_dir = r"C:\Users\pc\Desktop\DM\datasets\sol\output"
output_dir = os.path.join(base_dir, "output")
fichier_csv = os.path.join(base_dir, "HWSD2_D1_points.csv")

# Cr√©er le dossier de sortie
os.makedirs(output_dir, exist_ok=True)

# Charger les donn√©es
try:
    df_final = pd.read_csv(fichier_csv)
    print(f"   ‚úÖ Donn√©es charg√©es: {df_final.shape[0]:,} lignes √ó {df_final.shape[1]} colonnes")
    print(f"   ‚úÖ Fichier: {fichier_csv}")
except FileNotFoundError:
    print(f"   ‚ùå ERREUR: Fichier non trouv√©!")
    print(f"   üìÇ Chemin recherch√©: {fichier_csv}")
    print("\nüí° V√©rifiez que le fichier existe √† cet emplacement")
    raise
except Exception as e:
    print(f"   ‚ùå ERREUR lors du chargement: {e}")
    raise

# ============================================================================
# √âTAPE 2 : CONFIGURATION
# ============================================================================
print("\n[√âtape 2/7] Configuration...")

# Cr√©er le dossier de visualisations
viz_dir = os.path.join(output_dir, "visualisations")
os.makedirs(viz_dir, exist_ok=True)

# Configuration matplotlib
plt.style.use('default')
plt.rcParams['figure.figsize'] = (15, 10)
plt.rcParams['font.size'] = 10

print(f"   ‚úÖ Dossier de sortie: {viz_dir}")
print(f"   ‚úÖ Configuration termin√©e")

# ============================================================================
# √âTAPE 3 : DASHBOARD DES VALEURS MANQUANTES
# ============================================================================
print("\n[√âtape 3/7] Dashboard des valeurs manquantes...")

all_cols = [col for col in df_final.columns if col not in ['longitude', 'latitude']]
missing_df = pd.DataFrame({
    'Variable': all_cols,
    'Valeurs manquantes': [df_final[col].isna().sum() for col in all_cols],
    'Pourcentage': [(df_final[col].isna().sum() / len(df_final)) * 100 for col in all_cols]
}).set_index('Variable').sort_values('Pourcentage', ascending=False)

try:
    fig = plt.figure(figsize=(16, max(10, len(all_cols) * 0.4)))
    gs = fig.add_gridspec(1, 2, width_ratios=[2, 1])
    fig.suptitle('DASHBOARD DES VALEURS MANQUANTES', fontsize=16, fontweight='bold')

    # Barplot
    ax1 = fig.add_subplot(gs[0])
    colors = ['#d73027' if x > 50 else '#fee090' if x > 10 else '#91cf60' 
              for x in missing_df['Pourcentage']]
    
    bars = ax1.barh(range(len(missing_df)), missing_df['Pourcentage'], 
                    color=colors, edgecolor='black', linewidth=1.2)
    ax1.set_yticks(range(len(missing_df)))
    ax1.set_yticklabels(missing_df.index, fontsize=9)
    ax1.set_xlabel('Pourcentage de valeurs manquantes (%)', fontsize=12, fontweight='bold')
    ax1.set_title('Valeurs manquantes par variable', fontsize=14, fontweight='bold')
    ax1.grid(axis='x', alpha=0.3)
    
    for i, (bar, val) in enumerate(zip(bars, missing_df['Pourcentage'])):
        if val > 0:
            ax1.text(val + 0.5, i, f'{val:.1f}%', va='center', fontsize=8, fontweight='bold')
    
    ax1.axvline(10, color='orange', linestyle='--', linewidth=2, label='10%')
    ax1.axvline(50, color='red', linestyle='--', linewidth=2, label='50%')
    ax1.legend(fontsize=10)
    
    # Stats
    ax2 = fig.add_subplot(gs[1])
    ax2.axis('off')
    
    total_cells = len(df_final) * len(all_cols)
    total_missing = int(missing_df['Valeurs manquantes'].sum())
    pct_global = (total_missing / total_cells) * 100
    
    stats_text = f"""STATISTIQUES GLOBALES

üìä Observations: {len(df_final):,}
üìä Variables: {len(all_cols)}
üìä Cellules: {total_cells:,}

‚ùå Manquantes: {total_missing:,}
üìâ Taux: {pct_global:.2f}%
‚úÖ Compl√©tude: {100-pct_global:.2f}%

TOP 5 MANQUANTS:"""
    
    for i, (idx, row) in enumerate(missing_df.head(5).iterrows(), 1):
        if row['Valeurs manquantes'] > 0:
            stats_text += f"\n{i}. {idx}: {row['Pourcentage']:.1f}%"
    
    ax2.text(0.05, 0.5, stats_text, fontsize=10, va='center', family='monospace',
             bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))
    
    plt.tight_layout()
    plt.savefig(os.path.join(viz_dir, '01_valeurs_manquantes.png'), dpi=300, bbox_inches='tight')
    plt.close()
    print(f"   ‚úÖ 01_valeurs_manquantes.png")
except Exception as e:
    print(f"   ‚ùå Erreur: {e}")
    plt.close('all')

# ============================================================================
# √âTAPE 4 : MATRICE DE CORR√âLATION
# ============================================================================
print("\n[√âtape 4/7] Matrice de corr√©lation...")

try:
    numeric_cols = [col for col in df_final.select_dtypes(include=[np.number]).columns 
                    if col not in ['longitude', 'latitude']]
    numeric_data = df_final[numeric_cols].dropna(thresh=len(df_final)*0.5, axis=1)

    if len(numeric_data.columns) > 1:
        corr_matrix = numeric_data.corr()
        
        fig, axes = plt.subplots(1, 2, figsize=(20, 8))
        fig.suptitle('MATRICE DE CORR√âLATION', fontsize=16, fontweight='bold')
        
        # Heatmap
        im = axes[0].imshow(corr_matrix.values, cmap='coolwarm', vmin=-1, vmax=1, aspect='auto')
        
        for i in range(len(corr_matrix)):
            for j in range(len(corr_matrix.columns)):
                if i > j:
                    axes[0].text(j, i, f'{corr_matrix.iloc[i, j]:.2f}',
                               ha="center", va="center", color="black", fontsize=8)
        
        axes[0].set_xticks(range(len(corr_matrix)))
        axes[0].set_yticks(range(len(corr_matrix)))
        axes[0].set_xticklabels(corr_matrix.columns, rotation=90, ha='right')
        axes[0].set_yticklabels(corr_matrix.columns)
        axes[0].set_title('Corr√©lation (Pearson)', fontweight='bold')
        plt.colorbar(im, ax=axes[0])
        
        # Top corr√©lations
        corr_pairs = corr_matrix.unstack()
        corr_pairs = corr_pairs[corr_pairs < 1].sort_values(ascending=False)
        top_corr = corr_pairs.head(15)
        
        colors = ['#d73027' if abs(x) > 0.7 else '#fee090' if abs(x) > 0.4 else '#91cf60' 
                  for x in top_corr.values]
        
        axes[1].barh(range(len(top_corr)), top_corr.values, color=colors, edgecolor='black')
        axes[1].set_yticks(range(len(top_corr)))
        axes[1].set_yticklabels([f"{p[0]} ‚Üî {p[1]}" for p in top_corr.index], fontsize=9)
        axes[1].set_xlabel('Corr√©lation', fontweight='bold')
        axes[1].set_title('Top 15 corr√©lations', fontweight='bold')
        axes[1].axvline(0.7, color='red', linestyle='--', linewidth=1, label='Forte (0.7)')
        axes[1].axvline(-0.7, color='red', linestyle='--', linewidth=1)
        axes[1].axvline(0.4, color='orange', linestyle='--', linewidth=1, label='Mod√©r√©e (0.4)')
        axes[1].axvline(-0.4, color='orange', linestyle='--', linewidth=1)
        axes[1].legend()
        axes[1].grid(axis='x', alpha=0.3)
        
        plt.tight_layout()
        plt.savefig(os.path.join(viz_dir, '02_correlations.png'), dpi=300, bbox_inches='tight')
        plt.close()
        print(f"   ‚úÖ 02_correlations.png")
    else:
        print(f"   ‚ö†Ô∏è  Pas assez de variables num√©riques")
except Exception as e:
    print(f"   ‚ùå Erreur: {e}")
    plt.close('all')

# ============================================================================
# √âTAPE 5 : DISTRIBUTIONS
# ============================================================================
print("\n[√âtape 5/7] Histogrammes des distributions...")

try:
    main_props = ['SAND', 'SILT', 'CLAY', 'BULK', 'ORG_CARBON', 'PH_WATER', 
                  'CEC_SOIL', 'TOTAL_N', 'CN_RATIO', 'COARSE', 'REF_BULK', 'TEB']
    available_props = [p for p in main_props if p in df_final.columns]

    if available_props:
        n_cols = 3
        n_rows = (len(available_props) + n_cols - 1) // n_cols
        
        fig, axes = plt.subplots(n_rows, n_cols, figsize=(18, 5*n_rows))
        fig.suptitle('DISTRIBUTIONS DES PROPRI√âT√âS DU SOL', fontsize=16, fontweight='bold')
        axes = axes.flatten() if len(available_props) > 1 else [axes]
        
        for idx, prop in enumerate(available_props):
            ax = axes[idx]
            data = df_final[prop].dropna()
            
            if len(data) > 0:
                ax.hist(data.values, bins=30, alpha=0.7, color='steelblue', edgecolor='black')
                
                mean_val = float(data.mean())
                median_val = float(data.median())
                ax.axvline(mean_val, color='red', linestyle='--', linewidth=2, 
                          label=f'Moy: {mean_val:.2f}')
                ax.axvline(median_val, color='green', linestyle='--', linewidth=2,
                          label=f'M√©d: {median_val:.2f}')
                
                ax.set_xlabel(prop, fontweight='bold')
                ax.set_ylabel('Fr√©quence', fontweight='bold')
                ax.set_title(f'{prop}', fontweight='bold')
                ax.legend(fontsize=8)
                ax.grid(alpha=0.3)
                
                std = float(data.std())
                n = len(data)
                skew = float(((data - mean_val) ** 3).sum() / (n * std ** 3)) if std > 0 else 0
                
                stats = f'n={n}\nstd={std:.2f}\nskew={skew:.2f}'
                ax.text(0.98, 0.97, stats, transform=ax.transAxes, va='top', ha='right',
                       bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5), fontsize=9)
        
        for idx in range(len(available_props), len(axes)):
            axes[idx].axis('off')
        
        plt.tight_layout()
        plt.savefig(os.path.join(viz_dir, '03_distributions.png'), dpi=300, bbox_inches='tight')
        plt.close()
        print(f"   ‚úÖ 03_distributions.png")
except Exception as e:
    print(f"   ‚ùå Erreur: {e}")
    plt.close('all')

# ============================================================================
# √âTAPE 6 : BOXPLOTS
# ============================================================================
print("\n[√âtape 6/7] Boxplots...")

try:
    if available_props:
        fig, axes = plt.subplots(n_rows, n_cols, figsize=(18, 5*n_rows))
        fig.suptitle('BOXPLOTS - D√âTECTION DES OUTLIERS', fontsize=16, fontweight='bold')
        axes = axes.flatten() if len(available_props) > 1 else [axes]
        
        for idx, prop in enumerate(available_props):
            ax = axes[idx]
            data = df_final[prop].dropna()
            
            if len(data) > 0:
                bp = ax.boxplot([data.values], patch_artist=True, widths=0.6,
                               boxprops=dict(facecolor='lightblue', edgecolor='black'),
                               medianprops=dict(color='red', linewidth=2))
                
                Q1 = float(data.quantile(0.25))
                Q3 = float(data.quantile(0.75))
                IQR = Q3 - Q1
                
                ax.set_ylabel(prop, fontweight='bold')
                ax.set_title(f'{prop}', fontweight='bold')
                ax.set_xticks([])
                ax.grid(axis='y', alpha=0.3)
                
                stats = (f'Min: {float(data.min()):.2f}\nQ1: {Q1:.2f}\n'
                        f'M√©d: {float(data.median()):.2f}\nQ3: {Q3:.2f}\n'
                        f'Max: {float(data.max()):.2f}\nIQR: {IQR:.2f}')
                ax.text(1.15, 0.5, stats, transform=ax.transAxes, va='center',
                       bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5), fontsize=9)
        
        for idx in range(len(available_props), len(axes)):
            axes[idx].axis('off')
        
        plt.tight_layout()
        plt.savefig(os.path.join(viz_dir, '04_boxplots.png'), dpi=300, bbox_inches='tight')
        plt.close()
        print(f"   ‚úÖ 04_boxplots.png")
except Exception as e:
    print(f"   ‚ùå Erreur: {e}")
    plt.close('all')

# ============================================================================
# √âTAPE 7 : QQ-PLOTS (comparaison entre variables corr√©l√©es)
# ============================================================================
print("\n[√âtape 7/7] QQ-Plots pour comparer les distributions...")

try:
    if len(numeric_data.columns) > 1 and 'corr_matrix' in locals():
        # Trouver les 6 paires les plus corr√©l√©es
        corr_pairs_qq = corr_matrix.unstack()
        corr_pairs_qq = corr_pairs_qq[corr_pairs_qq < 1]
        top_pairs = corr_pairs_qq.abs().sort_values(ascending=False).head(6).index.tolist()
        
        n_pairs = len(top_pairs)
        n_cols_qq = 3
        n_rows_qq = (n_pairs + n_cols_qq - 1) // n_cols_qq
        
        fig, axes = plt.subplots(n_rows_qq, n_cols_qq, figsize=(18, 5*n_rows_qq))
        fig.suptitle('QQ-PLOTS - COMPARAISON DES DISTRIBUTIONS', fontsize=16, fontweight='bold')
        axes = axes.flatten() if n_pairs > 1 else [axes]
        
        for idx, (var1, var2) in enumerate(top_pairs):
            ax = axes[idx]
            
            data1 = df_final[var1].dropna()
            data2 = df_final[var2].dropna()
            
            if len(data1) > 10 and len(data2) > 10:
                # Trier les donn√©es
                data1_sorted = np.sort(data1.values)
                data2_sorted = np.sort(data2.values)
                
                # Interpoler pour avoir la m√™me longueur
                n = min(len(data1_sorted), len(data2_sorted))
                quantiles1 = np.percentile(data1_sorted, np.linspace(0, 100, n))
                quantiles2 = np.percentile(data2_sorted, np.linspace(0, 100, n))
                
                # Cr√©er le QQ-plot
                ax.scatter(quantiles1, quantiles2, alpha=0.6, s=20, 
                          color='steelblue', edgecolor='black')
                
                # Ligne de r√©f√©rence (identit√©)
                min_val = min(float(quantiles1.min()), float(quantiles2.min()))
                max_val = max(float(quantiles1.max()), float(quantiles2.max()))
                ax.plot([min_val, max_val], [min_val, max_val], 'r--', 
                       linewidth=2, label='Ligne identit√©')
                
                ax.set_xlabel(f'{var1}', fontweight='bold')
                ax.set_ylabel(f'{var2}', fontweight='bold')
                ax.set_title(f'QQ-Plot: {var1} vs {var2}', fontweight='bold', pad=10)
                ax.grid(alpha=0.3)
                ax.legend(fontsize=8)
                
                # Afficher le coefficient de corr√©lation
                corr_val = float(corr_matrix.loc[var1, var2])
                ax.text(0.05, 0.95, f'r = {corr_val:.3f}', transform=ax.transAxes,
                       va='top', bbox=dict(boxstyle='round', facecolor='yellow', alpha=0.7),
                       fontsize=10, fontweight='bold')
        
        # Masquer les axes vides
        for idx in range(n_pairs, len(axes)):
            axes[idx].axis('off')
        
        plt.tight_layout()
        plt.savefig(os.path.join(viz_dir, '05_qqplots.png'), dpi=300, bbox_inches='tight')
        plt.close()
        print(f"   ‚úÖ 05_qqplots.png")
    else:
        print("   ‚ö†Ô∏è  Pas assez de variables pour cr√©er des QQ-plots")
except Exception as e:
    print(f"   ‚ùå Erreur: {e}")
    import traceback
    traceback.print_exc()
    plt.close('all')

# ============================================================================
# RAPPORT FINAL
# ============================================================================
print("\n" + "=" * 80)
print("‚úÖ VISUALISATIONS TERMIN√âES!")
print("=" * 80)

files = sorted([f for f in os.listdir(viz_dir) if f.endswith('.png')])
if files:
    print(f"\nüéâ {len(files)} fichiers g√©n√©r√©s:\n")
    for f in files:
        size = os.path.getsize(os.path.join(viz_dir, f)) / 1024
        print(f"   ‚úÖ {f} ({size:.1f} KB)")
    print(f"\nüìÅ Dossier: {viz_dir}")
    print(f"\nüí° Ouvrez le dossier pour voir vos visualisations!")
else:
    print("\n‚ö†Ô∏è  Aucun fichier g√©n√©r√© - v√©rifiez les erreurs ci-dessus")

print("\nüìä Liste compl√®te des visualisations:")
print("   1. 01_valeurs_manquantes.png - Dashboard des valeurs manquantes")
print("   2. 02_correlations.png - Matrice de corr√©lation et top corr√©lations")
print("   3. 03_distributions.png - Histogrammes des distributions")
print("   4. 04_boxplots.png - Boxplots pour d√©tecter les outliers")
print("   5. 05_qqplots.png - QQ-plots entre variables corr√©l√©es")

print("\n" + "=" * 80)


üöÄ CHARGEMENT ET VISUALISATION DES DONN√âES

[√âtape 1/7] Chargement des donn√©es...
   ‚úÖ Donn√©es charg√©es: 25,000 lignes √ó 24 colonnes
   ‚úÖ Fichier: C:\Users\pc\Desktop\DM\datasets\sol\output\HWSD2_D1_points.csv

[√âtape 2/7] Configuration...
   ‚úÖ Dossier de sortie: C:\Users\pc\Desktop\DM\datasets\sol\output\output\visualisations
   ‚úÖ Configuration termin√©e

[√âtape 3/7] Dashboard des valeurs manquantes...
   ‚úÖ 01_valeurs_manquantes.png

[√âtape 4/7] Matrice de corr√©lation...
   ‚úÖ 02_correlations.png

[√âtape 5/7] Histogrammes des distributions...
   ‚úÖ 03_distributions.png

[√âtape 6/7] Boxplots...
   ‚úÖ 04_boxplots.png

[√âtape 7/7] QQ-Plots pour comparer les distributions...
   ‚úÖ 05_qqplots.png

‚úÖ VISUALISATIONS TERMIN√âES!

üéâ 5 fichiers g√©n√©r√©s:

   ‚úÖ 01_valeurs_manquantes.png (289.7 KB)
   ‚úÖ 02_correlations.png (767.7 KB)
   ‚úÖ 03_distributions.png (806.9 KB)
   ‚úÖ 04_boxplots.png (627.2 KB)
   ‚úÖ 05_qqplots.png (466.6 KB)

üìÅ Dossier: C:\

In [9]:
import os
import pandas as pd
import numpy as np
from sklearn.impute import KNNImputer
from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

# ============================================================================
# CONFIGURATION
# ============================================================================
print("=" * 80)
print("NETTOYAGE DES DONN√âES DE SOL HWSD2")
print("=" * 80)

# Chemins
sol_path = r"C:\Users\pc\Desktop\DM\datasets\sol"
output_dir = os.path.join(sol_path, "output")
cleaned_dir = os.path.join(output_dir, "cleaned_data")
os.makedirs(cleaned_dir, exist_ok=True)

# Charger les donn√©es
print("\n[1/6] Chargement des donn√©es...")
# MODIFI√â : Charger depuis CSV au lieu de GeoPackage
csv_path = os.path.join(output_dir, "HWSD2_D1_points.csv")  # Adaptez le nom du fichier
df = pd.read_csv(csv_path)
print(f"   ‚úì Donn√©es charg√©es : {len(df)} enregistrements, {len(df.columns)} colonnes")

# Sauvegarder une copie des donn√©es originales
df_original = df.copy()

# ============================================================================
# √âTAPE 1 : IDENTIFICATION DES COLONNES PAR TYPE
# ============================================================================
print("\n[2/6] Identification des types de colonnes...")

# MODIFI√â : Colonnes g√©ographiques au lieu de geometry
geo_cols = ['longitude', 'latitude']
categorical_cols = ['TEXTURE_USDA', 'TEXTURE_SOTER']
numeric_cols = [col for col in df.columns 
                if col not in categorical_cols + geo_cols]

print(f"   ‚úì Colonnes num√©riques : {len(numeric_cols)}")
print(f"   ‚úì Colonnes cat√©gorielles : {len(categorical_cols)}")
print(f"   ‚úì Colonnes g√©ographiques : {len(geo_cols)}")

# Statistiques initiales
print("\n   üìä Valeurs manquantes avant nettoyage :")
for col in df.columns:
    if col not in geo_cols:
        missing = df[col].isna().sum()
        if missing > 0:
            pct = (missing / len(df)) * 100
            print(f"      {col:20s} : {missing:5d} ({pct:5.1f}%)")

# ============================================================================
# √âTAPE 2 : TRAITEMENT DES VALEURS ABERRANTES (-9 = valeur manquante)
# ============================================================================
print("\n[3/6] Traitement des valeurs cod√©es -9 (valeurs manquantes)...")

for col in numeric_cols:
    if col in df.columns:
        mask = df[col] == -9
        n_replaced = mask.sum()
        if n_replaced > 0:
            df.loc[mask, col] = np.nan
            print(f"   ‚úì {col:20s} : {n_replaced:5d} valeurs -9 remplac√©es par NaN")

# ============================================================================
# √âTAPE 3 : IMPUTATION DES VALEURS MANQUANTES AVEC KNN
# ============================================================================
print("\n[4/6] Imputation des valeurs manquantes...")

# 3.1 IMPUTATION DES COLONNES NUM√âRIQUES AVEC KNN
print("\n   üî¢ Imputation des colonnes num√©riques avec KNN...")

numeric_data = df[numeric_cols].copy()
missing_counts = numeric_data.isna().sum()
cols_with_missing = missing_counts[missing_counts > 0].index.tolist()

if len(cols_with_missing) > 0:
    print(f"      ‚ÑπÔ∏è  {len(cols_with_missing)} colonnes num√©riques avec valeurs manquantes")
    
    knn_imputer = KNNImputer(n_neighbors=5, weights='distance')
    print("      ‚è≥ Application de KNN Imputer...")
    numeric_imputed = knn_imputer.fit_transform(numeric_data)
    
    numeric_data_imputed = pd.DataFrame(
        numeric_imputed, 
        columns=numeric_cols,
        index=numeric_data.index
    )
    
    for col in numeric_cols:
        df[col] = numeric_data_imputed[col]
    
    print(f"      ‚úì KNN Imputation termin√©e pour {len(cols_with_missing)} colonnes")
    
    for col in cols_with_missing:
        original_missing = numeric_data[col].isna().sum()
        new_missing = df[col].isna().sum()
        print(f"         {col:20s} : {original_missing} ‚Üí {new_missing} valeurs manquantes")
else:
    print("      ‚úì Aucune valeur manquante dans les colonnes num√©riques")

# 3.2 IMPUTATION DES COLONNES CAT√âGORIELLES
print("\n   üè∑Ô∏è  Imputation des colonnes cat√©gorielles avec KNN...")

categorical_encoders_temp = {}

for col in categorical_cols:
    if col in df.columns:
        missing_count = df[col].isna().sum()
        
        if missing_count > 0:
            print(f"\n      üìä Traitement de {col}...")
            print(f"         Valeurs manquantes avant : {missing_count} ({missing_count/len(df)*100:.1f}%)")
            
            le_temp = LabelEncoder()
            col_data = df[col].copy()
            col_data = col_data.astype(str)
            col_data = col_data.replace(['nan', 'None', ''], np.nan)
            
            mask_not_missing = col_data.notna()
            values_not_missing = col_data[mask_not_missing]
            encoded_values = le_temp.fit_transform(values_not_missing)
            
            col_encoded = np.full(len(col_data), np.nan)
            col_encoded[mask_not_missing] = encoded_values
            
            temp_df = df[numeric_cols].copy()
            temp_df[f'{col}_encoded_temp'] = col_encoded
            
            knn_cat = KNNImputer(n_neighbors=5, weights='distance')
            temp_imputed = knn_cat.fit_transform(temp_df[[f'{col}_encoded_temp']])
            
            imputed_encoded = np.round(temp_imputed[:, 0]).astype(int)
            imputed_categories = le_temp.inverse_transform(imputed_encoded)
            
            df[col] = imputed_categories
            
            new_missing = df[col].isna().sum()
            print(f"         ‚úì Valeurs manquantes apr√®s  : {new_missing} ({new_missing/len(df)*100:.1f}%)")
            
            categorical_encoders_temp[col] = le_temp
        else:
            print(f"\n      ‚úì {col} : Aucune valeur manquante")

print("\n   ‚úÖ Imputation compl√®te (num√©riques + cat√©gorielles avec KNN)")

# ============================================================================
# √âTAPE 4 : GESTION DES OUTLIERS AVEC TRANSFORMATION LOG
# ============================================================================
print("\n[5/6] Gestion des outliers avec transformation logarithmique...")

def detect_outliers_iqr(data, col, threshold=1.5):
    Q1 = data[col].quantile(0.25)
    Q3 = data[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - threshold * IQR
    upper_bound = Q3 + threshold * IQR
    outliers = ((data[col] < lower_bound) | (data[col] > upper_bound)).sum()
    return outliers, (outliers / len(data)) * 100

outlier_report = []
for col in numeric_cols:
    if col in df.columns:
        n_outliers, pct_outliers = detect_outliers_iqr(df, col)
        if n_outliers > 0:
            outlier_report.append({
                'column': col,
                'n_outliers': n_outliers,
                'pct_outliers': pct_outliers
            })

outlier_df = pd.DataFrame(outlier_report).sort_values('pct_outliers', ascending=False)
cols_to_transform = []

if len(outlier_df) > 0:
    print(f"\n   üìä Colonnes avec outliers (top 10) :")
    for idx, row in outlier_df.head(10).iterrows():
        print(f"      {row['column']:20s} : {row['n_outliers']:5d} outliers ({row['pct_outliers']:5.1f}%)")
    
    cols_to_transform = outlier_df[outlier_df['pct_outliers'] > 5]['column'].tolist()
    
    if len(cols_to_transform) > 0:
        print(f"\n   üîÑ Application de log(x+1) sur {len(cols_to_transform)} colonnes...")
        
        for col in cols_to_transform:
            min_val = df[col].min()
            
            if min_val < 0:
                df[col] = df[col] - min_val + 1
                print(f"      ‚ö†Ô∏è  {col}: d√©calage de {-min_val + 1:.2f} appliqu√©")
            
            df[f'{col}_log'] = np.log1p(df[col])
            print(f"      ‚úì {col}: transformation log appliqu√©e ‚Üí {col}_log")
        
        numeric_cols.extend([f'{col}_log' for col in cols_to_transform])
else:
    print("   ‚úì Aucun outlier significatif d√©tect√©")

# ============================================================================
# √âTAPE 5 : ENCODING DES VARIABLES CAT√âGORIELLES
# ============================================================================
print("\n[6/6] Encoding des variables cat√©gorielles...")

encoders = {}
encoded_mapping = {}

for col in categorical_cols:
    if col in df.columns:
        print(f"\n   üìä Traitement de {col}...")
        
        df[f'{col}_encoded'] = df[col].copy()
        df[f'{col}_encoded'] = df[f'{col}_encoded'].astype(str)
        df[f'{col}_encoded'] = df[f'{col}_encoded'].replace(['nan', 'None', ''], 'Unknown')
        
        unique_values = df[f'{col}_encoded'].unique()
        print(f"      ‚ÑπÔ∏è  {len(unique_values)} valeurs uniques d√©tect√©es")
        
        le = LabelEncoder()
        df[f'{col}_encoded'] = le.fit_transform(df[f'{col}_encoded'])
        
        encoders[col] = le
        mapping = dict(zip(le.classes_, le.transform(le.classes_)))
        encoded_mapping[col] = mapping
        
        print(f"      ‚úì {col}: {len(le.classes_)} cat√©gories encod√©es")
        print(f"      üìã Aper√ßu du mapping (5 premi√®res valeurs):")
        for i, (original, encoded) in enumerate(list(mapping.items())[:5]):
            print(f"         {original:30s} ‚Üí {encoded}")
        
        if len(mapping) > 5:
            print(f"         ... et {len(mapping) - 5} autres cat√©gories")

print("\n   ‚úÖ Encoding des variables cat√©gorielles termin√©")

print("\n   üóëÔ∏è  Suppression des colonnes cat√©gorielles originales...")
for col in categorical_cols:
    if col in df.columns:
        df = df.drop(columns=[col])
        print(f"      ‚úì {col} supprim√©e (remplac√©e par {col}_encoded)")

# ============================================================================
# √âTAPE 6 : SUPPRESSION DES COLONNES ORIGINALES TRANSFORM√âES EN LOG
# ============================================================================
print("\n[7/9] Suppression des colonnes originales (remplac√©es par log)...")

if len(cols_to_transform) > 0:
    for col in cols_to_transform:
        if col in df.columns:
            df = df.drop(columns=[col])
            print(f"   ‚úì {col} supprim√©e (remplac√©e par {col}_log)")
    print(f"   ‚úÖ {len(cols_to_transform)} colonnes originales supprim√©es")
else:
    print("   ‚ÑπÔ∏è  Aucune colonne transform√©e en log")

# ============================================================================
# √âTAPE 7 : SUPPRESSION DES COLONNES FORTEMENT CORR√âL√âES
# ============================================================================
print("\n[8/9] Analyse et suppression des colonnes fortement corr√©l√©es...")

current_numeric_cols = [col for col in df.columns 
                       if col not in categorical_cols + geo_cols
                       and not col.endswith('_encoded')]

print(f"   ‚ÑπÔ∏è  Analyse de {len(current_numeric_cols)} colonnes num√©riques...")

numeric_df = df[current_numeric_cols]
corr_matrix = numeric_df.corr().abs()

correlation_threshold = 0.85

upper_triangle = corr_matrix.where(
    np.triu(np.ones(corr_matrix.shape), k=1).astype(bool)
)

cols_to_drop = set()
correlation_pairs = []

for column in upper_triangle.columns:
    highly_correlated = upper_triangle.index[upper_triangle[column] > correlation_threshold].tolist()
    
    for corr_col in highly_correlated:
        correlation_pairs.append({
            'col1': column,
            'col2': corr_col,
            'correlation': upper_triangle.loc[corr_col, column]
        })
        
        count_col = (upper_triangle[column] > correlation_threshold).sum()
        count_corr = (upper_triangle[corr_col] > correlation_threshold).sum()
        
        if count_col >= count_corr:
            cols_to_drop.add(column)
        else:
            cols_to_drop.add(corr_col)

cols_to_drop = list(cols_to_drop)

print(f"\n   üìä Statistiques de corr√©lation :")
print(f"      ‚Ä¢ Colonnes analys√©es : {len(current_numeric_cols)}")
print(f"      ‚Ä¢ Paires fortement corr√©l√©es (r > {correlation_threshold}) : {len(correlation_pairs)}")
print(f"      ‚Ä¢ Colonnes identifi√©es pour suppression : {len(cols_to_drop)}")

if len(correlation_pairs) > 0:
    print(f"\n   üìà Top 10 des paires les plus corr√©l√©es :")
    corr_df = pd.DataFrame(correlation_pairs).sort_values('correlation', ascending=False)
    for idx, row in corr_df.head(10).iterrows():
        marker1 = "üóëÔ∏è " if row['col1'] in cols_to_drop else "‚úÖ"
        marker2 = "üóëÔ∏è " if row['col2'] in cols_to_drop else "‚úÖ"
        print(f"      {marker1} {row['col1']:20s} ‚Üî {marker2} {row['col2']:20s} : r = {row['correlation']:.3f}")

if len(cols_to_drop) > 0:
    print(f"\n   üóëÔ∏è  Suppression de {len(cols_to_drop)} colonnes redondantes :")
    
    for col in sorted(cols_to_drop):
        n_corr = (upper_triangle[col] > correlation_threshold).sum()
        print(f"      ‚Ä¢ {col:30s} ({n_corr} corr√©lations fortes)")
    
    cols_actually_dropped = []
    for col in cols_to_drop:
        if col in df.columns:
            df = df.drop(columns=[col])
            cols_actually_dropped.append(col)
    
    print(f"\n   ‚úÖ {len(cols_actually_dropped)} colonnes effectivement supprim√©es")
    print(f"   üìä Colonnes restantes : {len(df.columns)}")
    
    cols_to_drop = cols_actually_dropped
else:
    print(f"\n   ‚úÖ Aucune colonne fortement corr√©l√©e d√©tect√©e (seuil r > {correlation_threshold})")

# ============================================================================
# √âTAPE 8 : SAUVEGARDE
# ============================================================================
print("\n[9/9] Sauvegarde des donn√©es nettoy√©es...")

print("\n   üìä Statistiques finales :")
print(f"      Enregistrements : {len(df)}")
print(f"      Colonnes totales : {len(df.columns)}")
print(f"      Colonnes num√©riques : {len([c for c in df.columns if c not in categorical_cols + geo_cols and not c.endswith('_encoded')])}")
print(f"      Colonnes encod√©es : {len([c for c in df.columns if c.endswith('_encoded')])}")
print(f"      Colonnes g√©ographiques : {len(geo_cols)}")

remaining_missing = df.drop(columns=geo_cols).isna().sum()
cols_with_missing_final = remaining_missing[remaining_missing > 0]

if len(cols_with_missing_final) > 0:
    print(f"\n   ‚ö†Ô∏è  Valeurs manquantes restantes :")
    for col, count in cols_with_missing_final.items():
        pct = (count / len(df)) * 100
        print(f"      {col:20s} : {count:5d} ({pct:5.1f}%)")
else:
    print("\n   ‚úÖ Aucune valeur manquante !")

print("\n   üíæ Sauvegarde des fichiers...")

# CSV
csv_cleaned = os.path.join(cleaned_dir, "HWSD2_D1_cleaned.csv")
df.to_csv(csv_cleaned, index=False, encoding='utf-8-sig')
print(f"      ‚úì CSV : {csv_cleaned}")

# Excel
try:
    excel_cleaned = os.path.join(cleaned_dir, "HWSD2_D1_cleaned.xlsx")
    df.to_excel(excel_cleaned, index=False, engine='openpyxl')
    print(f"      ‚úì Excel : {excel_cleaned}")
except Exception as e:
    print(f"      ‚ö†Ô∏è  Excel non cr√©√© : {e}")

# Encoders
import pickle
encoders_path = os.path.join(cleaned_dir, "label_encoders.pkl")
with open(encoders_path, 'wb') as f:
    pickle.dump(encoders, f)
print(f"      ‚úì Encoders : {encoders_path}")

# Mapping
mapping_path = os.path.join(cleaned_dir, "encoding_mapping.txt")
with open(mapping_path, 'w', encoding='utf-8') as f:
    f.write("MAPPING DES VARIABLES CAT√âGORIELLES\n")
    f.write("=" * 80 + "\n\n")
    for col, mapping in encoded_mapping.items():
        f.write(f"{col}:\n")
        f.write(f"  Nombre de cat√©gories: {len(mapping)}\n\n")
        for original, encoded in sorted(mapping.items(), key=lambda x: x[1]):
            f.write(f"   {original:30s} ‚Üí {encoded}\n")
        f.write("\n" + "-" * 80 + "\n\n")
print(f"      ‚úì Mapping : {mapping_path}")

print("\n" + "=" * 80)
print("‚úÖ NETTOYAGE TERMIN√â AVEC SUCC√àS")
print("=" * 80)
print(f"\nüìÅ Fichiers sauvegard√©s dans : {cleaned_dir}")
print("\nüìä R√âSUM√â :")
print(f"   ‚Ä¢ Valeurs -9 remplac√©es")
print(f"   ‚Ä¢ KNN Imputation appliqu√©e")
if len(cols_to_transform) > 0:
    print(f"   ‚Ä¢ Transformation log sur {len(cols_to_transform)} colonnes")
print(f"   ‚Ä¢ {len(categorical_cols)} variables encod√©es")
if len(cols_to_drop) > 0:
    print(f"   ‚Ä¢ {len(cols_to_drop)} colonnes corr√©l√©es supprim√©es")
print(f"   ‚Ä¢ Dataset final : {len(df)} √ó {len(df.columns)}")

NETTOYAGE DES DONN√âES DE SOL HWSD2

[1/6] Chargement des donn√©es...
   ‚úì Donn√©es charg√©es : 25000 enregistrements, 24 colonnes

[2/6] Identification des types de colonnes...
   ‚úì Colonnes num√©riques : 20
   ‚úì Colonnes cat√©gorielles : 2
   ‚úì Colonnes g√©ographiques : 2

   üìä Valeurs manquantes avant nettoyage :
      TEXTURE_USDA         :  1269 (  5.1%)
      REF_BULK             :  1269 (  5.1%)

[3/6] Traitement des valeurs cod√©es -9 (valeurs manquantes)...
   ‚úì COARSE               :   116 valeurs -9 remplac√©es par NaN
   ‚úì SAND                 :   116 valeurs -9 remplac√©es par NaN
   ‚úì SILT                 :   116 valeurs -9 remplac√©es par NaN
   ‚úì CLAY                 :   116 valeurs -9 remplac√©es par NaN
   ‚úì BULK                 :   116 valeurs -9 remplac√©es par NaN
   ‚úì ORG_CARBON           :   116 valeurs -9 remplac√©es par NaN
   ‚úì PH_WATER             :   116 valeurs -9 remplac√©es par NaN
   ‚úì TOTAL_N              :   116 valeurs -9 re

In [10]:
import os
import pandas as pd
import numpy as np
from sklearn.neighbors import NearestNeighbors
import warnings
warnings.filterwarnings('ignore')

# ============================================================================
# CONFIGURATION
# ============================================================================
print("=" * 80)
print("FUSION SPATIALE : FIRE + SOIL (K-NN + IDW)")
print("=" * 80)

# Chemins des fichiers
base_path = r"C:\Users\pc\Desktop\DM\datasets"
soil_path = os.path.join(base_path, "sol\output\cleaned_data", "HWSD2_D1_cleaned.csv")
fire_path = os.path.join(base_path, "fire_data", "fire_nonfire_north_unbalanced.csv")
output_dir = os.path.join(base_path, "merged_fire_soil")

# Param√®tres K-NN et IDW
K_NEIGHBORS = 5  # Nombre de voisins pour K-NN
POWER_IDW = 2    # Puissance pour Inverse Distance Weighting
DISTANCE_THRESHOLD = 0.1  # Seuil de distance (degr√©s) pour consid√©rer un match direct

# Cr√©er le dossier de sortie
os.makedirs(output_dir, exist_ok=True)

# ============================================================================
# √âTAPE 1 : CHARGER LES DONN√âES
# ============================================================================
print("\n[1/7] Chargement des donn√©es...")

print("   üìç Chargement du dataset FIRE...")
df_fire = pd.read_csv(fire_path)
print(f"      ‚úì Fire charg√© : {len(df_fire):,} points")

print("\n   üåç Chargement du dataset SOIL...")
df_soil = pd.read_csv(soil_path)
print(f"      ‚úì Soil charg√© : {len(df_soil):,} points")

# V√©rifier les colonnes
print(f"\n   üìã Colonnes FIRE : {df_fire.columns.tolist()[:5]}...")
print(f"   üìã Colonnes SOIL : {df_soil.columns.tolist()[:5]}...")

# ============================================================================
# √âTAPE 2 : IDENTIFIER COLONNES NUM√âRIQUES VS CAT√âGORIELLES
# ============================================================================
print("\n[2/7] Identification des types de colonnes SOIL...")

# Colonnes SOIL √† copier (exclure longitude/latitude)
soil_cols_to_copy = [col for col in df_soil.columns 
                     if col not in ['longitude', 'latitude']]

# Identifier les colonnes num√©riques et cat√©gorielles
numeric_cols = []
categorical_cols = []

for col in soil_cols_to_copy:
    if df_soil[col].dtype in [np.float64, np.float32, np.int64, np.int32, np.int16, np.int8]:
        numeric_cols.append(col)
    else:
        categorical_cols.append(col)

print(f"   üìä Colonnes num√©riques (IDW)       : {len(numeric_cols)}")
print(f"   üìã Colonnes cat√©gorielles (K-NN)   : {len(categorical_cols)}")

if len(numeric_cols) > 0:
    print(f"      Exemples num√©riques : {numeric_cols[:5]}")
if len(categorical_cols) > 0:
    print(f"      Exemples cat√©gorielles : {categorical_cols[:5]}")

# ============================================================================
# √âTAPE 3 : APPLIQUER K-NN POUR TOUS LES POINTS
# ============================================================================
print("\n[3/7] Application K-NN pour tous les points FIRE...")

# Pr√©parer les donn√©es pour K-NN
X_train = df_soil[['longitude', 'latitude']].values  # Points SOIL
X_test = df_fire[['longitude', 'latitude']].values   # Points FIRE

print(f"   üîÑ Recherche des {K_NEIGHBORS} plus proches points SOIL...")

# K-NN pour trouver les k plus proches points SOIL
knn = NearestNeighbors(n_neighbors=K_NEIGHBORS, metric='euclidean')
knn.fit(X_train)

# Trouver les K plus proches voisins
distances, indices = knn.kneighbors(X_test)

print(f"      ‚úì K-NN termin√©")
print(f"      ‚Ä¢ Distance min (1er voisin) : {distances[:, 0].min():.6f}¬∞ (~{distances[:, 0].min()*111:.2f} km)")
print(f"      ‚Ä¢ Distance max (1er voisin) : {distances[:, 0].max():.6f}¬∞ (~{distances[:, 0].max()*111:.2f} km)")
print(f"      ‚Ä¢ Distance moyenne          : {distances[:, 0].mean():.6f}¬∞ (~{distances[:, 0].mean()*111:.2f} km)")

# ============================================================================
# √âTAPE 4 : CLASSIFICATION DES POINTS (DIRECT MATCH VS INTERPOLATION)
# ============================================================================
print(f"\n[4/7] Classification des points (seuil = {DISTANCE_THRESHOLD}¬∞)...")

# Points avec match direct (distance < seuil)
direct_match_mask = distances[:, 0] < DISTANCE_THRESHOLD
n_direct = direct_match_mask.sum()
n_interpolated = len(df_fire) - n_direct

print(f"   üìç Points avec match direct     : {n_direct:,} ({n_direct/len(df_fire)*100:.1f}%)")
print(f"   üî¢ Points n√©cessitant interpolation : {n_interpolated:,} ({n_interpolated/len(df_fire)*100:.1f}%)")

# ============================================================================
# √âTAPE 5 : ATTRIBUTION DES PROPRI√âT√âS SOIL
# ============================================================================
print(f"\n[5/7] Attribution des propri√©t√©s SOIL...")

# Cr√©er une copie de df_fire pour y ajouter les colonnes SOIL
df_merged = df_fire.copy()

# --- 1. COLONNES CAT√âGORIELLES : Plus proche voisin ---
print(f"\n   üî§ Attribution cat√©gorielles (plus proche voisin)...")
closest_indices = indices[:, 0]  # Index du plus proche voisin

for col in categorical_cols:
    df_merged[col] = df_soil.iloc[closest_indices][col].values
    
print(f"      ‚úì {len(categorical_cols)} colonnes cat√©gorielles assign√©es")

# --- 2. COLONNES NUM√âRIQUES : Interpolation IDW ---
print(f"\n   üî¢ Interpolation num√©riques (IDW avec K={K_NEIGHBORS}, power={POWER_IDW})...")

for col in numeric_cols:
    interpolated_values = []
    
    for i in range(len(df_fire)):
        neighbor_indices = indices[i]
        neighbor_distances = distances[i]
        
        # Valeurs des k voisins
        neighbor_values = df_soil.iloc[neighbor_indices][col].values
        
        # Calculer les poids IDW
        weights = 1 / (neighbor_distances + 1e-6) ** POWER_IDW
        weights = weights / weights.sum()
        
        # Moyenne pond√©r√©e
        interpolated_value = np.sum(weights * neighbor_values)
        interpolated_values.append(interpolated_value)
    
    df_merged[col] = interpolated_values

print(f"      ‚úì {len(numeric_cols)} colonnes num√©riques interpol√©es")

# ============================================================================
# √âTAPE 6 : AJOUTER M√âTADONN√âES
# ============================================================================
print(f"\n[6/7] Ajout des m√©tadonn√©es...")

# M√©thode d'attribution
df_merged['assigned_method'] = np.where(
    direct_match_mask,
    'DIRECT_MATCH',
    'KNN_IDW_INTERPOLATION'
)

# Distance au plus proche voisin
df_merged['knn_distance'] = distances[:, 0]

# Distance en km (approximation : 1¬∞ ‚âà 111 km)
df_merged['knn_distance_km'] = distances[:, 0] * 111

print(f"      ‚úì M√©tadonn√©es ajout√©es")
print(f"        ‚Ä¢ assigned_method : type d'attribution")
print(f"        ‚Ä¢ knn_distance    : distance en degr√©s")
print(f"        ‚Ä¢ knn_distance_km : distance en kilom√®tres")

# ============================================================================
# √âTAPE 7 : R√âORGANISATION ET SAUVEGARDE
# ============================================================================
print("\n[7/7] R√©organisation des colonnes et sauvegarde...")

# R√©organiser les colonnes
# Ordre : [lat, lon, soil_features, method, distance, class]
all_columns = list(df_merged.columns)

base_cols = ['latitude', 'longitude']
meta_cols = ['assigned_method', 'knn_distance', 'knn_distance_km']
target_col = ['class'] if 'class' in all_columns else []

# Colonnes SOIL (tout sauf les colonnes sp√©ciales)
soil_cols = [col for col in all_columns 
             if col not in base_cols + meta_cols + target_col]

# Ordre final
new_order = base_cols + soil_cols + meta_cols + target_col

# Filtrer les colonnes qui existent r√©ellement
new_order = [col for col in new_order if col in df_merged.columns]
df_merged = df_merged[new_order]

print(f"   ‚úì Colonnes r√©organis√©es")
if 'class' in df_merged.columns:
    print(f"     'class' en derni√®re position")

# Sauvegarder
print(f"\nüíæ Sauvegarde des fichiers...")

# 1. CSV
csv_output = os.path.join(output_dir, "fire_soil_merged_knn_idw.csv")
df_merged.to_csv(csv_output, index=False, encoding='utf-8-sig')
print(f"   ‚úì CSV : {csv_output}")

# 2. Excel
try:
    excel_output = os.path.join(output_dir, "fire_soil_merged_knn_idw.xlsx")
    df_merged.to_excel(excel_output, index=False, engine='openpyxl')
    print(f"   ‚úì Excel : {excel_output}")
except Exception as e:
    print(f"   ‚ö†Ô∏è  Excel non cr√©√© : {e}")

# 3. Rapport statistiques
stats_output = os.path.join(output_dir, "fusion_statistics.txt")
with open(stats_output, 'w', encoding='utf-8') as f:
    f.write("=" * 80 + "\n")
    f.write("RAPPORT DE FUSION FIRE + SOIL\n")
    f.write("=" * 80 + "\n\n")
    
    f.write("DONN√âES D'ENTR√âE\n")
    f.write(f"  ‚Ä¢ Points FIRE : {len(df_fire):,}\n")
    f.write(f"  ‚Ä¢ Points SOIL : {len(df_soil):,}\n\n")
    
    f.write("R√âSULTATS\n")
    f.write(f"  ‚Ä¢ Total points conserv√©s : {len(df_merged):,} (100%)\n")
    f.write(f"  ‚Ä¢ Match direct (<{DISTANCE_THRESHOLD}¬∞) : {n_direct:,} ({n_direct/len(df_fire)*100:.1f}%)\n")
    f.write(f"  ‚Ä¢ Interpolation IDW : {n_interpolated:,} ({n_interpolated/len(df_fire)*100:.1f}%)\n\n")
    
    f.write("PARAM√àTRES\n")
    f.write(f"  ‚Ä¢ K voisins : {K_NEIGHBORS}\n")
    f.write(f"  ‚Ä¢ Puissance IDW : {POWER_IDW}\n")
    f.write(f"  ‚Ä¢ Seuil distance : {DISTANCE_THRESHOLD}¬∞ (~{DISTANCE_THRESHOLD*111:.1f} km)\n\n")
    
    f.write("DISTANCES K-NN\n")
    f.write(f"  ‚Ä¢ Minimale : {distances[:, 0].min():.6f}¬∞ (~{distances[:, 0].min()*111:.2f} km)\n")
    f.write(f"  ‚Ä¢ Maximale : {distances[:, 0].max():.6f}¬∞ (~{distances[:, 0].max()*111:.2f} km)\n")
    f.write(f"  ‚Ä¢ Moyenne  : {distances[:, 0].mean():.6f}¬∞ (~{distances[:, 0].mean()*111:.2f} km)\n")
    f.write(f"  ‚Ä¢ M√©diane  : {np.median(distances[:, 0]):.6f}¬∞ (~{np.median(distances[:, 0])*111:.2f} km)\n\n")
    
    f.write("COLONNES\n")
    f.write(f"  ‚Ä¢ Total : {len(df_merged.columns)}\n")
    f.write(f"  ‚Ä¢ Num√©riques interpol√©es : {len(numeric_cols)}\n")
    f.write(f"  ‚Ä¢ Cat√©gorielles (K-NN) : {len(categorical_cols)}\n")

print(f"   ‚úì Rapport : {stats_output}")

# ============================================================================
# RAPPORT FINAL
# ============================================================================
print("\n" + "=" * 80)
print("‚úÖ FUSION TERMIN√âE AVEC SUCC√àS")
print("=" * 80)

print(f"\nüìä STATISTIQUES FINALES :")
print(f"   ‚Ä¢ Total points FIRE d'origine  : {len(df_fire):,}")
print(f"   ‚Ä¢ Points dans le dataset final : {len(df_merged):,}")
print(f"   ‚Ä¢ Taux de conservation         : 100.0%")

print(f"\nüìç M√âTHODES D'ATTRIBUTION :")
method_counts = df_merged['assigned_method'].value_counts()
for method, count in method_counts.items():
    pct = count / len(df_merged) * 100
    print(f"   ‚Ä¢ {method:25s} : {count:6,} points ({pct:5.1f}%)")

print(f"\nüìè DISTANCES K-NN :")
print(f"   ‚Ä¢ Distance minimale   : {distances[:, 0].min():.6f}¬∞ (~{distances[:, 0].min()*111:.2f} km)")
print(f"   ‚Ä¢ Distance maximale   : {distances[:, 0].max():.6f}¬∞ (~{distances[:, 0].max()*111:.2f} km)")
print(f"   ‚Ä¢ Distance moyenne    : {distances[:, 0].mean():.6f}¬∞ (~{distances[:, 0].mean()*111:.2f} km)")
print(f"   ‚Ä¢ Distance m√©diane    : {np.median(distances[:, 0]):.6f}¬∞ (~{np.median(distances[:, 0])*111:.2f} km)")

print(f"\nüî¢ INTERPOLATION IDW :")
print(f"   ‚Ä¢ Colonnes interpol√©es : {len(numeric_cols)}")
print(f"   ‚Ä¢ Colonnes cat√©gorielles : {len(categorical_cols)}")
print(f"   ‚Ä¢ Nombre de voisins    : {K_NEIGHBORS}")
print(f"   ‚Ä¢ Puissance IDW        : {POWER_IDW}")

print(f"\nüéØ COLONNES DU DATASET FINAL :")
print(f"   ‚Ä¢ Total colonnes : {len(df_merged.columns)}")

print(f"\nüëÄ APER√áU DES DONN√âES (5 premi√®res lignes) :")
print("=" * 80)
display_cols = ['latitude', 'longitude', 'assigned_method', 'knn_distance_km']
if 'class' in df_merged.columns:
    display_cols.append('class')
print(df_merged[display_cols].head())

print(f"\n‚ú® CARACT√âRISTIQUES :")
print(f"   ‚úÖ 100% des points FIRE conserv√©s")
print(f"   ‚úÖ Match direct pour points proches (<{DISTANCE_THRESHOLD}¬∞)")
print(f"   ‚úÖ Interpolation IDW pour points √©loign√©s")
print(f"   ‚úÖ Cat√©gorielles : K-NN (plus proche voisin)")
print(f"   ‚úÖ Num√©riques : IDW (interpolation pond√©r√©e)")
print(f"   ‚úÖ Tra√ßabilit√© via m√©tadonn√©es")
if 'class' in df_merged.columns:
    print(f"   ‚úÖ Colonne 'class' en derni√®re position")

print("\n" + "=" * 80)
print("üöÄ DATASET COMPLET PR√äT POUR LA MOD√âLISATION !")
print("=" * 80)

FUSION SPATIALE : FIRE + SOIL (K-NN + IDW)

[1/7] Chargement des donn√©es...
   üìç Chargement du dataset FIRE...
      ‚úì Fire charg√© : 140,165 points

   üåç Chargement du dataset SOIL...
      ‚úì Soil charg√© : 25,000 points

   üìã Colonnes FIRE : ['latitude', 'longitude', 'class']...
   üìã Colonnes SOIL : ['longitude', 'latitude', 'COARSE', 'CEC_CLAY', 'ELEC_COND_log']...

[2/7] Identification des types de colonnes SOIL...
   üìä Colonnes num√©riques (IDW)       : 9
   üìã Colonnes cat√©gorielles (K-NN)   : 0
      Exemples num√©riques : ['COARSE', 'CEC_CLAY', 'ELEC_COND_log', 'ORG_CARBON_log', 'TEB_log']

[3/7] Application K-NN pour tous les points FIRE...
   üîÑ Recherche des 5 plus proches points SOIL...
      ‚úì K-NN termin√©
      ‚Ä¢ Distance min (1er voisin) : 0.000083¬∞ (~0.01 km)
      ‚Ä¢ Distance max (1er voisin) : 0.104215¬∞ (~11.57 km)
      ‚Ä¢ Distance moyenne          : 0.023043¬∞ (~2.56 km)

[4/7] Classification des points (seuil = 0.1¬∞)...
   üìç Po