In [1]:
import os
import pandas as pd
import geopandas as gpd
from shapely.geometry import Point
from shapely import wkt
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# ============================================================================
# CONFIGURATION
# ============================================================================
print("=" * 80)
print("FUSION SPATIALE : FIRE+SOIL+LANDCOVER (DISTANCE MINIMALE POUR POINTS ORPHELINS)")
print("=" * 80)

# Chemins des fichiers
base_path = r"C:\Users\pc\Desktop\DM\datasets"
fire_soil_path = os.path.join(base_path, "merged_fire_soil", "fire_soil_merged_knn_idw.csv")
landcover_path = os.path.join(base_path, "landcover", "landcover_merged_encoded.csv")
output_dir = os.path.join(base_path, "merged_fire_soil_landcover_distance_min")

# Cr√©er le dossier de sortie
os.makedirs(output_dir, exist_ok=True)

# ============================================================================
# √âTAPE 1 : CHARGER LES DONN√âES
# ============================================================================
print("\n[1/8] Chargement des donn√©es...")

print("   üìç Chargement du dataset FIRE+SOIL...")
df_fire_soil = pd.read_csv(fire_soil_path)
print(f"      ‚úì Fire+Soil charg√© : {len(df_fire_soil):,} points")

print("\n   üå≥ Chargement du dataset LANDCOVER...")
df_landcover = pd.read_csv(landcover_path)
print(f"      ‚úì Landcover charg√© : {len(df_landcover):,} polygones")

# ============================================================================
# √âTAPE 2 : CONVERTIR EN GEODATAFRAMES
# ============================================================================
print("\n[2/8] Conversion en GeoDataFrames...")

# Fire+Soil ‚Üí Points
print("   üìç Cr√©ation des points FIRE+SOIL...")
geometry_fire_soil = [Point(xy) for xy in zip(df_fire_soil['longitude'], df_fire_soil['latitude'])]
gdf_fire_soil = gpd.GeoDataFrame(df_fire_soil, geometry=geometry_fire_soil, crs='EPSG:4326')
gdf_fire_soil['point_index'] = gdf_fire_soil.index  # Garder l'index original
print(f"      ‚úì {len(gdf_fire_soil):,} points cr√©√©s")

# Landcover ‚Üí Polygones
print("   üå≥ Conversion des polygones LANDCOVER...")
df_landcover['geometry'] = df_landcover['geometry'].apply(wkt.loads)
gdf_landcover = gpd.GeoDataFrame(df_landcover, geometry='geometry', crs='EPSG:4326')
print(f"      ‚úì {len(gdf_landcover):,} polygones cr√©√©s")

# ============================================================================
# √âTAPE 3 : JOINTURE SPATIALE (POINTS DANS POLYGONES)
# ============================================================================
print("\n[3/8] Jointure spatiale (intersects) pour points dans polygones...")

gdf_matched = gpd.sjoin(
    gdf_fire_soil,
    gdf_landcover,
    how='inner',
    predicate='intersects'
)

print(f"      ‚úì Points match√©s : {len(gdf_matched):,} correspondances")

# ============================================================================
# √âTAPE 4 : GESTION DES DOUBLONS
# ============================================================================
print("\n[4/8] Gestion des doublons...")

duplicated = gdf_matched[gdf_matched.duplicated(subset=['point_index'], keep=False)]
if len(duplicated) > 0:
    n_unique_dups = duplicated['point_index'].nunique()
    print(f"   ‚ö†Ô∏è  {n_unique_dups:,} points dans plusieurs polygones")
    print(f"   üîß Application : keep='first'")
    gdf_matched = gdf_matched.drop_duplicates(subset=['point_index'], keep='first')
    print(f"      ‚úì {len(gdf_matched):,} points uniques apr√®s d√©doublonnage")
else:
    print(f"   ‚úÖ Aucun doublon d√©tect√©")

# ============================================================================
# √âTAPE 5 : IDENTIFIER LES POINTS ORPHELINS (SANS POLYGONE)
# ============================================================================
print("\n[5/8] Identification des points orphelins...")

matched_indices = set(gdf_matched['point_index'].values)
orphan_mask = ~gdf_fire_soil['point_index'].isin(matched_indices)
gdf_orphans = gdf_fire_soil[orphan_mask].copy()
n_orphans = len(gdf_orphans)
print(f"   üìä Points sans polygone : {n_orphans:,} ({n_orphans/len(gdf_fire_soil)*100:.2f}%)")

if n_orphans == 0:
    print(f"   ‚úÖ Tous les points sont dans des polygones !")
    gdf_final = gdf_matched.copy()
else:
    print(f"   üîß Attribution des points orphelins via DISTANCE MINIMALE")

# ============================================================================
# √âTAPE 6 : ATTRIBUTION DES POINTS ORPHELINS AU POLYGONE LE PLUS PROCHE
# ============================================================================
print("\n[6/8] Attribution des points orphelins au polygone le plus proche...")

gdf_orphans_enriched = gdf_orphans.copy()
landcover_cols_to_copy = [col for col in gdf_landcover.columns if col != 'geometry']

for idx, point in gdf_orphans_enriched.iterrows():
    distances = gdf_landcover.geometry.distance(point.geometry)
    closest_idx = distances.idxmin()
    # Copier les colonnes LANDCOVER
    for col in landcover_cols_to_copy:
        gdf_orphans_enriched.at[idx, col] = gdf_landcover.at[closest_idx, col]

print(f"      ‚úì {len(gdf_orphans_enriched):,} points orphelins enrichis")

# ============================================================================
# √âTAPE 7 : FUSIONNER TOUS LES POINTS
# ============================================================================
print("\n[7/8] Fusion des points match√©s et orphelins...")

common_cols = list(set(gdf_matched.columns) & set(gdf_orphans_enriched.columns))
gdf_final = pd.concat([
    gdf_matched[common_cols],
    gdf_orphans_enriched[common_cols]
], ignore_index=True)

print(f"      ‚úì Dataset final : {len(gdf_final):,} points")

# ============================================================================
# √âTAPE 8 : R√âORGANISATION ET SAUVEGARDE
# ============================================================================
print("\n[8/8] R√©organisation des colonnes et sauvegarde...")

cols_to_drop = ['index_right', 'point_index']  # suppression des colonnes techniques
gdf_final = gdf_final.drop(columns=[col for col in cols_to_drop if col in gdf_final.columns])

# R√©organiser colonnes
all_columns = list(gdf_final.columns)
base_cols = ['latitude', 'longitude']
target_col = ['class']
geo_col = ['geometry']
feature_cols = [col for col in all_columns if col not in base_cols + target_col + geo_col]
new_order = base_cols + feature_cols + target_col + geo_col
gdf_final = gdf_final[new_order]

# Conversion en GeoDataFrame
gdf_final = gpd.GeoDataFrame(gdf_final, geometry='geometry', crs='EPSG:4326')

# Sauvegarde
csv_output = os.path.join(output_dir, "fire_soil_landcover_merged_distance_min.csv")
df_csv = pd.DataFrame(gdf_final.drop(columns=['geometry']))
df_csv.to_csv(csv_output, index=False, encoding='utf-8-sig')

gpkg_output = os.path.join(output_dir, "fire_soil_landcover_merged_distance_min.gpkg")
gdf_final.to_file(gpkg_output, driver='GPKG')

try:
    excel_output = os.path.join(output_dir, "fire_soil_landcover_merged_distance_min.xlsx")
    df_csv.to_excel(excel_output, index=False, engine='openpyxl')
except Exception as e:
    print(f"‚ö†Ô∏è Excel non cr√©√© : {e}")

print("\n‚úÖ FUSION FIRE+SOIL+LANDCOVER TERMIN√âE AVEC SUCC√àS")


FUSION SPATIALE : FIRE+SOIL+LANDCOVER (DISTANCE MINIMALE POUR POINTS ORPHELINS)

[1/8] Chargement des donn√©es...
   üìç Chargement du dataset FIRE+SOIL...
      ‚úì Fire+Soil charg√© : 140,165 points

   üå≥ Chargement du dataset LANDCOVER...
      ‚úì Landcover charg√© : 438,513 polygones

[2/8] Conversion en GeoDataFrames...
   üìç Cr√©ation des points FIRE+SOIL...
      ‚úì 140,165 points cr√©√©s
   üå≥ Conversion des polygones LANDCOVER...
      ‚úì 438,513 polygones cr√©√©s

[3/8] Jointure spatiale (intersects) pour points dans polygones...
      ‚úì Points match√©s : 139,479 correspondances

[4/8] Gestion des doublons...
   ‚úÖ Aucun doublon d√©tect√©

[5/8] Identification des points orphelins...
   üìä Points sans polygone : 686 (0.49%)
   üîß Attribution des points orphelins via DISTANCE MINIMALE

[6/8] Attribution des points orphelins au polygone le plus proche...
      ‚úì 686 points orphelins enrichis

[7/8] Fusion des points match√©s et orphelins...
      ‚úì Dataset

In [2]:
import os
import pandas as pd

# ============================================================================
# SUPPRESSION DES COLONNES DE M√âTADONN√âES
# ============================================================================
print("=" * 80)
print("SUPPRESSION DES COLONNES DE M√âTADONN√âES")
print("=" * 80)

# Chemin du fichier
base_path = r"C:\Users\pc\Desktop\DM\datasets"
input_file = os.path.join(base_path, "merged_fire_soil_landcover_distance_min", "fire_soil_landcover_merged_distance_min.csv")
output_file = os.path.join(base_path, "merged_fire_soil_landcover_distance_min", "fire_soil_landcover_merged_clean.csv")

# Colonnes √† supprimer
cols_to_drop = ['knn_distance_km', 'knn_distance', 'assigned_method']

# ============================================================================
# CHARGEMENT ET TRAITEMENT
# ============================================================================
print("\n[1/3] Chargement du fichier...")
df = pd.read_csv(input_file)
print(f"   ‚úì Fichier charg√© : {len(df):,} lignes √ó {len(df.columns)} colonnes")

print("\n[2/3] Suppression des colonnes de m√©tadonn√©es...")

# V√©rifier quelles colonnes existent
existing_cols_to_drop = [col for col in cols_to_drop if col in df.columns]
missing_cols = [col for col in cols_to_drop if col not in df.columns]

if len(existing_cols_to_drop) > 0:
    print(f"\n   üìã Colonnes √† supprimer :")
    for col in existing_cols_to_drop:
        print(f"      ‚Ä¢ {col}")
    
    # Supprimer les colonnes
    df = df.drop(columns=existing_cols_to_drop)
    
    print(f"\n   ‚úì {len(existing_cols_to_drop)} colonnes supprim√©es")
else:
    print("   ‚ÑπÔ∏è  Aucune des colonnes sp√©cifi√©es n'existe dans le fichier")

if len(missing_cols) > 0:
    print(f"\n   ‚ö†Ô∏è  Colonnes non trouv√©es (d√©j√† absentes) :")
    for col in missing_cols:
        print(f"      ‚Ä¢ {col}")

print(f"\n   üìä Nouveau dataset : {len(df):,} lignes √ó {len(df.columns)} colonnes")

# ============================================================================
# SAUVEGARDE
# ============================================================================
print("\n[3/3] Sauvegarde du fichier nettoy√©...")

# Sauvegarder en CSV
df.to_csv(output_file, index=False, encoding='utf-8-sig')
print(f"   ‚úì CSV sauvegard√© : {output_file}")

# Optionnel : Sauvegarder en Excel
try:
    excel_output = output_file.replace('.csv', '.xlsx')
    df.to_excel(excel_output, index=False, engine='openpyxl')
    print(f"   ‚úì Excel sauvegard√© : {excel_output}")
except Exception as e:
    print(f"   ‚ö†Ô∏è  Excel non cr√©√© : {e}")

# ============================================================================
# RAPPORT FINAL
# ============================================================================
print("\n" + "=" * 80)
print("‚úÖ NETTOYAGE TERMIN√â")
print("=" * 80)

print(f"\nüìä R√âSUM√â :")
print(f"   ‚Ä¢ Colonnes supprim√©es : {len(existing_cols_to_drop)}")
print(f"   ‚Ä¢ Colonnes restantes  : {len(df.columns)}")
print(f"   ‚Ä¢ Lignes conserv√©es   : {len(df):,}")

print(f"\nüìã COLONNES FINALES ({len(df.columns)}) :")
for i, col in enumerate(df.columns, 1):
    print(f"   {i:2d}. {col}")

print(f"\nüëÄ APER√áU DES DONN√âES (5 premi√®res lignes) :")
print("=" * 80)
display_cols = df.columns[:5].tolist()  # Afficher les 5 premi√®res colonnes
print(df[display_cols].head())

print("\n" + "=" * 80)
print("üöÄ FICHIER NETTOY√â PR√äT √Ä UTILISER !")
print("=" * 80)

SUPPRESSION DES COLONNES DE M√âTADONN√âES

[1/3] Chargement du fichier...
   ‚úì Fichier charg√© : 140,165 lignes √ó 16 colonnes

[2/3] Suppression des colonnes de m√©tadonn√©es...

   üìã Colonnes √† supprimer :
      ‚Ä¢ knn_distance_km
      ‚Ä¢ knn_distance
      ‚Ä¢ assigned_method

   ‚úì 3 colonnes supprim√©es

   üìä Nouveau dataset : 140,165 lignes √ó 13 colonnes

[3/3] Sauvegarde du fichier nettoy√©...
   ‚úì CSV sauvegard√© : C:\Users\pc\Desktop\DM\datasets\merged_fire_soil_landcover_distance_min\fire_soil_landcover_merged_clean.csv
   ‚úì Excel sauvegard√© : C:\Users\pc\Desktop\DM\datasets\merged_fire_soil_landcover_distance_min\fire_soil_landcover_merged_clean.xlsx

‚úÖ NETTOYAGE TERMIN√â

üìä R√âSUM√â :
   ‚Ä¢ Colonnes supprim√©es : 3
   ‚Ä¢ Colonnes restantes  : 13
   ‚Ä¢ Lignes conserv√©es   : 140,165

üìã COLONNES FINALES (13) :
    1. latitude
    2. longitude
    3. TEB_log
    4. REF_BULK_log
    5. CEC_CLAY
    6. GYPSUM_log
    7. TEXTURE_SOTER_encoded
    8. 