### PROJET : PRÉDICTION DE PROBABILITÉ D'INONDATION


Ce projet s’inscrit dans le cadre d’un travail pratique en Intelligence Artificielle portant sur la comparaison de modèles de régression supervisée.

À partir d’un dataset de grande taille (plus de 1 000 observations et plus de 10 variables explicatives), nous avons étudié la prédiction du risque d’inondation en fonction de facteurs climatiques, hydrologiques et environnementaux.

Deux approches de modélisation ont été mises en œuvre :

- La régression linéaire multiple, utilisée comme modèle de référence interprétable,

- L’algorithme Random Forest Regressor, afin de capturer les relations non linéaires et les interactions complexes entre variables.

Le projet couvre l’ensemble du pipeline de data science :

- Nettoyage et préparation des données,

- Analyse exploratoire,

- Entraînement des modèles,

- Évaluation des performances (MSE, RMSE, R²),

- Comparaison critique des résultats obtenus.

L’objectif final est d’identifier le modèle le plus adapté à la prédiction des inondations et de discuter les notions de bias, variance, underfitting et overfitting dans un contexte réel.

### PROBLÉMATIQUE DU PROJET

#### Contexte et enjeux

Les inondations sont des catastrophes naturelles qui touchent des millions de personnes chaque année, causant des pertes humaines, des dégâts matériels et des perturbations économiques. Face à l’augmentation de la fréquence et de l’intensité des événements extrêmes liée au changement climatique, la capacité à prédire et anticiper les risques d’inondation devient un enjeu majeur pour la gestion des risques et la protection des populations.

#### Problématique principale

Comment peut-on développer un modèle de Machine Learning capable de prédire avec précision la probabilité d’inondation en se basant sur un ensemble de facteurs environnementaux, infrastructurels et socio-politiques ?

#### Objectifs du projet
Objectif principal : 
- Développer un modèle prédictif fiable pour estimer la probabilité d’inondation à partir de 20 variables explicatives.

Objectifs spécifiques :
- Analyser les corrélations entre les variables explicatives et la variable cible
- Comparer plusieurs algorithmes de Machine Learning
- Évaluer les performances des modèles
- Identifier les variables les plus importantes pour la prédiction
- Diagnostiquer les problèmes de biais, variance, sous-ajustement et surapprentissage


### PRÉSENTATION DU DATASET
#### Bibliothèque necessaire

In [1]:
import pandas as pd # Manipulation et analyse de données
import numpy as np # Calculs numériques
import matplotlib.pyplot as plt # Visualisation de données
import seaborn as sns # Visualisation de données avancée
from sklearn.model_selection import train_test_split # Division des données en ensembles d'entraînement et de test
from sklearn.preprocessing import StandardScaler # Normalisation des données
from sklearn.linear_model import LinearRegression, Ridge, Lasso # Modèles de régression linéaire
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor # Modèles d'ensemble
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score # Évaluation des modèles
from sklearn.model_selection import cross_val_score # Validation croisée
import warnings
warnings.filterwarnings('ignore')

# Configuration pour l'affichage
try:
    plt.style.use('seaborn-v0_8-darkgrid')
except:
    try:
        plt.style.use('seaborn-darkgrid')
    except:
        plt.style.use('default')
        
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

#### Chargement des données

In [3]:
# Dataset d'entraînement
train_df = pd.read_csv('datasets/train.csv')

# Dataset de test
test_df = pd.read_csv('datasets/test.csv')

# Affichage des premières lignes du dataset d'entraînement
train_df.head()

Unnamed: 0,id,MonsoonIntensity,TopographyDrainage,RiverManagement,Deforestation,Urbanization,ClimateChange,DamsQuality,Siltation,AgriculturalPractices,Encroachments,IneffectiveDisasterPreparedness,DrainageSystems,CoastalVulnerability,Landslides,Watersheds,DeterioratingInfrastructure,PopulationScore,WetlandLoss,InadequatePlanning,PoliticalFactors,FloodProbability
0,0,5,8,5,8,6,4,4,3,3,4,2,5,3,3,5,4,7,5,7,3,0.445
1,1,6,7,4,4,8,8,3,5,4,6,9,7,2,0,3,5,3,3,4,3,0.45
2,2,6,5,6,7,3,7,1,5,4,5,6,7,3,7,5,6,8,2,3,3,0.53
3,3,3,4,6,5,4,8,4,7,6,8,5,2,4,7,4,4,6,5,7,5,0.535
4,4,5,3,2,6,4,4,3,3,3,3,5,2,2,6,6,4,1,2,3,5,0.415


#### Informations générales sur le dataset

In [4]:
# Préparer les variables explicatives
feature_cols = [col for col in train_df.columns if col not in ['id', 'FloodProbability']]

print(f"Dataset: {len(train_df):,} observations, {len(feature_cols)} variables explicatives")
print(f"Valeurs manquantes: {train_df.isnull().sum().sum()}")

train_df.describe()

Dataset: 1,117,957 observations, 20 variables explicatives
Valeurs manquantes: 0


Unnamed: 0,id,MonsoonIntensity,TopographyDrainage,RiverManagement,Deforestation,Urbanization,ClimateChange,DamsQuality,Siltation,AgriculturalPractices,Encroachments,IneffectiveDisasterPreparedness,DrainageSystems,CoastalVulnerability,Landslides,Watersheds,DeterioratingInfrastructure,PopulationScore,WetlandLoss,InadequatePlanning,PoliticalFactors,FloodProbability
count,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0,1117957.0
mean,558978.0,4.92145,4.926671,4.955322,4.94224,4.942517,4.934093,4.955878,4.927791,4.942619,4.94923,4.945239,4.946893,4.953999,4.931376,4.929032,4.925907,4.92752,4.950859,4.940587,4.939004,0.5044803
std,322726.5,2.056387,2.093879,2.072186,2.051689,2.083391,2.057742,2.083063,2.065992,2.068545,2.083324,2.078141,2.072333,2.088899,2.078287,2.082395,2.064813,2.074176,2.068696,2.081123,2.09035,0.0510261
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.285
25%,279489.0,3.0,3.0,4.0,4.0,3.0,3.0,4.0,3.0,3.0,4.0,3.0,4.0,3.0,3.0,3.0,3.0,3.0,4.0,3.0,3.0,0.47
50%,558978.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,0.505
75%,838467.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,0.54
max,1117956.0,16.0,18.0,16.0,17.0,17.0,17.0,16.0,16.0,16.0,18.0,16.0,17.0,17.0,16.0,16.0,17.0,18.0,19.0,16.0,16.0,0.725
