# 📊 Analyse des données

## 📌 Introduction
Ce notebook a pour objectif d'analyser les données afin d'en extraire des insights pertinents.


### 📂 Importation des données & librairies

In [18]:
from utils import *
import numpy as np
import scipy.stats as stats
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#pour voir les visus, faire tourner les notebooks en local

In [19]:
df = load_cleaned_data()

## 📊 Visualisation des données

### Détermination de la Hauteur Optimale de la Digue

 🎯 Objectif : Nous cherchons à déterminer la hauteur optimale de la digue en analysant la distribution des hauteurs de crues.

 📌 Méthodologie : Calculer le **percentile 95%** des hauteurs de crues.

 💡 Interprétation : Une digue dimensionnée selon le **percentile 95%** couvre 95% des crues historiques. **5% des crues** risquent encore de dépasser cette hauteur, mais cela réduit considérablement les coûts de construction.



In [20]:
data = df["Hauteur"]

distributions = {
    "norm": stats.norm,
    "gumbel_r": stats.gumbel_r,
    "gumbel_l": stats.gumbel_l,
    "weibull_min": stats.weibull_min,
    "expon": stats.expon,
    "logistic": stats.logistic
}

best_dist = None 
best_stat = float("inf")

#Anderson-Darling adequation sur valeurs extremes
for name, dist in distributions.items():
    params = dist.fit(data)  
    ad_stat, critical_values, significance = stats.anderson(data, dist=name)
    print(f"{name} : Anderson-Darling Stat = {ad_stat:.5f}, seuil critique = {critical_values[2]:.5f}")

    #plus petite stat AD
    if ad_stat < best_stat:
        best_stat = ad_stat
        best_dist = name

print(f"\n✅ Meilleure distribution selon le test d'Anderson-Darling : {best_dist} (AD Stat = {best_stat:.5f})")
plot_fitted_distributions(data, distributions)

norm : Anderson-Darling Stat = 0.29832, seuil critique = 0.76300
gumbel_r : Anderson-Darling Stat = 1.07553, seuil critique = 0.74400
gumbel_l : Anderson-Darling Stat = 2.12803, seuil critique = 0.74400
weibull_min : Anderson-Darling Stat = 0.27587, seuil critique = 0.51400
expon : Anderson-Darling Stat = 25.58989, seuil critique = 1.33400
logistic : Anderson-Darling Stat = 0.36275, seuil critique = 0.65900

✅ Meilleure distribution selon le test d'Anderson-Darling : weibull_min (AD Stat = 0.27587)


In [None]:
dist_finale = distributions[best_dist]
seuil_risque = 0.10  # 10% de crues qui dépassent (arbitraire)
h_optimal = get_optimal_digue_height(df, dist_finale, seuil_risque)

print(f"Hauteur optimale de la digue pour {100*(1-seuil_risque)}% de protection : {h_optimal:.2f} m")

Hauteur optimale de la digue pour 90.0% de protection : 5.57 m


In [22]:
#---seuil optimal---
visualize_distribution_with_threshold(df, h_optimal)

In [23]:
visualize_boxplot(df)

> Aucun outlier particulier n'est détecté. La médiane est d'environ 4 mètres.

In [24]:
visualize_time_series(df)

> On observe une certaine périodicité, mise en évidence par la récurrence des pics.