## Projet de contr√¥le qualit√© - √âtude de la pollution √† `Vesoul`  

## Auteur : KHELID Lilya-Nada  

### Contexte  

Ayant souffert d‚Äôasthme √† Vesoul, ce projet vise √† comprendre si la particule `PM2.5` en est une cause possible. Nous allons analyser ses niveaux sur les deux derni√®res ann√©es et √©valuer si la qualit√© de l‚Äôair s‚Äôest d√©grad√©e ou am√©lior√©e.  

### Objectifs  

- Estimer la moyenne et la variance des niveaux de PM2.5  
- Comparer ces valeurs sur deux ann√©es diff√©rentes  
- Appliquer des tests statistiques pour analyser les variations  
- V√©rifier si PM2.5 suit une loi de probabilit√©  
- √âlaborer un protocole de contr√¥le qualit√© et voir si les niveaux restent sous contr√¥le  

### M√©thodologie  

Nous utiliserons des outils statistiques pour :  

- Estimer les param√®tres cl√©s (moyenne, variance, m√©diane, quantiles)  
- Tester les diff√©rences entre les deux ann√©es (Wilcoxon, test du signe, Cox-Stuart)  
- V√©rifier l‚Äôad√©quation des donn√©es √† une loi de probabilit√©  
- Analyser la corr√©lation entre les deux ann√©es  

### Plan  

1. R√©cup√©ration et exploration des donn√©es  
2. Estimation des param√®tres statistiques  
3. Comparaison des ann√©es par tests statistiques  
4. Validation d‚Äôun mod√®le de contr√¥le qualit√©  
5. Interpr√©tation et recommandations  

#### Donn√©es : [Atmo France](https://www.atmo-france.org/article/les-portails-regionaux-open-data-des-aasqa)  


### üì• Importation des librairies

In [15]:
import os 
import pandas as pd
import plotly.express as px
import scipy.stats as stats
import numpy as np
import scipy.stats as stats
import plotly.figure_factory as ff # d'autre sont possible
import plotly.express as px

### üì• Importation de la data



Notre dataset contient les informations pour plusieurs villes et diff√©rents types de polluants. 

Nous avons appliqu√© un filtre afin de ne conserver que les donn√©es relatives √† la ville de **Vesoul** et au polluant **PM2.5**. 

Apr√®s ce filtrage, de nombreuses variables sont devenues inutiles. Nous avons donc conserv√© uniquement les colonnes suivantes :
- **Date de d√©but**
- **Date de fin**
- **Valeur**

L'unit√© de la **Valeur** du polluant **PM2.5** est exprim√©e en **¬µg/m¬≥**.


In [16]:
df = pd.read_csv("../data/processed/Vesoul_PM2.5_2022_2024.csv") 
df['date_fin'] = pd.to_datetime(df['date_fin']).dt.date
df['date_debut'] = pd.to_datetime(df['date_debut'])
print(df.shape)
df.head()

(673, 3)


Unnamed: 0,date_debut,date_fin,valeur
0,2023-01-13,2023-01-13,1.8
1,2023-01-14,2023-01-14,2.0
2,2023-01-15,2023-01-15,1.9
3,2023-01-16,2023-01-16,1.7
4,2023-01-17,2023-01-17,3.3


In [17]:
print(sum(df['date_debut'] == df['date_fin']))
print(df.shape[0])

673
673


On peut retirer `date_fin`, car elle est exactement identique √† `date_debut`.

In [18]:
df = df.drop('date_fin', axis=1)
df = df.rename(columns={'date_debut': 'date'})
df.head()

Unnamed: 0,date,valeur
0,2023-01-13,1.8
1,2023-01-14,2.0
2,2023-01-15,1.9
3,2023-01-16,1.7
4,2023-01-17,3.3


In [19]:
df["annee"] = df["date"].dt.year

stats_per_year = df.groupby("annee")["valeur"].agg(["mean", "var"]).rename(columns={"mean": "Moyenne", "var": "Variance"})
stats_per_year 

Unnamed: 0_level_0,Moyenne,Variance
annee,Unnamed: 1_level_1,Unnamed: 2_level_1
2023,7.388141,39.615325
2024,6.97313,28.690359


### üìä Visualisation des donn√©es

In [20]:
fig1 = px.line(df, x="date", y="valeur", 
               title="√âvolution des PM2.5 √† Vesoul",
               labels={"date_debut": "Date", "valeur": "Concentration PM2.5 (¬µg/m¬≥)"},
               markers=True)
fig1.show()

fig2 = px.box(df, x="annee", y="valeur",
              title="Distribution des PM2.5 par ann√©e",
              labels={"annee": "Ann√©e", "valeur": "Concentration PM2.5 (¬µg/m¬≥)"})
fig2.show()


The behavior of DatetimeProperties.to_pydatetime is deprecated, in a future version this will return a Series containing python datetime objects instead of an ndarray. To retain the old behavior, call `np.array` on the result



D'une ann√©es √† l'autre, c'est tr√©s similaire


## Tests Statistiques :

In [21]:
df_2023 = df[df["annee"] == 2023]["valeur"]
df_2024 = df[df["annee"] == 2024]["valeur"]

### 1Ô∏è‚É£ Test de Normalit√© - **Shapiro-Wilk**
üìå **Objectif :** V√©rifier si les donn√©es suivent une loi normale.

- **Hypoth√®se nulle ($H_0$)** : Les donn√©es sont normalement distribu√©es.
- **Hypoth√®se alternative ($H_1$)** : Les donn√©es ne sont pas normalement distribu√©es.
- **Interpr√©tation :** Si $p$-valeur > 0.05, on **accepte $H_0$** ‚Üí Donn√©es normales.
  Sinon, on **rejette $H_0$** ‚Üí Donn√©es non normales.


In [22]:
shapiro_2023 = stats.shapiro(df_2023)
shapiro_2024 = stats.shapiro(df_2024)

print(f"Test de Shapiro-Wilk (Normalit√©) - 2023 : p-valeur = {shapiro_2023.pvalue:.4f}")
print(f"Test de Shapiro-Wilk (Normalit√©) - 2024 : p-valeur = {shapiro_2024.pvalue:.4f}")

Test de Shapiro-Wilk (Normalit√©) - 2023 : p-valeur = 0.0000
Test de Shapiro-Wilk (Normalit√©) - 2024 : p-valeur = 0.0000


> Les donn√©es ne sont pas normales, on va donc utiliser des tests non parametriques

### 2Ô∏è‚É£ Test de Comparaison des Moyennes

#### **üîπ Test de Wilcoxon-Mann-Whitney** (non parametrique)
üìå **Objectif :** Comparer les distributions sans supposer de normalit√©.

- **Hypoth√®se nulle ($H_0$)** : Pas de diff√©rence entre les distributions de 2023 et 2024.
- **Hypoth√®se alternative ($H_1$)** : Une ann√©e a des valeurs significativement diff√©rentes.
- **Interpr√©tation :** Si $p$-valeur < 0.05, on rejette $H_0$ ‚Üí Diff√©rence significative.

In [23]:
mann_whitney = stats.mannwhitneyu(df_2023, df_2024, alternative="two-sided")
print(f"Test de Mann-Whitney U : p-valeur = {mann_whitney.pvalue:.4f}")

Test de Mann-Whitney U : p-valeur = 0.4628


> Pas de diff√©rence significative de distribution entre 2023 et 2024

### 3Ô∏è‚É£ Test de Comparaison des Variances
#### **üîπ Test de Levene**
üìå **Objectif :** V√©rifier si les variances des PM2.5 sont homog√®nes entre les ann√©es.

- **Hypoth√®se nulle ($H_0$)** : Les variances des deux ann√©es sont √©gales.
- **Hypoth√®se alternative ($H_1$)** : Les variances sont diff√©rentes.
- **Interpr√©tation :** Si $p$-valeur < 0.05, on rejette $H_0$ ‚Üí Variances diff√©rentes.

In [24]:
levene = stats.levene(df_2023, df_2024)
print(f"Test de Levene (homog√©n√©it√© des variances) : p-valeur = {levene.pvalue:.4f}")

Test de Levene (homog√©n√©it√© des variances) : p-valeur = 0.4501


> Pas de diff√©rence significative dans la variabilit√© des PM2.5.

## Mod√©lisation des PM2.5

In [25]:
pm25 = df['valeur']

In [26]:
fig = px.histogram(x=pm25, nbins=30, histnorm='probability density', title="Histogramme des PM2.5",
                   labels={'x': "Concentration PM2.5 (¬µg/m¬≥)", 'y': "Densit√© de probabilit√©"}, marginal='box')
fig.show()

In [27]:
x = np.linspace(min(pm25), max(pm25), 100)

#--Loi Log-Normale--
shape, loc, scale = stats.lognorm.fit(pm25, floc=0)
pdf_lognorm = stats.lognorm.pdf(x, shape, loc, scale)

#--Loi de Weibull--
shape_weibull, loc_weibull, scale_weibull = stats.weibull_min.fit(pm25, floc=0)
pdf_weibull = stats.weibull_min.pdf(x, shape_weibull, loc_weibull, scale_weibull)
#--Loi Gamma--
shape_gamma, loc_gamma, scale_gamma = stats.gamma.fit(pm25, floc=0)
pdf_gamma = stats.gamma.pdf(x, shape_gamma, loc_gamma, scale_gamma)

fig = ff.create_distplot([pm25], ["Donn√©es Observ√©es"], show_hist=True)
fig.add_scatter(x=x, y=pdf_lognorm, mode='lines', name='Log-Normale')
fig.add_scatter(x=x, y=pdf_weibull, mode='lines', name='Weibull')
fig.add_scatter(x=x, y=pdf_gamma, mode='lines', name='Gamma')
fig.update_layout(title="Comparaison des distributions ajust√©es", xaxis_title="PM2.5", yaxis_title="Densit√©")
fig.show()

In [32]:
# Test de Kolmogorov-Smirnov
ks_lognorm = stats.kstest(pm25, 'lognorm', args=(shape, loc, scale))
ks_gamma = stats.kstest(pm25, 'gamma', args=(shape_gamma, loc_gamma, scale_gamma))
ks_weibull = stats.kstest(pm25, 'weibull_min', args=(shape_weibull, loc_weibull, scale_weibull))

ad_weibull = stats.anderson(pm25, dist='weibull_min') # Valide si la loi est adapt√© sur les extremes (queue de distribution)

print(f"Test de Kolmogorov-Smirnov - Log-Normale : p-valeur = {ks_lognorm.pvalue:.4f}")
print(f"Test de Kolmogorov-Smirnov - Gamma : p-valeur = {ks_gamma.pvalue:.4f}")
print(f"Test de Kolmogorov-Smirnov - Weibull : p-valeur = {ks_weibull.pvalue:.4f}")

print("\nTest d'Anderson-Darling :")
print(f"Weibull : statistique = {ad_weibull.statistic:.4f}, seuils critiques = {ad_weibull.critical_values}, p-valeurs = {ad_weibull.significance_level}")

Test de Kolmogorov-Smirnov - Log-Normale : p-valeur = 0.0170
Test de Kolmogorov-Smirnov - Gamma : p-valeur = 0.0001
Test de Kolmogorov-Smirnov - Weibull : p-valeur = 0.0000

Test d'Anderson-Darling :
Weibull : statistique = 14.9321, seuils critiques = [0.342 0.472 0.563 0.636 0.758 0.88  1.043 1.168], p-valeurs = [0.5   0.75  0.85  0.9   0.95  0.975 0.99  0.995]


Visuellement, on a des lois qui semblent se raprocher pas mal de nos donn√©es mais les tests stats ne le valide pas. 

#### Choix de loi :

La distribution **log-normale** est choisie car, bien qu‚Äôelle ne soit pas *statistiquement valid√©e*, elle √©pouse visuellement la forme des donn√©es observ√©es, capturant mieux la dissym√©trie (sur la gauche) et l‚Äô√©talement des PM2.5 que les distributions Gamma et Weibull.

## Carte de controle 

> Nous utilisons les donn√©es de 2023 comme ann√©e de r√©f√©rence pour fixer un seuil et analyser l‚Äô√©volution de la pollution en 2024.

D√©finition du seuil bas√© sur 2023

In [33]:
# Trouve les parametres de la loi log normal sur 2023
shape_ln, loc_ln, scale_ln = stats.lognorm.fit(df_2023)

# Seuil √† 90% 
seuil_90 = stats.lognorm.ppf(0.90, shape_ln, loc_ln, scale_ln)
print(f"Seuil de pollution √† 90% : {seuil_90:.2f} ¬µg/m¬≥")

Seuil de pollution √† 90% : 13.54 ¬µg/m¬≥


V√©rification des d√©passements en 2024

In [35]:
# Nombre de depassement en 2024 au dessus de 90% par rapport a 2023
nb_depassements = np.sum(df_2024 > seuil_90)
pourcentage_depassement = (nb_depassements / len(df_2024)) * 100

print(f"Seuil de pollution bas√© sur 2023 : {seuil_90:.2f} ¬µg/m¬≥")
print(f"Nombre de jours o√π la pollution d√©passe le seuil en 2024 : {nb_depassements}")
print(f"Pourcentage de d√©passement en 2024 : {pourcentage_depassement:.2f}%")

if pourcentage_depassement > 10: # si cela arrive plus de 10% (arbitraire) du temps on a : 
    print("üö® La pollution en 2024 d√©passe souvent le seuil : QUALIT√â D'AIR D√âGRAD√âE")
else:
    print("‚úÖ La pollution en 2024 reste sous contr√¥le : QUALIT√â D'AIR STABLE")

Seuil de pollution bas√© sur 2023 : 13.54 ¬µg/m¬≥
Nombre de jours o√π la pollution d√©passe le seuil en 2024 : 33
Pourcentage de d√©passement en 2024 : 9.14%
‚úÖ La pollution en 2024 reste sous contr√¥le : QUALIT√â D'AIR STABLE


Carte de contr√¥le (Shewhart) bas√©e sur 2023 pour surveiller 2024

In [39]:
fig = px.line(df[df["annee"] == 2024], x="date", y="valeur",
              title="Carte de Contr√¥le des PM2.5 en 2024",
              labels={"date": "Date", "valeur": "Concentration PM2.5 (¬µg/m¬≥)"},
              markers=True)

# 2023 comme ligne de r√©f√©rence
fig.add_hline(y=np.mean(df_2023), line_dash="dash", line_color="blue", annotation_text="Moyenne 2023 (R√©f√©rence)")

# seuil de pollution bas√© sur 2023 (quantile 90%)
fig.add_hline(y=seuil_90, line_dash="dot", line_color="red", annotation_text="Seuil 90%")

fig.show()


The behavior of DatetimeProperties.to_pydatetime is deprecated, in a future version this will return a Series containing python datetime objects instead of an ndarray. To retain the old behavior, call `np.array` on the result



CUSUM pour d√©tecter des d√©rives progressives

In [45]:
# r√©f√©rence 2023
mu_2023 = np.mean(df_2023)  
sigma_2023 = np.std(df_2023)  
k = sigma_2023 / 2  # Tol√©rance
h = 5 * sigma_2023  # Seuil d'alerte


df_2024_copy = df[df["annee"] == 2024].copy()  
df_2024_copy["cusum"] = 0  
for i in range(1, len(df_2024)):
    df_2024_copy.loc[df_2024_copy.index[i], "cusum"] = max(
        0, df_2024_copy.loc[df_2024_copy.index[i - 1], "cusum"] + (df_2024_copy.loc[df_2024_copy.index[i], "valeur"] - mu_2023 - k)
    )


fig = px.line(df_2024_copy, x="date", y="cusum", title="Carte de Contr√¥le CUSUM des PM2.5 en 2024",
              labels={"date": "Date", "cusum": "CUSUM (Somme des √©carts cumul√©s)"},
              markers=True)
fig.add_hline(y=h, line_dash="dash", line_color="red", annotation_text="Seuil d'alerte")

fig.show()


Setting an item of incompatible dtype is deprecated and will raise an error in a future version of pandas. Value '7.469871030617355' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.


The behavior of DatetimeProperties.to_pydatetime is deprecated, in a future version this will return a Series containing python datetime objects instead of an ndarray. To retain the old behavior, call `np.array` on the result



üìå Interpr√©tation du CUSUM

üìä Si la courbe CUSUM reste proche de 0 ‚Üí Pas de d√©rive majeure ‚úÖ

üìä Si elle monte progressivement ‚Üí Hausse lente de la pollution üö®

üìä Si elle d√©passe le seuil  h  ‚Üí Alerte pollution √©lev√©e et durable ‚ùå

> De **janvier √† mars 2024**, une forte hausse du CUSUM indique une pollution persistante, suivie d‚Äôune am√©lioration jusqu‚Äô√† octobre. Cependant, **fin 2024 - d√©but 2025**, le d√©passement du seuil d‚Äôalerte signale un risque √©lev√©.



## üìä R√©sultats

### 1Ô∏è‚É£ Comparaison 2023 vs 2024
- **Pas de variation significative** des niveaux de pollution (tests statistiques).
- **Stabilit√© de la variabilit√©**, aucune tendance alarmante d√©tect√©e.

‚úÖ **Conclusion** : La pollution est globalement inchang√©e.

### 2Ô∏è‚É£ Mod√©lisation et Seuil Critique
- **Loi log-normale** retenue pour mod√©liser les PM2.5.
- **Seuil 90%** d√©fini sur 2023 pour identifier les d√©passements en 2024.

‚úÖ **Conclusion** : Seuil fix√© pour mesurer les √©carts.

### 3Ô∏è‚É£ Contr√¥le Qualit√© & Impact Sant√©
- **9.14% des jours de 2024 d√©passent le seuil critique**, mais restent dans une marge acceptable.
- **Carte de contr√¥le Shewhart** : Des pics ponctuels de pollution sont visibles, notamment en d√©but et fin d‚Äôann√©e, mais aucun d√©passement critique prolong√©.
- **CUSUM** : Une forte hausse en d√©but d‚Äôann√©e suivie d‚Äôun retour √† la normale, avec une l√©g√®re reprise en fin d‚Äôann√©e, mais aucune tendance alarmante sur la p√©riode globale.

‚úÖ **Conclusion** : La pollution PM2.5 en 2024 reste sous contr√¥le malgr√© des fluctuations saisonni√®res.


üìå **Synth√®se** : **La qualit√© de l‚Äôair en 2024 reste globalement stable et correct par rapport √† 2023, mais des p√©riodes de forte pollution en d√©but et fin d‚Äôann√©e n√©cessitent une vigilance accrue pour pr√©venir les impacts sur la sant√©, notamment chez les personnes asthmatiques.**

