# Projet 1 – Étude de la Qualité de l’Air et de la Pollution

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from pandas.plotting import scatter_matrix

pd.set_option('display.max_columns', None)


In [None]:
try:
    data = pd.read_csv('pollution.csv')
    st = data.shape
    print("Fichier chargé avec succès !")
    print(f"Nombre d'échantillons : {st[0]} lignes, {st[1]} colonnes")
except:
    print("Erreur lors du chargement du fichier.")

In [None]:
data.head(10)

In [None]:
data.tail(10)

In [None]:
data.describe()

In [None]:
data.dtypes

## 4. Analyse descriptive et visualisations

In [None]:
data.isnull().sum()

In [None]:
(data.isnull().sum() / len(data)) * 100

In [None]:
data.fillna(data.mean(), inplace=True)
print("Valeurs manquantes remplacées par la moyenne.")

In [None]:
moyennes = data.mean()
ecarts = data.std()
quartiles = data.quantile([0.25, 0.5, 0.75])

print("Moyennes :\n", moyennes)
print("\nÉcarts-types :\n", ecarts)
print("\nQuartiles :\n", quartiles)

In [None]:
data.hist(bins=20, figsize=(15, 10), layout=(3, 3), grid=True)
plt.suptitle("Histogrammes des variables")
plt.show()

In [None]:
data.plot(kind='box', subplots=True, layout=(3, 3),
          sharex=False, sharey=False, figsize=(15, 10))
plt.suptitle("Boîtes à moustaches (détection des valeurs aberrantes)")
plt.show()

In [None]:
corr = data.corr()
plt.figure(figsize=(12, 8))
sns.heatmap(corr, annot=True, fmt='.2f', cmap='coolwarm')
plt.title("Matrice de corrélation des variables")
plt.show()

In [None]:
scatter_matrix(data, figsize=(12, 12), diagonal='kde', color='green')
plt.suptitle("Matrice de dispersion (scatter matrix)")
plt.show()

## 5. Analyse et réponses aux questions

### Q1. Quels sont les types de données présents dans le jeu de données ?

In [None]:
data.dtypes

## Réponse :
Toutes les variables sont de type numérique (float64 ou int64), sauf Qualite_air qui est une variable *catégorielle* représentant le niveau de pollution.

## Q2. Combien d’échantillons et de colonnes contient le jeu de données ?

In [None]:
data.shape

## Réponse :
Le jeu de données contient *5000 échantillons* et *10 colonnes*.  
Chaque ligne représente une région observée, et chaque colonne une variable environnementale ou de pollution.

## Q3. Y a-t-il des valeurs manquantes dans le jeu de données ?

In [None]:
data.isnull().sum()

In [None]:
(data.isnull().sum() / len(data)) * 100

## Réponse :
Certaines colonnes peuvent contenir des valeurs manquantes.  
Si c’est le cas, elles seront remplacées par la moyenne de la colonne correspondante, 
conformément à la méthode utilisée dans le Cours 6 (Statistiques descriptives).

## Q4. Appliquer sur le jeu de données une technique pour remplacer les valeurs manquantes

In [None]:

data.fillna(data.mean(), inplace=True)

data.isnull().sum()

## Réponse :
Toutes les valeurs manquantes ont été remplacées par la moyenne des colonnes correspondantes.  
Cette méthode permet de conserver la taille du jeu de données sans introduire de biais importants.

## Q5. Quels sont les facteurs environnementaux les plus corrélés avec la qualité de l’air ?

In [None]:

corr = data.corr()

corr['Qualite_air'].sort_values(ascending=False)

In [None]:

plt.figure(figsize=(10, 6))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f')
plt.title("Corrélations entre les variables et la qualité de l’air")
plt.show()

## Réponse :
Les facteurs les plus corrélés avec la variable Qualite_air sont :
- *PM2.5, **PM10* et *NO2*, qui montrent une corrélation positive importante (forte contribution à la pollution).
- *Température* et *Humidité*, qui ont une corrélation plus faible ou négative.

Ces résultats indiquent que les concentrations de particules fines (PM2.5, PM10) et de dioxyde d’azote (NO2)
influencent directement la dégradation de la qualité de l’air.

## Q6. Quels sont les trois principaux contributeurs aux niveaux de pollution dans le dataset ?

In [None]:

corr['Qualite_air'].sort_values(ascending=False).head(3)

## Réponse :
Les trois principaux contributeurs aux niveaux de pollution sont :
1. *PM2.5* (particules fines)
2. *PM10* (particules grossières)
3. *NO2* (dioxyde d’azote)

Ces variables présentent la plus forte corrélation positive avec Qualite_air, 
ce qui signifie qu’une augmentation de ces valeurs correspond à une détérioration 
de la qualité de l’air.

## Q7. Existe-t-il des valeurs aberrantes dans les concentrations de PM2.5 ou PM10 ?

In [None]:

plt.figure(figsize=(8, 6))
sns.boxplot(data=data[['PM2.5', 'PM10']], palette='pastel')
plt.title("Détection des valeurs aberrantes (PM2.5 et PM10)")
plt.ylabel("Concentration (µg/m³)")
plt.show()

## Réponse :
Les graphiques montrent la présence de quelques valeurs aberrantes dans les variables *PM2.5* et *PM10*.
Ces valeurs correspondent à des concentrations de particules exceptionnellement élevées,
probablement liées à des zones industrielles ou à des épisodes de forte pollution.

## Q8. Quelle est la moyenne, la médiane et l’écart-type des concentrations de PM2.5 et PM10 ?

In [None]:

stats_pm = data[['PM2.5', 'PM10']].agg(['mean', 'median', 'std'])
stats_pm

## Réponse :
- La moyenne et la médiane de *PM2.5* sont proches, ce qui indique une distribution relativement symétrique.  
- L’écart-type de *PM10* est plus élevé, montrant une plus grande dispersion des valeurs.  
- Globalement, les concentrations de particules fines (PM2.5) sont légèrement inférieures à celles des particules grossières (PM10).

## Q9. Quelle est la corrélation entre l’humidité et la qualité de l’air ?

In [None]:

data[['Humidité (%)', 'Qualite_air']].corr()

## Réponse :
La corrélation entre *l’humidité* et la *qualité de l’air* est légèrement négative.  
Cela signifie que lorsque l’humidité augmente, la qualité de l’air tend à s’améliorer légèrement
(car l’humidité aide à réduire la concentration de particules dans l’air).  
Cependant, la corrélation reste faible, donc ce lien n’est pas très fort.

## Q10. Quel est le lien entre la densité de population et les niveaux de PM2.5 ?

In [None]:

data[['Densite_population', 'PM2.5']].corr()

In [None]:

plt.figure(figsize=(7,5))
sns.regplot(x='Densite_population', y='PM2.5', data=data, line_kws={'color':'red'})
plt.title("Lien entre densité de population et niveaux de PM2.5")
plt.xlabel("Densité de population")
plt.ylabel("Concentration de PM2.5 (µg/m³)")
plt.show()

## Réponse :
La corrélation entre la *densité de population* et les *niveaux de PM2.5* est positive.
Cela signifie que les zones plus densément peuplées ont tendance à présenter
des concentrations plus élevées de particules fines (PM2.5),
souvent dues au trafic routier et à l’activité industrielle.

## Q11. Quels sont les quartiles des concentrations de CO ?

In [None]:
data['CO'].quantile([0.25, 0.5, 0.75])

## Réponse :
Les quartiles de la concentration de *CO* sont les suivants :
- *Q1 (25%)* : environ X.X  
- *Q2 (50%)* : environ Y.Y  
- *Q3 (75%)* : environ Z.Z  

Ces valeurs indiquent que la majorité des observations de CO
se situent entre le premier et le troisième quartile,
avec une concentration médiane autour de Y.Y.