# Nettoyage des données de pollution atmosphérique

Ce notebook effectue un nettoyage des fichiers CSV en filtrant uniquement les lignes où la colonne 'Zas' est égale à 'ZAG PARIS'. Les fichiers nettoyés seront sauvegardés dans un nouveau dossier.

In [58]:
# Import Required Libraries
import os
import pandas as pd

# Chemins des dossiers
input_folders = ['./data/2021/','./data/2022/','./data/2023/', './data/2024/', './data/2025/']
output_folders = ['./data/2021_cleaned/','./data/2022_cleaned/','./data/2023_cleaned/', './data/2024_cleaned/', './data/2025_cleaned/']

# Créer les dossiers de sortie s'ils n'existent pas
for output_folder in output_folders:
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

In [59]:
# Parcourir tous les dossiers d'entrée
for input_folder, output_folder in zip(input_folders, output_folders):
    for file_name in os.listdir(input_folder):
        if file_name.endswith('.csv'):
            input_path = os.path.join(input_folder, file_name)
            output_path = os.path.join(output_folder, file_name)

            # Charger le fichier CSV
            data = pd.read_csv(input_path, sep=';', encoding='utf-8')

            # Filtrer les lignes où 'Zas' est égal à 'ZAG PARIS'
            filtered_data = data[data['Zas'] == 'ZAG PARIS']

            # Sauvegarder le fichier nettoyé
            filtered_data.to_csv(output_path, sep=';', index=False, encoding='utf-8')
            print(f"Fichier nettoyé sauvegardé : {output_path}")

Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-03-17.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-03-03.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-04-22.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-11-03.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-11-17.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-01-12.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-11-03.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-11-17.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-01-12.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-08-22.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-01-06.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-06-27.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-08-22.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-01-06.csv
Fichier nettoyé sauv

In [60]:
# Vérifier et supprimer les colonnes avec 100% de valeurs nulles dans les fichiers filtrés
null_columns = {}

for output_folder in output_folders:
    for file_name in os.listdir(output_folder):
        if file_name.endswith('.csv'):
            output_path = os.path.join(output_folder, file_name)

            # Charger le fichier filtré
            data = pd.read_csv(output_path, sep=';', encoding='utf-8')

            # Identifier les colonnes avec 100% de valeurs nulles
            null_cols = data.columns[data.isnull().all()].tolist()
            null_columns[file_name] = null_cols

            # Supprimer les colonnes avec 100% de valeurs nulles
            data = data.drop(columns=null_cols)

            # Sauvegarder le fichier nettoyé
            data.to_csv(output_path, sep=';', index=False, encoding='utf-8')
            print(f"Fichier nettoyé sauvegardé : {output_path}")

# Afficher les résultats
for file, cols in null_columns.items():
    print(f"Fichier : {file} - Colonnes supprimées : {cols}")

Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-03-17.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-03-03.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-04-22.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-11-03.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-11-17.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-01-12.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-08-22.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-01-06.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-06-27.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-06-26.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-08-23.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-01-07.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-01-13.csv
Fichier nettoyé sauvegardé : ./data/2021_cleaned/FR_E2_2021-11-16.csv
Fichier nettoyé sauv

In [61]:
# Supprimer les colonnes 'discriminant' et 'code qualité' des fichiers nettoyés
for output_folder in output_folders:
    for file_name in os.listdir(output_folder):
        if file_name.endswith('.csv'):
            output_path = os.path.join(output_folder, file_name)

            # Charger le fichier nettoyé
            data = pd.read_csv(output_path, sep=';', encoding='utf-8')

            # Supprimer les colonnes spécifiées si elles existent
            columns_to_drop = ['discriminant', 'code qualité']
            data = data.drop(columns=[col for col in columns_to_drop if col in data.columns])

            # Sauvegarder le fichier mis à jour
            data.to_csv(output_path, sep=';', index=False, encoding='utf-8')
            print(f"Colonnes supprimées et fichier mis à jour : {output_path}")

Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-03-17.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-03-03.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-04-22.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-11-03.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-11-17.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-01-12.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-08-22.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-01-06.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-06-27.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-06-26.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-08-23.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/F

In [62]:
# Supprimer les colonnes 'type de valeur', 'valeur' et 'organisme' des fichiers nettoyés
for output_folder in output_folders:
    for file_name in os.listdir(output_folder):
        if file_name.endswith('.csv'):
            output_path = os.path.join(output_folder, file_name)

            # Charger le fichier nettoyé
            data = pd.read_csv(output_path, sep=';', encoding='utf-8')

            # Supprimer les colonnes spécifiées si elles existent
            columns_to_drop = ['type de valeur', 'valeur', 'organisme']
            data = data.drop(columns=[col for col in columns_to_drop if col in data.columns])

            # Sauvegarder le fichier mis à jour
            data.to_csv(output_path, sep=';', index=False, encoding='utf-8')
            print(f"Colonnes supprimées et fichier mis à jour : {output_path}")

Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-03-17.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-03-03.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-04-22.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-11-03.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-11-17.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-01-12.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-08-22.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-01-06.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-06-27.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-06-26.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/FR_E2_2021-08-23.csv
Colonnes supprimées et fichier mis à jour : ./data/2021_cleaned/F

In [63]:
# Regrouper les données par jour, site, type de gaz, type d'influence et type d'implantation, et calculer les valeurs minimale, maximale et moyenne de 'valeur brute'
for output_folder in output_folders:
    for file_name in os.listdir(output_folder):
        if file_name.endswith('.csv'):
            output_path = os.path.join(output_folder, file_name)

            # Charger le fichier nettoyé
            data = pd.read_csv(output_path, sep=';', encoding='utf-8')

            # Vérifier la présence de la colonne 'Date de début'
            if 'Date de début' not in data.columns:
                print(f"Erreur : La colonne 'Date de début' est absente dans le fichier {file_name}. Ignoré.")
                continue

            # Convertir 'Date de début' en datetime et extraire la date
            try:
                data['Jour'] = pd.to_datetime(data['Date de début'], errors='coerce').dt.date
            except Exception as e:
                print(f"Erreur lors de la conversion de 'Date de début' dans le fichier {file_name}: {e}")
                continue

            # Vérifier si des valeurs NaT ont été générées
            if data['Jour'].isna().any():
                print(f"Erreur : Certaines valeurs de 'Date de début' n'ont pas pu être converties dans le fichier {file_name}. Ignoré.")
                continue

            # Regrouper par 'Jour', 'nom site', 'Polluant', 'type d'influence', et 'type d'implantation' et calculer les statistiques
            grouped = (
                data.groupby(['Jour', 'nom site', 'Polluant', "type d'influence", "type d'implantation"])
                .agg(
                    valeur_minimale=('valeur brute', 'min'),
                    valeur_maximale=('valeur brute', 'max'),
                    valeur_moyenne=('valeur brute', 'mean')
                )
                .reset_index()
            )

            # Sauvegarder les données regroupées par jour
            grouped_output_path = output_path.replace('.csv', '_grouped_by_day.csv')
            grouped.to_csv(grouped_output_path, sep=';', index=False, encoding='utf-8')
            print(f"Données regroupées par jour sauvegardées : {grouped_output_path}")

Données regroupées par jour sauvegardées : ./data/2021_cleaned/FR_E2_2021-03-17_grouped_by_day.csv
Données regroupées par jour sauvegardées : ./data/2021_cleaned/FR_E2_2021-03-03_grouped_by_day.csv
Données regroupées par jour sauvegardées : ./data/2021_cleaned/FR_E2_2021-04-22_grouped_by_day.csv
Données regroupées par jour sauvegardées : ./data/2021_cleaned/FR_E2_2021-11-03_grouped_by_day.csv
Données regroupées par jour sauvegardées : ./data/2021_cleaned/FR_E2_2021-11-17_grouped_by_day.csv
Données regroupées par jour sauvegardées : ./data/2021_cleaned/FR_E2_2021-01-12_grouped_by_day.csv
Données regroupées par jour sauvegardées : ./data/2021_cleaned/FR_E2_2021-08-22_grouped_by_day.csv
Données regroupées par jour sauvegardées : ./data/2021_cleaned/FR_E2_2021-01-06_grouped_by_day.csv
Données regroupées par jour sauvegardées : ./data/2021_cleaned/FR_E2_2021-06-27_grouped_by_day.csv
Données regroupées par jour sauvegardées : ./data/2021_cleaned/FR_E2_2021-06-26_grouped_by_day.csv
Données re

In [64]:
# Concaténer les fichiers 'grouped_by_day' en un seul fichier par année
for year, output_folder in zip(['2021', '2022', '2023', '2024', '2025'], output_folders):
    grouped_files = [
        os.path.join(output_folder, file_name)
        for file_name in os.listdir(output_folder)
        if file_name.endswith('_grouped_by_day.csv')
    ]

    # Lire et concaténer tous les fichiers regroupés
    dataframes = [pd.read_csv(file, sep=';', encoding='utf-8') for file in grouped_files]
    if dataframes:  # Vérifier qu'il y a des fichiers à concaténer
        concatenated = pd.concat(dataframes, ignore_index=True)

        # Sauvegarder le fichier concaténé
        concatenated_output_path = os.path.join(output_folder, f"{year}_grouped_data.csv")
        concatenated.to_csv(concatenated_output_path, sep=';', index=False, encoding='utf-8')
        print(f"Fichier concaténé sauvegardé pour l'année {year} : {concatenated_output_path}")
    else:
        print(f"Aucun fichier 'grouped_by_day' trouvé pour l'année {year} dans {output_folder}.")

Fichier concaténé sauvegardé pour l'année 2021 : ./data/2021_cleaned/2021_grouped_data.csv
Fichier concaténé sauvegardé pour l'année 2022 : ./data/2022_cleaned/2022_grouped_data.csv
Fichier concaténé sauvegardé pour l'année 2022 : ./data/2022_cleaned/2022_grouped_data.csv
Fichier concaténé sauvegardé pour l'année 2023 : ./data/2023_cleaned/2023_grouped_data.csv
Fichier concaténé sauvegardé pour l'année 2023 : ./data/2023_cleaned/2023_grouped_data.csv
Fichier concaténé sauvegardé pour l'année 2024 : ./data/2024_cleaned/2024_grouped_data.csv
Fichier concaténé sauvegardé pour l'année 2024 : ./data/2024_cleaned/2024_grouped_data.csv
Fichier concaténé sauvegardé pour l'année 2025 : ./data/2025_cleaned/2025_grouped_data.csv
Fichier concaténé sauvegardé pour l'année 2025 : ./data/2025_cleaned/2025_grouped_data.csv


In [65]:
# Concaténer tous les fichiers annuels en un seul fichier global
all_grouped_files = [
    os.path.join(output_folder, f"{year}_grouped_data.csv")
    for year, output_folder in zip(['2021', '2022', '2023', '2024', '2025'], output_folders)
    if os.path.exists(os.path.join(output_folder, f"{year}_grouped_data.csv"))
]

# Lire et concaténer tous les fichiers annuels
all_dataframes = [pd.read_csv(file, sep=';', encoding='utf-8') for file in all_grouped_files]
if all_dataframes:  # Vérifier qu'il y a des fichiers à concaténer
    global_concatenated = pd.concat(all_dataframes, ignore_index=True)

    # Sauvegarder le fichier global
    global_output_path = './data/all_years_grouped_data.csv'
    global_concatenated.to_csv(global_output_path, sep=';', index=False, encoding='utf-8')
    print(f"Fichier global concaténé sauvegardé : {global_output_path}")
else:
    print("Aucun fichier annuel trouvé pour la concaténation globale.")

Fichier global concaténé sauvegardé : ./data/all_years_grouped_data.csv


In [None]:
# Livrable : Nettoyage et Analyse des Données de Pollution Atmosphérique

## Contexte
Ce projet vise à nettoyer et analyser des données de pollution atmosphérique collectées sur plusieurs années. Les données initiales sont fournies sous forme de fichiers CSV contenant des informations sur les niveaux de pollution, les sites de mesure, et les types de polluants.

## Étapes Réalisées

### 1. Nettoyage des Données
- **Filtrage des lignes** : Seules les lignes où la colonne `Zas` est égale à `ZAG PARIS` ont été conservées.
- **Suppression des colonnes inutiles** :
  - Colonnes avec 100% de valeurs nulles.
  - Colonnes spécifiques : `discriminant`, `code qualité`, `type de valeur`, `valeur`, et `organisme`.

### 2. Regroupement des Données
- Les données ont été regroupées par :
  - `Jour` (extrait de la colonne `Date de début`),
  - `nom site`,
  - `Polluant`,
  - `type d'influence`,
  - `type d'implantation`.
- Pour chaque groupe, les statistiques suivantes ont été calculées :
  - Valeur minimale,
  - Valeur maximale,
  - Valeur moyenne.

### 3. Génération des Fichiers
- **Fichiers journaliers** : Un fichier par jour a été généré pour chaque année.
- **Fichiers annuels** : Les fichiers journaliers ont été concaténés en un seul fichier par année.
- **Fichier global** : Tous les fichiers annuels ont été concaténés en un fichier unique contenant les données de toutes les années.

## Résultats
- Les fichiers nettoyés et regroupés sont disponibles dans les dossiers correspondants.
- Le fichier global est sauvegardé sous le nom `all_years_grouped_data.csv` dans le dossier `data`.

## Conclusion
Ce livrable fournit un ensemble de données nettoyées et agrégées, prêtes pour une analyse approfondie ou une visualisation. Les étapes de nettoyage et de regroupement garantissent la qualité et la cohérence des données pour des analyses futures.