# Nettoyage et Filtrage du Dataset
Ce notebook effectue les premières étapes de traitement sur le fichier CSV original :
- Suppression des lignes vides
- Suppression des colonnes inutiles
- Suppression des doublons
- Filtrage des stations de métro
- Séparation en train/test


In [25]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Charger le dataset brut
df = pd.read_csv('../data/raw/qualite-de-lair-dans-le-reseau-de-transport-francilien.csv', sep=';', low_memory=False)
df.head()

ModuleNotFoundError: No module named 'pandas'

In [None]:
# Supprimer les lignes vides et les doublons
df.dropna(how='all', inplace=True)
df.drop_duplicates(inplace=True)
df.reset_index(drop=True, inplace=True)

# Supprimer les stations où le niveau de pollution est "station aérienne"
df = df[~df['Niveau de pollution aux particules'].str.contains('station aérienne', na=False)]

# Afficher la forme finale du DataFrame
df.shape

In [None]:
# Afficher les colonnes
df.columns.tolist()

In [None]:
# Supprimer les colonnes jugées inutiles
colonnes_a_supprimer = [
    'Lien vers les mesures en direct', 'Durée des mesures', 'Mesures d’amélioration mises en place ou prévues',
    'point_geo', 'pollution_air', 'niveau', 'actions'
]
df.drop(columns=colonnes_a_supprimer, inplace=True, errors='ignore')
df.head()

In [None]:
# Garder uniquement les stations de métro
df_metro = df[df['Nom de la ligne'].str.contains('Métro', na=False)]
df_metro.shape

In [None]:
# Séparer en train (70%) et test (30%)
train, test = train_test_split(df_metro, test_size=0.3, random_state=42)

# Sauvegarder les fichiers
train.to_csv('../data/processed/train.csv', index=False)
test.to_csv('../data/processed/test.csv', index=False)
print('✅ Fichiers train.csv et test.csv enregistrés.')