# Nettoyage des données avec conservation de toutes les lignes valides

In [None]:

# 3ème Script - Nettoyage des données avec conservation de toutes les lignes valides

import pandas as pd

# Chargement du fichier CSV contenant les données brutes
df = pd.read_csv('scraped_cost_of_living_data.csv')

# 1. Création d'une copie explicite pour éviter le warning
df_cleaned = df.copy()

# 2. Suppression des symboles monétaires (par exemple €, $, £) dans la colonne 'Price'
df_cleaned.loc[:, 'Price'] = df_cleaned['Price'].replace({'€': '', '$': '', '£': ''}, regex=True)

# 3. Conversion de la colonne 'Price' en numérique (float), en remplaçant les valeurs non convertibles par NaN
# df_cleaned['Price'] = pd.to_numeric(df_cleaned['Price'], errors='coerce')

# 4. Garder toutes les lignes où 'Price' est valide. Ne supprimer que celles qui sont réellement invalides.
# Nous ne supprimons pas les lignes avec des données manquantes dans "Item" ou "Range".
df_cleaned = df_cleaned.dropna(subset=['Price'])

# 5. Affichage des 5 premières lignes des données nettoyées
df_cleaned.head()

# 6. Sauvegarde des données nettoyées dans un nouveau fichier CSV
df_cleaned.to_csv('cleaned_cost_of_living_data_v5.csv', index=False, encoding='utf-8')
print("Les données nettoyées ont été enregistrées dans 'cleaned_cost_of_living_data_v5.csv'.")
