In [10]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Charger les données combinées
combined_data = pd.read_csv('Combined_Data.csv')

# Afficher les premières lignes pour vérification
print(combined_data.head())

# Vérifier les valeurs manquantes
print("Valeurs manquantes par colonne:")
print(combined_data.isnull().sum())

# Nettoyage des données
# Suppression des lignes avec des valeurs manquantes
combined_data_cleaned = combined_data.dropna()

# Suppression des doublons
combined_data_cleaned = combined_data_cleaned.drop_duplicates()

# Normalisation des colonnes spécifiques
scaler = MinMaxScaler()
columns_to_normalize = ['AQI', 'PM2.5', 'PM10', 'O3', 'NO2', 'SO2', 'CO']
combined_data_cleaned[columns_to_normalize] = scaler.fit_transform(combined_data_cleaned[columns_to_normalize])

# Création de catégories de pollution
def categorize_aqi(aqi):
    if aqi <= 50:
        return 'Good'
    elif aqi <= 100:
        return 'Moderate'
    elif aqi <= 150:
        return 'Unhealthy for Sensitive Groups'
    elif aqi <= 200:
        return 'Unhealthy'
    elif aqi <= 300:
        return 'Very Unhealthy'
    else:
        return 'Hazardous'

combined_data_cleaned['AQI_Category'] = combined_data_cleaned['AQI'].apply(categorize_aqi)

# Sélectionner uniquement les colonnes numériques pour l'agrégation
numeric_columns = ['AQI', 'PM2.5', 'PM10', 'O3', 'NO2', 'SO2', 'CO']
city_aggregation = combined_data_cleaned.groupby('Location')[numeric_columns].mean()

# Sauvegarde des données nettoyées et transformées
combined_data_cleaned.to_csv('Cleaned_Combined_Data.csv', index=False)

print("Les données nettoyées et transformées ont été sauvegardées dans 'Cleaned_Combined_Data.csv'.")
print(combined_data_cleaned.head())
print(city_aggregation)


      Location  Population  Density (people/km²)  Urbanization (%)  \
0  Los Angeles    10039107                  3276                89   
1  Los Angeles    10039107                  3276                89   
2  Los Angeles    10039107                  3276                89   
3  Los Angeles    10039107                  3276                89   
4  Los Angeles    10039107                  3276                89   

   Average Income (USD)  Education Level (% with Bachelor's or higher)  \
0                 60000                                             32   
1                 60000                                             32   
2                 60000                                             32   
3                 60000                                             32   
4                 60000                                             32   

              DateTime  AQI  PM2.5   PM10   O3    NO2   SO2       CO  \
0  2024-01-01 03:00:00    3  36.92  49.40  0.0  81.57  5.54  1