In [50]:
import pandas as pd
print("Codespaces fonctionne !")

Codespaces fonctionne !


In [51]:
import os
os.chdir('/workspaces/projet-iadata')  # Change le répertoire vers la racine
print(os.getcwd())  # Vérif

/workspaces/projet-iadata


### Importer le fichier 

In [52]:
# Chargement du fichier brut
file_path = './data/brut/obser-meteo.csv'
meteo = pd.read_csv(file_path, sep=';', low_memory=False)

print(meteo.head()) #en tete du fichier
print(meteo.columns)

   ID OMM station                       Date  Pression au niveau mer  \
0            7630  2010-01-06T15:00:00+00:00                100500.0   
1            7630  2010-01-04T06:00:00+00:00                101190.0   
2            7630  2010-03-01T15:00:00+00:00                101440.0   
3            7630  2010-02-24T09:00:00+00:00                100600.0   
4            7630  2010-04-12T06:00:00+00:00                101030.0   

   Variation de pression en 3 heures  Type de tendance barométrique  \
0                                0.0                            5.0   
1                             -140.0                            7.0   
2                               80.0                            3.0   
3                              220.0                            3.0   
4                               60.0                            3.0   

   Direction du vent moyen 10 mn  Vitesse du vent moyen 10 mn  Température  \
0                          300.0                          4.1 

In [53]:

# Colonnes à conserver
columns_to_keep = {
    'Date': 'date',
    'Température': 'temperature',
    'Humidité': 'humidity',
    'Pression au niveau mer': 'pressure_sea_level',
    'Direction du vent moyen 10 mn': 'wind_direction',
    'Vitesse du vent moyen 10 mn': 'wind_speed',
    'Température minimale du sol sur 12 heures (en °C)': 'min_soil_temp',
    'Latitude': 'latitude',
    'Longitude': 'longitude',
    'Altitude': 'altitude',
    'communes (name)': 'city_name',
    'communes (code)': 'city_code',
    'EPCI (name)': 'epci_name',
    'EPCI (code)': 'epci_code',
    'department (name)': 'department_name',
    'department (code)': 'department_code',
    'region (name)': 'region_name',
    'region (code)': 'region_code',
    'mois_de_l_annee': 'month_of_year'
}

In [54]:

# Filtrage et renommage des colonnes
meteo_filtered = meteo[list(columns_to_keep.keys())].rename(columns=columns_to_keep)

print(meteo_filtered.columns)

Index(['date', 'temperature', 'humidity', 'pressure_sea_level',
       'wind_direction', 'wind_speed', 'min_soil_temp', 'latitude',
       'longitude', 'altitude', 'city_name', 'city_code', 'epci_name',
       'epci_code', 'department_name', 'department_code', 'region_name',
       'region_code', 'month_of_year'],
      dtype='object')


In [55]:

# Conversion de la colonne 'date' en datetime
meteo_filtered['date'] = pd.to_datetime(meteo_filtered['date'], errors='coerce')


In [56]:
# Gestion des valeurs manquantes
meteo_filtered.fillna({
    'temperature': meteo_filtered['temperature'].mean(),
    'humidity': meteo_filtered['humidity'].mean(),
    'pressure_sea_level': meteo_filtered['pressure_sea_level'].mean(),
    'min_soil_temp': meteo_filtered['min_soil_temp'].mean(),
    'wind_direction': meteo_filtered['wind_direction'].mode()[0] if not meteo_filtered['wind_direction'].isnull().all() else 0,
    'wind_speed': meteo_filtered['wind_speed'].mean(),
}, inplace=True)


In [57]:


# Suppression des lignes avec des dates invalides
meteo_filtered.dropna(subset=['date'], inplace=True)


In [58]:
# Validation du nettoyage et des renommages
print(meteo_filtered.head())
print(meteo_filtered.info())

                       date  temperature  humidity  pressure_sea_level  \
0 2010-01-06 15:00:00+00:00       278.85      70.0            100500.0   
1 2010-01-04 06:00:00+00:00       277.15      94.0            101190.0   
2 2010-03-01 15:00:00+00:00       287.75      45.0            101440.0   
3 2010-02-24 09:00:00+00:00       285.65      61.0            100600.0   
4 2010-04-12 06:00:00+00:00       278.85      69.0            101030.0   

   wind_direction  wind_speed  min_soil_temp  latitude  longitude  altitude  \
0           300.0         4.1      10.632302    43.621   1.378833       151   
1           170.0         1.5       2.000000    43.621   1.378833       151   
2           310.0         6.7      10.632302    43.621   1.378833       151   
3           300.0         7.2      10.632302    43.621   1.378833       151   
4           310.0         3.6       4.000000    43.621   1.378833       151   

  city_name city_code           epci_name    epci_code department_name  \
0   Bl

In [59]:
# Tri des données par la colonne 'date' en ordre croissant
meteo_sorted = meteo_filtered.sort_values(by='date', ascending=True)

# Réinitialisation de l'index pour un DataFrame propre après le tri
meteo_sorted.reset_index(drop=True, inplace=True)
print(meteo_sorted.head())

                       date  temperature  humidity  pressure_sea_level  \
0 2010-01-01 00:00:00+00:00       280.45      87.0             99430.0   
1 2010-01-01 03:00:00+00:00       280.65      72.0             99460.0   
2 2010-01-01 06:00:00+00:00       280.55      67.0             99560.0   
3 2010-01-01 09:00:00+00:00       279.15      83.0             99950.0   
4 2010-01-01 12:00:00+00:00       280.35      80.0            100200.0   

   wind_direction  wind_speed  min_soil_temp  latitude  longitude  altitude  \
0           270.0         7.2      10.632302    43.621   1.378833       151   
1           270.0        10.8      10.632302    43.621   1.378833       151   
2           260.0        11.3       6.000000    43.621   1.378833       151   
3           260.0        10.8      10.632302    43.621   1.378833       151   
4           270.0         9.8      10.632302    43.621   1.378833       151   

  city_name city_code           epci_name    epci_code department_name  \
0   Bl

In [60]:
# Sauvegarde du fichier nettoyé
output_path = './data/prepared/meteo_clean.csv'
meteo_sorted.to_csv(output_path, index=False)
print(f"Dataset nettoyé et renommé sauvegardé dans {output_path}")


Dataset nettoyé et renommé sauvegardé dans ./data/prepared/meteo_clean.csv
