In [7]:
import pandas as pd

# 1. Chargement
df = pd.read_csv('H_75_2010-2019.csv.gz', compression='gzip', sep=';', low_memory=False)

# 2. Conversion et Filtrage à partir du 1er Juillet 2019
df['DATE_FULL'] = pd.to_datetime(df['AAAAMMJJHH'], format='%Y%m%d%H')

# On filtre : année 2019 ET date supérieure ou égale au 1er juillet
df_juillet = df[(df['DATE_FULL'] >= '2019-07-01') & (df['DATE_FULL'] <= '2019-12-31')].copy()

# 3. Création de la colonne JOUR et regroupement
df_juillet['JOUR'] = df_juillet['DATE_FULL'].dt.date

df_meteo_quotidien = df_juillet.groupby('JOUR').agg({
    'T': 'mean',   # On reste en Kelvin
    'RR1': 'sum'   # Cumul de pluie
}).reset_index()

# Renommer RR1 en Précipitations
df_meteo_quotidien = df_meteo_quotidien.rename(columns={'RR1': 'Précipitations'})

# Si tu veux aussi renommer T_Celsius en Température en même temps :
df_meteo_quotidien = df_meteo_quotidien.rename(columns={
    'RR1': 'Précipitations',
    'T': 'Température'
})
# 4. On trie par date pour être sûr
df_meteo_quotidien = df_meteo_quotidien.sort_values(by='JOUR')

print("Données météo à partir du 1er Juillet :")
print(df_meteo_quotidien.head())



Données météo à partir du 1er Juillet :
         JOUR  Température  Précipitations
0  2019-07-01    19.720000             0.0
1  2019-07-02    19.763333             0.0
2  2019-07-03    20.067500             0.0
3  2019-07-04    21.100833             0.0
4  2019-07-05    23.968333             0.0


In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler # [cite: 7]

# 1. Chargement et conversion propre
df = pd.read_csv('H_75_2010-2019.csv.gz', compression='gzip', sep=';', low_memory=False)
df['DATE_FULL'] = pd.to_datetime(df['AAAAMMJJHH'], format='%Y%m%d%H')

# Filtre Juillet à Décembre 2019
df_juillet = df[(df['DATE_FULL'] >= '2019-07-01') & (df['DATE_FULL'] <= '2019-12-31')].copy()
df_juillet['JOUR'] = df_juillet['DATE_FULL'].dt.date

# 2. Agrégation quotidienne 
df_meteo = df_juillet.groupby('JOUR').agg({
    'T': 'mean', 
    'RR1': 'sum', 
    'U': 'mean', 
    'FF': 'mean', 
    'VV': 'mean'
}).reset_index()

# 3. Correction de la Température 
# On vérifie si T est bien en Kelvin (> 200). Sinon, on ne soustrait pas 273.15.
df_meteo['Température'] = df_meteo['T'].apply(lambda x: x - 273.15 if x > 100 else x)

# 4. Renommage des colonnes [cite: 14]
df_meteo = df_meteo.rename(columns={'RR1': 'Précipitations', 'U': 'Humidité', 'FF': 'Vent', 'VV': 'Visibilité'})
df_meteo = df_meteo.drop(columns=['T']).round(2)

print(df_meteo.head())

         JOUR  Précipitations  Humidité  Vent  Visibilité  Température
0  2019-07-01             0.0     59.35  4.24    19998.21        19.72
1  2019-07-02             0.0     55.40  4.46    19978.62        19.76
2  2019-07-03             0.0     50.94  5.73    19990.29        20.07
3  2019-07-04             0.0     46.54  4.44    19977.25        21.10
4  2019-07-05             0.0     44.88  2.50    19917.83        23.97
