In [15]:
import os
import pandas as pd
import numpy as np

data_folder = './DATA'

# Liste pour stocker les DataFrames
dataframes = []

# Parcourir tous les fichiers dans le dossier DATA
for filename in os.listdir(data_folder):
    # Vérifier si le fichier est un CSV
    if filename.endswith('.csv'):
        # Créer le chemin complet du fichier
        file_path = os.path.join(data_folder, filename)
        
        # Lire le CSV et ajouter le DataFrame à la liste
        df = pd.read_csv(file_path)
        dataframes.append(df)
        
        # Optionnellement, afficher le nom du fichier et sa forme
        print(f"Fichier chargé : {filename} - Shape : {df.shape}")

Fichier chargé : 07156099999_2019.csv - Shape : (365, 28)
Fichier chargé : 07156099999_2020.csv - Shape : (363, 28)


In [17]:
weather = pd.concat( dataframes, ignore_index = True )

In [18]:
weather.head(2)

Unnamed: 0,STATION,DATE,LATITUDE,LONGITUDE,ELEVATION,NAME,TEMP,TEMP_ATTRIBUTES,DEWP,DEWP_ATTRIBUTES,...,MXSPD,GUST,MAX,MAX_ATTRIBUTES,MIN,MIN_ATTRIBUTES,PRCP,PRCP_ATTRIBUTES,SNDP,FRSHTT
0,7156099999,2019-01-01,48.816667,2.333333,77.0,"PARIS MONTSOURIS, FR",47.1,24,41.8,24,...,11.1,999.9,49.3,,45.7,,0.01,G,999.9,0
1,7156099999,2019-01-02,48.816667,2.333333,77.0,"PARIS MONTSOURIS, FR",43.3,24,34.4,24,...,9.9,999.9,47.7,,41.4,*,0.0,G,999.9,0


In [19]:
#nettoyer les espaces
df.columns = df.columns.str.strip()

In [20]:
#transformer les données en numérique
numeric_columns = ['TEMP', 'DEWP', 'SLP', 'STP', 'VISIB', 'WDSP', 'MXSPD', 'GUST', 'MAX', 'MIN', 'PRCP', 'SNDP']
for col in numeric_columns:
    df[col] = pd.to_numeric(df[col], errors='coerce')  # Convertir en numérique, remplacer les erreurs par NaN

In [21]:
#Convertir la colonne DATE en type datetime
df['DATE'] = pd.to_datetime(df['DATE'], errors='coerce')

In [22]:
#Remplacer les valeurs spécifiques comme "999.9" et "*" par NaN dans les colonnes numériques
df.replace({"999.9": np.nan, "*": np.nan}, inplace=True)

In [23]:
#Compter le nombre de valeurs NaN par colonne
nan_count_per_column = df.isna().sum()

In [24]:
#Compter le nombre total de valeurs NaN dans tout le DataFrame
total_nan_count = df.isna().sum().sum()

In [25]:
#Afficher les résultats
print("Nombre de NaN par colonne")
print(nan_count_per_column)
print(f"Nombre total de NaN dans le DataFrame : {total_nan_count}")

Nombre de NaN par colonne
STATION              0
DATE                 0
LATITUDE             0
LONGITUDE            0
ELEVATION            0
NAME                 0
TEMP                 0
TEMP_ATTRIBUTES      0
DEWP                 0
DEWP_ATTRIBUTES      0
SLP                  0
SLP_ATTRIBUTES       0
STP                  0
STP_ATTRIBUTES       0
VISIB                0
VISIB_ATTRIBUTES     0
WDSP                 0
WDSP_ATTRIBUTES      0
MXSPD                0
GUST                 0
MAX                  0
MAX_ATTRIBUTES      14
MIN                  0
MIN_ATTRIBUTES      67
PRCP                 0
PRCP_ATTRIBUTES      0
SNDP                 0
FRSHTT               0
dtype: int64
Nombre total de NaN dans le DataFrame : 81
