In [40]:
import pandas as pd
import joblib
import os

In [41]:
#DataFrame para trabajar con todos los datos de Humedad

#Ruta de la carpeta que contiene los archivos "Humedad"
humidity_files = '../data/raw/datos_direccion_meteorologica/Humedad'

# Se inicializa un DataFrame vacío que almacene todos los elementos
df_humidity = pd.DataFrame()

#Ciclo for para recorrer los años desde el 2010 hasta 2023
for año in range(2010, 2024):
    # Nombre del archivo correspondiente al año actual
    file_name = f'Humedad_{año}.csv'

    # Ruta completa del archivo 
    file_route = os.path.join(humidity_files, file_name)

    # Se verifica si el archivo existe
    if os.path.exists(file_route):
        # Lee los datos del archivo y los agregar al DataFrame principal
        datos_año_actual = pd.read_csv(file_route, sep=';', usecols=[0, 1], decimal='.')
        df_humidity = pd.concat([df_humidity, datos_año_actual], ignore_index=True)

# --- Fin del ciclo For #

print (df_humidity)

                momento  valor
0       01-01-2010 0:00   72.0
1      01-01-2010 12:00   85.0
2      01-01-2010 13:00   66.0
3      01-01-2010 14:00   60.0
4      01-01-2010 15:00   55.0
...                 ...    ...
89370   01-09-2023 4:00   97.0
89371   01-09-2023 5:00   97.0
89372   01-09-2023 6:00   97.0
89373   01-09-2023 7:00   97.0
89374   01-09-2023 8:00   95.0

[89375 rows x 2 columns]


In [42]:
#DataFrame para trabajar con todos los datos de Punto de Rocio

#Ruta de la carpeta que contiene los archivos "Punto de Rocio"
dewPoint_files = '../data/raw/datos_direccion_meteorologica/Punto de Rocio'

# Se inicializa un DataFrame vacío que almacene todos los elementos
df_dewPoint = pd.DataFrame()

#Ciclo for para recorrer los archivos .csv desde el 2010 hasta 2023
for año in range(2010, 2024):
    # Nombre del archivo correspondiente al año actual
    file_name = f'PuntoRocio_{año}.csv'

    # Ruta completa del archivo 
    file_route = os.path.join(dewPoint_files, file_name)

    # Se verifica si el archivo existe
    if os.path.exists(file_route):
        # Lee los datos del archivo y los agregar al DataFrame principal
        datos_año_actual = pd.read_csv(file_route, sep=';', usecols=[0, 1])
        df_dewPoint = pd.concat([df_dewPoint, datos_año_actual], ignore_index=True)

# --- Fin del ciclo For #

print (df_dewPoint)

                momento  Td_Valor
0       01-01-2010 0:00      12.9
1      01-01-2010 12:00      13.3
2      01-01-2010 15:00      10.6
3      01-01-2010 18:00       9.7
4      01-01-2010 21:00       7.0
...                 ...       ...
87145   01-09-2023 4:00       3.4
87146   01-09-2023 5:00       2.5
87147   01-09-2023 6:00       3.2
87148   01-09-2023 7:00       4.1
87149   01-09-2023 8:00       4.7

[87150 rows x 2 columns]


In [43]:
#DataFrame para trabajar con todos los datos de Temperatura

#Ruta de la carpeta que contiene los archivos "Temperatura"
temperature_files = '../data/raw/datos_direccion_meteorologica/Temperatura'

# Se inicializa un DataFrame vacío que almacene todos los elementos
df_temperature = pd.DataFrame()

#Ciclo for para recorrer los archivos .csv desde el 2010 hasta 2023
for año in range(2010, 2024):
    # Nombre del archivo correspondiente al año actual
    file_name = f'Temperatura_{año}.csv'

    # Ruta completa del archivo 
    file_route = os.path.join(temperature_files, file_name)

    # Se verifica si el archivo existe
    if os.path.exists(file_route):
        # Lee los datos del archivo y los agregar al DataFrame principal
        datos_año_actual = pd.read_csv(file_route, sep=';', usecols=[0, 1])
        df_temperature = pd.concat([df_temperature, datos_año_actual], ignore_index=True)

# --- Fin del ciclo For #

print (df_temperature)

                momento  Ts_Valor
0       01-01-2010 0:00      18.0
1      01-01-2010 12:00      15.8
2      01-01-2010 13:00      17.6
3      01-01-2010 14:00      18.8
4      01-01-2010 15:00      20.0
...                 ...       ...
90000   01-09-2023 4:00       3.8
90001   01-09-2023 5:00       2.9
90002   01-09-2023 6:00       3.6
90003   01-09-2023 7:00       4.5
90004   01-09-2023 8:00       5.4

[90005 rows x 2 columns]


In [47]:
dict_meteorological = {
    'humedad': df_humidity,
    'puntoRocio': df_dewPoint,
    'temperatura': df_temperature
}



for clave, df in dict_meteorological.items():
   df.columns = ['fecha', 'registro']
   
#    df['fecha'] = pd.to_datetime(df['fecha'], format='%y%m%d')

   df['fecha'] = pd.to_datetime(df['fecha'], format='%d-%m-%Y %H:%M').dt.date
   
   #POR CADA FECHA QUE SE REPITA SE DEJA EL PROMEDIO DE TODOS LOS VALORES DE LA FECHA COMO UNA UNICA TUPLA DEBIDO AL REGISTRO HORARIO DE UN DF EN PARTICULAR
   df = df.groupby('fecha')['registro'].mean().reset_index()   

   dict_meteorological[clave] = df
   
   print (df.head())

joblib.dump(dict_meteorological, 'dict_meteorological.joblib')

        fecha   registro
0  2010-01-01  50.000000
1  2010-01-02  45.307692
2  2010-01-03  52.384615
3  2010-01-04  70.384615
4  2010-01-05  65.000000
        fecha  registro
0  2010-01-01     10.70
1  2010-01-02     10.56
2  2010-01-03     12.94
3  2010-01-04     14.14
4  2010-01-05     10.28
        fecha   registro
0  2010-01-01  21.584615
1  2010-01-02  24.476923
2  2010-01-03  24.123077
3  2010-01-04  19.246154
4  2010-01-05  17.461538


['dict_meteorological.joblib']