In [1]:
import pandas as pd
import glob

In [2]:
columnas = {
    'I_dir_Avg': 'Ib',
    'I_glo_Avg': 'Ig',
    'I_dif_Avg': 'Id',
    'AirTC_Avg': 'To',
    'RH': 'RH',
    'RH_Avg': 'RH',
    'WS_ms_Avg': 'WS',
    'CS106_PB_Avg': 'P'
}

In [3]:
archivos = glob.glob('../data/raw/*.csv')

In [4]:
def procesar_archivo(f):
    """
    Procesa un archivo CSV y lo guarda en formato Parquet.
    Parámetros:
    f (str): Ruta del archivo CSV a procesar.
    Pasos:
    1. Lee el archivo CSV con codificación 'ANSI', omitiendo las filas 0, 2 y 3, y configurando la primera columna como índice.
    2. Convierte todas las columnas a valores numéricos, reemplazando errores con NaN.
    3. Elimina las columnas 'RECORD', 'I_uv_Avg' y 'Rain_mm_Tot' si existen.
    4. Renombra las columnas según el diccionario 'columnas'.
    5. Guarda el DataFrame resultante en formato Parquet en la ruta especificada.
    """
    esol = pd.read_csv(f, encoding='ANSI', skiprows=[0, 2, 3], index_col=0, parse_dates=True, dayfirst=True, low_memory=False)
    
    esol = esol.apply(pd.to_numeric, errors='coerce')
    
    if 'RECORD' in esol.columns:
        del esol['RECORD']
    if 'I_uv_Avg' in esol.columns:
        del esol['I_uv_Avg']
    if 'Rain_mm_Tot' in esol.columns:
        del esol['Rain_mm_Tot']
    
    esol = esol.rename(columns=columnas)
    
    formato = f.replace('../data/raw', '../data/proc').replace('.csv', '.parquet')
    esol.to_parquet(formato)

In [5]:
for archivo in archivos:
    procesar_archivo(archivo)