Importa as bibliotecas

In [1]:
import pandas as pd
import glob


Define as colunas a serem processadas

In [None]:
colunas_para_media = [
    'dhi_pyr', 'ghi_pyr', 'air_temperature', 
    'relative_humidity', 'barometric_pressure', 'precipitation'
]

Lê todos os arquivos CSV e transforma em um dataframe

In [None]:
file_paths = glob.glob("../Datasets/Região Ocidental/*.csv")
dataframes = [pd.read_csv(f) for f in file_paths]



In [None]:

if dataframes:
    # Ccombina os dataframes em um único
    df_combinado = pd.concat(dataframes, ignore_index=True)
    
    # Converte a coluna 'time' em datetime
    df_combinado['time'] = pd.to_datetime(df_combinado['time'], errors='coerce')
    df_combinado.dropna(subset=['time'], inplace=True)

    # Verifica se todos os valores são realmente numéricos
    df_combinado[colunas_para_media] = df_combinado[colunas_para_media].apply(pd.to_numeric, errors='coerce')

    # Normaliza os valores, transformando valores negativos de dhi_pyr e ghi_pyr para 0
    df_combinado[['dhi_pyr', 'ghi_pyr']] = df_combinado[['dhi_pyr', 'ghi_pyr']].clip(lower=0)

    # Se 'dhi_rsi' existe e não é 0, pega a média com 'dhi_pyr'
    if 'dhi_rsi' in df_combinado.columns:
        df_combinado['dhi_pyr'] = df_combinado.apply(
            lambda row: (row['dhi_pyr'] + row['dhi_rsi']) / 2 if row['dhi_rsi'] > 0 else row['dhi_pyr'], 
            axis=1
        )

    # Agrupo por timestamp e pega a média
    df_final = df_combinado.groupby('time')[colunas_para_media].mean().reset_index()

    # Salva os valores em um dataframe
    df_final.to_csv("cleaned_data.csv", index=False)
    
    print("Data cleaning and normalization complete. Saved as 'cleaned_data.csv'.")
else:
    print("Nenhum arquivo CSV encontrado para ser processado.")