# PROCESSANDO OS DADOS

In [1]:
import pandas as pd

epw_folder = '../epw_raw/'
inmet_folder = '../inmet_raw/'
export_folder = '../climate_csv/'

def calculate_metrics_by_period(
    df: pd.DataFrame,
    period: str,
    df_name: str
) -> pd.DataFrame:
    """Agrega métricas de colunas específicas em intervalos temporais definidos.

    Calcula máximo, média e mínimo para as 3 primeiras colunas de trabalho,
    média para a 4ª coluna e soma acumulada para a 5ª coluna.

    Args:
        df (pd.DataFrame): DataFrame contendo os dados originais.
        datetime_column (str): Nome da coluna com dados datetime para indexação.
        period (str): Frequência de agrupamento (ex: 'D' para diário, 'M' para
        mensal).

    Returns:
        pd.DataFrame: DataFrame com métricas agregadas por período.

    Raises:
        KeyError: Se alguma coluna necessária não existir no DataFrame.
    """
    required_columns = [
        'Temp', 'Umi', 'Vel_vento', 'Dir_vento', 'Precipitacao','Ori_vento'
    ]

    # Verificação de colunas obrigatórias
    missing_columns = [col for col in required_columns if col not in df.columns]
    if missing_columns:
        raise KeyError(f'Colunas ausentes: {missing_columns} in {df_name}')
    
    # Define agregações para cada coluna
    aggregations = {
        'Temp': ['max', 'min', 'mean','std'],
        'Umi': ['max', 'min', 'mean','std'],
        'Vel_vento': ['max', 'min', 'mean','std'],
        'Dir_vento': ['mean','std'],
        'Precipitacao': ['sum','std'],
        'Ori_vento':['mode']
    }

    # Calcula todas as métricas de uma vez
    df['Ori_vento'] = df['Ori_vento'].astype('category')

    period_df = df.resample(period).agg(aggregations)
    
    # Renomeia colunas multi-nível e padroniza nomenclatura
    period_df.columns = [
        f'{col}_{stat}' 
        for col, stat in period_df.columns
    ]
    
    # Ajusta sufixos conforme especificação original
    column_rename = {
        'mean': 'med',
        'sum': 'tot',
        'median': 'mediana',
        'std': 'dp',
        'mode': 'moda'
    }
    
    period_df = period_df.rename(
        columns=lambda x: x.replace('mean', 'med').replace(
            'sum', 'tot').replace('std', 'dp').replace('mode','moda')
    )

    period_df = period_df[period_df['Temp_max'].notnull()]

    if not isinstance(df_name, str):
        raise KeyError(f'O nome do DataFrame <{df_name}> não é uma string!')

    period_df.attrs['Name'] = df_name

    print(f'''{period_df.attrs["Name"]} tem {period_df.shape[0]} linhas e 
    {period_df.shape[1]} colunas.''')

    return period_df.round(2)

# criar as medias diarias, semanal e mensal
my_csv = {'iguape_epw': 'iguape_epw',
          'inmet_2019': 'inmet_2019',
          'inmet_2020': 'inmet_2020',
          'inmet_2021': 'inmet_2021',
          'inmet_2022': 'inmet_2022',
          'inmet_2023': 'inmet_2023',
          'inmet_2024': 'inmet_2024',
         }

# calcular os valores médios por períodos
periodos = {'diaria': 'D', 'semanal': 'W', 'mensal': 'ME'}
datetime_column = 'Datetime'
my_dfs = {}

for key, value in my_csv.items():
    print(f'Carregando {value}.csv')
    df = pd.read_csv(f'{export_folder}{value}.csv',parse_dates=True)
    df[datetime_column] = pd.to_datetime(df[datetime_column])
    df.set_index(datetime_column, inplace=True)
    my_dfs[key] = df
    
    for name, period in periodos.items():
        print(f'Calcular média {name} de {value}.csv')
        new_df = calculate_metrics_by_period(
            df=df,
            period=period,
            df_name=f'{key}_{name}'
        )
        new_df.dropna(inplace=True)
        new_df.to_csv(f'{export_folder}{key}_{name}.csv')

print('.\n.\n.\nCódigo concluído.')

Carregando iguape_epw.csv
Calcular média diaria de iguape_epw.csv


AttributeError: 'SeriesGroupBy' object has no attribute 'mode'

In [2]:
my_dfs['iguape_epw'].describe()

Unnamed: 0,Temp,Umi,Vel_vento,Dir_vento,Precipitacao
count,8760.0,8760.0,8760.0,8760.0,8760.0
mean,21.980651,85.182078,1.759441,157.572603,0.224258
std,3.982382,10.895945,1.337448,91.366574,0.846374
min,9.7,37.0,0.0,0.0,0.0
25%,19.1,78.0,0.6,89.0,0.0
50%,22.0,88.0,1.4,135.0,0.0
75%,24.7,94.0,2.6,222.25,0.1
max,38.5,100.0,7.8,360.0,17.1


In [3]:
my_dfs['iguape_epw'].Ori_vento.astype('category')

Datetime
2000-01-01 00:00:00     O
2000-01-01 01:00:00     O
2000-01-01 02:00:00     O
2000-01-01 03:00:00     O
2000-01-01 04:00:00     O
                       ..
2000-12-31 19:00:00     S
2000-12-31 20:00:00    NE
2000-12-31 21:00:00    SE
2000-12-31 22:00:00    NE
2000-12-31 23:00:00    NE
Name: Ori_vento, Length: 8760, dtype: category
Categories (8, object): ['L', 'N', 'NE', 'NO', 'O', 'S', 'SE', 'SO']

In [4]:
my_dfs['iguape_epw'].agg({'Ori_vento':['mode'], 'Temp':['max','mean','min']})

Unnamed: 0_level_0,Ori_vento,Temp
Unnamed: 0_level_1,mode,Temp
0,L,
max,,38.5
mean,,21.980651
min,,9.7


In [None]:
period_df.head()