## Carregar os arquivos INMET
Nesta etapa, percorremos os arquivos CSV no diretório `../data/inmet`, filtramos os que têm extensão `.CSV`, e carregamos os dados em um dicionário chamado `dfs`. Cada entrada do dicionário é indexada pelo ano correspondente no nome do arquivo.

In [1]:
import os
import pandas as pd

data_dir = "../data/inmet"  
dfs = {}  

for file_name in os.listdir(data_dir):
    if file_name.endswith(".CSV"):  
        try:
            ano = int(file_name.split("_")[-1].split(".")[0].split("-")[-1])
            
            file_path = os.path.join(data_dir, file_name) 

            df = pd.read_csv(file_path, encoding='ISO-8859-1', delimiter=';')
            
            dfs[ano] = df  
            print(f"Arquivo {file_name} (Ano: {ano}) carregado com sucesso!")
        except Exception as e:
            print(f"Erro ao carregar o arquivo {file_name}: {e}")

print(f"Anos carregados: {list(dfs.keys())}")


Arquivo INMET_SE_RJ_A636_RIO DE JANEIRO - JACAREPAGUA_01-01-2018_A_31-12-2018.CSV (Ano: 2018) carregado com sucesso!
Arquivo INMET_SE_RJ_A636_RIO DE JANEIRO - JACAREPAGUA_01-01-2019_A_31-12-2019.CSV (Ano: 2019) carregado com sucesso!
Arquivo INMET_SE_RJ_A636_RIO DE JANEIRO - JACAREPAGUA_01-01-2020_A_31-12-2020.CSV (Ano: 2020) carregado com sucesso!
Arquivo INMET_SE_RJ_A636_RIO DE JANEIRO - JACAREPAGUA_01-01-2021_A_31-12-2021.CSV (Ano: 2021) carregado com sucesso!
Arquivo INMET_SE_RJ_A636_RIO DE JANEIRO - JACAREPAGUA_01-01-2022_A_31-12-2022.CSV (Ano: 2022) carregado com sucesso!
Arquivo INMET_SE_RJ_A636_RIO DE JANEIRO - JACAREPAGUA_01-01-2023_A_31-12-2023.CSV (Ano: 2023) carregado com sucesso!
Arquivo INMET_SE_RJ_A636_RIO DE JANEIRO - JACAREPAGUA_01-01-2024_A_31-10-2024.CSV (Ano: 2024) carregado com sucesso!
Anos carregados: [2018, 2019, 2020, 2021, 2022, 2023, 2024]


## Agregar dados por dia

Neste bloco, os dados de cada ano são processados para:
- Selecionar apenas as colunas relevantes (Data, Precipitação e Temperatura).
- Converter a data para o formato `datetime` e os valores numéricos (substituindo vírgulas por pontos).
- Agrupar os dados por dia, somando a precipitação e calculando a média da temperatura.


In [2]:
agg_dfs = {}

target_columns = [
    'Data',  
    'PRECIPITAÇÃO TOTAL, HORÁRIO (mm)',  
    'TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'  
]

for key in dfs.keys():
    agg_dfs[key] = dfs[key][target_columns].copy()
    
    agg_dfs[key]['Data'] = pd.to_datetime(agg_dfs[key]['Data'])

    agg_dfs[key]['PRECIPITAÇÃO TOTAL, HORÁRIO (mm)'] = agg_dfs[key]['PRECIPITAÇÃO TOTAL, HORÁRIO (mm)'].str.replace(',', '.').astype(float)
    agg_dfs[key]['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'] = agg_dfs[key]['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'].str.replace(',', '.').astype(float)

    
    agg_dfs[key] = agg_dfs[key].groupby('Data').agg({
        'PRECIPITAÇÃO TOTAL, HORÁRIO (mm)': 'sum',  
        'TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)': 'mean' 
    }).reset_index()

    agg_dfs[key].columns = ['Data', 'TotalPrecipitation', 'MeanTemperature']

## Unir os dados de todos os anos e combinar com qualidade da água
Neste bloco:

- Os DataFrames processados de cada ano são combinados em um único DataFrame.
- O arquivo `water_quality.csv` é carregado e unido aos dados agregados baseados na coluna `Data`.
- O resultado final é salvo em um novo arquivo CSV.

In [3]:
combined_df = pd.concat(agg_dfs, ignore_index=True)

water_quality_path = "../data/water_quality.csv"
water_quality = pd.read_csv(water_quality_path)

water_quality['Data'] = pd.to_datetime(water_quality['Data'])

merged_df = pd.merge(water_quality, combined_df, on='Data', how='left')

output_path = "../data/water_quality_with_agg_data.csv"
merged_df.to_csv(output_path, index=False)

merged_df.head()

Unnamed: 0,Data,Turbidity,pH,Alkalinity,DissolvedOxygen,RainAccumulation1D,RainAccumulation2D,RainAccumulation3D,RainAccumulation4D,RainAccumulation5D,RainAccumulation6D,RainAccumulation7D,RainAccumulation15D,RainAccumulation30D,RiverLevel,TotalPrecipitation,MeanTemperature
0,2018-01-01,7.367186,6.845486,25.78853,6.715897,0.001155,2.794847,2.318741,1.460683,9.169686,26.207817,19.561825,103.933015,52.559659,12.00554,0.0,26.183333
1,2018-01-02,35.755183,6.807069,19.943425,5.233228,0.001092,0.255247,0.71806,1.44602,2.584408,14.293565,19.873974,7.83014,25.022983,11.94824,0.0,27.616667
2,2018-01-03,9.341618,6.906234,19.91001,5.856647,0.012032,0.013785,0.029363,0.007139,0.389962,1.203419,4.060543,12.905984,-0.510383,11.890858,2.0,27.25
3,2018-01-04,16.105204,6.817615,20.249162,6.004393,0.002139,1.929273,0.788018,0.679701,1.69404,7.949185,9.757877,10.163177,52.038419,11.993244,40.6,24.5
4,2018-01-05,16.531502,7.045985,18.217803,6.050563,0.002479,1.077661,0.135524,0.61878,5.573755,8.767472,24.552537,2.447773,33.673292,12.046827,6.0,23.820833
