In [2]:
import pandas as pd
import glob
import os

# 1. Definir o código da estação
codigo_estacao = '86520100'

# 2. Listar todos os arquivos CSV correspondentes à estação
# Ajuste o caminho se os arquivos estiverem em um diretório diferente
file_pattern = f'dados_estacao_detalhada_{codigo_estacao}-*.csv'
file_list = glob.glob(file_pattern)

# Verificar se arquivos foram encontrados
if not file_list:
    print("Nenhum arquivo encontrado para o padrão especificado.")
else:
    print(f"Arquivos encontrados: {file_list}")

# 3. Inicializar uma lista para armazenar os DataFrames
df_list = []

# 4. Ler cada arquivo CSV e adicionar à lista
for file in file_list:
    try:
        df = pd.read_csv(file)
        df_list.append(df)
        print(f"Arquivo {file} lido com sucesso.")
    except Exception as e:
        print(f"Erro ao ler o arquivo {file}: {e}")

# 5. Concatenar todos os DataFrames em um único DataFrame
df_all = pd.concat(df_list, ignore_index=True)

# 6. Converter 'Data_Hora_Medicao' para datetime
df_all['Data_Hora_Medicao'] = pd.to_datetime(df_all['Data_Hora_Medicao'], errors='coerce')

# Remover linhas com datas inválidas (se houver)
df_all = df_all.dropna(subset=['Data_Hora_Medicao'])

# 7. Ordenar o DataFrame por 'Data_Hora_Medicao'
df_all = df_all.sort_values('Data_Hora_Medicao')

# 8. Definir 'Data_Hora_Medicao' como índice
df_all.set_index('Data_Hora_Medicao', inplace=True)

# 9. Reindexar o DataFrame para ter um índice temporal contínuo
# Definir o início e fim com base nas datas existentes
start_date = df_all.index.min()
end_date = df_all.index.max()

# Criar um novo índice com frequência horária
date_range = pd.date_range(start=start_date, end=end_date, freq='H')

# Reindexar o DataFrame
#df_all = df_all.reindex(date_range)

# Opcional: Renomear o índice para 'Data_Hora_Medicao'
df_all.index.name = 'Data_Hora_Medicao'

# 10. Resetar o índice se preferir trabalhar com ele como coluna
# df_all.reset_index(inplace=True)

# Exclui todas as linhas com data superior a 2024-31-08
df_all = df_all[df_all.index <= '2024-09-01']

# 12. Tratar dados ausentes (opcional)
# Você pode optar por preencher valores ausentes usando interpolação ou outros métodos
# Por exemplo, usando interpolação linear:
# df_all.interpolate(method='linear', inplace=True)
# salva o dataframe consolidado em um arquivo CSV
output_file = f'dados_estacao_detalhada_{codigo_estacao}_consolidado_ALL.csv'
df_all.to_csv(output_file)

Arquivos encontrados: ['dados_estacao_detalhada_86520100-2018.csv', 'dados_estacao_detalhada_86520100-2019.csv', 'dados_estacao_detalhada_86520100-2020.csv', 'dados_estacao_detalhada_86520100-2021.csv', 'dados_estacao_detalhada_86520100-2022.csv', 'dados_estacao_detalhada_86520100-2023.csv', 'dados_estacao_detalhada_86520100-2024.csv']
Erro ao ler o arquivo dados_estacao_detalhada_86520100-2018.csv: No columns to parse from file
Erro ao ler o arquivo dados_estacao_detalhada_86520100-2019.csv: No columns to parse from file
Erro ao ler o arquivo dados_estacao_detalhada_86520100-2020.csv: No columns to parse from file
Arquivo dados_estacao_detalhada_86520100-2021.csv lido com sucesso.
Arquivo dados_estacao_detalhada_86520100-2022.csv lido com sucesso.
Arquivo dados_estacao_detalhada_86520100-2023.csv lido com sucesso.
Arquivo dados_estacao_detalhada_86520100-2024.csv lido com sucesso.
