In [21]:
import pandas as pd
import numpy as np
import re
from itertools import groupby
from os import listdir, path

In [67]:
def formata_data_hora(mi):
    data, hora = mi[0].replace('/', '-'), mi[1].replace(' UTC', '')
    if len(hora) == 4:  hora = hora[:2] + ':' + hora[2:]
    return data, hora

def ler_arquivo(arquivo):
    #lendo o arquivo em duas partes
    metadado = pd.read_csv(arquivo, encoding='latin_1', sep=';', decimal=',', nrows=8, header=None).set_index(0)
    dados = pd.read_csv(arquivo, skiprows=8, encoding='latin_1', sep=';', decimal=',').replace(-9999, np.nan)
    
    #removendo o : dos nomes dos metadados e normalizando as que variam com o tempo
    metadado.index = ['REGIÃO', 'UF', 'ESTAÇÃO', 'CODIGO (WMO)', 'LATITUDE', 'LONGITUDE', 'ALTITUDE', 'DATA DE FUNDAÇÃO (YYYY-MM-DD)']
    metadado = metadado.T.iloc[0]
    
    #acrescentando os dados de altitude, latitude e longitudo no dataframe (podem mudar de ano a ano)
    dados.assign(**{
        'ALTITUDE': metadado['ALTITUDE'],
        'LATITUDE': metadado['LATITUDE'],
        'LONGITUDE': metadado['LONGITUDE']
    })
    
    #normalizando nomes de colunas que mudam na planilha
    dados.rename({
        dados.columns[0]: 'Data',
        dados.columns[1]: 'Hora',
        dados.columns[6]: 'RADIACAO GLOBAL (KJ/m²)'
    }, axis='columns', inplace=True)
    
    #retornando o codigo da estaçao, dicionario com a regiao, uf e nome da estação, dataframe com todos os dados
    return metadado['CODIGO (WMO)'], metadado[['REGIÃO', 'UF', 'ESTAÇÃO']].to_dict(), dados.set_index(list(dados.columns[:2]))

def concat_years(code, file_list, output_dir):
        years = []
        for file in sorted(file_list):
            _, metadata, dataframe = ler_arquivo(file)
            years.append(dataframe)
        
        df = pd.concat(years, copy=False)
        df.index = df.index.map(formata_data_hora)
        
        df.sort_index().to_csv(f'{output_dir}/{code}.csv', sep=';', decimal=',', encoding='latin_1')
        return metadata

def padronize_data(inmet_dir, output_dir):
    #salvando o nome de todas as planilhas
    arquivos = []
    for folder in listdir(inmet_dir):
        c = f'{inmet_dir}/{folder}'
        if not path.isdir(c): continue
        if path.isdir(f'{c}/{folder}'): c = f'{c}/{folder}'
        
        arquivos += [f'{c}/{a}' for a in listdir(c) if a.endswith('.CSV')]
    print(f'Total de arquivos: {len(arquivos)}')
    
    #para cada codigo, concatena e adiciona o codigo e salva os metadados
    metadatas = []
    search_groups = lambda s: re.search('_([A-Z][0-9]{3})_', s).group(1)
    for k, grupo in groupby(sorted(arquivos, key=search_groups), search_groups):
        meta = concat_years(k, grupo, output_dir)
        metadatas.append( (k, meta) )
        print(meta)
        
    #transforma os metadados em dataframe e escreve em uma planilha auxiliar

In [None]:
path_inmet = 'datasets/inmet'
path_output = 'datasets/agregados'
padronize_data(path_inmet, path_output)

Total de arquivos: 7760
{'REGIÃO': 'CO', 'UF': 'DF', 'ESTAÇÃO': 'BRASILIA'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'GOIANIA'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'MORRINHOS'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'PORANGATU'}
{'REGIÃO': 'N', 'UF': 'TO', 'ESTAÇÃO': 'PALMAS'}
{'REGIÃO': 'N', 'UF': 'TO', 'ESTAÇÃO': 'PARANA'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'SAO SIMAO'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'LUZIANIA'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'ARAGARCAS'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'GOIAS'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'ITAPACI'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'JATAI'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'POSSE'}
{'REGIÃO': 'N', 'UF': 'TO', 'ESTAÇÃO': 'PEIXE'}
{'REGIÃO': 'N', 'UF': 'TO', 'ESTAÇÃO': 'GURUPI'}
{'REGIÃO': 'N', 'UF': 'TO', 'ESTAÇÃO': 'PEDRO AFONSO'}
{'REGIÃO': 'N', 'UF': 'TO', 'ESTAÇÃO': 'ARAGUAINA'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'GOIANESIA'}
{'REGIÃO': 'CO', 'UF': 'GO', 'ESTAÇÃO': 'CAIAPONIA'}
{'R

{'REGIÃO': 'NE', 'UF': 'AL', 'ESTAÇÃO': 'PAO DE ACUCAR'}
{'REGIÃO': 'NE', 'UF': 'CE', 'ESTAÇÃO': 'TAUA'}
{'REGIÃO': 'NE', 'UF': 'CE', 'ESTAÇÃO': 'QUIXERAMOBIM'}
{'REGIÃO': 'NE', 'UF': 'PI', 'ESTAÇÃO': 'BOM JESUS DO PIAUI'}
{'REGIÃO': 'NE', 'UF': 'AL', 'ESTAÇÃO': 'PALMEIRA DOS INDIOS'}
{'REGIÃO': 'NE', 'UF': 'PE', 'ESTAÇÃO': 'SURUBIM'}
{'REGIÃO': 'NE', 'UF': 'PE', 'ESTAÇÃO': 'CABROBO'}
{'REGIÃO': 'NE', 'UF': 'PI', 'ESTAÇÃO': 'PAULISTANA'}


In [51]:
todos

Unnamed: 0_level_0,Unnamed: 1_level_0,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (KJ/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19
Data,Hora,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
2000-05-07,00:00,,,,,,,,,,,,,,,,,,
2000-05-07,01:00,,,,,,,,,,,,,,,,,,
2000-05-07,02:00,,,,,,,,,,,,,,,,,,
2000-05-07,03:00,,,,,,,,,,,,,,,,,,
2000-05-07,04:00,,,,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2021-12-31,19:00,3.0,881.2,882.0,881.2,877.2,20.0,18.0,20.2,18.5,18.4,17.2,94.0,87.0,88.0,343.0,10.3,2.9,
2021-12-31,20:00,0.0,881.1,881.2,881.0,889.6,20.8,18.2,21.0,20.0,18.7,18.1,90.0,84.0,85.0,350.0,6.7,3.8,
2021-12-31,21:00,0.0,881.5,881.5,881.1,450.2,20.5,17.7,21.0,20.5,18.5,17.7,86.0,83.0,84.0,355.0,6.7,3.7,
2021-12-31,22:00,0.0,882.4,882.4,881.5,83.7,19.6,17.4,20.5,19.6,17.8,17.4,87.0,84.0,87.0,5.0,6.2,2.7,


In [None]:
def resumo(arquivo):
    metadado = pd.read_csv(arquivo, encoding='latin_1', sep=';', decimal=',', nrows=8, header=None)
    local = f'{metadado.iloc[0, 1]} -- {metadado.iloc[1, 1]} -- {metadado.iloc[3,1]} -- {metadado.iloc[2,1]}'
    
    dados = pd.read_csv(arquivo, skiprows=8, encoding='latin_1', sep=';', decimal=',').replace(-9999, np.nan)
    return dados.min().rename(local), dados.max().rename(local), (dados.isnull().sum(axis=0)/len(dados)*100).rename(local), dados.apply(lambda x: x.groupby(x.notna().cumsum()).cumcount().max()).rename(local)

def resumo_anual(ano):
    tabelas = {
        'min': [], #minimo de cada coluna
        'max': [], #maximo de cada coluna
        'porcentagem': [], #porcentagem de nulos em cada coluna
        'sequencia': []  #maior sequencia de nulos
    }
    
    d = f'{p}/{ano}/'
    if path.isdir(f'{d}{ano}'): d = f'{d}{ano}/'
        
    for file in listdir(d):
        minimo, maximo, porcentagem, sequencia = resumo(d+file)
        tabelas['min'].append(minimo)
        tabelas['max'].append(maximo)
        tabelas['porcentagem'].append(porcentagem)
        tabelas['sequencia'].append(sequencia)
    
    for k, v in tabelas.items():
        df = pd.DataFrame(v)
        df.columns = [f'{k.upper()} - {c}' for c in df.columns]
        tabelas[k] = df
        
    colunas = [v.columns for k, v in tabelas.items()]
    colunas = [j for i in zip(*colunas) for j in i]
    return pd.concat(tabelas.values(), axis=1).reindex(columns=colunas).sort_index()#

In [None]:
todos = {}
for ano in range(2000, 2022):
    print(f'Procesando ano {ano}...', end='')
    df = resumo_anual(ano)
    todos[ano] = df
    #df.to_csv(f'{ano}.csv', sep=';', decimal=',', encoding='latin_1')
    print('OK')

In [None]:
filtrado = [(k, v[v.index.str.startswith(('S -- SC', 'SE -- SP'))]) for k, v in todos.items()]
pd.DataFrame([v['PORCENTAGEM - PRECIPITAÇÃO TOTAL, HORÁRIO (mm)'].rename(k) for k, v in filtrado if not v.empty]).T.sort_index().iloc[:, 14:].applymap(lambda x: 'x' if x < 1/13*100 else '').to_csv('meus_porcentagem.csv', sep=';', decimal=',', encoding='latin_1')