In [37]:
import requests
from io import BytesIO
import pandas as pd
from zipfile import ZipFile
import re
from dtype_diet import report_on_dataframe, optimize_dtypes
import os
from dataprep.clean import clean_headers
import warnings
warnings.filterwarnings('ignore')

In [2]:
path = 'https://portal.inmet.gov.br/uploads/dadoshistoricos/2022.zip'
r = requests.get(path, verify = False)
files = ZipFile(BytesIO(r.content))
pattern = re.compile("Porto Alegre", flags = re.IGNORECASE)
arquivo = []
for file in files.namelist():
    if re.search(pattern, str(file)):
        arquivo.append(file)
temp_poa = pd.read_csv(files.open(arquivo[0]), encoding="latin1", sep = ";", skiprows=8)

temp_poa_desc = pd.read_csv(files.open(arquivo[0]), encoding="latin1", sep = ";", nrows=7, header = None)
desc = {line[1][0]: line[1][1] for line in temp_poa_desc.iterrows()}

In [24]:
temp_poa.head()

Unnamed: 0,Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19
0,2022/01/01,0000 UTC,0,10003,10003,9994,,25,197,264,25,197,193,72.0,65.0,72.0,126.0,54,21,
1,2022/01/01,0100 UTC,0,10006,10006,10002,,241,198,25,241,198,196,77.0,72.0,77.0,95.0,43,13,
2,2022/01/01,0200 UTC,0,10005,10008,10005,,236,199,241,236,199,198,80.0,77.0,80.0,76.0,34,1,
3,2022/01/01,0300 UTC,0,1000,10005,1000,,233,196,238,233,199,195,80.0,78.0,79.0,104.0,26,1,
4,2022/01/01,0400 UTC,0,9997,1000,9996,,23,201,236,225,202,194,85.0,78.0,84.0,132.0,34,14,


In [23]:
temp_poa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8760 entries, 0 to 8759
Data columns (total 20 columns):
 #   Column                                                 Non-Null Count  Dtype  
---  ------                                                 --------------  -----  
 0   Data                                                   8760 non-null   object 
 1   Hora UTC                                               8760 non-null   object 
 2   PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                       8730 non-null   object 
 3   PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)  8730 non-null   object 
 4   PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)        8729 non-null   object 
 5   PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)       8729 non-null   object 
 6   RADIACAO GLOBAL (Kj/m²)                                4702 non-null   object 
 7   TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)           8730 non-null   object 
 8   TEMPERATURA DO PONTO DE ORVALHO (°C)            

In [25]:
proposed_df = report_on_dataframe(temp_poa, unit="MB")
new_df = optimize_dtypes(temp_poa, proposed_df)
print(f'Original df memory: {temp_poa.memory_usage(deep=True).sum()/1024/1024} MB')
print(f'Propsed df memory: {new_df.memory_usage(deep=True).sum()/1024/1024} MB')

Original df memory: 7.92751407623291 MB
Propsed df memory: 0.9679117202758789 MB


In [26]:
new_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8760 entries, 0 to 8759
Data columns (total 20 columns):
 #   Column                                                 Non-Null Count  Dtype   
---  ------                                                 --------------  -----   
 0   Data                                                   8760 non-null   category
 1   Hora UTC                                               8760 non-null   category
 2   PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                       8730 non-null   category
 3   PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)  8730 non-null   category
 4   PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)        8729 non-null   category
 5   PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)       8729 non-null   category
 6   RADIACAO GLOBAL (Kj/m²)                                4702 non-null   category
 7   TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)           8730 non-null   category
 8   TEMPERATURA DO PONTO DE ORVALHO (°C)  

In [27]:
desc

{'REGIAO:': 'S',
 'UF:': 'RS',
 'ESTACAO:': 'PORTO ALEGRE - JARDIM BOTANICO',
 'CODIGO (WMO):': 'A801',
 'LATITUDE:': '-30,05361111',
 'LONGITUDE:': '-51,17472221',
 'ALTITUDE:': '41,18'}

In [53]:
df = pd.DataFrame()
for ano in range(2000, 2024):
    path = f'https://portal.inmet.gov.br/uploads/dadoshistoricos/{ano}.zip'
    r = requests.get(path, verify = False)
    files = ZipFile(BytesIO(r.content))
    arquivos = []
    for file in files.namelist():
        if file[-4:].lower() == ".csv":
            arquivos.append(file)
        else:
            continue
    df01 = pd.DataFrame()
    for arquivo in arquivos:
        info = pd.read_csv(files.open(arquivo), sep = ";", encoding = "latin-1", nrows=7, header = None)
        desc = {line[1][0]: line[1][1] for line in temp_poa_desc.iterrows()}
        df02 = pd.read_csv(files.open(arquivo),  sep = ";", encoding = "latin-1", skiprows = 8)
        df02["ESTACAO"] = desc['ESTACAO:']
        df02["UF"] = desc['UF:']
        df02["REGIAO"] = desc['REGIAO:']
        #nome_arquivo = arquivo.split('/')[1]
        #df02.to_parquet(f'../../../data/inmet/inmet_{nome_arquivo[:-4]}.parquet')
        df01 = pd.concat([df01, df02])
    df = pd.concat([df, df01])

IndexError: list index out of range

In [24]:
df = pd.DataFrame()
for ano in range(2000, 2024):
    print(ano)
    path = f'https://portal.inmet.gov.br/uploads/dadoshistoricos/{ano}.zip'
    r = requests.get(path, verify = False)
    files = ZipFile(BytesIO(r.content))
    arquivos = [file for file in files.namelist() if file.lower().endswith(".csv")]

    df01 = pd.DataFrame()
    nomes_colunas = []
    for arquivo in arquivos:
        info = pd.read_csv(files.open(arquivo), sep = ";", encoding = "latin-1", nrows=7, header = None)
        info2 = {line[1][0]: line[1][1] for line in temp_poa_desc.iterrows()}
        df02 = pd.read_csv(files.open(arquivo),  sep = ";", encoding = "latin-1", skiprows = 8, nrows=1)
        df02["ESTACAO"] = info2['ESTACAO:']
        df02["UF"] = info2['UF:']
        df02["REGIAO"] = info2['REGIAO:']
        df01 = pd.concat([df01, df02])
        for col in df02.columns.to_list():
            nomes_colunas.append(col)

2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023


In [38]:
df01.sample(5)

Unnamed: 0,Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),...,TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",ESTACAO,UF,REGIAO
0,2023/01/01,0000 UTC,0,925,925,9241,,223,205,231,...,202,90.0,84.0,89.0,70.0,3,17,PORTO ALEGRE - JARDIM BOTANICO,RS,S
0,2023/01/01,0000 UTC,64,10129,1013,10123,0.0,234,226,246,...,218,95.0,86.0,95.0,352.0,45,",4",PORTO ALEGRE - JARDIM BOTANICO,RS,S
0,2023/01/01,0000 UTC,0,9687,9687,9677,,236,216,237,...,215,90.0,88.0,89.0,328.0,3,",9",PORTO ALEGRE - JARDIM BOTANICO,RS,S
0,2023/01/01,0000 UTC,0,9912,9912,9908,,247,228,252,...,228,90.0,88.0,89.0,78.0,23,",5",PORTO ALEGRE - JARDIM BOTANICO,RS,S
0,2023/01/01,0000 UTC,0,10145,10145,10139,,251,217,251,...,213,82.0,80.0,82.0,55.0,49,22,PORTO ALEGRE - JARDIM BOTANICO,RS,S


In [39]:
df01.nunique()

Data                                                       1
Hora UTC                                                   1
PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                          17
PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)    362
PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)          367
PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)         370
RADIACAO GLOBAL (Kj/m²)                                   16
TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)             117
TEMPERATURA DO PONTO DE ORVALHO (°C)                     119
TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)               124
TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)               117
TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)         114
TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)         126
UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)                  60
UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)                  71
UMIDADE RELATIVA DO AR, HORARIA (%)                       69
VENTO, DIREÇÃO HORARIA (

In [40]:
for col in df01.columns:
    print(col)

Data
Hora UTC
PRECIPITAÇÃO TOTAL, HORÁRIO (mm)
PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)
PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)
PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)
RADIACAO GLOBAL (Kj/m²)
TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)
TEMPERATURA DO PONTO DE ORVALHO (°C)
TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)
TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)
TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)
TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)
UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)
UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)
UMIDADE RELATIVA DO AR, HORARIA (%)
VENTO, DIREÇÃO HORARIA (gr) (° (gr))
VENTO, RAJADA MAXIMA (m/s)
VENTO, VELOCIDADE HORARIA (m/s)
ESTACAO
UF
REGIAO


In [42]:
df01.drop("Unnamed: 19", axis=1, inplace=True)

In [56]:
colunas_ajustadas = clean_headers(df01).columns.to_list()
df01.columns = colunas_ajustadas

Column Headers Cleaning Report:
	22 values cleaned (100.0%)


In [59]:
df01.sample(3)

Unnamed: 0,data,hora_utc,precipitacao_total_horario_mm,pressao_atmosferica_ao_nivel_da_estacao_horaria_m_b,pressao_atmosferica_max_na_hora_ant_aut_m_b,pressao_atmosferica_min_na_hora_ant_aut_m_b,radiacao_global_kj_m,temperatura_do_ar_bulbo_seco_horaria_c,temperatura_do_ponto_de_orvalho_c,temperatura_maxima_na_hora_ant_aut_c,...,temperatura_orvalho_min_na_hora_ant_aut_c,umidade_rel_max_na_hora_ant_aut_%,umidade_rel_min_na_hora_ant_aut_%,umidade_relativa_do_ar_horaria_%,vento_direcao_horaria_gr_gr,vento_rajada_maxima_m_s,vento_velocidade_horaria_m_s,estacao,uf,regiao
0,2023/01/01,0000 UTC,0.0,10129.0,10129.0,10126.0,,22.0,188.0,223.0,...,186.0,82.0,80.0,82.0,61.0,49.0,3.0,PORTO ALEGRE - JARDIM BOTANICO,RS,S
0,2023/01/01,0000 UTC,0.0,10039.0,10039.0,10033.0,0.0,233.0,224.0,234.0,...,223.0,94.0,94.0,94.0,197.0,0.0,0.0,PORTO ALEGRE - JARDIM BOTANICO,RS,S
0,2023/01/01,0000 UTC,,,,,,,,,...,,,,,,,,PORTO ALEGRE - JARDIM BOTANICO,RS,S


# TODO: ajustar decimal (for coluna replace "," "." etc)

In [60]:
df01.dtypes

data                                                    object
hora_utc                                                object
precipitacao_total_horario_mm                           object
pressao_atmosferica_ao_nivel_da_estacao_horaria_m_b     object
pressao_atmosferica_max_na_hora_ant_aut_m_b             object
pressao_atmosferica_min_na_hora_ant_aut_m_b             object
radiacao_global_kj_m                                    object
temperatura_do_ar_bulbo_seco_horaria_c                  object
temperatura_do_ponto_de_orvalho_c                       object
temperatura_maxima_na_hora_ant_aut_c                    object
temperatura_minima_na_hora_ant_aut_c                    object
temperatura_orvalho_max_na_hora_ant_aut_c               object
temperatura_orvalho_min_na_hora_ant_aut_c               object
umidade_rel_max_na_hora_ant_aut_%                      float64
umidade_rel_min_na_hora_ant_aut_%                      float64
umidade_relativa_do_ar_horaria_%                       