# 1- Tabelas Auxiliares  

Serão utilizadas para interpretar os códigos da base de dados e, por isso, devem ser tratadas no primeiro passo.

### Distribuição Territorial Brasileira - IBGE  

Devido a uma demonstração de interesse por parte de uma empresa importadora de fertilizantes sediada em Pouso Alegre/MG, esse projeto visa prever as importações deste município e de todos os demais na mesma região geográfica.  

O arquivo coletado e armazenado no endereço a seguir será descompactado e filtrado, deixando passar somente as informações referentes a região de Pouso Alegre/MG.

* '~/git/BD/IBGE/DTB_2022.zip'

Ao procurar o nome "Pouso Alegre" dentre os tipos de sub-divisão geograficas, se confirma que este município é classificado como centro de uma "Região Geográfica **Intermediária**" do estado de Minas Gerais. As regiões deste tipo contém nelas uma segunda sub-divisão, denominada "Região Geográfica **Imediata**" onde, por fim, se encontra a última e menor subdivisão, denominada Município.

Ao final, o arquivo será salvo em :

* 'git/Importacao-por-SH-e-Municipio/temp/i_f_r_pa.csv'

In [1]:
import zipfile
import io
import os
import pandas as pd

In [2]:
caminho_arquivo_zip = '~/git/BD/IBGE/DTB_2022.zip'
string_procurada = 'MUNICIPIO'

# Expandir o caminho do arquivo
caminho_arquivo_zip = os.path.expanduser(caminho_arquivo_zip)

# Variável para armazenar o conteúdo do arquivo XLS
m = None

# Descompactar o arquivo em memória
with zipfile.ZipFile(caminho_arquivo_zip, 'r') as zip_ref:
    # Obter uma lista de nomes de arquivos no zip
    nomes_arquivos = zip_ref.namelist()

    for nome_arquivo in nomes_arquivos:
        # Verificar se a string 'MUNICIPIO' está presente no nome do arquivo e se o arquivo é um XLS
        if string_procurada.upper() in nome_arquivo.upper() and nome_arquivo.lower().endswith('.xls'):
            # Ler o conteúdo do arquivo no zip
            conteudo_arquivo = zip_ref.read(nome_arquivo)

            # Utilizar o pandas para ler o arquivo XLS
            m = pd.read_excel(io.BytesIO(conteudo_arquivo), skiprows=6)

            # Exibir as primeiras linhas do DataFrame (opcional)
            display(m.head())

            # Aqui você pode fazer operações adicionais com o conteúdo do arquivo, se necessário

*** No CODEPAGE record, no encoding_override: will use 'iso-8859-1'


Unnamed: 0,UF,Nome_UF,Região Geográfica Intermediária,Nome Região Geográfica Intermediária,Região Geográfica Imediata,Nome Região Geográfica Imediata,Mesorregião Geográfica,Nome_Mesorregião,Microrregião Geográfica,Nome_Microrregião,Município,Código Município Completo,Nome_Município
0,11,Rondônia,1102,Ji-Paraná,110005,Cacoal,2,Leste Rondoniense,6,Cacoal,15,1100015,Alta Floresta D'Oeste
1,11,Rondônia,1102,Ji-Paraná,110005,Cacoal,2,Leste Rondoniense,6,Cacoal,379,1100379,Alto Alegre dos Parecis
2,11,Rondônia,1101,Porto Velho,110002,Ariquemes,2,Leste Rondoniense,3,Ariquemes,403,1100403,Alto Paraíso
3,11,Rondônia,1102,Ji-Paraná,110004,Ji-Paraná,2,Leste Rondoniense,5,Alvorada D'Oeste,346,1100346,Alvorada D'Oeste
4,11,Rondônia,1101,Porto Velho,110002,Ariquemes,2,Leste Rondoniense,3,Ariquemes,23,1100023,Ariquemes


In [3]:
import os

folder_path = '/home/andre301267/git/Importacao-por-SH-e-Municipio/temp'

# Check if the folder already exists
if not os.path.exists(folder_path):
    # Create the folder
    os.makedirs(folder_path)
    print(f"Folder '{folder_path}' created successfully.")
else:
    print(f"Folder '{folder_path}' already exists.")


Folder '/home/andre301267/git/Importacao-por-SH-e-Municipio/temp' created successfully.


In [4]:
# Filtra deixando passar somente municíppios da região de Pouso Alegere
m_r_pa=m[
    (m['Nome Região Geográfica Intermediária'].astype(str).str.contains('Pouso Alegre'))
    &
    (m['Nome_UF']=='Minas Gerais')
]

# seleciona somente a coluna com o nome dos municípios
m_r_pa=m_r_pa[m_r_pa.columns[[12]].tolist()]
# renomeia a coluna em busca de uniformidade com outros arquivos 
m_r_pa=m_r_pa.rename(columns={'Nome_Município':'Município'}).reset_index(drop=True)

# Salva 
m_r_pa.to_csv('~/git/comex_sh_mun/temp/m_r_pa.csv',index=False)

# Imprime
print('\nMunicípios da Região de Pouso Alegre:')
display(m_r_pa)
print('\nFonte: IBGE')


Municípios da Região de Pouso Alegre:


Unnamed: 0,Município
0,Aiuruoca
1,Alagoa
2,Albertina
3,Andradas
4,Baependi
...,...
75,Tocos do Moji
76,Toledo
77,Turvolândia
78,Virgínia



Fonte: IBGE


# 2- Importação de Fertilizantes por Município  

No capítulo anterior, a base de dados com importações por Município, denominada IMP_COMPLETA_MUN.zip, e as tabelas complementares, foram baixadas e salvas localmente na pasta:  

* '~/git/BD/Comexstat/'

Descompacta o arquivo e salva localmente em pasta específica

In [5]:
import zipfile
import os

caminho_arquivo_zip = '/home/andre301267/git/BD/Comexstat/IMP_COMPLETA_MUN.zip'
diretorio_destino = '/home/andre301267/git/BD/Comexstat/extracted_files/'

# Crie o diretório de destino, se não existir
os.makedirs(diretorio_destino, exist_ok=True)

# Abra o arquivo ZIP e extraia para o diretório de destino
with zipfile.ZipFile(caminho_arquivo_zip, 'r') as arquivo_zip:
    arquivo_zip.extractall(diretorio_destino)

print(f'Arquivos extraídos para: {diretorio_destino}')

Arquivos extraídos para: /home/andre301267/git/BD/Comexstat/extracted_files/


Lê in chunk e Imprime as primeiras 5 linhas do primeiro chunk, para verificar a estrutura do arquivo

In [6]:
reader=pd.read_csv('~/git/BD/Comexstat/extracted_files/IMP_COMPLETA_MUN.csv', chunksize=5, encoding='Latin-1',sep=';')

print(next(reader))

   CO_ANO  CO_MES   SH4  CO_PAIS SG_UF_MUN   CO_MUN  KG_LIQUIDO  VL_FOB
0    1997       6  9032      399        SP  3450308        1460  179845
1    1997       4  8421      249        SP  3424402         289   18950
2    1997      12  7616       23        MG  3106200        1312   20534
3    1997      12  8483      249        SC  4209102        4251  120559
4    1997       6  4104       63        RS  4307609       10828  247316


Nessa tabela acima, o produto é identificado na coluna SH4. Para interpretar esse código numérico e filtrar somente os fertilizantes, será necessário funidir a base de dados com a tabela auxiliar "NCM_SH.csv ", fornecida pelo site Comexstat.  

Vamos então abrir e visualizar a tabela "NCM_SH.csv":

In [7]:
ncm_sh=pd.read_csv('~/git/BD/Comexstat/NCM_SH.csv',encoding='Latin-1',sep=';')
ncm_sh.head(1)

Unnamed: 0,CO_SH6,NO_SH6_POR,NO_SH6_ESP,NO_SH6_ING,CO_SH4,NO_SH4_POR,NO_SH4_ESP,NO_SH4_ING,CO_SH2,NO_SH2_POR,NO_SH2_ESP,NO_SH2_ING,CO_NCM_SECROM,NO_SEC_POR,NO_SEC_ESP,NO_SEC_ING
0,10110,"Animais vivos das espécies cavalar, asinina e ...","Caballos y asnos, reproductores de raza pura",Pure-bred breeding horses and asses,101,"Cavalos, asininos e muares, vivos","Caballos, asnos, mulos y burdéganos, vivos","Live horses, asses, mules and hinnies",1,Animais vivos,Animales vivos,Live animals,I,Animais vivos e produtos do reino animal,Animales vivos y productos del reino animal,Lives animals; Animal products


In [8]:
ncm_sh.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6609 entries, 0 to 6608
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   CO_SH6         6609 non-null   int64 
 1   NO_SH6_POR     6609 non-null   object
 2   NO_SH6_ESP     6609 non-null   object
 3   NO_SH6_ING     6609 non-null   object
 4   CO_SH4         6609 non-null   int64 
 5   NO_SH4_POR     6609 non-null   object
 6   NO_SH4_ESP     6609 non-null   object
 7   NO_SH4_ING     6609 non-null   object
 8   CO_SH2         6609 non-null   int64 
 9   NO_SH2_POR     6609 non-null   object
 10  NO_SH2_ESP     6609 non-null   object
 11  NO_SH2_ING     6609 non-null   object
 12  CO_NCM_SECROM  6609 non-null   object
 13  NO_SEC_POR     6609 non-null   object
 14  NO_SEC_ESP     6609 non-null   object
 15  NO_SEC_ING     6609 non-null   object
dtypes: int64(3), object(13)
memory usage: 826.3+ KB


O arquivo original o detalhamento de produto é SH4. Tentaremos simplificar buscando localizar os fertilizantes em um grupamento de produto mais amplo, o SH2

In [9]:
ncm_sh=ncm_sh[ncm_sh.columns[[4,5,8,9]]].drop_duplicates()
ncm_sh.head()

Unnamed: 0,CO_SH4,NO_SH4_POR,CO_SH2,NO_SH2_POR
0,101,"Cavalos, asininos e muares, vivos",1,Animais vivos
8,102,Animais vivos da espécie bovina,1,Animais vivos
14,103,Animais vivos da espécie suína,1,Animais vivos
17,104,Animais vivos das espécies ovina e caprina,1,Animais vivos
19,105,"Galos, galinhas, patos, gansos, perus, peruas ...",1,Animais vivos


Entre a base e dados e a tabela auxiliar, podemos notar que a colunas referentes ao código SH4 tem nomes diferentes. A seguir será alterado um dos nomes para iguala-los entre as tabelas.

In [10]:
ncm_sh=ncm_sh.rename(columns={'CO_SH4':'SH4'})

Na coluna com o nome do código SH2 em português, "NO_SH2_POR":

In [11]:
sh2_desejado=ncm_sh[ncm_sh.NO_SH2_POR.str.contains('fertilizantes')].CO_SH2.unique()
sh2_desejado

array([31])

Como só foi localizado um único código SH2 contendo o termo 'fertilizantes', salvaremos ele em variável para na sequencia filtrarmos a base de dados.

In [12]:
sh2_desejado=sh2_desejado[0]
sh2_desejado

31

O arquivo da base de dados é muito grande para ser aberto de uma só vez. Vamos então ler o arquivo em chuncks, fundi-lo (merge) com a tabela auxiliar ncm_sh, e filtrar cada chunk que contiver na coluna "CO_SH2" o valor contido  na variável "sh2_desejado".

In [13]:
%%time
reader=pd.read_csv('~/git/BD/Comexstat/extracted_files/IMP_COMPLETA_MUN.csv', chunksize=100_000, encoding='Latin-1',sep=';')
i_f_m=pd.DataFrame()
for chunk in reader:
    chunk=chunk.merge(ncm_sh)
    chunk=chunk[chunk.CO_SH2==sh2_desejado]
    i_f_m=pd.concat([i_f_m,chunk])
i_f_m.head(1)

CPU times: user 30.3 s, sys: 2.23 s, total: 32.6 s
Wall time: 32.8 s


Unnamed: 0,CO_ANO,CO_MES,SH4,CO_PAIS,SG_UF_MUN,CO_MUN,KG_LIQUIDO,VL_FOB,NO_SH4_POR,CO_SH2,NO_SH2_POR
53145,1997,7,3105,249,SP,3431308,3653780,734410,"Adubos (fertilizantes) minerais ou químicos, c...",31,Adubos (fertilizantes)


In [14]:
i_f_m.shape

(118136, 11)

In [15]:
i_f_m.duplicated(subset=['CO_ANO','CO_MES','SH4','CO_MUN','CO_PAIS']).sum()

0

Continuando a filtragem, dexando dessa vez passar somente as linhas onde a coluna SG_UF_MUN for igual a 'MG'

In [16]:
i_f_m=i_f_m[i_f_m.SG_UF_MUN=='MG']

Processando a última filtragem, agora deixando passar somente as linhas que correspndem aos municípios da região de Pouso Alegre. Para isso será utilizada a tabela auxiliar contendo os códigos e os nomes dos municípios, UF_MUN.csv

In [17]:
uf_mun=pd.read_csv('~/git/BD/Comexstat/UF_MUN.csv',encoding='Latin-1',sep=';')

Será modificado o nome deu uma das colunas de forma a igualar com a base de dados

In [18]:
uf_mun=uf_mun.rename(columns={'CO_MUN_GEO':'CO_MUN'})

Crrega a tabela  com os municípios da região de Pouso Alegre (m_r_pa)

In [19]:
m_r_pa=pd.read_csv('~/git/comex_sh_mun/temp/m_r_pa.csv').rename(columns={'Município':'NO_MUN_MIN'})

Procede a filtragem através da fundição das tabelas

In [20]:
i_f_m.duplicated().sum()

0

In [21]:
i_f_m_r_pa=uf_mun.merge(m_r_pa).merge(i_f_m)

In [22]:
i_f_m_r_pa.duplicated().sum()

0

In [23]:
# Salva a tabela resultante
i_f_m_r_pa.to_csv('~/git/comex_sh_mun/temp/i_f_m_r_pa.csv',index=False)

In [24]:
i_f_m_r_pa.head(1)

Unnamed: 0,CO_MUN,NO_MUN,NO_MUN_MIN,SG_UF,CO_ANO,CO_MES,SH4,CO_PAIS,SG_UF_MUN,KG_LIQUIDO,VL_FOB,NO_SH4_POR,CO_SH2,NO_SH2_POR
0,3125101,EXTREMA,Extrema,MG,2003,9,3105,493,MG,1000,323,"Adubos (fertilizantes) minerais ou químicos, c...",31,Adubos (fertilizantes)


In [25]:
i_f_m_r_pa.duplicated().sum()

0

Por fim, apaga a pasta onde o arquivo original e descompactado foi salvo

In [26]:
import shutil

diretorio_destino = '/home/andre301267/git/BD/Comexstat/extracted_files/'

# Excluir o diretório e todo o seu conteúdo
shutil.rmtree(diretorio_destino)

print(f'Diretório {diretorio_destino} e seu conteúdo foram excluídos.')


Diretório /home/andre301267/git/BD/Comexstat/extracted_files/ e seu conteúdo foram excluídos.


# 3- Exportação de Café  

No capítulo anterior, a base de dados de exportação por Município, denominada EXP_COMPLETA_MUN.zip, e as tabelas complementares, foram baixadas e salvas localmente na pasta:  

* '~/git/BD/Comexstat/'

In [27]:
import zipfile
import io
import os
import pandas as pd

Descompacta o arquivo e salva localmente em pasta específica

In [28]:
import zipfile
import os

caminho_arquivo_zip = '/home/andre301267/git/BD/Comexstat/EXP_COMPLETA_MUN.zip'
diretorio_destino = '/home/andre301267/git/BD/Comexstat/extracted_files/'

# Crie o diretório de destino, se não existir
os.makedirs(diretorio_destino, exist_ok=True)

# Abra o arquivo ZIP e extraia para o diretório de destino
with zipfile.ZipFile(caminho_arquivo_zip, 'r') as arquivo_zip:
    arquivo_zip.extractall(diretorio_destino)

print(f'Arquivos extraídos para: {diretorio_destino}')

Arquivos extraídos para: /home/andre301267/git/BD/Comexstat/extracted_files/


Lê in chunk e Imprime as primeiras 5 linhas do primeiro chunk, para verificar a estrutura do arquivo

In [29]:
reader=pd.read_csv('~/git/BD/Comexstat/extracted_files/EXP_COMPLETA_MUN.csv', chunksize=5, encoding='Latin-1',sep=';')

print(next(reader))

   CO_ANO  CO_MES   SH4  CO_PAIS SG_UF_MUN   CO_MUN  KG_LIQUIDO   VL_FOB
0    1997      11  8708       65        PR  4125506          90     3523
1    1997      11  8708      149        SP  3448708         324     2502
2    1997      11  9403      275        SC  4215802      909015  2367314
3    1997      11  6104      586        SC  4208906         710    23344
4    1997      11  8419      196        SP  3403208       96300   382100


A tabela auxiliar contendo os códigos e os nomes dos municípios, UF_MUN.csv

In [30]:
uf_mun=pd.read_csv('~/git/BD/Comexstat/UF_MUN.csv',encoding='Latin-1',sep=';')
uf_mun.head(1)

Unnamed: 0,CO_MUN_GEO,NO_MUN,NO_MUN_MIN,SG_UF
0,1501758,BREJO GRANDE DO ARAGUAIA,Brejo Grande do Araguaia,PA


Será modificado o nome de uma das colunas de forma a igualar com a base de dados

In [31]:
uf_mun=uf_mun.rename(columns={'CO_MUN_GEO':'CO_MUN'})

Carrega a tabela (que foi salva no item 1) com os municípios da região de Pouso Alegre (m_r_pa), para ser usada na filtragem os registros de exportação.

In [32]:
m_r_pa=pd.read_csv('~/git/comex_sh_mun/temp/m_r_pa.csv').rename(columns={'Município':'NO_MUN_MIN'})

In [33]:
co_mun_r_pa=uf_mun.merge(m_r_pa)

In [34]:
len(co_mun_r_pa[['CO_MUN']])

84

In [35]:
len(co_mun_r_pa[['CO_MUN']].drop_duplicates())

84

In [36]:
%%time
reader=pd.read_csv('~/git/BD/Comexstat/extracted_files/EXP_COMPLETA_MUN.csv', chunksize=10_000, encoding='Latin-1',sep=';')
e_m_r_pa=pd.DataFrame()
for chunk in reader:
    # Filtra cada chunk , deixando passar somente os registros dos municípios da região de Pouso Alegre
    chunk=chunk.merge(co_mun_r_pa)
    e_m_r_pa=pd.concat([e_m_r_pa,chunk])
e_m_r_pa.head(1)

CPU times: user 26 s, sys: 514 ms, total: 26.5 s
Wall time: 26.5 s


Unnamed: 0,CO_ANO,CO_MES,SH4,CO_PAIS,SG_UF_MUN,CO_MUN,KG_LIQUIDO,VL_FOB,NO_MUN,NO_MUN_MIN,SG_UF
0,1997,11,6210,586,MG,3159605,243,5162,SANTA RITA DO SAPUCAI,Santa Rita do Sapucaí,MG


Agora identificaremos qual produto agrícola é o mais relevante para a região foco, para que ele seja utilizado como variável multipla na previsão dos fertilizantes.  

Antes, em nome da simplicidade, o plano é prever os produtos utilizando o código de categora mais abrangente disponível, que é o código SH2, que é obtido através da fusão da base de dados com a tabela auxiliar, NCM_SH.csv, fornecida pelo site Comexstat.

In [37]:
ncm_sh=pd.read_csv('~/git/BD/Comexstat/NCM_SH.csv',encoding='Latin-1',sep=';').rename(columns={'CO_SH4':'SH4'})
ncm_sh.head(1)

Unnamed: 0,CO_SH6,NO_SH6_POR,NO_SH6_ESP,NO_SH6_ING,SH4,NO_SH4_POR,NO_SH4_ESP,NO_SH4_ING,CO_SH2,NO_SH2_POR,NO_SH2_ESP,NO_SH2_ING,CO_NCM_SECROM,NO_SEC_POR,NO_SEC_ESP,NO_SEC_ING
0,10110,"Animais vivos das espécies cavalar, asinina e ...","Caballos y asnos, reproductores de raza pura",Pure-bred breeding horses and asses,101,"Cavalos, asininos e muares, vivos","Caballos, asnos, mulos y burdéganos, vivos","Live horses, asses, mules and hinnies",1,Animais vivos,Animales vivos,Live animals,I,Animais vivos e produtos do reino animal,Animales vivos y productos del reino animal,Lives animals; Animal products


Descarta detalhamentos maiores (SH6) e condensa a tabela. Sem esse procedimento, nas operações merge a frente, duplicatas seriam criadas.

In [38]:
ncm_sh=ncm_sh[['SH4', 'NO_SH4_POR', 'CO_SH2', 'NO_SH2_POR']].drop_duplicates()

In [39]:
len(e_m_r_pa)

138345

In [40]:
e_m_r_pa=e_m_r_pa.merge(ncm_sh)

In [41]:
len(e_m_r_pa)

138345

In [42]:
e_m_r_pa.groupby(by=['CO_SH2','NO_SH2_POR']).VL_FOB.sum().sort_values(ascending=False).reset_index().head()

Unnamed: 0,CO_SH2,NO_SH2_POR,VL_FOB
0,9,"Café, chá, mate e especiarias",5520896891
1,84,"Reatores nucleares, caldeiras, máquinas, apare...",1876247134
2,85,"Máquinas, aparelhos e materiais elétricos, e s...",1321930431
3,26,"Minerios, escórias e cinzas",1051069830
4,28,Produtos químicos inorgânicos; compostos inorg...,913656789


Podemos confirmar então que o café é o principal produto , não somente agrícola mas , o maior entre todas as categorias. Assim, seguiremos filtrando o arquivo, nesse próximo passo , por produto, deixando passar somente os de código SH2 igual a 9.

In [43]:
e_c_m_r_pa=e_m_r_pa[e_m_r_pa.CO_SH2==9]

In [44]:
e_c_m_r_pa.head(1)

Unnamed: 0,CO_ANO,CO_MES,SH4,CO_PAIS,SG_UF_MUN,CO_MUN,KG_LIQUIDO,VL_FOB,NO_MUN,NO_MUN_MIN,SG_UF,NO_SH4_POR,CO_SH2,NO_SH2_POR
18709,1997,3,901,764,MG,3102605,150000,514554,ANDRADAS,Andradas,MG,"Café, mesmo torrado ou descafeinado; cascas e ...",9,"Café, chá, mate e especiarias"


Enfim, salvamos o arquivo, que esta pronto para uso.

In [45]:
e_c_m_r_pa.to_csv('~/git/comex_sh_mun/temp/e_c_m_r_pa.csv',index=False)

Apaga arquivo zip expandido

In [46]:
import shutil
import os

# Diretório a ser apagado
directory_to_delete = '~/git/BD/Comexstat/extracted_files/'

# Expandir o caminho do usuário
directory_to_delete = os.path.expanduser(directory_to_delete)

# Verificar se o diretório existe antes de apagar
if os.path.exists(directory_to_delete):
    # Apagar o diretório e todo o seu conteúdo
    shutil.rmtree(directory_to_delete)
    print(f'Diretório {directory_to_delete} apagado com sucesso.')
else:
    print(f'O diretório {directory_to_delete} não existe.')

Diretório /home/andre301267/git/BD/Comexstat/extracted_files/ apagado com sucesso.


# 4- Volumes de Chuva  

No capítulo anterior, a base de dados sobre chuvas, que é representada por um arquivo zip por ano de coleta, foi baixadas e salvas localmente na pasta:  

* '~/git/BD/Inmet/'

In [47]:
import zipfile
import os

# Caminho do arquivo ZIP
caminho_arquivo_zip = os.path.expanduser('~/git/BD/Inmet/2020.zip')

# Expandir o arquivo ZIP para um diretório temporário
diretorio_temporario = '/home/andre301267/git/BD/Inmet/extracted_files/'
with zipfile.ZipFile(caminho_arquivo_zip, 'r') as zip_ref:
    zip_ref.extractall(diretorio_temporario)

# Listar os arquivos no diretório temporário
arquivos_temporarios = os.listdir(diretorio_temporario)

# Exibir os arquivos
for arquivo_temporario in arquivos_temporarios:
    print(arquivo_temporario)

# Limpar o diretório temporário (opcional)
for arquivo_temporario in arquivos_temporarios:
    caminho_completo = os.path.join(diretorio_temporario, arquivo_temporario)
    os.remove(caminho_completo)

# Remover o diretório temporário
os.rmdir(diretorio_temporario)


INMET_CO_DF_A001_BRASILIA_01-01-2020_A_31-12-2020.CSV
INMET_CO_DF_A042_BRAZLANDIA_01-01-2020_A_31-12-2020.CSV
INMET_CO_DF_A045_AGUAS EMENDADAS_01-01-2020_A_31-12-2020.CSV
INMET_CO_DF_A046_GAMA (PONTE ALTA)_01-01-2020_A_31-12-2020.CSV
INMET_CO_DF_A047_PARANOA (COOPA-DF)_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A002_GOIANIA_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A003_MORRINHOS_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A005_PORANGATU_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A011_SAO SIMAO_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A012_LUZIANIA_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A013_ARAGARCAS_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A014_GOIAS_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A015_ITAPACI_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A016_JATAI_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A017_POSSE_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A022_GOIANESIA_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A023_CAIAPONIA_01-01-2020_A_31-12-2020.CSV
INMET_CO_GO_A024_ALTO PARAISO DE GOIAS_01-01-2020_A_31-12-2

In [48]:
%%time
import zipfile
import os

# Diretório de origem dos arquivos ZIP
diretorio_origem = os.path.expanduser('~/git/BD/Inmet/')

# Diretório de destino para os arquivos extraídos
diretorio_destino = '/home/andre301267/git/BD/Inmet/extracted_files/'

# Garante que o diretório de destino existe
os.makedirs(diretorio_destino, exist_ok=True)

# Lista de arquivos ZIP no diretório de origem
arquivos_zip = [arquivo for arquivo in os.listdir(diretorio_origem) if arquivo.endswith('.zip')]

# Itera sobre os arquivos ZIP e extrai para o diretório de destino
for arquivo_zip in arquivos_zip:
    caminho_completo_zip = os.path.join(diretorio_origem, arquivo_zip)

    with zipfile.ZipFile(caminho_completo_zip, 'r') as zip_ref:
        # Extrai os arquivos para o diretório de destino
        zip_ref.extractall(diretorio_destino)

print("Extração concluída.")


Extração concluída.
CPU times: user 49.1 s, sys: 8.93 s, total: 58.1 s
Wall time: 3min 4s


In [49]:
import os
import shutil

diretorio_origem = '/home/andre301267/git/BD/Inmet/extracted_files/'

# Iterar sobre todas as subpastas
for pasta, subpastas, arquivos in os.walk(diretorio_origem):
    # Iterar sobre os arquivos em cada subpasta
    for arquivo in arquivos:
        # Construir os caminhos completos de origem e destino
        caminho_origem = os.path.join(pasta, arquivo)
        caminho_destino = os.path.join(diretorio_origem, arquivo)

        # Mover o arquivo para a raiz do diretório
        shutil.move(caminho_origem, caminho_destino)

print("Movimentação concluída.")


Movimentação concluída.


In [50]:
import os

diretorio_origem = '/home/andre301267/git/BD/Inmet/extracted_files/'

# Iterar sobre todas as subpastas em ordem reversa
for pasta, subpastas, arquivos in os.walk(diretorio_origem, topdown=False):
    for subpasta in subpastas:
        # Construir o caminho completo da subpasta
        caminho_subpasta = os.path.join(pasta, subpasta)

        # Verificar se a subpasta está vazia
        if not os.listdir(caminho_subpasta):
            # Remover a subpasta vazia
            os.rmdir(caminho_subpasta)

print("Subpastas vazias removidas.")


Subpastas vazias removidas.


In [51]:
import os

diretorio_origem = '/home/andre301267/git/BD/Inmet/extracted_files/'

# Iterar sobre todos os arquivos na raiz do diretório
for arquivo in os.listdir(diretorio_origem):
    # Construir o caminho completo do arquivo
    caminho_arquivo = os.path.join(diretorio_origem, arquivo)

    # Verificar se o arquivo não contém "_MG_" no nome
    if "_MG_" not in arquivo:
        # Remover o arquivo
        os.remove(caminho_arquivo)
        #print(f"Arquivo removido: {caminho_arquivo}")

print("Remoção de arquivos concluída.")


Remoção de arquivos concluída.


In [52]:
import pandas as pd
m_r_pa=pd.read_csv('~/git/comex_sh_mun/temp/m_r_pa.csv')
m_r_pa.Município=m_r_pa.Município.str.upper().str.strip()
m_r_pa_l=m_r_pa.Município.tolist()
m_r_pa_l

['AIURUOCA',
 'ALAGOA',
 'ALBERTINA',
 'ANDRADAS',
 'BAEPENDI',
 'BANDEIRA DO SUL',
 'BOM REPOUSO',
 'BORDA DA MATA',
 'BOTELHOS',
 'BRAZÓPOLIS',
 'BUENO BRANDÃO',
 'CACHOEIRA DE MINAS',
 'CALDAS',
 'CAMANDUCAIA',
 'CAMBUÍ',
 'CAMPESTRE',
 'CAREAÇU',
 'CARMO DE MINAS',
 'CARVALHOS',
 'CAXAMBU',
 'CONCEIÇÃO DAS PEDRAS',
 'CONCEIÇÃO DO RIO VERDE',
 'CONCEIÇÃO DOS OUROS',
 'CONGONHAL',
 'CONSOLAÇÃO',
 'CÓRREGO DO BOM JESUS',
 'CRISTINA',
 'CRUZÍLIA',
 'DELFIM MOREIRA',
 'DOM VIÇOSO',
 'ESPÍRITO SANTO DO DOURADO',
 'ESTIVA',
 'EXTREMA',
 'GONÇALVES',
 'HELIODORA',
 'IBITIÚRA DE MINAS',
 'INCONFIDENTES',
 'IPUIÚNA',
 'ITAJUBÁ',
 'ITAMONTE',
 'ITANHANDU',
 'ITAPEVA',
 'JACUTINGA',
 'JESUÂNIA',
 'LAMBARI',
 'MARIA DA FÉ',
 'MARMELÓPOLIS',
 'MINDURI',
 'MONTE SIÃO',
 'MUNHOZ',
 'NATÉRCIA',
 'OLÍMPIO NORONHA',
 'OURO FINO',
 'PARAISÓPOLIS',
 'PASSA QUATRO',
 'PEDRALVA',
 'PIRANGUÇU',
 'PIRANGUINHO',
 'POÇOS DE CALDAS',
 'POUSO ALEGRE',
 'POUSO ALTO',
 'SANTA RITA DE CALDAS',
 'SANTA RITA DO SAP

In [53]:
import os

diretorio_origem = '/home/andre301267/git/BD/Inmet/extracted_files/'

# Iterar sobre todos os arquivos na raiz do diretório
for arquivo in os.listdir(diretorio_origem):
    # Construir o caminho completo do arquivo
    caminho_arquivo = os.path.join(diretorio_origem, arquivo)

    # Verificar se o arquivo não contém nenhuma das strings da lista
    if all(string not in arquivo for string in m_r_pa_l):
        # Remover o arquivo
        os.remove(caminho_arquivo)
        print(f"Arquivo removido: {caminho_arquivo}")

print("Remoção de arquivos concluída.")

Arquivo removido: /home/andre301267/git/BD/Inmet/extracted_files/INMET_SE_MG_A502_BARBACENA_01-01-2020_A_31-12-2020.CSV
Arquivo removido: /home/andre301267/git/BD/Inmet/extracted_files/INMET_SE_MG_A505_ARAXA_01-01-2020_A_31-12-2020.CSV
Arquivo removido: /home/andre301267/git/BD/Inmet/extracted_files/INMET_SE_MG_A506_MONTES CLAROS_01-01-2020_A_31-12-2020.CSV
Arquivo removido: /home/andre301267/git/BD/Inmet/extracted_files/INMET_SE_MG_A507_UBERLANDIA_01-01-2020_A_31-12-2020.CSV
Arquivo removido: /home/andre301267/git/BD/Inmet/extracted_files/INMET_SE_MG_A508_ALMENARA_01-01-2020_A_31-12-2020.CSV
Arquivo removido: /home/andre301267/git/BD/Inmet/extracted_files/INMET_SE_MG_A509_MONTE VERDE_01-01-2020_A_31-12-2020.CSV
Arquivo removido: /home/andre301267/git/BD/Inmet/extracted_files/INMET_SE_MG_A510_VICOSA_01-01-2020_A_31-12-2020.CSV
Arquivo removido: /home/andre301267/git/BD/Inmet/extracted_files/INMET_SE_MG_A511_TIMOTEO_01-01-2020_A_31-12-2020.CSV
Arquivo removido: /home/andre301267/git/BD/

In [54]:
import os
import pandas as pd

# Diretório dos arquivos
diretorio = '/home/andre301267/git/BD/Inmet/extracted_files/'

# Lista para armazenar os DataFrames
df_parte1 = pd.DataFrame()
df_parte2 = pd.DataFrame()

# Iterar sobre os arquivos no diretório
for arquivo in os.listdir(diretorio):
    if arquivo.endswith('.CSV'):  # Certifique-se de que estamos lidando apenas com arquivos de texto
        caminho_arquivo = os.path.join(diretorio, arquivo)

        # Ler as primeiras 8 linhas
        parte1 = pd.read_csv(caminho_arquivo, nrows=7,sep=';',encoding='Latin-1')
       # print(parte1)

        # Ler a partir da linha 9
        parte2 = pd.read_csv(caminho_arquivo, skiprows=8,sep=';',encoding='Latin-1').assign(Estação=parte1.iloc[1,1])

        # Adicionar DataFrames às listas
        df_parte1=pd.concat([df_parte1,parte1],axis=1)
        df_parte2=pd.concat([df_parte2,parte2])


df_parte1=df_parte1.transpose().drop(columns=[5,6]).drop_duplicates(subset=[1]).drop_duplicates(subset=[2])\
.reset_index(drop=True)

df_parte1.columns=df_parte1.iloc[0]

df_parte1=df_parte1.iloc[1:]


# Exibir os DataFrames
print("DataFrame Parte 1:")
display(df_parte1)



print("\nDataFrame Parte 2:")
display(df_parte2)

DataFrame Parte 1:


Unnamed: 0,UF:,ESTACAO:,CODIGO (WMO):,LATITUDE:,LONGITUDE:
1,MG,CONCEICAO DAS ALAGOAS,A520,-1998586,-48151574
2,MG,PASSA QUATRO,A529,-22395799,-44961909
3,MG,CALDAS,A530,-21918066,-46382996



DataFrame Parte 2:


Unnamed: 0,Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),...,UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19,Estação,DATA (YYYY-MM-DD),HORA (UTC),RADIACAO GLOBAL (KJ/m²)
0,2020/01/01,0000 UTC,0,945,945,9442,,238,20,246,...,74.0,79.0,58.0,0,0,,CONCEICAO DAS ALAGOAS,,,
1,2020/01/01,0100 UTC,0,9459,946,945,,236,194,241,...,75.0,78.0,2.0,49,14,,CONCEICAO DAS ALAGOAS,,,
2,2020/01/01,0200 UTC,0,9458,9461,9458,,231,197,24,...,75.0,81.0,47.0,51,11,,CONCEICAO DAS ALAGOAS,,,
3,2020/01/01,0300 UTC,0,9458,946,9458,,231,20,233,...,80.0,83.0,30.0,37,29,,CONCEICAO DAS ALAGOAS,,,
4,2020/01/01,0400 UTC,0,9455,9459,9455,,232,20,234,...,82.0,82.0,349.0,44,25,,CONCEICAO DAS ALAGOAS,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,2019/12/31,1900 UTC,0,891,8913,891,,266,,278,...,,,325.0,57,",5",,CALDAS,,,19296
8756,2019/12/31,2000 UTC,0,8907,891,8905,,244,,266,...,,,91.0,43,2,,CALDAS,,,6442
8757,2019/12/31,2100 UTC,0,8908,8909,8906,,226,,247,...,,,105.0,42,",1",,CALDAS,,,295
8758,2019/12/31,2200 UTC,0,8908,891,8908,,211,,226,...,,,144.0,12,0,,CALDAS,,,773


In [55]:
import os

diretorio = '/home/andre301267/git/BD/Inmet/extracted_files/'

# Obtenha a versão absoluta do diretório
diretorio_absoluto = os.path.expanduser(diretorio)

# Liste todos os arquivos no diretório
arquivos = os.listdir(diretorio_absoluto)

# Itere sobre os arquivos e remova-os
for arquivo in arquivos:
    caminho_completo = os.path.join(diretorio_absoluto, arquivo)
    if os.path.isfile(caminho_completo):
        os.remove(caminho_completo)

print(f'Todos os arquivos em {diretorio} foram removidos.')

# Remover o diretório temporário
os.rmdir(diretorio)

Todos os arquivos em /home/andre301267/git/BD/Inmet/extracted_files/ foram removidos.


In [56]:
df_parte1.to_csv('~/git/comex_sh_mun/temp/estações_meteo.csv',index=False)

In [57]:
df_parte2=df_parte2[['Estação','Data','DATA (YYYY-MM-DD)', 'Hora UTC', 'HORA (UTC)','PRECIPITAÇÃO TOTAL, HORÁRIO (mm)','PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)','PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)','PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)','RADIACAO GLOBAL (Kj/m²)', 'RADIACAO GLOBAL (KJ/m²)','TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)','TEMPERATURA DO PONTO DE ORVALHO (°C)','TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)','TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)','TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)','TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)','UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)','UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)','UMIDADE RELATIVA DO AR, HORARIA (%)','VENTO, DIREÇÃO HORARIA (gr) (° (gr))', 'VENTO, RAJADA MAXIMA (m/s)','VENTO, VELOCIDADE HORARIA (m/s)', 'Unnamed: 19']]

In [58]:
x=df_parte2.copy()

x.insert(0,'datetime',x.Data.astype(str)+x['DATA (YYYY-MM-DD)'].astype(str))
x.datetime=x.datetime.str.replace('nan','')
x

Unnamed: 0,datetime,Estação,Data,DATA (YYYY-MM-DD),Hora UTC,HORA (UTC),"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),...,TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19
0,2020/01/01,CONCEICAO DAS ALAGOAS,2020/01/01,,0000 UTC,,0,945,945,9442,...,235,201,196,81.0,74.0,79.0,58.0,0,0,
1,2020/01/01,CONCEICAO DAS ALAGOAS,2020/01/01,,0100 UTC,,0,9459,946,945,...,236,20,194,80.0,75.0,78.0,2.0,49,14,
2,2020/01/01,CONCEICAO DAS ALAGOAS,2020/01/01,,0200 UTC,,0,9458,9461,9458,...,23,198,194,82.0,75.0,81.0,47.0,51,11,
3,2020/01/01,CONCEICAO DAS ALAGOAS,2020/01/01,,0300 UTC,,0,9458,946,9458,...,226,20,195,84.0,80.0,83.0,30.0,37,29,
4,2020/01/01,CONCEICAO DAS ALAGOAS,2020/01/01,,0400 UTC,,0,9455,9459,9455,...,226,204,199,86.0,82.0,82.0,349.0,44,25,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,2019/12/31,CALDAS,2019/12/31,,1900 UTC,,0,891,8913,891,...,265,,,,,,325.0,57,",5",
8756,2019/12/31,CALDAS,2019/12/31,,2000 UTC,,0,8907,891,8905,...,244,,,,,,91.0,43,2,
8757,2019/12/31,CALDAS,2019/12/31,,2100 UTC,,0,8908,8909,8906,...,226,,,,,,105.0,42,",1",
8758,2019/12/31,CALDAS,2019/12/31,,2200 UTC,,0,8908,891,8908,...,211,,,,,,144.0,12,0,


In [59]:
x.datetime=pd.to_datetime(x.datetime, format='mixed')
x

Unnamed: 0,datetime,Estação,Data,DATA (YYYY-MM-DD),Hora UTC,HORA (UTC),"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),...,TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19
0,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0000 UTC,,0,945,945,9442,...,235,201,196,81.0,74.0,79.0,58.0,0,0,
1,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0100 UTC,,0,9459,946,945,...,236,20,194,80.0,75.0,78.0,2.0,49,14,
2,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0200 UTC,,0,9458,9461,9458,...,23,198,194,82.0,75.0,81.0,47.0,51,11,
3,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0300 UTC,,0,9458,946,9458,...,226,20,195,84.0,80.0,83.0,30.0,37,29,
4,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0400 UTC,,0,9455,9459,9455,...,226,204,199,86.0,82.0,82.0,349.0,44,25,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,2019-12-31,CALDAS,2019/12/31,,1900 UTC,,0,891,8913,891,...,265,,,,,,325.0,57,",5",
8756,2019-12-31,CALDAS,2019/12/31,,2000 UTC,,0,8907,891,8905,...,244,,,,,,91.0,43,2,
8757,2019-12-31,CALDAS,2019/12/31,,2100 UTC,,0,8908,8909,8906,...,226,,,,,,105.0,42,",1",
8758,2019-12-31,CALDAS,2019/12/31,,2200 UTC,,0,8908,891,8908,...,211,,,,,,144.0,12,0,


In [60]:
x.insert(0,'hour',x['Hora UTC'].astype(str)+x['HORA (UTC)'].astype(str))
x

Unnamed: 0,hour,datetime,Estação,Data,DATA (YYYY-MM-DD),Hora UTC,HORA (UTC),"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),...,TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19
0,0000 UTCnan,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0000 UTC,,0,945,945,...,235,201,196,81.0,74.0,79.0,58.0,0,0,
1,0100 UTCnan,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0100 UTC,,0,9459,946,...,236,20,194,80.0,75.0,78.0,2.0,49,14,
2,0200 UTCnan,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0200 UTC,,0,9458,9461,...,23,198,194,82.0,75.0,81.0,47.0,51,11,
3,0300 UTCnan,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0300 UTC,,0,9458,946,...,226,20,195,84.0,80.0,83.0,30.0,37,29,
4,0400 UTCnan,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0400 UTC,,0,9455,9459,...,226,204,199,86.0,82.0,82.0,349.0,44,25,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,1900 UTCnan,2019-12-31,CALDAS,2019/12/31,,1900 UTC,,0,891,8913,...,265,,,,,,325.0,57,",5",
8756,2000 UTCnan,2019-12-31,CALDAS,2019/12/31,,2000 UTC,,0,8907,891,...,244,,,,,,91.0,43,2,
8757,2100 UTCnan,2019-12-31,CALDAS,2019/12/31,,2100 UTC,,0,8908,8909,...,226,,,,,,105.0,42,",1",
8758,2200 UTCnan,2019-12-31,CALDAS,2019/12/31,,2200 UTC,,0,8908,891,...,211,,,,,,144.0,12,0,


In [61]:
x.hour=x.hour.str.replace('UTC','').str.replace('nan','')
x

Unnamed: 0,hour,datetime,Estação,Data,DATA (YYYY-MM-DD),Hora UTC,HORA (UTC),"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),...,TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19
0,0000,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0000 UTC,,0,945,945,...,235,201,196,81.0,74.0,79.0,58.0,0,0,
1,0100,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0100 UTC,,0,9459,946,...,236,20,194,80.0,75.0,78.0,2.0,49,14,
2,0200,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0200 UTC,,0,9458,9461,...,23,198,194,82.0,75.0,81.0,47.0,51,11,
3,0300,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0300 UTC,,0,9458,946,...,226,20,195,84.0,80.0,83.0,30.0,37,29,
4,0400,2020-01-01,CONCEICAO DAS ALAGOAS,2020/01/01,,0400 UTC,,0,9455,9459,...,226,204,199,86.0,82.0,82.0,349.0,44,25,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,1900,2019-12-31,CALDAS,2019/12/31,,1900 UTC,,0,891,8913,...,265,,,,,,325.0,57,",5",
8756,2000,2019-12-31,CALDAS,2019/12/31,,2000 UTC,,0,8907,891,...,244,,,,,,91.0,43,2,
8757,2100,2019-12-31,CALDAS,2019/12/31,,2100 UTC,,0,8908,8909,...,226,,,,,,105.0,42,",1",
8758,2200,2019-12-31,CALDAS,2019/12/31,,2200 UTC,,0,8908,891,...,211,,,,,,144.0,12,0,


In [62]:
y=x.drop(columns=x.columns[[3,4,5,6]])
y.iloc[:,-1].unique()

array([nan])

In [63]:
y=y.iloc[:,:-1]

In [64]:
y.columns=['hour', 'datetime', 'Estação', 'PRECIPITAÇÃO TOTAL, HORÁRIO (mm)',       'PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)',       'PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)',       'PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)',       'RADIACAO GLOBAL (Kj/m²)1', 'RADIACAO GLOBAL (KJ/m²)2',       'TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)',       'TEMPERATURA DO PONTO DE ORVALHO (°C)',       'TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)',       'TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)',       'TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)',       'TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)',       'UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)',       'UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)',       'UMIDADE RELATIVA DO AR, HORARIA (%)',       'VENTO, DIREÇÃO HORARIA (gr) (° (gr))', 'VENTO, RAJADA MAXIMA (m/s)',       'VENTO, VELOCIDADE HORARIA (m/s)']

In [65]:
y.insert(0,'RADIACAO GLOBAL (Kj/m²)3',y['RADIACAO GLOBAL (Kj/m²)1'].astype(str)+y['RADIACAO GLOBAL (KJ/m²)2'].astype(str))
y

Unnamed: 0,RADIACAO GLOBAL (Kj/m²)3,hour,datetime,Estação,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²)1,RADIACAO GLOBAL (KJ/m²)2,...,TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)"
0,nannan,0000,2020-01-01,CONCEICAO DAS ALAGOAS,0,945,945,9442,,,...,246,235,201,196,81.0,74.0,79.0,58.0,0,0
1,nannan,0100,2020-01-01,CONCEICAO DAS ALAGOAS,0,9459,946,945,,,...,241,236,20,194,80.0,75.0,78.0,2.0,49,14
2,nannan,0200,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,9461,9458,,,...,24,23,198,194,82.0,75.0,81.0,47.0,51,11
3,nannan,0300,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,946,9458,,,...,233,226,20,195,84.0,80.0,83.0,30.0,37,29
4,nannan,0400,2020-01-01,CONCEICAO DAS ALAGOAS,0,9455,9459,9455,,,...,234,226,204,199,86.0,82.0,82.0,349.0,44,25
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,"nan1929,6",1900,2019-12-31,CALDAS,0,891,8913,891,,19296,...,278,265,,,,,,325.0,57,",5"
8756,"nan644,2",2000,2019-12-31,CALDAS,0,8907,891,8905,,6442,...,266,244,,,,,,91.0,43,2
8757,nan295,2100,2019-12-31,CALDAS,0,8908,8909,8906,,295,...,247,226,,,,,,105.0,42,",1"
8758,"nan77,3",2200,2019-12-31,CALDAS,0,8908,891,8908,,773,...,226,211,,,,,,144.0,12,0


In [66]:
y['RADIACAO GLOBAL (Kj/m²)3']=y['RADIACAO GLOBAL (Kj/m²)3'].str.replace('nan','')

In [67]:
y['RADIACAO GLOBAL (Kj/m²)3']=y['RADIACAO GLOBAL (Kj/m²)3'].str.replace(',','.')

In [68]:
y['RADIACAO GLOBAL (Kj/m²)3']=pd.to_numeric(y['RADIACAO GLOBAL (Kj/m²)3'])

In [69]:
y['RADIACAO GLOBAL (Kj/m²)3']=y['RADIACAO GLOBAL (Kj/m²)3'].astype('float')

In [70]:
y=y.drop(columns=['RADIACAO GLOBAL (Kj/m²)1', 'RADIACAO GLOBAL (KJ/m²)2'])
y

Unnamed: 0,RADIACAO GLOBAL (Kj/m²)3,hour,datetime,Estação,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)"
0,,0000,2020-01-01,CONCEICAO DAS ALAGOAS,0,945,945,9442,238,20,246,235,201,196,81.0,74.0,79.0,58.0,0,0
1,,0100,2020-01-01,CONCEICAO DAS ALAGOAS,0,9459,946,945,236,194,241,236,20,194,80.0,75.0,78.0,2.0,49,14
2,,0200,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,9461,9458,231,197,24,23,198,194,82.0,75.0,81.0,47.0,51,11
3,,0300,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,946,9458,231,20,233,226,20,195,84.0,80.0,83.0,30.0,37,29
4,,0400,2020-01-01,CONCEICAO DAS ALAGOAS,0,9455,9459,9455,232,20,234,226,204,199,86.0,82.0,82.0,349.0,44,25
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,1929.6,1900,2019-12-31,CALDAS,0,891,8913,891,266,,278,265,,,,,,325.0,57,",5"
8756,644.2,2000,2019-12-31,CALDAS,0,8907,891,8905,244,,266,244,,,,,,91.0,43,2
8757,295.0,2100,2019-12-31,CALDAS,0,8908,8909,8906,226,,247,226,,,,,,105.0,42,",1"
8758,77.3,2200,2019-12-31,CALDAS,0,8908,891,8908,211,,226,211,,,,,,144.0,12,0


In [71]:
y['mês']=y.datetime.dt.month
y

Unnamed: 0,RADIACAO GLOBAL (Kj/m²)3,hour,datetime,Estação,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),...,TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",mês
0,,0000,2020-01-01,CONCEICAO DAS ALAGOAS,0,945,945,9442,238,20,...,235,201,196,81.0,74.0,79.0,58.0,0,0,1
1,,0100,2020-01-01,CONCEICAO DAS ALAGOAS,0,9459,946,945,236,194,...,236,20,194,80.0,75.0,78.0,2.0,49,14,1
2,,0200,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,9461,9458,231,197,...,23,198,194,82.0,75.0,81.0,47.0,51,11,1
3,,0300,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,946,9458,231,20,...,226,20,195,84.0,80.0,83.0,30.0,37,29,1
4,,0400,2020-01-01,CONCEICAO DAS ALAGOAS,0,9455,9459,9455,232,20,...,226,204,199,86.0,82.0,82.0,349.0,44,25,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,1929.6,1900,2019-12-31,CALDAS,0,891,8913,891,266,,...,265,,,,,,325.0,57,",5",12
8756,644.2,2000,2019-12-31,CALDAS,0,8907,891,8905,244,,...,244,,,,,,91.0,43,2,12
8757,295.0,2100,2019-12-31,CALDAS,0,8908,8909,8906,226,,...,226,,,,,,105.0,42,",1",12
8758,77.3,2200,2019-12-31,CALDAS,0,8908,891,8908,211,,...,211,,,,,,144.0,12,0,12


In [72]:
y['dia']=y.datetime.dt.day
y

Unnamed: 0,RADIACAO GLOBAL (Kj/m²)3,hour,datetime,Estação,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),...,TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",mês,dia
0,,0000,2020-01-01,CONCEICAO DAS ALAGOAS,0,945,945,9442,238,20,...,201,196,81.0,74.0,79.0,58.0,0,0,1,1
1,,0100,2020-01-01,CONCEICAO DAS ALAGOAS,0,9459,946,945,236,194,...,20,194,80.0,75.0,78.0,2.0,49,14,1,1
2,,0200,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,9461,9458,231,197,...,198,194,82.0,75.0,81.0,47.0,51,11,1,1
3,,0300,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,946,9458,231,20,...,20,195,84.0,80.0,83.0,30.0,37,29,1,1
4,,0400,2020-01-01,CONCEICAO DAS ALAGOAS,0,9455,9459,9455,232,20,...,204,199,86.0,82.0,82.0,349.0,44,25,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,1929.6,1900,2019-12-31,CALDAS,0,891,8913,891,266,,...,,,,,,325.0,57,",5",12,31
8756,644.2,2000,2019-12-31,CALDAS,0,8907,891,8905,244,,...,,,,,,91.0,43,2,12,31
8757,295.0,2100,2019-12-31,CALDAS,0,8908,8909,8906,226,,...,,,,,,105.0,42,",1",12,31
8758,77.3,2200,2019-12-31,CALDAS,0,8908,891,8908,211,,...,,,,,,144.0,12,0,12,31


In [73]:
y.hour=y.hour.str[:2]
y

Unnamed: 0,RADIACAO GLOBAL (Kj/m²)3,hour,datetime,Estação,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),...,TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",mês,dia
0,,00,2020-01-01,CONCEICAO DAS ALAGOAS,0,945,945,9442,238,20,...,201,196,81.0,74.0,79.0,58.0,0,0,1,1
1,,01,2020-01-01,CONCEICAO DAS ALAGOAS,0,9459,946,945,236,194,...,20,194,80.0,75.0,78.0,2.0,49,14,1,1
2,,02,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,9461,9458,231,197,...,198,194,82.0,75.0,81.0,47.0,51,11,1,1
3,,03,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,946,9458,231,20,...,20,195,84.0,80.0,83.0,30.0,37,29,1,1
4,,04,2020-01-01,CONCEICAO DAS ALAGOAS,0,9455,9459,9455,232,20,...,204,199,86.0,82.0,82.0,349.0,44,25,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,1929.6,19,2019-12-31,CALDAS,0,891,8913,891,266,,...,,,,,,325.0,57,",5",12,31
8756,644.2,20,2019-12-31,CALDAS,0,8907,891,8905,244,,...,,,,,,91.0,43,2,12,31
8757,295.0,21,2019-12-31,CALDAS,0,8908,8909,8906,226,,...,,,,,,105.0,42,",1",12,31
8758,77.3,22,2019-12-31,CALDAS,0,8908,891,8908,211,,...,,,,,,144.0,12,0,12,31


In [74]:
y.hour=y.hour.astype(int)

In [75]:
y

Unnamed: 0,RADIACAO GLOBAL (Kj/m²)3,hour,datetime,Estação,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),...,TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",mês,dia
0,,0,2020-01-01,CONCEICAO DAS ALAGOAS,0,945,945,9442,238,20,...,201,196,81.0,74.0,79.0,58.0,0,0,1,1
1,,1,2020-01-01,CONCEICAO DAS ALAGOAS,0,9459,946,945,236,194,...,20,194,80.0,75.0,78.0,2.0,49,14,1,1
2,,2,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,9461,9458,231,197,...,198,194,82.0,75.0,81.0,47.0,51,11,1,1
3,,3,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,946,9458,231,20,...,20,195,84.0,80.0,83.0,30.0,37,29,1,1
4,,4,2020-01-01,CONCEICAO DAS ALAGOAS,0,9455,9459,9455,232,20,...,204,199,86.0,82.0,82.0,349.0,44,25,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,1929.6,19,2019-12-31,CALDAS,0,891,8913,891,266,,...,,,,,,325.0,57,",5",12,31
8756,644.2,20,2019-12-31,CALDAS,0,8907,891,8905,244,,...,,,,,,91.0,43,2,12,31
8757,295.0,21,2019-12-31,CALDAS,0,8908,8909,8906,226,,...,,,,,,105.0,42,",1",12,31
8758,77.3,22,2019-12-31,CALDAS,0,8908,891,8908,211,,...,,,,,,144.0,12,0,12,31


In [76]:
y['ano']=y.datetime.dt.year
y

Unnamed: 0,RADIACAO GLOBAL (Kj/m²)3,hour,datetime,Estação,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),...,TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",mês,dia,ano
0,,0,2020-01-01,CONCEICAO DAS ALAGOAS,0,945,945,9442,238,20,...,196,81.0,74.0,79.0,58.0,0,0,1,1,2020
1,,1,2020-01-01,CONCEICAO DAS ALAGOAS,0,9459,946,945,236,194,...,194,80.0,75.0,78.0,2.0,49,14,1,1,2020
2,,2,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,9461,9458,231,197,...,194,82.0,75.0,81.0,47.0,51,11,1,1,2020
3,,3,2020-01-01,CONCEICAO DAS ALAGOAS,0,9458,946,9458,231,20,...,195,84.0,80.0,83.0,30.0,37,29,1,1,2020
4,,4,2020-01-01,CONCEICAO DAS ALAGOAS,0,9455,9459,9455,232,20,...,199,86.0,82.0,82.0,349.0,44,25,1,1,2020
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,1929.6,19,2019-12-31,CALDAS,0,891,8913,891,266,,...,,,,,325.0,57,",5",12,31,2019
8756,644.2,20,2019-12-31,CALDAS,0,8907,891,8905,244,,...,,,,,91.0,43,2,12,31,2019
8757,295.0,21,2019-12-31,CALDAS,0,8908,8909,8906,226,,...,,,,,105.0,42,",1",12,31,2019
8758,77.3,22,2019-12-31,CALDAS,0,8908,891,8908,211,,...,,,,,144.0,12,0,12,31,2019


In [77]:
y.info()

<class 'pandas.core.frame.DataFrame'>
Index: 448296 entries, 0 to 8759
Data columns (total 23 columns):
 #   Column                                                 Non-Null Count   Dtype         
---  ------                                                 --------------   -----         
 0   RADIACAO GLOBAL (Kj/m²)3                               386936 non-null  float64       
 1   hour                                                   448296 non-null  int64         
 2   datetime                                               448296 non-null  datetime64[ns]
 3   Estação                                                448296 non-null  object        
 4   PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                       446137 non-null  object        
 5   PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)  447520 non-null  object        
 6   PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)        447513 non-null  object        
 7   PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)       447513 n

In [78]:
y=y[y.columns[[3,22,20,21,1,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19]]]
y

Unnamed: 0,Estação,ano,mês,dia,hour,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",...,TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)"
0,CONCEICAO DAS ALAGOAS,2020,1,1,0,0,945,945,9442,238,...,246,235,201,196,81.0,74.0,79.0,58.0,0,0
1,CONCEICAO DAS ALAGOAS,2020,1,1,1,0,9459,946,945,236,...,241,236,20,194,80.0,75.0,78.0,2.0,49,14
2,CONCEICAO DAS ALAGOAS,2020,1,1,2,0,9458,9461,9458,231,...,24,23,198,194,82.0,75.0,81.0,47.0,51,11
3,CONCEICAO DAS ALAGOAS,2020,1,1,3,0,9458,946,9458,231,...,233,226,20,195,84.0,80.0,83.0,30.0,37,29
4,CONCEICAO DAS ALAGOAS,2020,1,1,4,0,9455,9459,9455,232,...,234,226,204,199,86.0,82.0,82.0,349.0,44,25
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,CALDAS,2019,12,31,19,0,891,8913,891,266,...,278,265,,,,,,325.0,57,",5"
8756,CALDAS,2019,12,31,20,0,8907,891,8905,244,...,266,244,,,,,,91.0,43,2
8757,CALDAS,2019,12,31,21,0,8908,8909,8906,226,...,247,226,,,,,,105.0,42,",1"
8758,CALDAS,2019,12,31,22,0,8908,891,8908,211,...,226,211,,,,,,144.0,12,0


In [79]:
y.info()

<class 'pandas.core.frame.DataFrame'>
Index: 448296 entries, 0 to 8759
Data columns (total 21 columns):
 #   Column                                                 Non-Null Count   Dtype  
---  ------                                                 --------------   -----  
 0   Estação                                                448296 non-null  object 
 1   ano                                                    448296 non-null  int32  
 2   mês                                                    448296 non-null  int32  
 3   dia                                                    448296 non-null  int32  
 4   hour                                                   448296 non-null  int64  
 5   PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                       446137 non-null  object 
 6   PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)  447520 non-null  object 
 7   PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)        447513 non-null  object 
 8   PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AU

In [80]:
for c in y.columns[5:]:
    y[c]=y[c].astype(str).str.replace(',','.')
    y[c]=y[c].astype(str).str.replace('nan','')
    y[c]=pd.to_numeric(y[c])
y.info()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  y[c]=y[c].astype(str).str.replace(',','.')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  y[c]=y[c].astype(str).str.replace('nan','')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  y[c]=pd.to_numeric(y[c])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer

<class 'pandas.core.frame.DataFrame'>
Index: 448296 entries, 0 to 8759
Data columns (total 21 columns):
 #   Column                                                 Non-Null Count   Dtype  
---  ------                                                 --------------   -----  
 0   Estação                                                448296 non-null  object 
 1   ano                                                    448296 non-null  int32  
 2   mês                                                    448296 non-null  int32  
 3   dia                                                    448296 non-null  int32  
 4   hour                                                   448296 non-null  int64  
 5   PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                       446137 non-null  float64
 6   PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)  447520 non-null  float64
 7   PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)        447513 non-null  float64
 8   PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AU

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  y[c]=pd.to_numeric(y[c])


In [81]:
y.Estação.unique()

array(['CONCEICAO DAS ALAGOAS', 'PASSA QUATRO', 'CALDAS'], dtype=object)

In [82]:
y.to_csv('~/git/comex_sh_mun/temp/chuvas_m_r_pa.csv',index=False)

In [83]:
y

Unnamed: 0,Estação,ano,mês,dia,hour,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",...,TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)"
0,CONCEICAO DAS ALAGOAS,2020,1,1,0,0.0,945.0,945.0,944.2,23.8,...,24.6,23.5,20.1,19.6,81.0,74.0,79.0,58.0,0.0,0.0
1,CONCEICAO DAS ALAGOAS,2020,1,1,1,0.0,945.9,946.0,945.0,23.6,...,24.1,23.6,20.0,19.4,80.0,75.0,78.0,2.0,4.9,1.4
2,CONCEICAO DAS ALAGOAS,2020,1,1,2,0.0,945.8,946.1,945.8,23.1,...,24.0,23.0,19.8,19.4,82.0,75.0,81.0,47.0,5.1,1.1
3,CONCEICAO DAS ALAGOAS,2020,1,1,3,0.0,945.8,946.0,945.8,23.1,...,23.3,22.6,20.0,19.5,84.0,80.0,83.0,30.0,3.7,2.9
4,CONCEICAO DAS ALAGOAS,2020,1,1,4,0.0,945.5,945.9,945.5,23.2,...,23.4,22.6,20.4,19.9,86.0,82.0,82.0,349.0,4.4,2.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,CALDAS,2019,12,31,19,0.0,891.0,891.3,891.0,26.6,...,27.8,26.5,,,,,,325.0,5.7,0.5
8756,CALDAS,2019,12,31,20,0.0,890.7,891.0,890.5,24.4,...,26.6,24.4,,,,,,91.0,4.3,2.0
8757,CALDAS,2019,12,31,21,0.0,890.8,890.9,890.6,22.6,...,24.7,22.6,,,,,,105.0,4.2,0.1
8758,CALDAS,2019,12,31,22,0.0,890.8,891.0,890.8,21.1,...,22.6,21.1,,,,,,144.0,1.2,0.0
