# Código para gerar informações de cidades que possuem uma estação meteorológica
- A partir de um arquivo com  lista das estações automáticas, encontrado no site do INMET, foi gerado um data frame para poder gerar algumas informações;
- Foi feito um dicionário com as regiões do Brasil e seus respectivos estados para poder adicionar a coluna 'regiao';
- Dataframe contendo a coluna 'região' foi salvo como um arquivo .csv com nome de 'lista_de_estacoes_metereologicas.csv';
- Feito isso, será possível utilizar este DF para o usuário inputar região, estado, cidade e ID da estação no Streamlit;
    - Essas informações são necessárias para realizar a busca dos arquivos de histórico metereológico em '/src/data/dados_hist_clima';

In [110]:
import pandas as pd 
from utils import *
from math import isnan
import numpy as np

In [111]:
df_estacoes = pd.read_csv('data/dados_hist_clima/CatalogoEstaçõesAutomáticas.csv', encoding="latin-1", sep=';')

In [112]:
# df_estacoes = df.drop(df.loc[:,'CD_SITUACAO': 'DT_INICIO_OPERACAO'], axis=1)

In [113]:
df_estacoes.head()

Unnamed: 0,DC_NOME,SG_ESTADO,CD_SITUACAO,VL_LATITUDE,VL_LONGITUDE,VL_ALTITUDE,DT_INICIO_OPERACAO,CD_ESTACAO
0,ABROLHOS,BA,Pane,-1796305555,-3870333333,2093,20/07/2008,A422
1,ACARAU,CE,Pane,-31211111,-4008722221,6715,21/04/2009,A360
2,AFONSO CLAUDIO,ES,Pane,-2010416666,-4110694444,50748,23/09/2011,A657
3,AGUA BOA,MT,Pane,-1401638888,-5221166666,440,15/12/2006,A908
4,AGUA CLARA,MS,Operante,-2044444444,-5287583332,32363,13/08/2010,A756


In [114]:
regiao_estado = {'CO':['DF', 'GO', 'MS', 'MT'],
                'N':['AM', 'AP', 'PA', 'RO', 'RR', 'TO', 'AC'],
                'NE':['AL', 'BA', 'CE', 'MA', 'PB', 'PE', 'PI', 'RN', 'SE'],
                'S':['PR', 'RS', 'SC'],
                'SE':['ES', 'MG', 'RJ', 'SP']}

In [115]:
dict_inv = {}
for key, items in regiao_estado.items():
    for item in items:
        dict_inv[item] = key

In [116]:
dict_inv

{'DF': 'CO',
 'GO': 'CO',
 'MS': 'CO',
 'MT': 'CO',
 'AM': 'N',
 'AP': 'N',
 'PA': 'N',
 'RO': 'N',
 'RR': 'N',
 'TO': 'N',
 'AC': 'N',
 'AL': 'NE',
 'BA': 'NE',
 'CE': 'NE',
 'MA': 'NE',
 'PB': 'NE',
 'PE': 'NE',
 'PI': 'NE',
 'RN': 'NE',
 'SE': 'NE',
 'PR': 'S',
 'RS': 'S',
 'SC': 'S',
 'ES': 'SE',
 'MG': 'SE',
 'RJ': 'SE',
 'SP': 'SE'}

In [117]:
df_estacoes['REGIAO'] = df_estacoes['SG_ESTADO'].map(dict_inv)

In [118]:
df_estacoes

Unnamed: 0,DC_NOME,SG_ESTADO,CD_SITUACAO,VL_LATITUDE,VL_LONGITUDE,VL_ALTITUDE,DT_INICIO_OPERACAO,CD_ESTACAO,REGIAO
0,ABROLHOS,BA,Pane,-1796305555,-3870333333,2093,20/07/2008,A422,NE
1,ACARAU,CE,Pane,-31211111,-4008722221,6715,21/04/2009,A360,NE
2,AFONSO CLAUDIO,ES,Pane,-2010416666,-4110694444,50748,23/09/2011,A657,SE
3,AGUA BOA,MT,Pane,-1401638888,-5221166666,440,15/12/2006,A908,CO
4,AGUA CLARA,MS,Operante,-2044444444,-5287583332,32363,13/08/2010,A756,CO
...,...,...,...,...,...,...,...,...,...
565,VITORIA DA CONQUISTA,BA,Pane,-1488638888,-4080138888,87938,31/05/2007,A414,NE
566,VOTUPORANGA,SP,Operante,-2040333333,-4996611111,51037,03/12/2006,A729,SE
567,XANXERE,SC,Operante,-26938666,-5239809,87874,14/03/2008,A858,S
568,XINGUARA,PA,Operante,-7110518,-49926072,245,10/09/2016,A247,N


In [119]:
df_estacoes.to_csv('data/dados_hist_clima/lista_de_estacoes_meteorologicas.csv', index=False, sep=';')

In [120]:
df_em = pd.read_csv('data/dados_hist_clima/lista_de_estacoes_meteorologicas.csv', sep=';')
df_em

Unnamed: 0,DC_NOME,SG_ESTADO,CD_SITUACAO,VL_LATITUDE,VL_LONGITUDE,VL_ALTITUDE,DT_INICIO_OPERACAO,CD_ESTACAO,REGIAO
0,ABROLHOS,BA,Pane,-1796305555,-3870333333,2093,20/07/2008,A422,NE
1,ACARAU,CE,Pane,-31211111,-4008722221,6715,21/04/2009,A360,NE
2,AFONSO CLAUDIO,ES,Pane,-2010416666,-4110694444,50748,23/09/2011,A657,SE
3,AGUA BOA,MT,Pane,-1401638888,-5221166666,440,15/12/2006,A908,CO
4,AGUA CLARA,MS,Operante,-2044444444,-5287583332,32363,13/08/2010,A756,CO
...,...,...,...,...,...,...,...,...,...
565,VITORIA DA CONQUISTA,BA,Pane,-1488638888,-4080138888,87938,31/05/2007,A414,NE
566,VOTUPORANGA,SP,Operante,-2040333333,-4996611111,51037,03/12/2006,A729,SE
567,XANXERE,SC,Operante,-26938666,-5239809,87874,14/03/2008,A858,S
568,XINGUARA,PA,Operante,-7110518,-49926072,245,10/09/2016,A247,N


In [121]:
regiao = df_estacoes['REGIAO'].sort_values().unique().tolist()
estado = df_estacoes['SG_ESTADO'].sort_values().unique().tolist()
cidade = df_estacoes['DC_NOME'].sort_values().unique().tolist()
id_em = df_estacoes['CD_ESTACAO'].sort_values().unique().tolist()

In [122]:
regiao_selecionada = df_estacoes[df_estacoes['REGIAO'] == 'S']

In [123]:
estado_selecionado = regiao_selecionada[regiao_selecionada['SG_ESTADO'] == 'RS']

In [124]:
cidade_selecionada = estado_selecionado[estado_selecionado['DC_NOME'] == 'SANTA MARIA']

In [125]:
id_em = cidade_selecionada['CD_ESTACAO'].values
id_em

array(['A803'], dtype=object)

# Incrementando DF de estações com as regiões Edafoclimáticas
- Percebeu-se que mesmo fazendo merge das RECs pelo nome das cidades, muitas ficaram faltando (NaN);
- A ideia inicial seria utlizar a REC para consultar uma determinada cidade para acompanhar os dados meteorológicos;
- Com os dados faltantes sendo aa maioria, essa opção tornou-se inviável;
---

In [126]:
df = pd.read_excel('data/edafoclimaticas.xlsx', index_col=False)

In [127]:
df.to_csv('data/lista_recs.csv', index=False)

In [128]:
df_rec = pd.read_csv('data/lista_recs.csv', encoding='utf-8', skipinitialspace=True)

In [129]:
# Removendo acentuação dos nomes das cidades em todas as colunas
cols = df_rec.select_dtypes(include=[np.object]).columns
df_rec[cols] = df_rec[cols].apply(lambda x: x.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))
df_rec

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  cols = df_rec.select_dtypes(include=[np.object]).columns


Unnamed: 0,101,102,103,104,201,202,203,204,301,302,303,304,401,402,403,404,405,501,502,503
0,Acegua,Agua Santa,Andre da Rocha,Agrolandia,Abatia,Alto Paraiso,Adamantina,Anastacio,Agua Clara,Adolfo,Abadia dos Dourados,Angelandia,Abadia de Goias,Alta Floresta,Agua Boa,Alto Horizonte,Angical,Anadia,Afonso Cunha,Alto Alegre
1,Agudo,Ajuricaba,Antonio Prado,Agronomica,Altamira do Parana,Alto Parana,Aguai,Angelica,Alcinopolis,Altair,Abaete,Aricanduva,Adelandia,Apiacas,Alto Boa Vista,Amaralina,Baianopolis,Arapiraca,Agua Doce do Maranhao,Amajari
2,Alegrete,Alecrim,Barracao,Aguas Mornas,Alvorada do Sul,Alto Piquiri,Aguas da Prata,Antonio Joao,Aparecida do Taboado,Altinopolis,Abre Campo,Arinos,Americano do Brasil,Aripuana,Araguaiana,Bonopolis,Barreiras,Atalaia,Alcantara,Boa Vista
3,Alto Feliz,Alegria,Bento Goncalves,Alfredo Wagner,Anahy,Altonia,Aguas de Lindoia,Bataguassu,Aquidauana,Alvares Florence,Acaiaca,Bocaiuva,Amorinopolis,Brasnorte,Barra do Garcas,Campinacu,Brejolandia,Barra de Santo Antonio,Aldeias Altas,Bonfim
4,Alvorada,Almirante Tamandare do Sul,Bom Jesus,Angelina,Andira,Amapora,Aguas de Santa Barbara,Bela Vista,Bandeirantes,Americo de Campos,Acucena,Bonfinopolis de Minas,Anicuns,Campo Novo do Parecis,Bom Jesus do Araguaia,Campinorte,Canapolis,Barra de Sao Miguel,Altamira do Maranhao,Canta
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
554,,,,,,,,,,,,,,,,,,Tocantinopolis,,
555,,,,,,,,,,,,,,,,,,Tupirama,,
556,,,,,,,,,,,,,,,,,,Tupiratins,,
557,,,,,,,,,,,,,,,,,,Wanderlandia,,


In [130]:
# Tirando o espaço inicial de algumas cidades
df_rec = df_rec.replace(u'\xa0', u'', regex=True)

In [131]:
dict_rec = df_rec.to_dict('list')

In [132]:
dict_rec

{'101': ['Acegua',
  'Agudo',
  'Alegrete',
  'Alto Feliz',
  'Alvorada',
  'Amaral Ferrador',
  'Arambare',
  'Ararica',
  'Arroio do Meio',
  'Arroio do Padre',
  'Arroio do Sal',
  'Arroio dos Ratos',
  'Arroio Grande',
  'Bage',
  'Balneario Pinhal',
  'Barao',
  'Barao do Triunfo',
  'Barra do Quarai',
  'Barra do Ribeiro',
  'Boa Vista do Sul',
  'Bom Principio',
  'Bom Retiro do Sul',
  'Brochier',
  'Butia',
  'Cacapava do Sul',
  'Cacequi',
  'Cachoeira do Sul',
  'Cachoeirinha',
  'Camaqua',
  'Campo Bom',
  'Candelaria',
  'Candiota',
  'Canela',
  'Cangucu',
  'Canoas',
  'Canudos do Vale',
  'Capao da Canoa',
  'Capao do Leao',
  'Capela de Santana',
  'Capitao',
  'Capivari do Sul',
  'Caraa',
  'Carlos Barbosa',
  'Cerrito',
  'Cerro Branco',
  'Cerro Grande do Sul',
  'Charqueadas',
  'Chuvisca',
  'Cidreira',
  'Colinas',
  'Cristal',
  'Cruzeiro do Sul',
  'Dilermando de Aguiar',
  'Dois Irmaos',
  'Dom Feliciano',
  'Dom Pedrito',
  'Dom Pedro de Alcantara',
  'Dona 

In [133]:
# Removendo os valores 'nan' no dicionário
rec = {k:[elem for elem in v if elem is not np.nan] for k,v in dict_rec.items()}

In [134]:
# Colocando todos os valores em upper case
rec_upper = {key: [ele.upper() for ele in rec[key] ] for key in rec }

In [135]:
# Invertendo o dicionário para aplicar a função 'map'
dict_inv_em = {}
for key, items in rec_upper.items():
    for item in items:
        dict_inv_em[item] = key

In [136]:
dict_inv_em

{'ACEGUA': '101',
 'AGUDO': '101',
 'ALEGRETE': '101',
 'ALTO FELIZ': '101',
 'ALVORADA': '404',
 'AMARAL FERRADOR': '101',
 'ARAMBARE': '101',
 'ARARICA': '101',
 'ARROIO DO MEIO': '101',
 'ARROIO DO PADRE': '101',
 'ARROIO DO SAL': '101',
 'ARROIO DOS RATOS': '101',
 'ARROIO GRANDE': '101',
 'BAGE': '101',
 'BALNEARIO PINHAL': '101',
 'BARAO': '101',
 'BARAO DO TRIUNFO': '101',
 'BARRA DO QUARAI': '101',
 'BARRA DO RIBEIRO': '101',
 'BOA VISTA DO SUL': '101',
 'BOM PRINCIPIO': '101',
 'BOM RETIRO DO SUL': '103',
 'BROCHIER': '101',
 'BUTIA': '101',
 'CACAPAVA DO SUL': '101',
 'CACEQUI': '101',
 'CACHOEIRA DO SUL': '101',
 'CACHOEIRINHA': '501',
 'CAMAQUA': '101',
 'CAMPO BOM': '101',
 'CANDELARIA': '101',
 'CANDIOTA': '101',
 'CANELA': '101',
 'CANGUCU': '101',
 'CANOAS': '101',
 'CANUDOS DO VALE': '101',
 'CAPAO DA CANOA': '101',
 'CAPAO DO LEAO': '101',
 'CAPELA DE SANTANA': '101',
 'CAPITAO': '101',
 'CAPIVARI DO SUL': '101',
 'CARAA': '101',
 'CARLOS BARBOSA': '101',
 'CERRITO': 

In [137]:
df_em['REC'] = df_em['DC_NOME'].map(dict_inv_em)

In [138]:
df_em

Unnamed: 0,DC_NOME,SG_ESTADO,CD_SITUACAO,VL_LATITUDE,VL_LONGITUDE,VL_ALTITUDE,DT_INICIO_OPERACAO,CD_ESTACAO,REGIAO,REC
0,ABROLHOS,BA,Pane,-1796305555,-3870333333,2093,20/07/2008,A422,NE,
1,ACARAU,CE,Pane,-31211111,-4008722221,6715,21/04/2009,A360,NE,
2,AFONSO CLAUDIO,ES,Pane,-2010416666,-4110694444,50748,23/09/2011,A657,SE,
3,AGUA BOA,MT,Pane,-1401638888,-5221166666,440,15/12/2006,A908,CO,403
4,AGUA CLARA,MS,Operante,-2044444444,-5287583332,32363,13/08/2010,A756,CO,301
...,...,...,...,...,...,...,...,...,...,...
565,VITORIA DA CONQUISTA,BA,Pane,-1488638888,-4080138888,87938,31/05/2007,A414,NE,
566,VOTUPORANGA,SP,Operante,-2040333333,-4996611111,51037,03/12/2006,A729,SE,302
567,XANXERE,SC,Operante,-26938666,-5239809,87874,14/03/2008,A858,S,102
568,XINGUARA,PA,Operante,-7110518,-49926072,245,10/09/2016,A247,N,501


In [139]:
df_em['REC'].isna().sum()

222

In [140]:
# df_em = df_em.astype(str)

In [141]:
# df_em['REC'] = df_em['REC'].astype(str).apply(lambda x: x.replace('.0',''))

In [142]:
df_em.to_csv('data/dados_hist_clima/lista_de_estacoes_meteorologicas.csv', index=False, sep=';')

In [143]:
df = pd.read_csv('data/dados_hist_clima/lista_de_estacoes_meteorologicas.csv', sep=';')
df

Unnamed: 0,DC_NOME,SG_ESTADO,CD_SITUACAO,VL_LATITUDE,VL_LONGITUDE,VL_ALTITUDE,DT_INICIO_OPERACAO,CD_ESTACAO,REGIAO,REC
0,ABROLHOS,BA,Pane,-1796305555,-3870333333,2093,20/07/2008,A422,NE,
1,ACARAU,CE,Pane,-31211111,-4008722221,6715,21/04/2009,A360,NE,
2,AFONSO CLAUDIO,ES,Pane,-2010416666,-4110694444,50748,23/09/2011,A657,SE,
3,AGUA BOA,MT,Pane,-1401638888,-5221166666,440,15/12/2006,A908,CO,403.0
4,AGUA CLARA,MS,Operante,-2044444444,-5287583332,32363,13/08/2010,A756,CO,301.0
...,...,...,...,...,...,...,...,...,...,...
565,VITORIA DA CONQUISTA,BA,Pane,-1488638888,-4080138888,87938,31/05/2007,A414,NE,
566,VOTUPORANGA,SP,Operante,-2040333333,-4996611111,51037,03/12/2006,A729,SE,302.0
567,XANXERE,SC,Operante,-26938666,-5239809,87874,14/03/2008,A858,S,102.0
568,XINGUARA,PA,Operante,-7110518,-49926072,245,10/09/2016,A247,N,501.0


In [144]:
# Mesmo tendo um grande número de 'NaNs', tem-se pelo menos 1 representante de cada região edafoclimática
df['REC'].value_counts().sort_index()

101.0    23
102.0    26
103.0    16
104.0    11
201.0    10
202.0     4
203.0    23
204.0    12
301.0    13
302.0    23
303.0    31
304.0    20
401.0    20
402.0    28
403.0     4
404.0    10
405.0     3
501.0    57
502.0    12
503.0     2
Name: REC, dtype: int64

## Testando a filtragem de dados para implementar no streamlit
---

In [145]:
regiao = df_estacoes['REGIAO'].sort_values().unique().tolist()
estado = df_estacoes['SG_ESTADO'].sort_values().unique().tolist()
cidade = df_estacoes['DC_NOME'].sort_values().unique().tolist()
id_em = df_estacoes['CD_ESTACAO'].sort_values().unique().tolist()

In [146]:
regiao_selecionada = df_estacoes[df_estacoes['REGIAO'] == 'S']

In [147]:
estado_selecionado = regiao_selecionada[regiao_selecionada['SG_ESTADO'] == 'RS']

In [148]:
cidade_selecionada = estado_selecionado[estado_selecionado['DC_NOME'] == 'SANTA MARIA']

In [149]:
id_em = cidade_selecionada['CD_ESTACAO'].values
id_em

array(['A803'], dtype=object)

In [150]:
# Para retirar o '.0' após o número da REC - apenas para utilizar no streamlit
# df['REC'] = df['REC'].astype(str).apply(lambda x: x.replace('.0',''))

In [151]:
rec = df['REC'].sort_values().unique().tolist()
regiao = df['REGIAO'].sort_values().unique().tolist()
estado = df['SG_ESTADO'].sort_values().unique().tolist()
cidade = df['DC_NOME'].sort_values().unique().tolist()
id_em = df['CD_ESTACAO'].sort_values().unique().tolist()

In [152]:
rec_selecionada = df[df['REC'] == 201]

In [153]:
rec_selecionada

Unnamed: 0,DC_NOME,SG_ESTADO,CD_SITUACAO,VL_LATITUDE,VL_LONGITUDE,VL_ALTITUDE,DT_INICIO_OPERACAO,CD_ESTACAO,REGIAO,REC
99,CAMPINA DA LAGOA,PR,Pane,-2457083332,-5280027777,598,03/08/2016,B803,S,201.0
192,FLORESTA,PE,Operante,-859888888,-3858416666,32742,14/09/2008,A351,NE,201.0
200,FOZ DO IGUACU,PR,Pane,-2560194444,-5448305554,23509,14/02/2008,A846,S,201.0
211,GOIOERE,PR,Pane,-2415833333,-5303055554,45234,18/10/2006,A825,S,201.0
229,IGUATU,CE,Operante,-639638888,-3926888888,22156,29/05/2007,A319,NE,201.0
278,JOAQUIM TAVORA,PR,Operante,-23505266,-49946387,51267,22/11/2006,A821,S,201.0
316,MARINGA,PR,Operante,-2340527777,-5193277777,54851,20/11/2006,A835,S,201.0
340,NOVA FATIMA,PR,Pane,-2341527777,-5057777777,66431,07/02/2007,A842,S,201.0
343,NOVA TEBAS,PR,Pane,-2443722221,-5196305555,65624,20/12/2006,A822,S,201.0
354,OURINHOS,SP,Pane,-2294888888,-4989444444,44349,28/08/2006,A716,SE,201.0


In [154]:
regiao_selecionada = df[df['REGIAO'] == 'S']

In [155]:
estado_selecionado = regiao_selecionada[regiao_selecionada['SG_ESTADO'] == 'RS']

In [156]:
cidade_selecionada = estado_selecionado[estado_selecionado['DC_NOME'] == 'SANTA MARIA']

In [157]:
cidade_selecionada

Unnamed: 0,DC_NOME,SG_ESTADO,CD_SITUACAO,VL_LATITUDE,VL_LONGITUDE,VL_ALTITUDE,DT_INICIO_OPERACAO,CD_ESTACAO,REGIAO,REC
456,SANTA MARIA,RS,Operante,-2972499999,-5372055554,1031,25/11/2001,A803,S,101.0


In [158]:
id_em = cidade_selecionada['CD_ESTACAO'].tolist()[0]
id_em

'A803'