# Importando Bibliotecas

In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import json

In [2]:
def GetIdAndName(station):
        
    id_name = []
        
    url_pcd = 'http://sinda.crn.inpe.br/PCD/SITE/novo/site/historico/'

    if station == 'pcd':
        DataInPageThePcd = requests.get(url_pcd+'index.php')
        HtmlPcd = DataInPageThePcd.content
            
        NamePcd = BeautifulSoup(HtmlPcd, 'html.parser')
            
        for option in NamePcd.find_all('option'):
            id_name.append(option.text)
        
        
    return (id_name)

In [3]:
# Scraping de dados na web
NamesPcd = []
NamesPcd.append(GetIdAndName('pcd'))
NamesPcd

[['32105-AC-Assis Brasil',
  '32392-AC-Brasileia',
  '32383-AC-Cruzeiro do Sul',
  '32076-AC-Cruzeiro do Sul',
  '32106-AC-Fazenda Santo Afonso',
  '32083-AC-Feijo',
  '32073-AC-Foz do Breu',
  '32082-AC-Iratapuru',
  '32100-AC-Jusante Rio Preto',
  '32101-AC-Manoel Urbano',
  '32591-AC-MET Cruzeiro do Sul',
  '31901-AC-PARNA  S. Divisor',
  '32150-AC-Placido de Castro (7)',
  '32120-AC-Porto Valter',
  '31909-AC-Rio Branco',
  '32107-AC-Rio Branco (6)',
  '32099-AC-Rio Cmte. Fontoura',
  '32077-AC-Seringal Bom Futuro',
  '32103-AC-Seringal Guarany',
  '32102-AC-Seringal Sao Jose',
  '32075-AC-Serra do Moa',
  '32081-AC-Tarauaca-jusante',
  '32074-AC-Taumaturgo',
  '32155-AC-Xapuri',
  '32629-AL-Atalaia',
  '32628-AL-Camacari',
  '31886-AL-Camaragibe',
  '31887-AL-Coruripe',
  '32630-AL-Faz. Boa Fortuna',
  '31888-AL-Jequia',
  '31889-AL-Jitituba',
  '31890-AL-Manguaba',
  '31933-AL-Mata Grande',
  '31891-AL-Meirim',
  '31898-AL-Mundau',
  '31895-AL-Paraiba',
  '31892-AL-Perucaba',
  '

In [4]:
#Transformando os dados coletados em um Dataframe
s = pd.DataFrame(NamesPcd).T.rename(columns={0: 'id'})
s

Unnamed: 0,id
0,32105-AC-Assis Brasil
1,32392-AC-Brasileia
2,32383-AC-Cruzeiro do Sul
3,32076-AC-Cruzeiro do Sul
4,32106-AC-Fazenda Santo Afonso
...,...
1017,30873-TO-Rio Sao Martinho
1018,30869-TO-Rio Urubu
1019,32307-TO-Tocantinopolis
1020,32549-TO-UHE Isamu Ikeda Montante


In [5]:
# Separando o id em um novo df
new_df = s['id'].str.split('-', n=1,expand=True).rename(columns={0: 'id', 1: 'estado-nome'})

# Separando os estados e nomes de pcds em um novo df
pcd = new_df['estado-nome'].str.split('-', n=1,expand=True).rename(columns={0: 'estado', 1: 'nome'})
pcd

Unnamed: 0,estado,nome
0,AC,Assis Brasil
1,AC,Brasileia
2,AC,Cruzeiro do Sul
3,AC,Cruzeiro do Sul
4,AC,Fazenda Santo Afonso
...,...,...
1017,TO,Rio Sao Martinho
1018,TO,Rio Urubu
1019,TO,Tocantinopolis
1020,TO,UHE Isamu Ikeda Montante


In [6]:
# Unindo os df
df_pcd =pd.merge(new_df,pcd,right_index=True, left_index=True)
df_pcd = df_pcd.drop(columns=['estado-nome'])
df_pcd

Unnamed: 0,id,estado,nome
0,32105,AC,Assis Brasil
1,32392,AC,Brasileia
2,32383,AC,Cruzeiro do Sul
3,32076,AC,Cruzeiro do Sul
4,32106,AC,Fazenda Santo Afonso
...,...,...,...
1017,30873,TO,Rio Sao Martinho
1018,30869,TO,Rio Urubu
1019,32307,TO,Tocantinopolis
1020,32549,TO,UHE Isamu Ikeda Montante


In [7]:
# Transformando os dataframe em um dictionary
pcd = {}
pcd = df_pcd.to_dict('records')
pcd

[{'id': '32105', 'estado': 'AC', 'nome': 'Assis Brasil'},
 {'id': '32392', 'estado': 'AC', 'nome': 'Brasileia'},
 {'id': '32383', 'estado': 'AC', 'nome': 'Cruzeiro do Sul'},
 {'id': '32076', 'estado': 'AC', 'nome': 'Cruzeiro do Sul'},
 {'id': '32106', 'estado': 'AC', 'nome': 'Fazenda Santo Afonso'},
 {'id': '32083', 'estado': 'AC', 'nome': 'Feijo'},
 {'id': '32073', 'estado': 'AC', 'nome': 'Foz do Breu'},
 {'id': '32082', 'estado': 'AC', 'nome': 'Iratapuru'},
 {'id': '32100', 'estado': 'AC', 'nome': 'Jusante Rio Preto'},
 {'id': '32101', 'estado': 'AC', 'nome': 'Manoel Urbano'},
 {'id': '32591', 'estado': 'AC', 'nome': 'MET Cruzeiro do Sul'},
 {'id': '31901', 'estado': 'AC', 'nome': 'PARNA  S. Divisor'},
 {'id': '32150', 'estado': 'AC', 'nome': 'Placido de Castro (7)'},
 {'id': '32120', 'estado': 'AC', 'nome': 'Porto Valter'},
 {'id': '31909', 'estado': 'AC', 'nome': 'Rio Branco'},
 {'id': '32107', 'estado': 'AC', 'nome': 'Rio Branco (6)'},
 {'id': '32099', 'estado': 'AC', 'nome': 'Rio

In [8]:
# Convertendo o dictionary em um arquivo JSON
js = json.dumps(pcd)
fp = open('pcds.json', 'w')
fp.write(js)
fp.close()