# Desafio Piratas de Dados

### Nesta tarefa, você deve coletar dados de um site da Web e, em seguida, gravar os resultados em um arquivo

Use a URL https://www2.correios.com.br/sistemas/buscacep/buscaFaixaCep.cfm ;
Obtenha dados de pelo menos dois UFs. Quanto mais melhor;
Colete todos os registros de cada UF;
Cada registro deve conter no mínimo 3 campos: "localidade", "faixa de cep" e um "id" gerado. Não deixe registros duplicados em seu arquivo de saída;
O formato de saída deve ser JSON

In [1276]:
#Primeiramente vamos importar as bibliotecas para fazer a requisição ao site dos correio.
from urllib.parse import urlencode
from urllib.request import Request, urlopen
import json


In [1277]:
# url de busca por UF dos correios
url = 'https://www2.correios.com.br/sistemas/buscacep/resultadoBuscaFaixaCEP.cfm'

# criando variavel de input para pesquisar o UF desejado.
uf_input = {'UF': 'SP'}
    
# Agora que temos todos os requisitos necessarios já podemos fazer a requisição ao site WEB
request = Request(url, urlencode(uf_input).encode())
result = urlopen(request).read()
result = str(result)

#Caso queira visualizar os dados da requisição descomente o codigo abaixo 
#print(result)


## Começar a lapidar os dados

In [1278]:
#Tratando os caracteres especiais
result = bytes(result, 'utf-8').decode('unicode_escape')

In [1279]:
#criado uma função tirar os espaços 
def trata_dados(input):
    return " ".join(input.split()).replace('> <', '><')

In [1280]:
#Passando a pagina web na função de tratamento
result = trata_dados(result)

#Caso queira visualizar apos o tratamento descomente o codigo abaixo 
#result

## Agora vamos Utilizar o objeto BeautifulSoup para interpretar o HTML 


In [1281]:
# Obs caso não tenha a biblioteca será necessario instalar com o seguinte comando: pip3 install beautifulsoup4
from bs4 import BeautifulSoup

soup =  BeautifulSoup(result, 'lxml')


In [1282]:
# vamos usar o comando prettify() para ficar melhor de visualizar as informaçoes e tags
print(soup.prettify())

<html>
 <body>
  <p>
   b'
   <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
   <meta content="IE=EDGE,chrome=1" http-equiv="X-UA-Compatible"/>
  </p>
  <meta content="IE=EDGE,chrome=1" http-equiv="X-UA-Compatible"/>
  <meta content="pt" http-equiv="Content-Language"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <title>
   resultadoBuscaFaixaCep
  </title>
  <meta content="[page]" name="description"/>
  <meta content="" name="keywords"/>
  <!-- AppInternalsXpert BMX Integration Begin -->
  <script>
   if(!RVBD_EUE){ var RVBD_EUE={startJS:Number(new Date()), clientId:'',appId:1, collector:'apmperformance.correios.com.br', collectorHttpPort:80, collectorHttpsPort:443, sv:'0401', ajax:true, sync:true, ajaxResponseTime:true}; (function(){ var w=window,l=w.addEventListener,m=w.attachEvent, d=document,s='script',t='load',o=RVBD_EUE, r=(('https:'===d.location.protocol)? 'https://apmperformance.correios.com.br

### acessando o conteudo das tags

In [1283]:
#capiturando as informações da TAG td onde width é igual a 100
infos = soup.findAll('td', {'width': '100'})

In [1284]:
info_list = []

#adicionando as informações na lista onde getText() for diferente de 'Não codificada por logradouros'
for info in infos:
    if info.getText() != 'Não codificada por logradouros':
        info_list.append(info.getText())

In [1285]:
#lista com as localidade
info_list

['Adamantina',
 'Adolfo',
 'Aguaí',
 'Codificado por logradouros',
 'Aguaí',
 'Codificada por logradouros',
 'Águas da Prata',
 'Águas de Lindóia',
 'Águas de Santa Bárbara',
 'Águas de São Pedro',
 'Codificado por logradouros',
 'Águas de São Pedro',
 'Codificada por logradouros',
 'Agudos',
 'Codificado por logradouros',
 'Agudos',
 'Codificada por logradouros',
 'Alambari',
 'Alfredo Marcondes',
 'Altair',
 'Altinópolis',
 'Alto Alegre',
 'Alumínio',
 'Álvares Florence',
 'Álvares Machado',
 'Álvaro de Carvalho',
 'Alvinlândia',
 'Codificado por logradouros',
 'Alvinlândia',
 'Codificada por logradouros',
 'Americana',
 'Codificado por logradouros',
 'Americana',
 'Codificada por logradouros',
 'Américo Brasiliense',
 'Codificado por logradouros',
 'Américo Brasiliense',
 'Codificada por logradouros',
 'Américo de Campos',
 'Amparo',
 'Codificado por logradouros',
 'Amparo',
 'Codificada por logradouros',
 'Analândia',
 'Andradina',
 'Codificado por logradouros',
 'Andradina',
 'Cod

In [1286]:
#capiturando as informações da TAG td onde width é igual a 80
faixa = soup.findAll('td', {'width': '80'})

In [1287]:
faixas = []
#adicionando as informaões na lista eliminando os espaços no começo e no fim 
for item in faixa:
    faixas.append(item.getText().strip())


In [1288]:
#lista com a faixas de CEP
faixas

['17800-000 a 17809-999',
 '15230-000 a 15239-999',
 '13860-001 a 13869-999',
 '13860-001 a 13869-999',
 '13890-000 a 13899-999',
 '13940-000 a 13949-999',
 '18770-000 a 18774-999',
 '13525-001 a 13529-999',
 '13528-001 a 13529-999',
 '17120-001 a 17149-999',
 '17120-001 a 17139-999',
 '18220-000 a 18224-999',
 '19180-000 a 19189-999',
 '15430-000 a 15439-999',
 '14350-000 a 14389-999',
 '16310-000 a 16339-999',
 '18125-000 a 18129-999',
 '15540-000 a 15549-999',
 '19160-000 a 19179-999',
 '17410-000 a 17419-999',
 '17430-001 a 17439-999',
 '17430-001 a 17439-999',
 '13465-001 a 13479-999',
 '13465-001 a 13479-999',
 '14820-001 a 14824-999',
 '14820-001 a 14824-999',
 '15550-000 a 15559-999',
 '13900-001 a 13909-999',
 '13900-001 a 13909-999',
 '13550-000 a 13559-999',
 '16900-001 a 16919-999',
 '16900-001 a 16914-999',
 '18240-000 a 18244-999',
 '18620-001 a 18639-999',
 '18630-001 a 18639-999',
 '19580-000 a 19589-999',
 '12570-000 a 12579-999',
 '15735-000 a 15739-999',
 '18320-000 

In [1289]:
json_struct = {}
json_array = []

#percorrendo a lista faixa e adicionando as informaçoes em no dicionario e criando o ID 
for i in range(0, len(faixas)):
    json_struct['id'] = str(i+1)
    json_struct['faixa_de_cep'] = faixas[i]
    json_struct['localidade'] = info_list[i]

    #adicionando o dicionario a lista
    json_array.append(json_struct)

    json_struct = {}


In [1290]:
#Visualizando o dicionario criado com as informações.
json_array

[{'id': '1',
  'faixa_de_cep': '17800-000 a 17809-999',
  'localidade': 'Adamantina'},
 {'id': '2', 'faixa_de_cep': '15230-000 a 15239-999', 'localidade': 'Adolfo'},
 {'id': '3', 'faixa_de_cep': '13860-001 a 13869-999', 'localidade': 'Aguaí'},
 {'id': '4',
  'faixa_de_cep': '13860-001 a 13869-999',
  'localidade': 'Codificado por logradouros'},
 {'id': '5', 'faixa_de_cep': '13890-000 a 13899-999', 'localidade': 'Aguaí'},
 {'id': '6',
  'faixa_de_cep': '13940-000 a 13949-999',
  'localidade': 'Codificada por logradouros'},
 {'id': '7',
  'faixa_de_cep': '18770-000 a 18774-999',
  'localidade': 'Águas da Prata'},
 {'id': '8',
  'faixa_de_cep': '13525-001 a 13529-999',
  'localidade': 'Águas de Lindóia'},
 {'id': '9',
  'faixa_de_cep': '13528-001 a 13529-999',
  'localidade': 'Águas de Santa Bárbara'},
 {'id': '10',
  'faixa_de_cep': '17120-001 a 17149-999',
  'localidade': 'Águas de São Pedro'},
 {'id': '11',
  'faixa_de_cep': '17120-001 a 17139-999',
  'localidade': 'Codificado por logr

In [1291]:
#Criando Arquivo JSON
with open("uf_SP.json", "a", encoding='utf8') as file:
    for j in json_array:
        file.write(json.dumps(j, ensure_ascii=False)+'\n')