# Desafio Piratas de Dados

### Nesta tarefa, você deve coletar dados de um site da Web e, em seguida, gravar os resultados em um arquivo

Use a URL https://www2.correios.com.br/sistemas/buscacep/buscaFaixaCep.cfm ;
Obtenha dados de pelo menos dois UFs. Quanto mais melhor;
Colete todos os registros de cada UF;
Cada registro deve conter no mínimo 3 campos: "localidade", "faixa de cep" e um "id" gerado. Não deixe registros duplicados em seu arquivo de saída;
O formato de saída deve ser JSON

In [108]:
#Primeiramente vamos importar as bibliotecas para fazer a requisição ao site dos correio.
from urllib.parse import urlencode
from urllib.request import Request, urlopen
import json


In [125]:
#url de busca por UF dos correios
url = 'https://www2.correios.com.br/sistemas/buscacep/resultadoBuscaFaixaCEP.cfm'

# criando variavel de input para pesquisar o UF desejado.
uf_input = {'UF': 'CE'}
    
# Agora que temos todos os requisitos necessarios já podemos fazer a requisição ao site WEB
request = Request(url, urlencode(uf_input).encode())
result = urlopen(request).read()
result = str(result)

#Caso queira visualizar os dados da requisição descomente o codigo abaixo 
print(result)


b' <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\r\n<meta http-equiv="X-UA-Compatible" content="IE=EDGE,chrome=1" />\r\n<html lang="pt-br">\r\n<head>\r\n<meta http-equiv="X-UA-Compatible" content="IE=EDGE,chrome=1" />\r\n<meta http-equiv="Content-Language" Content="pt">\r\n<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">\r\n<title>resultadoBuscaFaixaCep</title>\r<meta name="description" content="[page]" />\r<meta name="keywords" content="" />\r\n<!-- AppInternalsXpert BMX Integration Begin -->\n<script>\nif(!RVBD_EUE){\n   var RVBD_EUE={startJS:Number(new Date()),\n   clientId:\'\',appId:1,\n   collector:\'apmperformance.correios.com.br\',\n   collectorHttpPort:80, collectorHttpsPort:443,\n   sv:\'0401\',\n   ajax:true, sync:true,\n   ajaxResponseTime:true};\n   (function(){\n      var w=window,l=w.addEventListener,m=w.attachEvent,\n      d=document,s=\'script\',t=\'load\',o=RVBD_EUE,\n      r=((\'https:\'

## Começar a lapidar os dados

In [110]:
#Tratando os caracteres especiais
result = bytes(result, 'utf-8').decode('unicode_escape')

In [111]:
#criado uma função tirar os espaços 
def trata_dados(input):
    return " ".join(input.split()).replace('> <', '><')

In [124]:
#Passando a pagina web na função de tratamento
result = trata_dados(result)

#Caso queira visualizar apos o tratamento descomente o codigo abaixo 
result

'b\' <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"><meta http-equiv="X-UA-Compatible" content="IE=EDGE,chrome=1" /><html lang="pt-br"><head><meta http-equiv="X-UA-Compatible" content="IE=EDGE,chrome=1" /><meta http-equiv="Content-Language" Content="pt"><meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1"><title>resultadoBuscaFaixaCep</title><meta name="description" content="[page]" /><meta name="keywords" content="" /><!-- AppInternalsXpert BMX Integration Begin --><script> if(!RVBD_EUE){ var RVBD_EUE={startJS:Number(new Date()), clientId:\'\',appId:1, collector:\'apmperformance.correios.com.br\', collectorHttpPort:80, collectorHttpsPort:443, sv:\'0401\', ajax:true, sync:true, ajaxResponseTime:true}; (function(){ var w=window,l=w.addEventListener,m=w.attachEvent, d=document,s=\'script\',t=\'load\',o=RVBD_EUE, r=((\'https:\'===d.location.protocol)? \'https://apmperformance.correios.com.br:443\': \'http://apmperfo

## Agora vamos Utilizar o objeto BeautifulSoup para interpretar o HTML 


In [113]:
# Obs caso não tenha a biblioteca será necessario instalar com o seguinte comando: pip3 install beautifulsoup4
from bs4 import BeautifulSoup

soup =  BeautifulSoup(result, 'lxml')


In [114]:
# vamos usar o comando prettify() para ficar melhor de visualizar as informaçoes e tags
print(soup.prettify())

<html>
 <body>
  <p>
   b'
   <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
   <meta content="IE=EDGE,chrome=1" http-equiv="X-UA-Compatible"/>
  </p>
  <meta content="IE=EDGE,chrome=1" http-equiv="X-UA-Compatible"/>
  <meta content="pt" http-equiv="Content-Language"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <title>
   resultadoBuscaFaixaCep
  </title>
  <meta content="[page]" name="description"/>
  <meta content="" name="keywords"/>
  <!-- AppInternalsXpert BMX Integration Begin -->
  <script>
   if(!RVBD_EUE){ var RVBD_EUE={startJS:Number(new Date()), clientId:'',appId:1, collector:'apmperformance.correios.com.br', collectorHttpPort:80, collectorHttpsPort:443, sv:'0401', ajax:true, sync:true, ajaxResponseTime:true}; (function(){ var w=window,l=w.addEventListener,m=w.attachEvent, d=document,s='script',t='load',o=RVBD_EUE, r=(('https:'===d.location.protocol)? 'https://apmperformance.correios.com.br

### acessando o conteudo das tags

In [115]:
#capiturando as informações da TAG td onde width é igual a 100
infos = soup.findAll('td', {'width': '100'})

In [116]:
info_list = []

#adicionando as informações na lista onde getText() for diferente de 'Não codificada por logradouros'
for info in infos:
    if info.getText() != 'Não codificada por logradouros' and info.getText() != 'Codificado por logradouros' and info.getText() != 'Codificada por logradouros':
            info_list.append(info.getText())

In [117]:
#lista com as localidade
info_list

['Abaiara',
 'Acarape',
 'Acaraú',
 'Acopiara',
 'Aiuaba',
 'Alcântaras',
 'Altaneira',
 'Alto Santo',
 'Amontada',
 'Antonina do Norte',
 'Apuiarés',
 'Aquiraz',
 'Aracati',
 'Aracoiaba',
 'Ararendá',
 'Araripe',
 'Aratuba',
 'Arneiroz',
 'Assaré',
 'Aurora',
 'Baixio',
 'Banabuiú',
 'Barbalha',
 'Barreira',
 'Barro',
 'Barroquinha',
 'Baturité',
 'Beberibe',
 'Bela Cruz',
 'Boa Viagem',
 'Brejo Santo',
 'Camocim',
 'Campos Sales',
 'Canindé',
 'Capistrano',
 'Caridade',
 'Cariré',
 'Caririaçu',
 'Cariús',
 'Carnaubal',
 'Cascavel',
 'Catarina',
 'Catunda',
 'Caucaia',
 'Caucaia',
 'Cedro',
 'Chaval',
 'Choró',
 'Chorozinho']

In [118]:
#capiturando as informações da TAG td onde width é igual a 80
faixa = soup.findAll('td', {'width': '80'})

In [119]:
faixas = []
#adicionando as informaões na lista eliminando os espaços no começo e no fim 
for item in faixa:
    faixas.append(item.getText().strip())


In [120]:
#lista com a faixas de CEP
faixas

['63240-000 a 63249-999',
 '62785-000 a 62789-999',
 '62580-000 a 62589-999',
 '63560-000 a 63569-999',
 '63575-000 a 63579-999',
 '62120-000 a 62129-999',
 '63195-000 a 63199-999',
 '62970-000 a 62979-999',
 '62540-000 a 62549-999',
 '63570-000 a 63574-999',
 '62630-000 a 62639-999',
 '61700-000 a 61759-999',
 '62800-000 a 62809-999',
 '62750-000 a 62754-999',
 '62210-000 a 62214-999',
 '63170-000 a 63179-999',
 '62762-000 a 62763-999',
 '63670-000 a 63679-999',
 '63140-000 a 63144-999',
 '63360-000 a 63379-999',
 '63320-000 a 63339-999',
 '63960-000 a 63969-999',
 '63180-000 a 63184-999',
 '62795-000 a 62799-999',
 '63380-000 a 63399-999',
 '62410-000 a 62419-999',
 '62760-000 a 62761-999',
 '62840-000 a 62849-999',
 '62570-000 a 62579-999',
 '63870-000 a 63899-999',
 '63260-000 a 63269-999',
 '62400-000 a 62409-999',
 '63150-000 a 63154-999',
 '62700-000 a 62719-999',
 '62748-000 a 62749-999',
 '62730-000 a 62735-999',
 '62184-000 a 62189-999',
 '63220-000 a 63229-999',
 '63530-000 

In [121]:
json_struct = {}
json_array = []

#percorrendo a lista faixa e adicionando as informaçoes em no dicionario e criando o ID 
for i in range(0, len(faixas)):
    json_struct['id'] = str(i+1)
    json_struct['faixa_de_cep'] = faixas[i]
    json_struct['localidade'] = info_list[i]

    #adicionando o dicionario a lista
    json_array.append(json_struct)

    json_struct = {}


In [122]:
#Visualizando o dicionario criado com as informações.
json_array

[{'id': '1', 'faixa_de_cep': '63240-000 a 63249-999', 'localidade': 'Abaiara'},
 {'id': '2', 'faixa_de_cep': '62785-000 a 62789-999', 'localidade': 'Acarape'},
 {'id': '3', 'faixa_de_cep': '62580-000 a 62589-999', 'localidade': 'Acaraú'},
 {'id': '4',
  'faixa_de_cep': '63560-000 a 63569-999',
  'localidade': 'Acopiara'},
 {'id': '5', 'faixa_de_cep': '63575-000 a 63579-999', 'localidade': 'Aiuaba'},
 {'id': '6',
  'faixa_de_cep': '62120-000 a 62129-999',
  'localidade': 'Alcântaras'},
 {'id': '7',
  'faixa_de_cep': '63195-000 a 63199-999',
  'localidade': 'Altaneira'},
 {'id': '8',
  'faixa_de_cep': '62970-000 a 62979-999',
  'localidade': 'Alto Santo'},
 {'id': '9',
  'faixa_de_cep': '62540-000 a 62549-999',
  'localidade': 'Amontada'},
 {'id': '10',
  'faixa_de_cep': '63570-000 a 63574-999',
  'localidade': 'Antonina do Norte'},
 {'id': '11',
  'faixa_de_cep': '62630-000 a 62639-999',
  'localidade': 'Apuiarés'},
 {'id': '12',
  'faixa_de_cep': '61700-000 a 61759-999',
  'localidade'

In [123]:
#Criando Arquivo JSON
with open("uf_CE.json", "a", encoding='utf8') as file:
    for j in json_array:
        file.write(json.dumps(j, ensure_ascii=False)+'\n')