# Aula 2: Introdução ao Python - Scraping (Cont.)

Em nossa última aula aprendemos como realizar uma requisição para uma página afim de obter o seu código fonte e, assim, realizar alguma coleta de dados. Mais especificamente, aprendemos a realizar o método *GET* a partir do pacote *requests*

Hoje aprenderemos como realizar o método *POST*. Utilizaremos o método *POST* sempre que for necessário enviar informações específicar para a construção do código fonte da página.

In [1]:
import requests
from bs4 import BeautifulSoup

Imagine que queiramos obter dados de escolas públicas no Brasil. Nos dirigimos ao site do [INEP](http://idebescola.inep.gov.br/ideb/consulta-publica) [http://idebescola.inep.gov.br/ideb/consulta-publica]. Pode-se observar que no site há um formulário a ser preenchido. Podemos pesquisar por código da escola ou selecinar o estado, município, etc...

Observe que devemos informar ao site alguns parâmetros para a pesquisa e, a partir dessas informações, o site irá construir uma outra página com as informações condizentes com nossos parâmetros. Nos referimos a este tipo de pesquisa como um *POST* já que estamos postando informações necessárias para o website construir a página.

Vamos realizar um *GET* para a página de pesquisa inicial e analisar o resultado.

In [None]:
resultado = requests.get("http://idebescola.inep.gov.br/ideb/consulta-publica")
t = resultado.text
print(BeautifulSoup(t, 'lxml').prettify())

Podemos observar que o site contém um formulário (&lt;form>) a ser preenchido. Vejamos seu código:
    
<img src="5.png" width="800" height="200">

Vamos preencher o formulário e analisar o tráfego da web para ver o que acontece.

<img src="1.png" width="800" height="200">

Como podemos observar, o site enviou os parâmetros que preenchemos (junto com alguns outros) através do método *POST* de forma a construir a página com as informações desejadas. Os seguintes parâmetros foram enviados:

<img src="2.png" width="800" height="200">

Ou seja, se quisermos pegar as informações ná página que foi gerada após preenchermos o formulário, teremos que preencher o formulário com o python, passando os parâmetros na requisição *POST*.

In [5]:
escola = 26024730
url = "http://idebescola.inep.gov.br/ideb/consulta-publica"

In [6]:
escola

26024730

In [7]:
url

'http://idebescola.inep.gov.br/ideb/consulta-publica'

In [8]:
type(escola)

int

In [10]:
esc = str(escola)

In [11]:
esc

'26024730'

In [12]:
int(esc)

26024730

In [13]:
int(url)

ValueError: invalid literal for int() with base 10: 'http://idebescola.inep.gov.br/ideb/consulta-publica'

Para definir um set de parâmetros a serem passados em um request *POST* utilizaremos uma lista e, dentro da lista, cada elemento será uma *Tuple*, cada uma contendo o nome do parâmetro e o seu respectivo valor. 

In [14]:
parametros = [('pkCodEntidade', str(escola)), ('btnSearch', '')]

In [15]:
parametros

[('pkCodEntidade', '26024730'), ('btnSearch', '')]

In [16]:
parametros1 = [
    ('pkCodEntidade', 32),
]

In [17]:
parametros1

[('pkCodEntidade', 32)]

In [None]:
requests.post(url, data=parametros1)

In [25]:
print(BeautifulSoup(requests.post(url, data=parametros1).content), 'lxml')

<!DOCTYPE html>
<html class="v" id="OTHER" lang="pt_BR"><head><meta content="width=device-width, initial-scale=1.0" name="viewport"/><meta content="IE=edge" http-equiv="X-UA-Compatible"/><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><title>Localização Escolar - IDEB</title><script type="text/javascript">
//<![CDATA[
window["_csrf_"] = "0829874fd9842001190fe76a48cc44d56bcb16c1e75aa8e20de74e16a370a1205ee80fcc9d9bb0ca28982de488dfefdb85fd922acb2a6b4fe285a24b4cbc01efed322565ef8814c8bfa1ceca06b431d9a3202359d0064b5e5e6a81c6abe285657d3a7750adfae8ca50fb864ae68463ad848fa8a896ff31be9b03fc4f661e4cd79c9881fa1ebdcfe69949937231a263ab645e775930610641a2c8412066b3a77f58bb9010d9c232f37935ce3a0fc6572354c1e6769fbf7b7e3409637d693321867bb88028aef698b0b4a07a87f8923b8c211cc461375936cdd0cd453a0d3eab86ae52ffef9c294bdfc8640ad5b20627b870d24686cae06f236df36b480f01ea9f7b3fab8c2269934318e836a4276eff3a77eaa8a15f70f69bd4469122a087cff43843b32a6f9a84b3";
//]]>
</script><script src="/TSbd/081ae7a

In [26]:
print(parametros)

[('pkCodEntidade', '26024730'), ('btnSearch', '')]


Uma *Tuple* é quase igual a uma lista. A única diferença é que listas são mutaveis e uma *Tuple* é imutável.

Podemos, agora, efetuar a requisição utlizando o método *POST*, passando a lista *data* como parâmetro.

In [27]:
dados_esc = requests.post(url, data=parametros)

In [28]:
soup = BeautifulSoup(dados_esc.content, 'lxml')

In [32]:
soup.table # EVITAR

<table class="tabela table-dados-escola"> <tr> <td>Código da escola </td> <td>26024730</td> </tr> <tr> <td>Endereço</td> <td>RUA MARIA JOSE DE SIQUEIRA MORENO, SNº </td> </tr> <tr> <td>Bairro</td> <td>CENTRO</td> </tr> <tr> <td>CEP</td> <td>56505-025</td> </tr> <tr> <td>Município</td> <td>Arcoverde</td> </tr> <tr> <td>UF</td> <td>Pernambuco</td> </tr> <tr> <td>Dependência Administrativa</td> <td>Estadual</td> </tr> <tr> <td>Localização</td> <td>Urbana</td> </tr> <tr> <td>Localização diferenciada</td> <td>Não Se Aplica</td> </tr> </table>

In [34]:
soup.findAll("table")[0]

<table class="tabela table-dados-escola"> <tr> <td>Código da escola </td> <td>26024730</td> </tr> <tr> <td>Endereço</td> <td>RUA MARIA JOSE DE SIQUEIRA MORENO, SNº </td> </tr> <tr> <td>Bairro</td> <td>CENTRO</td> </tr> <tr> <td>CEP</td> <td>56505-025</td> </tr> <tr> <td>Município</td> <td>Arcoverde</td> </tr> <tr> <td>UF</td> <td>Pernambuco</td> </tr> <tr> <td>Dependência Administrativa</td> <td>Estadual</td> </tr> <tr> <td>Localização</td> <td>Urbana</td> </tr> <tr> <td>Localização diferenciada</td> <td>Não Se Aplica</td> </tr> </table>

In [36]:
table_dados = soup.findAll("table")[0]
print(table_dados)

<table class="tabela table-dados-escola"> <tr> <td>Código da escola </td> <td>26024730</td> </tr> <tr> <td>Endereço</td> <td>RUA MARIA JOSE DE SIQUEIRA MORENO, SNº </td> </tr> <tr> <td>Bairro</td> <td>CENTRO</td> </tr> <tr> <td>CEP</td> <td>56505-025</td> </tr> <tr> <td>Município</td> <td>Arcoverde</td> </tr> <tr> <td>UF</td> <td>Pernambuco</td> </tr> <tr> <td>Dependência Administrativa</td> <td>Estadual</td> </tr> <tr> <td>Localização</td> <td>Urbana</td> </tr> <tr> <td>Localização diferenciada</td> <td>Não Se Aplica</td> </tr> </table>


In [48]:
table_dados.find_all("tr")

[<tr> <td>Código da escola </td> <td>26024730</td> </tr>,
 <tr> <td>Endereço</td> <td>RUA MARIA JOSE DE SIQUEIRA MORENO, SNº </td> </tr>,
 <tr> <td>Bairro</td> <td>CENTRO</td> </tr>,
 <tr> <td>CEP</td> <td>56505-025</td> </tr>,
 <tr> <td>Município</td> <td>Arcoverde</td> </tr>,
 <tr> <td>UF</td> <td>Pernambuco</td> </tr>,
 <tr> <td>Dependência Administrativa</td> <td>Estadual</td> </tr>,
 <tr> <td>Localização</td> <td>Urbana</td> </tr>,
 <tr> <td>Localização diferenciada</td> <td>Não Se Aplica</td> </tr>]

In [58]:
for i in range(0,9):
    for j in range(0,2):
        print(table_dados.find_all("tr")[i].find_all("td")[j].text)

Código da escola 
26024730
Endereço
RUA MARIA JOSE DE SIQUEIRA MORENO, SNº 
Bairro
CENTRO
CEP
56505-025
Município
Arcoverde
UF
Pernambuco
Dependência Administrativa
Estadual
Localização
Urbana
Localização diferenciada
Não Se Aplica


In [117]:
for i in range(0,6):
    for j in range(0,2):
        print(table_dados.find_all('tr')[i].find_all('td')[j].text)

Código da escola 
26024730
Endereço
RUA MARIA JOSE DOS SANTOS MORENO, SNº 
Bairro
CENTRO
CEP
56505-025
Município
Arcoverde
UF
Pernambuco


In [59]:
daniel = {}

In [60]:
daniel

{}

In [61]:
daniel["idade"] = 37

In [64]:
daniel

{'idade': 37}

In [66]:
l = [0,1,2,3,4]

In [67]:
l

[0, 1, 2, 3, 4]

In [68]:
for item in l:
    print(item)

0
1
2
3
4


In [70]:
for item in table_dados.find_all('tr'):
    print(item)

<tr> <td>Código da escola </td> <td>26024730</td> </tr>
<tr> <td>Endereço</td> <td>RUA MARIA JOSE DE SIQUEIRA MORENO, SNº </td> </tr>
<tr> <td>Bairro</td> <td>CENTRO</td> </tr>
<tr> <td>CEP</td> <td>56505-025</td> </tr>
<tr> <td>Município</td> <td>Arcoverde</td> </tr>
<tr> <td>UF</td> <td>Pernambuco</td> </tr>
<tr> <td>Dependência Administrativa</td> <td>Estadual</td> </tr>
<tr> <td>Localização</td> <td>Urbana</td> </tr>
<tr> <td>Localização diferenciada</td> <td>Não Se Aplica</td> </tr>


In [72]:
item.find_all("td")

[<td>Localização diferenciada</td>, <td>Não Se Aplica</td>]

In [73]:
for row in table_dados.find_all('tr'):
    cols = row.find_all('td')
    print(cols)

[<td>Código da escola </td>, <td>26024730</td>]
[<td>Endereço</td>, <td>RUA MARIA JOSE DE SIQUEIRA MORENO, SNº </td>]
[<td>Bairro</td>, <td>CENTRO</td>]
[<td>CEP</td>, <td>56505-025</td>]
[<td>Município</td>, <td>Arcoverde</td>]
[<td>UF</td>, <td>Pernambuco</td>]
[<td>Dependência Administrativa</td>, <td>Estadual</td>]
[<td>Localização</td>, <td>Urbana</td>]
[<td>Localização diferenciada</td>, <td>Não Se Aplica</td>]


In [76]:
cols[1]

<td>Não Se Aplica</td>

Podemos fazer um loop no objeto *table_dados* para salvar os campos em um *json*

In [77]:
fields = {}
for row in table_dados.find_all('tr'):
    cols = row.find_all('td')
    fields[cols[0].text] = cols[1].text

In [78]:
fields

{'Código da escola ': '26024730',
 'Endereço': 'RUA MARIA JOSE DE SIQUEIRA MORENO, SNº ',
 'Bairro': 'CENTRO',
 'CEP': '56505-025',
 'Município': 'Arcoverde',
 'UF': 'Pernambuco',
 'Dependência Administrativa': 'Estadual',
 'Localização': 'Urbana',
 'Localização diferenciada': 'Não Se Aplica'}

In [79]:
fields["UF"]

'Pernambuco'

Como já vimos antes, podemos realizar um loop em vários códigos de escolas e pegar as informações de todas elas.

In [80]:
escolas = [11000040, 11000058, 11000074, 11000082, 11000104, 11000163, 11000171, 11000180, 11000198, 11000201, 11000244, 11000252, 11000260, 11000295, 11000309, 11000317, 11000325, 11000341, 11000350, 11000368, 11000376, 11000384, 11000406, 11000422, 11000449, 11000457, 11000465, 11000473, 11000546, 11000554, 11000562, 11000589, 11000597, 11000635, 11000651, 11000660, 11000678, 11000708, 11000724, 11000759, 11000848, 11000856, 11000864, 11000872, 11000880, 11000899, 11000910, 11000937, 11000945, 11000953]

In [85]:
browser = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:12.0) Gecko/20100101 Firefox/12.0'}

In [86]:
uas = []
with open("/Users/gustavorsampaio/Documents/Projetos/Projeto Cinema/Coleta de Dados/coleta_API/user_agents.txt", 'r') as uaf:
    for ua in uaf.readlines():
        if ua:
            uas.append(ua.strip())

In [87]:
uas

['Mozilla/5.0 (Amiga; U; AmigaOS 1.3; en; rv:1.8.1.19) Gecko/20081204 SeaMonkey/1.1.14',
 'Mozilla/5.0 (AmigaOS; U; AmigaOS 1.3; en-US; rv:1.8.1.21) Gecko/20090303 SeaMonkey/1.1.15',
 'Mozilla/5.0 (AmigaOS; U; AmigaOS 1.3; en; rv:1.8.1.19) Gecko/20081204 SeaMonkey/1.1.14',
 'Mozilla/5.0 (Android 2.2; Windows; U; Windows NT 6.1; en-US) AppleWebKit/533.19.4 (KHTML, like Gecko) Version/5.0.3 Safari/533.19.4',
 'Mozilla/5.0 (BeOS; U; BeOS BeBox; fr; rv:1.9) Gecko/2008052906 BonEcho/2.0',
 'Mozilla/5.0 (BeOS; U; BeOS BePC; en-US; rv:1.8.1.1) Gecko/20061220 BonEcho/2.0.0.1',
 'Mozilla/5.0 (BeOS; U; BeOS BePC; en-US; rv:1.8.1.10) Gecko/20071128 BonEcho/2.0.0.10',
 'Mozilla/5.0 (BeOS; U; BeOS BePC; en-US; rv:1.8.1.17) Gecko/20080831 BonEcho/2.0.0.17',
 'Mozilla/5.0 (BeOS; U; BeOS BePC; en-US; rv:1.8.1.6) Gecko/20070731 BonEcho/2.0.0.6',
 'Mozilla/5.0 (BeOS; U; BeOS BePC; en-US; rv:1.8.1.7) Gecko/20070917 BonEcho/2.0.0.7',
 'Mozilla/5.0 (BeOS; U; BeOS BePC; en-US; rv:1.8.1b2) Gecko/20060901 Fir

In [88]:
import random

In [98]:
random.choice(uas)

'Mozilla/5.0 (X11; U; Linux i686; zh-TW; rv:1.9.0.13) Gecko/2009080315 Ubuntu/9.04 (jaunty) Firefox/3.0.13'

In [82]:
print(browser)

{'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:12.0) Gecko/20100101 Firefox/12.0'}


Utilizaremos um header para fingir que somos um navegador real pesquisando a informação.

Por exemplo, definimos acima um User-Agent. Estamos navegando utilizando o firefox e utilizando o Windows.

<img src="4.png" width="800" height="200">

Podemos, também, passar os headers como parâmetros no request

In [83]:
dados_esc = requests.post(url, data=parametros, headers=browser)

In [84]:
print(BeautifulSoup(dados_esc.content, 'lxml').findAll("table")[0])

<table class="tabela table-dados-escola"> <tr> <td>Código da escola </td> <td>26024730</td> </tr> <tr> <td>Endereço</td> <td>RUA MARIA JOSE DE SIQUEIRA MORENO, SNº </td> </tr> <tr> <td>Bairro</td> <td>CENTRO</td> </tr> <tr> <td>CEP</td> <td>56505-025</td> </tr> <tr> <td>Município</td> <td>Arcoverde</td> </tr> <tr> <td>UF</td> <td>Pernambuco</td> </tr> <tr> <td>Dependência Administrativa</td> <td>Estadual</td> </tr> <tr> <td>Localização</td> <td>Urbana</td> </tr> <tr> <td>Localização diferenciada</td> <td>Não Se Aplica</td> </tr> </table>


Façamos a pesquisa por área de interesse:

In [100]:
params = [
        ('pkCodEntidade', ''),
        ('pkCodEstado', '26'),
        ('pkCodMunicipio', '2611606'),
        ('idDependenciaAdm', ''),
        ('noZona', ''),
        ('idLocalizacaoDiferenciada', ''),
        ('codigoEscola', ''),
        ('noEntidade', ''),
        ('btnSearch', ''),
        ('undefined', 'undefined'),
        ('undefined', 'undefined'),
    ]

In [101]:
params

[('pkCodEntidade', ''),
 ('pkCodEstado', '26'),
 ('pkCodMunicipio', '2611606'),
 ('idDependenciaAdm', ''),
 ('noZona', ''),
 ('idLocalizacaoDiferenciada', ''),
 ('codigoEscola', ''),
 ('noEntidade', ''),
 ('btnSearch', ''),
 ('undefined', 'undefined'),
 ('undefined', 'undefined')]

In [104]:
dados_esc = requests.post(url, data=params, headers=browser)
soup = BeautifulSoup(dados_esc.content, 'lxml').findAll("table")[0]

In [109]:
len(soup.find_all("tr")[1:])

362

In [114]:
for i in range(1,362):
    for j in range(0,6):
        print(soup.find_all('tr')[i].find_all('td')[j].text)

26124599
Escola Eneida Rabello
Recife-Pernambuco
Estadual
Urbana
AVENIDA DONA CARENTINA, S/N JORDAO ALTO 
26126125
Escola Dom Bosco - Recife
Recife-Pernambuco
Estadual
Urbana
ESTRADA DO ARRAIAL, 3208 CASA AMARELA 
26128934
Escola Municipal Olindina Monteiro de Oliveira Franca
Recife-Pernambuco
Municipal
Urbana
BELA VISTA, 115 DOIS UNIDOS 
26157845
Escola Municipal Professor Joao Batista Lippo Neto
Recife-Pernambuco
Municipal
Urbana
BARAO DE CERRO LARGO, S/N VARZEA 
26127334
Escola de Referencia Em Ensino Medio Jornalista Trajano Chacon
Recife-Pernambuco
Estadual
Urbana
AVENIDA FORTE DO ARRAIAL NOVO DO BOM JESUS, SN CORDEIRO 
26128721
Escola de Referencia Em Ensino Medio Professor Mardonio de Andrade Lima Coelho
Recife-Pernambuco
Estadual
Urbana
RUA CHA DE ALEGRIA, 117, BEBERIBE BOMBA DO HEMETERIO 
26153599
Escola Municipal Professor Ricardo Gama
Recife-Pernambuco
Municipal
Urbana
GUAIRA, 160 LINHA DO TIRO 
26122545
Escola Dom Carlos Coelho - Recife
Recife-Pernambuco
Estadual
Urbana
RUA

ANCHIETA, 85 SANTO AMARO 
26172712
Escola de Referencia Em Ensino Medio Ginasio Pernambucano - Aurora
Recife-Pernambuco
Estadual
Urbana
RUA DA AURORA, 703 BOA VISTA 
26125781
Escola de Referencia Em Ensino Medio Silva Jardim
Recife-Pernambuco
Estadual
Urbana
PRACA DO MONTEIRO, 2727 MONTEIRO 
26126079
Escola de Referencia Em Ensino Medio Ageu Magalhaes
Recife-Pernambuco
Estadual
Urbana
ESTRADA DO ARRAIAL, 3208, CASA AMARELA TAMARINEIRA 
26166658
Escola Municipal de Casa Amarela
Recife-Pernambuco
Municipal
Urbana
CORREGO DA AREIA, 287 MACAXEIRA 
26122677
Escola de Referencia Em Ensino Medio Santa Paula Frassinetti
Recife-Pernambuco
Estadual
Urbana
RUA GOMES PACHECO, SN ESPINHEIRO 
26123126
Escola Municipal Vila Sao Miguel
Recife-Pernambuco
Municipal
Urbana
RUBIACEA, 147 AFOGADOS 
26123517
Escola Jose Mariano
Recife-Pernambuco
Estadual
Urbana
AVENIDA DOUTOR JOSE RUFINO, 892 ESTANCIA 
26123770
Escola Herois da Restauracao
Recife-Pernambuco
Estadual
Urbana
RUA OITICICA LINS, SN AREIAS 
2612

Escola Municipal Luiz Lua Gonzaga
Recife-Pernambuco
Municipal
Urbana
AURILANDIA, 54 BOMBA DO HEMETERIO 
26134379
Escola Municipal Santo Amaro
Recife-Pernambuco
Municipal
Urbana
NORTE, 570 SANTO AMARO 
26118734
Escola Municipal Monteiro Lobato
Recife-Pernambuco
Municipal
Urbana
JARDIM BRASILIA, S/N, LADO IMPAR PEIXINHOS 
26118742
Escola de Referencia Em Ensino Medio Senador Paulo Pessoa Guerra
Recife-Pernambuco
Estadual
Urbana
AVENIDA DOUTOR JOSE RUFINO, 2993 TEJIPIO 
26132643
Escola Municipal Fernando Santa Cruz
Recife-Pernambuco
Municipal
Urbana
BOANERGES PEREIRA, 437 JORDAO 
26128640
Escola Municipal Antonio Heraclio do Rego
Recife-Pernambuco
Municipal
Urbana
MANOEL SILVA, 134 FUNDAO 
26128950
Escola Municipal Irma Terezinha Batista - Proj Novo Viver
Recife-Pernambuco
Municipal
Urbana
IGUATU, S/N CAMPINA DO BARRETO 
26127431
Escola Professor Leal de Barros
Recife-Pernambuco
Estadual
Urbana
RUA ANTONIO BORGES UCHOA, SN ENGENHO DO MEIO 
26119617
Escola Municipal General San Martin
Reci

Recife-Pernambuco
Municipal
Urbana
VASCO DA GAMA, S/N VASCO DA GAMA 
26149370
Escola Municipal Alto do Refugio - Ivan Neves
Recife-Pernambuco
Municipal
Urbana
ALTO DO REFUGIO, 250 NOVA DESCOBERTA 
26158752
Escola Municipal Corrego do Euclides
Recife-Pernambuco
Municipal
Urbana
CORREGO DO EUCLIDES, 1231 ALTO JOSE BONIFACIO 
26132249
Escola Municipal Pintor Lula Cardoso Ayres
Recife-Pernambuco
Municipal
Urbana
DR ALVARO FERRAZ, 594, QUADRA P JORDAO 
26134049
Escola Municipal Nossa Senhora da Penha
Recife-Pernambuco
Municipal
Urbana
FRANCISCO DE BARROS BARRETO, 109 BOA VIAGEM 
26134350
Escola Padre Donino
Recife-Pernambuco
Estadual
Urbana
PRACA DE CASA FORTE, 442 CASA FORTE 
26123088
Escola Municipal Edite Braga
Recife-Pernambuco
Municipal
Urbana
NICOLAU PEREIRA, 85 AFOGADOS 
26123509
Escola Edwiges de Sa Pereira
Recife-Pernambuco
Estadual
Urbana
RUA RIVADAVIA GUERRA, 50 TEJIPIO 
26124297
Colegio de Aplicacao do Ce da Ufpe
Recife-Pernambuco
Federal
Urbana
AVENIDA DA ARQUITETURA, SN CIDADE

In [115]:
escolas

[11000040,
 11000058,
 11000074,
 11000082,
 11000104,
 11000163,
 11000171,
 11000180,
 11000198,
 11000201,
 11000244,
 11000252,
 11000260,
 11000295,
 11000309,
 11000317,
 11000325,
 11000341,
 11000350,
 11000368,
 11000376,
 11000384,
 11000406,
 11000422,
 11000449,
 11000457,
 11000465,
 11000473,
 11000546,
 11000554,
 11000562,
 11000589,
 11000597,
 11000635,
 11000651,
 11000660,
 11000678,
 11000708,
 11000724,
 11000759,
 11000848,
 11000856,
 11000864,
 11000872,
 11000880,
 11000899,
 11000910,
 11000937,
 11000945,
 11000953]

In [116]:
s = requests.Session()

In [119]:
s.get("http://www.globo.com").text



In [136]:
s = requests.Session()
s

<requests.sessions.Session at 0x1118e70b8>

In [139]:
nome = 'Robson'
nome

'Robson'

In [120]:
for i in range(0,10):
    print(i)

0
1
2
3
4
5
6
7
8
9


In [128]:
counter = 1
while counter < 10:
    print(counter)
    counter += 1

1
2
3
4
5
6
7
8
9


In [125]:
counter += 5

In [126]:
counter

7

In [129]:
s = requests.Session()

In [131]:
s

<requests.sessions.Session at 0x10bf76e50>

In [132]:
g = requests.Session()

In [133]:
g

<requests.sessions.Session at 0x10c2f6880>

In [134]:
with requests.Session() as s:
    print(s)

<requests.sessions.Session object at 0x10c2f6760>


In [137]:
codigos = ['2611606', '2611608']
for cod in codigos:
    params = [
            ('pkCodEntidade', ''),
            ('pkCodEstado', '26'),
            ('pkCodMunicipio', cod),
            ('idDependenciaAdm', ''),
            ('noZona', ''),
            ('idLocalizacaoDiferenciada', ''),
            ('codigoEscola', ''),
            ('noEntidade', ''),
            ('btnSearch', ''),
        ]
    print(params)

[('pkCodEntidade', ''), ('pkCodEstado', '26'), ('pkCodMunicipio', '2611606'), ('idDependenciaAdm', ''), ('noZona', ''), ('idLocalizacaoDiferenciada', ''), ('codigoEscola', ''), ('noEntidade', ''), ('btnSearch', '')]
[('pkCodEntidade', ''), ('pkCodEstado', '26'), ('pkCodMunicipio', '2611608'), ('idDependenciaAdm', ''), ('noZona', ''), ('idLocalizacaoDiferenciada', ''), ('codigoEscola', ''), ('noEntidade', ''), ('btnSearch', '')]


Para realizar tal pesquisa, vamos criar uma sessão do método requests.

O que o método requests faz é, toda vez que o utilizamos, abrir uma página como se fosse um navegador novo. Desta maneira, ele pega um *cookie* diferente toda vez que realiza a requisição

Ao criarmos uma sessão, é como se estivéssemos navegando no site e não abrindo ele múltiplas vezes. Utilizamos apenas um *cookie*.

In [135]:
with requests.Session() as s:
    params = [
            ('pkCodEntidade', ''),
            ('pkCodEstado', '26'),
            ('pkCodMunicipio', '2611606'),
            ('idDependenciaAdm', ''),
            ('noZona', ''),
            ('idLocalizacaoDiferenciada', ''),
            ('codigoEscola', ''),
            ('noEntidade', ''),
            ('btnSearch', ''),
        ]
    dados_esc = s.post(url, data=params, headers=browser)
    soup = BeautifulSoup(dados_esc.content, 'lxml')
    print(soup)

<!DOCTYPE html>
<html class="v12_0" id="Firefox" lang="pt_BR"><head><meta content="width=device-width, initial-scale=1.0" name="viewport"/><meta content="IE=edge" http-equiv="X-UA-Compatible"/><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><title>Localização Escolar - IDEB</title><script type="text/javascript">
//<![CDATA[
window["_csrf_"] = "081a1d6c27842001e8fb57c73e92066d243e102d1324fd90f75896c7c2cdc0ce944da99aa832b3202ed7dc0fac2e1f41731c77c373a23be2ce1bae038851c28b0d6d0ba3bf6dcbb09ec370c0a31b01a6d8c457ca707b5a0932d78279202f89a4f06bcfdf17f5af95e8f544df53e56a2768cbe9b6603644d6a181f8108fc362f27268fc36bc13670ad81dcc75b495c103b84017f273e2683fa88d558370bb2869afa00d6a84681cab5a3e0e27122e3ea05d4de2143eb33cac2ca500eb4d2acfc90384707a94c68cd3de8af3eac979d97a42f7bad0410589330967aca5259446e3309e49606fae88426d42f7657a514be6a34e72cbbca1d5b824c32a8ddd8c24f54d0661bc654a6b27f0280c9f3ea9f81295ebe038a949429b6fbcb83ace48ca3149dad856033971f9";
//]]>
</script><script src="/TSbd/0

In [138]:
table_dados = soup.findAll("table")[0]

In [139]:
table_dados

<table class="table-listar-escola"> <tr> <th style="background-color: #37AB9E">Código</th> <th style="background-color: #37AB9E">Nome</th> <th style="background-color: #37AB9E">Município</th> <th style="background-color: #37AB9E">Dependência Administrativa</th> <th style="background-color: #37AB9E">Localização</th> <th style="background-color: #37AB9E">Endereço</th> </tr> <tr class="coluna" onclick='location.href = "escola/dadosEscola/26124599"'> <td>26124599</td> <td>Escola Eneida Rabello</td> <td>Recife-Pernambuco</td> <td>Estadual</td> <td>Urbana</td> <td>AVENIDA DONA CARENTINA, S/N JORDAO ALTO </td> </tr> <tr class="coluna" onclick='location.href = "escola/dadosEscola/26126125"'> <td>26126125</td> <td>Escola Dom Bosco - Recife</td> <td>Recife-Pernambuco</td> <td>Estadual</td> <td>Urbana</td> <td>ESTRADA DO ARRAIAL, 3208 CASA AMARELA </td> </tr> <tr class="coluna" onclick='location.href = "escola/dadosEscola/26128934"'> <td>26128934</td> <td>Escola Municipal Olindina Monteiro de Oli

In [140]:
linhas = table_dados.find_all('tr')

In [148]:
linhas[0].find_all('td')

[]

In [146]:
linhas[11]

<tr class="coluna" onclick='location.href = "escola/dadosEscola/26126427"'> <td>26126427</td> <td>Escola Municipal Pastor Paulo Leivas Macalao</td> <td>Recife-Pernambuco</td> <td>Municipal</td> <td>Urbana</td> <td>ALTEROSA, 27 LINHA DO TIRO </td> </tr>

Acessar todas as células de uma linha da tabela que contém as informações da escola

In [153]:
table_dados.find_all('tr')[1].find_all('td')

[<td>26166640</td>,
 <td>Escola Municipal de Agua Fria</td>,
 <td>Recife-Pernambuco</td>,
 <td>Municipal</td>,
 <td>Urbana</td>,
 <td>DOS CRAVEIROS, 500 CAMPINA DO BARRETO </td>]

In [157]:
fields = {}

In [168]:
row = table_dados.find_all('tr')[0]
row

<tr> <th style="background-color: #37AB9E">Código</th> <th style="background-color: #37AB9E">Nome</th> <th style="background-color: #37AB9E">Município</th> <th style="background-color: #37AB9E">Dependência Administrativa</th> <th style="background-color: #37AB9E">Localização</th> <th style="background-color: #37AB9E">Endereço</th> </tr>

In [169]:
cols = row.find_all('td')
cols

[]

In [170]:
cols[2].text

IndexError: list index out of range

In [149]:
browser

{'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:12.0) Gecko/20100101 Firefox/12.0'}

Vamos criar agora um código completo de coleta das informações das escolas:

In [150]:
dados_escolas_pe = []

with requests.Session() as s:
    parametros = [
            ('pkCodEntidade', ''),
            ('pkCodEstado', '26'),
            ('pkCodMunicipio', '2611606'),
            ('idDependenciaAdm', ''),
            ('noZona', ''),
            ('idLocalizacaoDiferenciada', ''),
            ('codigoEscola', ''),
            ('noEntidade', ''),
            ('btnSearch', ''),
        ]
    dados_esc = s.post(url, data=parametros, headers=browser)
    soup = BeautifulSoup(dados_esc.content, 'lxml')
    # ATENÇÃO: CÓDIGO ERRADO DE PROPÓSITO
    table_dados = soup.findAll("table")[0]
    for row in table_dados.find_all('tr'):
        fields = {}
        cols = row.find_all('td')
        fields["cod"] = cols[0].text
        fields["nom"] = cols[1].text
        fields["dep"] = cols[2].text
        fields["mun"] = cols[3].text
        fields["loc"] = cols[4].text
        fields["end"] = cols[5].text
        dados_escolas_pe.append(fields)

IndexError: list index out of range

### TRY, EXCEPT, ELSE

Utilizaremos *TRY, EXCEPT, ELSE* para captar exceções em nossos códigos

```
try:
   You do your operations here;
   ......................
except IndexError:
   If there is ExceptionI, then execute this block.
except ExceptionII:
   If there is ExceptionII, then execute this block.
   ......................
else:
   If there is no exception then execute this block. 
```

Vamos ver um exemplo em que abriremos um arquivo *.txt* para escrever algo nele.

Abriremos um arquivo em modo *write* inicialmente:

In [151]:
try:
    fh = open("testfile.txt", "w")
    fh.write("Esse é o meu arquivo para explicar exceções!!")
except IOError:
    print("Error: can\'t find file or read data")
else:
    print("Written content in the file successfully")
    fh.close()

Written content in the file successfully


Abriremos o mesmo arquivo, mas agora em modo *read*. Observe que houve um erro, já que não podemos escrever nada neste arquivo.

In [152]:
try:
    fh = open("testfile.txt", "r")
    fh.write("This is my test file for exception handling!!")
except IOError:
    print("Error: can\'t find file or read data")
except IndentationError:
    print('Erro de Indentação')
else:
    print("Written content in the file successfully")

Error: can't find file or read data


Aqui, utilizaremos o *except* para capturar qualquer exceção.

In [153]:
try:
    fh = open("testfile.txt", "r")
    fh.write("This is my test file for exception handling!!")
except:
    print("Error: can\'t find file or read data")
else:
    print("Written content in the file successfully")

Error: can't find file or read data


Vamos implementar, então, exceções em nosso código de coleta de forma a capturar todas as informações das escolas.

In [155]:
dados_escolas_pe = []

with requests.Session() as s:
    params = [
            ('pkCodEntidade', ''),
            ('pkCodEstado', '26'),
            ('pkCodMunicipio', '2611606'),
            ('idDependenciaAdm', ''),
            ('noZona', ''),
            ('idLocalizacaoDiferenciada', ''),
            ('codigoEscola', ''),
            ('noEntidade', ''),
            ('btnSearch', ''),
        ]
    dados_esc = s.post(url, data=params, headers=browser)
    soup = BeautifulSoup(dados_esc.content, 'lxml')
    # ATENÇÃO: CÓDIGO CORRETO
    try:
        # TENTAR
        table_dados = soup.findAll("table")[0]
    except:
        # SE DER ERRADO, CONTINUAR
        pass
    else:
        # FAZER ALGO
        for row in table_dados.find_all('tr'):
            fields = {}
            cols = row.find_all('td')
            try:
                fields["cod"] = cols[0].text
                fields["nom"] = cols[1].text
                fields["mun"] = cols[2].text
                fields["dep"] = cols[3].text
                fields["loc"] = cols[4].text
                fields["end"] = cols[5].text
            except:
                pass
            else:
                dados_escolas_pe.append(fields)

In [159]:
dados_escolas_pe

[{'cod': '26124599',
  'nom': 'Escola Eneida Rabello',
  'mun': 'Recife-Pernambuco',
  'dep': 'Estadual',
  'loc': 'Urbana',
  'end': 'AVENIDA DONA CARENTINA, S/N JORDAO ALTO '},
 {'cod': '26126125',
  'nom': 'Escola Dom Bosco - Recife',
  'mun': 'Recife-Pernambuco',
  'dep': 'Estadual',
  'loc': 'Urbana',
  'end': 'ESTRADA DO ARRAIAL, 3208 CASA AMARELA '},
 {'cod': '26128934',
  'nom': 'Escola Municipal Olindina Monteiro de Oliveira Franca',
  'mun': 'Recife-Pernambuco',
  'dep': 'Municipal',
  'loc': 'Urbana',
  'end': 'BELA VISTA, 115 DOIS UNIDOS '},
 {'cod': '26157845',
  'nom': 'Escola Municipal Professor Joao Batista Lippo Neto',
  'mun': 'Recife-Pernambuco',
  'dep': 'Municipal',
  'loc': 'Urbana',
  'end': 'BARAO DE CERRO LARGO, S/N VARZEA '},
 {'cod': '26127334',
  'nom': 'Escola de Referencia Em Ensino Medio Jornalista Trajano Chacon',
  'mun': 'Recife-Pernambuco',
  'dep': 'Estadual',
  'loc': 'Urbana',
  'end': 'AVENIDA FORTE DO ARRAIAL NOVO DO BOM JESUS, SN CORDEIRO '},
 {

In [70]:
print(len(dados_escolas_pe))

342


In [160]:
dados_escolas_pe

[{'cod': '26124599',
  'nom': 'Escola Eneida Rabello',
  'mun': 'Recife-Pernambuco',
  'dep': 'Estadual',
  'loc': 'Urbana',
  'end': 'AVENIDA DONA CARENTINA, S/N JORDAO ALTO '},
 {'cod': '26126125',
  'nom': 'Escola Dom Bosco - Recife',
  'mun': 'Recife-Pernambuco',
  'dep': 'Estadual',
  'loc': 'Urbana',
  'end': 'ESTRADA DO ARRAIAL, 3208 CASA AMARELA '},
 {'cod': '26128934',
  'nom': 'Escola Municipal Olindina Monteiro de Oliveira Franca',
  'mun': 'Recife-Pernambuco',
  'dep': 'Municipal',
  'loc': 'Urbana',
  'end': 'BELA VISTA, 115 DOIS UNIDOS '},
 {'cod': '26157845',
  'nom': 'Escola Municipal Professor Joao Batista Lippo Neto',
  'mun': 'Recife-Pernambuco',
  'dep': 'Municipal',
  'loc': 'Urbana',
  'end': 'BARAO DE CERRO LARGO, S/N VARZEA '},
 {'cod': '26127334',
  'nom': 'Escola de Referencia Em Ensino Medio Jornalista Trajano Chacon',
  'mun': 'Recife-Pernambuco',
  'dep': 'Estadual',
  'loc': 'Urbana',
  'end': 'AVENIDA FORTE DO ARRAIAL NOVO DO BOM JESUS, SN CORDEIRO '},
 {

In [161]:
import pandas as pd

In [162]:
df = pd.DataFrame(dados_escolas_pe)

In [163]:
df

Unnamed: 0,cod,nom,mun,dep,loc,end
0,26124599,Escola Eneida Rabello,Recife-Pernambuco,Estadual,Urbana,"AVENIDA DONA CARENTINA, S/N JORDAO ALTO"
1,26126125,Escola Dom Bosco - Recife,Recife-Pernambuco,Estadual,Urbana,"ESTRADA DO ARRAIAL, 3208 CASA AMARELA"
2,26128934,Escola Municipal Olindina Monteiro de Oliveira...,Recife-Pernambuco,Municipal,Urbana,"BELA VISTA, 115 DOIS UNIDOS"
3,26157845,Escola Municipal Professor Joao Batista Lippo ...,Recife-Pernambuco,Municipal,Urbana,"BARAO DE CERRO LARGO, S/N VARZEA"
4,26127334,Escola de Referencia Em Ensino Medio Jornalist...,Recife-Pernambuco,Estadual,Urbana,"AVENIDA FORTE DO ARRAIAL NOVO DO BOM JESUS, SN..."
...,...,...,...,...,...,...
357,26166631,Escola Municipal Engenheiro Edinaldo Miranda d...,Recife-Pernambuco,Municipal,Urbana,"INACIO GALVAO DOS SANTOS, 304 ENCRUZILHADA"
358,26128101,Escola de Referencia Em Ensino Medio de Beberibe,Recife-Pernambuco,Estadual,Urbana,"RUA URIEL DE HOLANDA, 219 BEBERIBE"
359,26128462,Escola Professor Pedro Augusto Carneiro Leao,Recife-Pernambuco,Estadual,Urbana,"AVENIDA BEBERIBE, 2595 FUNDAO"
360,26153475,Escola Municipal Vila Santa Luzia,Recife-Pernambuco,Municipal,Urbana,"ELIZEU CAVALCANTI, 52 CORDEIRO"


In [1]:
df[df['nom'].str.contains("sao luis")]

NameError: name 'df' is not defined

In [166]:
codigos = df["cod"].tolist()

In [167]:
codigos

['26124599',
 '26126125',
 '26128934',
 '26157845',
 '26127334',
 '26128721',
 '26153599',
 '26122545',
 '26122952',
 '26126427',
 '26126630',
 '26123380',
 '26123649',
 '26124114',
 '26124556',
 '26124831',
 '26125560',
 '26128322',
 '26128705',
 '26177951',
 '26177960',
 '26122014',
 '26122227',
 '26122553',
 '26122960',
 '26123479',
 '26123703',
 '26124580',
 '26124858',
 '26121247',
 '26121638',
 '26121948',
 '26136335',
 '26122847',
 '26123258',
 '26122260',
 '26122987',
 '26123487',
 '26123720',
 '26124190',
 '26177978',
 '26119170',
 '26119897',
 '26120585',
 '26178230',
 '26119196',
 '26119927',
 '26120607',
 '26123231',
 '26123550',
 '26124432',
 '26124688',
 '26125013',
 '26126672',
 '26125706',
 '26139090',
 '26139723',
 '26155818',
 '26166623',
 '26126141',
 '26155850',
 '26123576',
 '26124467',
 '26124777',
 '26125510',
 '26175363',
 '26127270',
 '26124874',
 '26148161',
 '26125293',
 '26125641',
 '26125986',
 '26126214',
 '26171740',
 '26171767',
 '26212404',
 '26179610',

In [168]:
for cod in codigos:
    url = 'http://idebescola.inep.gov.br/ideb/escola/dadosEscola/'+cod
    print(url)

http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26124599
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26126125
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26128934
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26157845
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26127334
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26128721
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26153599
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26122545
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26122952
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26126427
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26126630
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26123380
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26123649
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26124114
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26124556
http://idebescola.inep.gov.br/ideb/escola/dadosEscola/2

In [184]:
codigos = df['cod'].tolist()

In [186]:
codigos[1]

'26153386'

In [169]:
dados_final = []
with requests.Session() as s:
    for cod in codigos:
        url = 'http://idebescola.inep.gov.br/ideb/escola/dadosEscola/'+cod
        pagina = s.get(url, headers=browser)
        soup = BeautifulSoup(pagina.content, 'lxml')
        table_dados = soup.findAll("table")[0]
        fields = {}
        for row in table_dados.find_all('tr'):
            cols = row.find_all('td')
            fields[cols[0].text] = cols[1].text
        dados_final.append(fields)
        print(fields)

{'Código da escola ': '26124599', 'Endereço': 'AVENIDA DONA CARENTINA, S/N ', 'Bairro': 'JORDAO ALTO', 'CEP': '51260-040', 'Município': 'Recife', 'UF': 'Pernambuco', 'Dependência Administrativa': 'Estadual', 'Localização': 'Urbana', 'Localização diferenciada': 'Não Se Aplica'}
{'Código da escola ': '26126125', 'Endereço': 'ESTRADA DO ARRAIAL, 3208 ', 'Bairro': 'CASA AMARELA', 'CEP': '52070-000', 'Município': 'Recife', 'UF': 'Pernambuco', 'Dependência Administrativa': 'Estadual', 'Localização': 'Urbana', 'Localização diferenciada': 'Não Se Aplica'}
{'Código da escola ': '26128934', 'Endereço': 'BELA VISTA, 115 ', 'Bairro': 'DOIS UNIDOS', 'CEP': '52140-340', 'Município': 'Recife', 'UF': 'Pernambuco', 'Dependência Administrativa': 'Municipal', 'Localização': 'Urbana', 'Localização diferenciada': 'Não Se Aplica'}
{'Código da escola ': '26157845', 'Endereço': 'BARAO DE CERRO LARGO, S/N ', 'Bairro': 'VARZEA', 'CEP': '50960-460', 'Município': 'Recife', 'UF': 'Pernambuco', 'Dependência Adminis

KeyboardInterrupt: 

In [171]:
dados_final

[{'Código da escola ': '26124599',
  'Endereço': 'AVENIDA DONA CARENTINA, S/N ',
  'Bairro': 'JORDAO ALTO',
  'CEP': '51260-040',
  'Município': 'Recife',
  'UF': 'Pernambuco',
  'Dependência Administrativa': 'Estadual',
  'Localização': 'Urbana',
  'Localização diferenciada': 'Não Se Aplica'},
 {'Código da escola ': '26126125',
  'Endereço': 'ESTRADA DO ARRAIAL, 3208 ',
  'Bairro': 'CASA AMARELA',
  'CEP': '52070-000',
  'Município': 'Recife',
  'UF': 'Pernambuco',
  'Dependência Administrativa': 'Estadual',
  'Localização': 'Urbana',
  'Localização diferenciada': 'Não Se Aplica'},
 {'Código da escola ': '26128934',
  'Endereço': 'BELA VISTA, 115 ',
  'Bairro': 'DOIS UNIDOS',
  'CEP': '52140-340',
  'Município': 'Recife',
  'UF': 'Pernambuco',
  'Dependência Administrativa': 'Municipal',
  'Localização': 'Urbana',
  'Localização diferenciada': 'Não Se Aplica'},
 {'Código da escola ': '26157845',
  'Endereço': 'BARAO DE CERRO LARGO, S/N ',
  'Bairro': 'VARZEA',
  'CEP': '50960-460',
  

In [172]:
pd.DataFrame(dados_final)

Unnamed: 0,Código da escola,Endereço,Bairro,CEP,Município,UF,Dependência Administrativa,Localização,Localização diferenciada
0,26124599,"AVENIDA DONA CARENTINA, S/N",JORDAO ALTO,51260-040,Recife,Pernambuco,Estadual,Urbana,Não Se Aplica
1,26126125,"ESTRADA DO ARRAIAL, 3208",CASA AMARELA,52070-000,Recife,Pernambuco,Estadual,Urbana,Não Se Aplica
2,26128934,"BELA VISTA, 115",DOIS UNIDOS,52140-340,Recife,Pernambuco,Municipal,Urbana,Não Se Aplica
3,26157845,"BARAO DE CERRO LARGO, S/N",VARZEA,50960-460,Recife,Pernambuco,Municipal,Urbana,Não Se Aplica
4,26127334,"AVENIDA FORTE DO ARRAIAL NOVO DO BOM JESUS, SN",CORDEIRO,50721-110,Recife,Pernambuco,Estadual,Urbana,Não Se Aplica
5,26128721,"RUA CHA DE ALEGRIA, 117, BEBERIBE",BOMBA DO HEMETERIO,52211-130,Recife,Pernambuco,Estadual,Urbana,Não Se Aplica
6,26153599,"GUAIRA, 160",LINHA DO TIRO,52131-210,Recife,Pernambuco,Municipal,Urbana,Não Se Aplica
7,26122545,"RUA MARECHAL DEODORO, 626, - DE 533/534 AO FIM",CAMPO GRANDE,52031-440,Recife,Pernambuco,Estadual,Urbana,Não Se Aplica
8,26122952,"AVENIDA RECIFE, S/N, CONJ. INES ANDREAZZA",ESTANCIA,50860-900,Recife,Pernambuco,Estadual,Urbana,Não Se Aplica
9,26126427,"ALTEROSA, 27",LINHA DO TIRO,52131-410,Recife,Pernambuco,Municipal,Urbana,Não Se Aplica


In [193]:
'http://idebescola.inep.gov.br/ideb/escola/dadosEscola/'+cod

'http://idebescola.inep.gov.br/ideb/escola/dadosEscola/26122464'

In [77]:
t

