# Python 2 - obtenha dados estruturados da web com requests

<h4>Por <a href="https://www.twitter.com/tbkaas">Tommy Kaas</a> e <a href="https://www.twitter.com/nmulvad">Nils Mulvad</a>, Kaas & Mulvad</h4>

Este notebook acompanha a sessão "python 2" sobre como recuperar **dados estruturados** da Internet.

Atualmente, o formato mais usado para dados estruturados em aplicativos da web é um formato chamado **JSON**. Outro formato difundido é o XML.

Python traduz **JSON** para um *dicionário* ou *lista*, sobre o qual falamos na primeira sessão. Ou seja, estruturas de dados bastante fáceis de trabalhar em Python.

A terceira sessão será sobre **dados não estruturados**. Às vezes, precisamos apenas raspar os dados conforme eles são exibidos em uma página da web e depois limpá-los.

---
O Python *pode* entrar na Internet, mas é um pouco confuso. É por isso que instalamos a biblioteca `requests`, isso facilita a entrada na Internet com Python e a transferência de dados para o nosso computador.

Leia mais sobre isso aqui: `http://docs.python-requests.org/en/master/`

---

![](images\requests_website.jpg)

---

As bibliotecas que não vêm com a instalação padrão (ou seja, as que baixamos com *pip install* ...) devem ser importadas antes de podermos usá-las. Você pode importar a biblioteca inteira ...

```python
import library
```

... ou uma parte da biblioteca como esta ...

```python
from library import function
```

Você pode ler mais sobre isso [aqui](https://softwareengineering.stackexchange.com/questions/187403/import-module-vs-from-module-import-function). 

Vamos precisar de *toda* ferramenta `requests`, então vamos usar `import ...`, quando usamos`requests`.  

Importe `requests` na célula abaixo e começaremos.

In [1]:
# importe a biblioteca requests abaixo
import requests


Muito fácil, certo?

Apenas para ilustrar como funciona, usaremos um serviço da web que nos permite recuperar cotações (notas) dos Simpsons no formato **JSON**, ou seja, **dados estruturados**.

---

![](images\simpsons.png)

---

O serviço possui uma API, que é uma interface projetada para facilitar e acelerar o download de dados brutos programaticamente. O URL que visitamos para recuperar esses dados brutos é chamado de *ponto de extremidade da API* ou *API endpoint*.

O *endpoint* do serviço de cotação pode ser encontrado aqui:

`https://thesimpsonsquoteapi.glitch.me/quotes`

A recuperação dos dados agora é tão simples quanto as seguintes linhas:

```python
url = "https://thesimpsonsquoteapi.glitch.me/quotes"
response = requests.get(url)
data = response.json()
print(data)```

E devemos obter dados como este:

---

![](images\simpsons2.png)

---

Vamos dividir o código linha por linha:
- criamos um objeto, `url`, para a URL onde podemos recuperar dados (linha 1)
- usamos `requests` e visitamos a URL e colocamos toda a resposta do servidor no objeto` response` (linha 2)
- criamos um objeto, `data` e colocamos os dados **JSON** incluídos na` response` (linha 3)
- imprimimos `data` para ver o que extraímos (linha 4)

---

Sua vez: Faça o mesmo na célula abaixo (NOTA: você não aprende com copiar / colar, mas com a repetição - código, código, código!).

Então: crie uma variável com a URL a partir do qual recuperamos dados. Recupere dados, extraia JSON e imprima o resultado. Vai!

In [1]:
# defina a variável para o endpoint que você deseja visitar
url = "https://thesimpsonsquoteapi.glitch.me/quotes"

# visite o endpoint com requests e preencha a resposta em um objeto, response

# recuperar JSON em uma nova variável, data

# imprimir data



Esse é basicamente o método que usamos para recuperar dados de uma API aberta.

Chamamos a resposta completa do servidor `response`.

Normalmente, os programadores chamam isso de `r`

Esteja preparado para ver um código como este na web:

`r = requests.get(url)`

Não há mágica no uso de `url`. É apenas uma boa prática tornar suas linhas de código o mais curtas e claras possíveis. Você pode escrever o código da seguinte maneira:

`response = requests.get("https://thesimpsonsquoteapi.glitch.me/quotes")`

Mas seria mais difícil de ler e, em geral, o código Python deve ser simples de ler, e as linhas individuais não devem ser muito longas.

---

![](images\digression.png)

---

Vamos ver o que acontece, quando escrevemos `.json()`: 

Quando visitamos a API dos Simpsons com `requests`, recuperaremos dados e metadados. Vamos nos concentrar nos dados nesta sessão.

Porque sabemos que a API retorna dados **JSON**, podemos usar uma função incorporada`requests` que extrai esses dados **JSON** e os converte em algo com o qual podemos trabalhar facilmente.

Especificamente, `requests` converte a parte do nosso `response` contendo dados **JSON** em uma estrutura de dados Python - uma lista ou um dicionário.

Em caso de dúvida sobre que tipo de dados você obteve, sempre é possível testá-lo com a função `type(my_object)` - onde `my_object` é o nome do objeto que você deseja examinar (no exemplo dos Simpsons, o objeto é chamado `data`). E se, por exemplo, `my_object` acaba sendo uma lista, você pode ver quantos elementos ela contém, com a função `len(my_object)`

Experimente você mesmo abaixo: Use `type()` e `len()` em `data` e veja de que tipo de dados você extraiu de `response` com a função `.json ()`. Quantos elementos contêm `data`?


In [None]:
# use type () no objeto, data, que você criou acima


# use len () no objeto data, criado acima



Antes de obtermos mais dados com `requests`, apresentaremos uma ferramenta que facilita um pouco o trabalho com dados **JSON** no Python.

Nosso objeto `data` foi bastante difícil de ler, porque usamos a função `print()`

Todos os dados saíram exatamente como uma linguiça longa, sem os recuos que você veria se acessasse os mesmos dados em um navegador (com um plug-in JSON Viewer).

O Python possui uma biblioteca interna que exibe os dados **JSON** de uma maneira mais legível. Essa biblioteca é chamada `pprint` (*pretty print*). Antes de podermos usá-la (como`requests`) teremos que importá-la.

A biblioteca `pprint` possui várias funções internas. O que precisamos é - talvez um pouco confuso - chamado de com o mesmo nome da biblioteca, ou seja, `pprint`.

Podemos importar e usá-la de duas maneiras:

- Nós importamos a biblioteca inteira, `import pprint`. Agora podemos imprimir `data` como `pprint.pprint (data) `.
- Importamos apenas a função desejada da biblioteca, `from pprint import pprint`. Agora podemos imprimir `data` do seguinte modo:`pprint(data)`

Nós preferimos a segunda opção. Mas tente abaixo - importe a função e pprint `data` da API dos Simpsons.

In [None]:
# importe pprint do pprint
from pprint import pprint

# pprint o objeto data (da Simpsons' API)
pprint(data)


OK. Antes de fazer o download de mais dados da Web, também vamos nos concentrar no que realmente fizemos acima com a API dos Simpsons.
Você deve se lembrar de escrever: `response = requests.get(url)` 
*.get.que??*

Sim - `GET`!

---
![](images\digression.png)

---

Existem várias maneiras pelas quais nosso computador (normalmente através de um navegador) se comunica com servidores - os dois mais usados são `GET` e` POST` (leia mais aqui sobre: `https://www.w3schools.com/tags/ref_httpmethods.asp`).

Nós escrevemos `GET` em maiúsculas aqui, porque é a convenção usada para os chamados métodos HTTP.

Hoje, vamos lidar apenas com `GET`, como` POST` no contexto de raspagem é usado principalmente para tarefas mais avançadas - incluindo o logon em sites antes de recuperar dados.

A biblioteca `requests` (e todas as outras bibliotecas) tem muitas funções (métodos) embutidas. Podemos usá-las escrevendo `requests.name_of_function`.

Uma das funções em `requests` é chamada` .get() `- ou seja, o mesmo nome que o método HTTP `GET`. Quando você escreve `requests.get("https://www.bbc.co.uk")` você pede ao `requests` para usar a função` .get` para fazer um `GET` pedido para o site da BBC.

![](images/requests_methods.jpg)

`requests` possui muitas funções integradas. Para bibliotecas, em geral, podemos inspecionar as várias opções em nosso notebook. Isso é feito digitando um ponto após o nome da nossa biblioteca - ou objeto - e pressionando`TAB`. É assim que o menu suspenso acima apareceu. Essa funcionalidade é chamada *preenchimento automático*.

Em seguida, nosso notebook fornece uma lista mais longa que nos diz quais opções podemos escolher. Atalho super inteligente. Você seleciona o azul pressionando `ENTER`. Tente você mesmo abaixo no seu objeto de resposta. Tipo `response.` e pressione `TAB`.

In [None]:
# tente isso - teste a conclusão automática na sua 'response'



Agora - vamos para outro site e outra maneira de localizar dados.

Alguns sites oferecem uma boa API - https://api.opencorporates.com/documentation/API-Reference é um dos muitos. Muitos outros sites não mencionam nada sobre o acesso aos dados por meio de uma API - mas eles ainda podem ter uma, que o site usa para obter os dados nas páginas. Nós podemos nos beneficiar disso.

A pesquisa de uma API geralmente é feita via *Developer Tools*, que está embutida na maioria dos navegadores hoje. No Chrome e no Firefox, você pode abrir *Developer Tools* pressionando `CTRL + SHIFT + I`. Você também pode clicar com o botão direito do mouse em um determinado local no navegador e selecionar "Examinar" ou "Inspecionar elemento". (Nota da tradução: neste exemplo o Chrome mostra o fluxo da rede de forma melhor)

A seção em *Developer Tools*, que permite ver rapidamente qual tráfego nosso navegador é chamado `Network` (Rede).

Um exemplo de site fácil de estudar - ou *engenharia reversa* - para que possamos extrair dados **JSON** e evitar capturas de tela muito mais lentas e que consomem tempo é dk-hostmaster.dk - o registro de domínio dinamarquês. Usaremos a versão em inglês do site.

Com a aba "Rede" aberta, vamos abrir https://www.dk-hostmaster.dk/en/find-domain-name, e insira um URL - por exemplo `kaasogmulvad.dk`. Agora podemos ver de onde o site obtém seus dados, quando fazemos a pesquisa.

![dk-hostmaster-km.jpg](attachment:dk-hostmaster-km.jpg)

Então - na verdade, este site tinha uma API. E parece que o dk-hostmaster.dk recupera dados de um URL que se parece com isso:

`https://whois-api.dk-hostmaster.dk/domain/kaasogmulvad.dk`

Já aprendemos que podemos procurar informações do registro simplesmente adicionando um domínio ao final do URL.

Agora, vamos tentar usar esse conhecimento para criar um raspador que use um domínio como entrada e cuspa os proprietários atuais para o domínio especificado.

---

Quando visitamos o registro de domínio com Python e `requests` receberemos um erro.

Se tivéssemos mais tempo, poderíamos dar uma explicação completa e longa, mas por enquanto a versão curta é que alguns sites não gostam de pessoas como nós, que acessam seu site usando código Python etc.

É por isso que nós, na parte superior do raspador, incluiremos um `header`, cujo objetivo é fazer com que parecemos um hóspede comum usando um navegador. Na verdade, no cabeçalho, poderíamos adicionar informações completas sobre quem somos e por que estamos raspando.

Quando temos dúvidas sobre qual é o problema em uma chamada para um servidor, geralmente começamos a copiar o cabeçalho inteiro. Podemos vê-lo no navegador na guia Rede das Ferramentas do desenvolvedor ao pesquisar em um determinado domínio. Clique na chamada, selecione "cabeçalho" à direita e role para baixo levemente. Então você verá algo como o abaixo

![headers.jpg](attachment:headers.jpg)

Os dados acima não aparecem exatamente como deveriam. Deve ser um *dicionário* válido. Ou seja: eles devem entrar entre colchetes. Precisamos de aspas ao redor deles e eles devem ser separados por vírgulas.

Então você deve copiar e editar. E deve ficar assim:

```python
header = {
    "Accept":"application/json",
    "Accept-Encoding":"gzip, deflate, br",
    "Accept-Language":"da-DK,da;q=0.9,en-US;q=0.8,en;q=0.7",
    "Connection":"keep-alive",
    "Host":"whois-api.dk-hostmaster.dk",
    "Origin":"https://www.dk-hostmaster.dk",
    "Referer":"https://www.dk-hostmaster.dk/da/find-domaenenavn",
    "User-Agent":"Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36"
}
```

In [None]:
# Vamos tentar:
# import requests e pprint
import requests
from pprint import pprint

# Obtenha o cabeçalho (header), usado pelo seu navegador quando você pesquisar um site - edite-o até que ele seja um dict adequado

header = {
    "Accept":"application/json",
    "Accept-Encoding":"gzip, deflate, br",
    "Accept-Language":"da-DK,da;q=0.9,en-US;q=0.8,en;q=0.7",
    "Connection":"keep-alive",
    "Host":"whois-api.dk-hostmaster.dk",
    "Origin":"https://www.dk-hostmaster.dk",
    "Referer":"https://www.dk-hostmaster.dk/da/find-domaenenavn",
    "User-Agent":"Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36"
}

# visite a API dk-hostmaster novamente - com o cabeçalho

url = "https://whois-api.dk-hostmaster.dk/domain/kaasogmulvad.dk"

# enviamos o URL e o cabeçalho e recuperamos os dados via .json ()
r = requests.get(url, headers=header)

data = r.json()

pprint(data)

In [None]:
#testar o tipo do objeto "dados"
print(type(data))

In [None]:
#test o comprimento do objeto "data"
print(len(data))

In [None]:
#check as chaves do dict
keys = data.keys()
print(keys)

In [None]:
# O que acontece se tentarmos extrair o nome do proprietário?
pprint(data['registrant'])

O que eu recebo é o seguinte:

![ownerinfo.jpg](attachment:ownerinfo.jpg)

Então o `value` pertencente ao `key` registrante não é apenas um nome. É outro dict

**Extraia o nome do dict:**

In [None]:
# extraímos o nome usando as chaves relevantes


In [None]:
# e se quisermos combinar os dados e criar um texto, poderíamos fazê-lo dessa maneira.
# primeiro defina onde encontrar os tipos de informação:

site = data['domain']
date = data['createddate']
owner = data['registrant']['name']
street = data['registrant']['street1']
zip = data['registrant']['zipcode']
city = data['registrant']['city']

# e depois combine as peças. (A propósito, é o que as pessoas chamam de "jornalismo de robôs" hoje em dia ...)

print("{} foi criado em {} e pertence a {}. O endereço é {}, {} {}.".format(site, date, owner, street, zip, city))

No dict "data", você deve ter notado uma chave chamada userid.
No dk-hostmaster-site, também podemos procurar o ID do usuário e obter uma lista de todos os domínios pertencentes ao mesmo ID do usuário.

O endpoint para este serviço de API é:
https://whois-api.dk-hostmaster.dk/domain/list/handle/{}/role/registrant

Nos colchetes, o userid deve ser inserido.

Um script para extrair todos os domínios pode ser assim:

In [None]:
import requests
from pprint import pprint

# ainda precisamos enviar informações do cabeçalho.
# mas a única parte necessária do bloco de cabeçalho maior anterior passa a ser essa parte.

header ={
    "Accept":"application/json"
}

url = "https://whois-api.dk-hostmaster.dk/domain/list/handle/{}/role/registrant"
km_userid = "KMA383-DK"

r = requests.get(url.format(km_userid), headers=header)

data = r.json()

pprint(data)
#pprint(data['domains'])

# como veremos, se imprimi-lo, `data['domains']` `é uma lista com um dict para cada domínio pertencente ao ID do usuário.
# Uma boa maneira de extrair isso de uma maneira mais legível é usando um loop:

#for domain in data['domains']:
#    print(domain['domain'])

