# Módulo de Programação Python

# Trilha Python - Aula 2X: Requests

<img align="center" style="padding-right:10px;" src="Figuras/aula-25_fig_01.png">

## Pegando os dados direto da Internet



In [1]:
import pandas as pd
url = "https://www.stats.govt.nz/assets/Uploads/Business-employment-data/Business-employment-data-September-2023-quarter/Download-data/business-employment-data-september-2023-quarter.zip"
train = pd.read_table(url)
train.head()

Unnamed: 0,"Series_reference,Period,Data_value,Suppressed,STATUS,UNITS,Magnitude,Subject,Group,Series_title_1,Series_title_2,Series_title_3,Series_title_4,Series_title_5"
0,"BDCQ.SEA1AA,2011.06,80078,,F,Number,0,Business..."
1,"BDCQ.SEA1AA,2011.09,78324,,F,Number,0,Business..."
2,"BDCQ.SEA1AA,2011.12,85850,,F,Number,0,Business..."
3,"BDCQ.SEA1AA,2012.03,90743,,F,Number,0,Business..."
4,"BDCQ.SEA1AA,2012.06,81780,,F,Number,0,Business..."


## Uma introdução à biblioteca __Requests__ de Python

A biblioteca __Requests__ foi desenvolvida com o objetivo de simplificar a realização de solicitações __HTTP__ para servidores _web_ e o trabalho tratar as respostas a estas solicitações.

A biblioteca de __Requests__ é o padrão de fato para fazer solicitações __HTTP__ em __Python__. Ela abstrai as complexidades de fazer solicitações por trás de uma __API__ simples e bonita para que você possa se concentrar na interação com serviços e no consumo de dados em seu aplicativo. 

Os métodos implementados na biblioteca __Requests__ executam operações __HTTP__ em um servidor _web_ especificado pela sua __URL__. Eles também suportam o envio de informações extras para o servidor por meio de parâmetros e cabeçalhos, codificando as respostas do servidor, detectando erros e manipulando redirecionamentos. 

Além de simplificar a forma como trabalhamos com as operações __HTTP__, a biblioteca __Requests__ fornece alguns recursos avançados, como tratamento de exceções __HTTP__ e autenticação.

In [None]:
#pip install requests

Depois que p __Requests__ for instalado basta importar o pacote para usar seus recursos.

In [None]:
import requests

### Usando GET

Métodos __HTTP__, como ``GET`` e ``POST``, determinam qual ação você está tentando executar ao fazer uma solicitação __HTTP__. 

Além destas solicitações, existem vários outros métodos comuns que usaremos posteriormente.

Um dos métodos __HTTP__ mais comuns é GET. O método GET indica que você está tentando obter ou recuperar dados de um determinado recurso. Para fazer uma solicitação ``GET``, se utiliza ``requests.get()``.

Vamos testar fazendo uma solicitação ``GET`` para a __API Root REST__ do __GitHub__ chamando get().

In [None]:
requests.get('https://api.github.com')

### A resposta

Uma resposta é um objeto poderoso que permite inspecionar os resultados da solicitação. 

Podemos fazer a mesma solicitação novamente, mas desta vez armazenamos o valor de retorno em uma variável para que você possa ver com mais detalhes seus atributos e comportamentos.

In [None]:
resposta = requests.get('https://api.github.com')

In [None]:
type(resposta)

#### Códigos de status
A primeira informação que você pode coletar do ``Response`` é o código de status. Um código de status informa sobre o status da solicitação.

Por exemplo, um status 200 OK significa que sua solicitação foi bem-sucedida, enquanto um status 404 NOT FOUND significa que o recurso que você estava procurando não foi encontrado. 

Existem muitos outros códigos de status possíveis para fornecer informações específicas sobre o que aconteceu com sua solicitação.

Acessando ``.status_code``, você pode ver o código de status que o servidor retornou.

In [None]:
resposta.status_code

O ``.status_code`` retornou 200, o que significa que sua solicitação foi bem-sucedida e o servidor respondeu com os dados que você estava solicitando.

Às vezes, você pode querer usar essas informações para tomar decisões em seu código.

In [None]:
if resposta.status_code == 200:
    print('Solicitação atendida!')
elif resposta.status_code == 404:
    print('Não encontrado.')

Entretanto, se você usar uma instância ``Response`` em uma expressão condicional, ela será avaliada como ``True`` se o código de status estiver entre 200 e 400 e como ``False`` caso contrário.

In [None]:
if resposta:
    print('Solicitação atendida!')
else:
    print('Não encontrado.')

Lembre-se de que este método não verifica se o código de status é igual a 200. A razão para isso é que outros códigos de status na faixa de 200 a 400, como 204 NO CONTENT e 304 NOT MODIFIED, também são considerados bem-sucedidos no sentido que eles fornecem alguma resposta viável.

Por exemplo, o 204 informa que a resposta foi bem-sucedida, mas não há conteúdo para retornar no corpo da mensagem.

Por outro lado, se você não quer verificar o código de status da resposta em uma instrução if. Em vez disso, você deseja gerar uma exceção se a solicitação não tiver êxito. Você pode fazer isso usando método ``.raise_for_status()``:

In [None]:
from requests.exceptions import HTTPError

for url in ['https://api.github.com', 'https://api.github.com/invalid']:
    try:
        resposta = requests.get(url)
        resposta.raise_for_status()
    except HTTPError as http_err:
        print(f'Aconteceu um erro HTTP: {http_err}') 
    except Exception as err:
        print(f'Aconteceu outro tipo de erro: {err}') 
    else:
        print('Solicitação atendida!')

Se você utiliza o método ``.raise_for_status()``, um ``HTTPError`` será gerado para determinados códigos de status. Se o código de status indicar uma solicitação bem-sucedida, o programa continuará sem que essa exceção seja gerada.

Já temos um boa ideia de como lidar com o código de status da resposta recebida do servidor. Entretanto, a parte mais importante da resposta do servidor costuma ser o conteúdo da mesma.

#### Conteúdo

A resposta de uma solicitação ``GET`` geralmente contém algumas informações valiosas, conhecidas como carga útil, no corpo da mensagem. Usando os atributos e métodos de ``Response``, você pode visualizar a carga em vários formatos diferentes.

In [None]:
resposta = requests.get('https://api.github.com')
resposta.content

In [None]:
type(resposta.content)

Embora o atributo ``.content`` forneça acesso aos bytes brutos da carga útil da resposta, muitas vezes você desejará convertê-los em uma string usando uma codificação de caracteres como UTF-8. A classe ``Response`` fornece este tipo de informação no atributo  ``.text``.

In [None]:
resposta.text

In [None]:
type(resposta.text)

Como a decodificação de bytes para um ``str`` requer um esquema de codificação, as requests tentarão adivinhar a codificação com base nos cabeçalhos da resposta, se você não especificar um. Você pode fornecer uma codificação explícita definindo ``.encoding`` antes de acessar ``.text``.

In [None]:
resposta.encoding  # o encoding definido no cabeçalho da resposta

In [None]:
# Neste outro exeplo
url = "https://portal.inmet.gov.br/uploads/dadoshistoricos/"
dataTem = requests.get(url)
dataTem.encoding

In [None]:
dataTem.text

In [None]:
# Neste caso podemos mudar a codificação
dataTem.encoding = 'UTF-8'

In [None]:
dataTem.text

Se você reparar na resposta, verá que na verdade o conteúdo é um __JSON__ serializado. Para obter um dicionário, você pode pegar o ``str`` recuperado de ``.text`` e transforma-lo usando ``json.loads()``.

Porém, uma maneira mais simples de realizar esta tarefa é usar método ``.json()``.

In [None]:
import json
meuJson = json.loads(resposta.text)
meuJson

In [None]:
resposta.json()

O tipo de valor de retorno de .json() é um dicionário, então você pode acessar valores no objeto por chave.

Se você precisar de mais informações, como metadados sobre a resposta em si, você precisará examinar os cabeçalhos da resposta.

#### Cabeçalhos

Os cabeçalhos de resposta podem fornecer informações úteis, como o tipo de conteúdo da carga útil da resposta e um limite de tempo para armazenar a resposta em cache. Para visualizar esses cabeçalhos, acesse ``.headers``.

In [None]:
resposta.headers

Repare que o ``.headers`` retorna um objeto semelhante a um dicionário, permitindo acessar valores de cabeçalho por chave. Por exemplo, para ver o tipo de conteúdo da carga útil da resposta, você pode acessar ``Content-Type``.

In [None]:
resposta.headers['content-type']

Diferente de um dicionário, se você usa a chave 'content-type' ou 'Content-Type', obterá o mesmo valor.

### Parâmetros de string de consulta

Uma maneira comum de personalizar uma solicitação ``GET`` é passar valores por meio de parâmetros de _string_ de consulta na __URL__. Para fazer isso usando ``get()``, você passa dados para parâmetros. Por exemplo, você pode usar a __API__ de pesquisa do __GitHub__ para procurar o repositorio do curso.

In [None]:
# Search GitHub's repositories for ResTIC18
resposta = requests.get(
    'https://api.github.com/search/repositories',
    params={'q': 'ResTIC18'},
)

# Inspect some attributes of the `ResTIC18` repository
json_response = resposta.json()
repository = json_response['items'][0]
print(f'Repository name: {repository["name"]}')  # Python 3.6+
print(f'Repository description: {repository["description"]}')  

Ao passar o dicionário {'q': 'ResTIC18'} para o parâmetro ``params`` do método ``.get()``, você pode modificar os resultados que retornam da __API__ de pesquisa.

Você pode passar parâmetros para get() na forma de um dicionário, como acabou de fazer, ou como uma lista de tuplas.

In [None]:
requests.get('https://api.github.com/search/repositories',params=[('q', 'ResTIC18')])

Ou ainda, pode até passar os valores como bytes.

In [None]:
requests.get('https://api.github.com/search/repositories', params=b'q=ResTIC18')

Strings de consulta são úteis para parametrizar requests ``GET``. Você também pode personalizar suas solicitações adicionando ou modificando os cabeçalhos enviados.

#### Cabeçalhos do request

Para personalizar cabeçalhos, você passa um dicionário de cabeçalhos __HTTP__ para ``get()`` usando o parâmetro headers. Por exemplo, você pode alterar sua solicitação de pesquisa anterior para destacar termos de pesquisa correspondentes nos resultados, especificando o tipo de mídia de correspondência de texto no cabeçalho ``Accept``.

In [None]:
resposta = requests.get('https://api.github.com/search/repositories',
                        params={'q': 'ResTIC18'},
                        headers={'Accept': 'application/vnd.github.v3.text-match+json'},
)

json_response = resposta.json()
repository = json_response['items'][0]
print(f'Text matches: {repository["text_matches"]}')

O cabeçalho ``Accept`` informa ao servidor quais tipos de conteúdo seu aplicativo pode manipular. Nesse caso, como você espera que os termos de pesquisa correspondentes sejam destacados, você está usando o valor do cabeçalho ``application/vnd.github.v3.text-match+json``, que é um cabeçalho proprietário do __GitHub__ Accept onde o conteúdo é um formato __JSON__ especial.

### Outros métodos HTTP
Além de ``GET``, outros métodos __HTTP__ populares incluem ``POST``, ``PUT``, ``DELETE``, ``HEAD``, ``PATCH`` e ``OPTIONS``. A __Requests__ fornece um método, com uma assinatura semelhante a ``get()``, para cada um destes métodos __HTTP__.

In [None]:
requests.post('https://httpbin.org/post', data={'key':'value'})
requests.put('https://httpbin.org/put', data={'key':'value'})
requests.delete('https://httpbin.org/delete')
requests.head('https://httpbin.org/get')
requests.patch('https://httpbin.org/patch', data={'key':'value'})
requests.options('https://httpbin.org/get')

Cada chamada de função faz uma solicitação ao serviço [httpbin](https://httpbin.org/) usando o método __HTTP__ correspondente. Para cada método, você pode inspecionar as respostas da mesma forma que fez antes.

In [None]:
resposta = requests.post('https://httpbin.org/post', data={'key':'value'})
resposta.json()

Cabeçalhos, corpos de resposta, códigos de status e muito mais são retornados na Resposta para cada método. Vamos entender melhor como funcionam os métodos ``POST``, ``PUT`` e ``PATCH``.

### O corpo da mensagem

De acordo com a especificação __HTTP__, as solicitações ``POST``, ``PUT`` e ``PATCH`` menos comuns passam seus dados por meio do corpo da mensagem em vez de por meio de parâmetros na string de consulta. Usando __Requests__, você passará a carga para o parâmetro ``data`` da função correspondente.

O parâmetro ``data`` leva um dicionário, uma lista de tuplas, bytes ou um objeto semelhante a um arquivo. Você desejará adaptar os dados enviados no corpo da sua solicitação às necessidades específicas do serviço com o qual está interagindo.

Por exemplo, se o tipo de conteúdo da sua solicitação for ``application/x-www-form-urlencoded``, você poderá enviar os dados do formulário como um dicionário.

In [None]:
requests.post('https://httpbin.org/post', data={'key':'value'})

Você também pode enviar os mesmos dados como uma lista de tuplas.

In [None]:
requests.post('https://httpbin.org/post', data=[('key', 'value')])

Se, no entanto, você precisar enviar dados __JSON__, poderá usar o parâmetro ``json``. Quando você passa dados via ``json``, as solicitações serializarão seus dados e adicionarão o cabeçalho ``Content-Type`` correto para você.

O site httpbin.org é um ótimo recurso criado pelo autor de __Requests__, Kenneth Reitz. É um serviço que aceita solicitações de teste e responde com dados sobre as solicitações. Por exemplo, você pode usá-lo para inspecionar uma solicitação POST básica.

In [None]:
resposta = requests.post('https://httpbin.org/post', json={'key':'value'})
json_response = resposta.json()
json_response['data']

In [None]:
json_response['headers']['Content-Type']

### Inspecionando seu request

Quando você faz uma solicitação, a biblioteca de __Requests__ prepara a solicitação antes de enviá-la ao servidor de destino. A preparação da solicitação inclui itens como validação de cabeçalhos e serialização de conteúdo __JSON__.

Você pode visualizar o ``PreparedRequest`` acessando ``.request``.

In [None]:
response = requests.post('https://httpbin.org/post', json={'key':'value'})
response.request.headers['Content-Type']

In [None]:
response.request.url

In [None]:
response.request.body

A inspeção do ``PreparedRequest`` dá acesso a todos os tipos de informações sobre a solicitação que está sendo feita, como carga útil, URL, cabeçalhos, autenticação e muito mais.

Muitos serviços que você encontra no dia a dia, exigirão que você se autentique de alguma forma.

### Autenticação

A autenticação ajuda um serviço a entender quem você é. Normalmente, você fornece suas credenciais a um servidor passando dados por meio do cabeçalho ``Authorization`` ou de um cabeçalho personalizado definido pelo serviço. Todas as funções de solicitação que você viu até agora fornecem um parâmetro chamado ``auth``, que permite passar suas credenciais.

Um exemplo de __API__ que requer autenticação é a __API__ de usuário autenticado do GitHub. Este endpoint fornece informações sobre o perfil do usuário autenticado. Para fazer uma solicitação à API de usuário autenticado, você pode passar seu nome de usuário e senha do GitHub em uma tupla para ``get()``.

In [None]:
from getpass import getpass
requests.get('https://api.github.com/user', auth=('etvorellana', getpass()))


A solicitação será bem-sucedida se as credenciais que você passou na tupla para autenticação forem válidas. Se você tentar fazer esta solicitação sem credenciais, verá que o código de status é 401 Não autorizado.

Quando você passa seu nome de usuário e senha em uma tupla para o parâmetro auth, as solicitações aplicam as credenciais usando o esquema de autenticação de acesso básico do HTTP nos bastidores.

Portanto, você poderia fazer a mesma solicitação passando credenciais de autenticação Básica explícitas usando ``HTTPBasicAut``.

In [None]:
from requests.auth import HTTPBasicAuth
from getpass import getpass
requests.get('https://api.github.com/user', auth=HTTPBasicAuth('username', getpass()))

Embora não seja necessário ser explícito para a autenticação Básica, você pode querer autenticar usando outro método. A __Requests__ fornece outros métodos de autenticação prontos para uso, como ``HTTPDigestAuth`` e ``HTTPProxyAuth``.

Você pode até fornecer seu próprio mecanismo de autenticação. Para fazer isso, primeiro você deve criar uma subclasse de ``AuthBase``. Então, você implementa ``__call__()`` dessa classe.

In [None]:
from requests.auth import AuthBase

class TokenAuth(AuthBase):
    """Implements a custom authentication scheme."""

    def __init__(self, token):
        self.token = token

    def __call__(self, r):
        """Attach an API token to a custom auth header."""
        r.headers['X-TokenAuth'] = f'{self.token}' 
        return r


requests.get('https://httpbin.org/get', auth=TokenAuth('12345abcde-token'))

Aqui, seu mecanismo ``TokenAuth`` personalizado recebe um token e, em seguida, inclui esse token no cabeçalho ``X-TokenAuth`` da sua solicitação.

Mecanismos de autenticação incorretos podem levar a vulnerabilidades de segurança; portanto, a menos que um serviço exija um mecanismo de autenticação personalizado por algum motivo, você sempre desejará usar um esquema de autenticação testado e comprovado, como ``Basic``.