# Requisições HTTP

HTTP (Hypertext Transfer Protocol) é um protocolo que permite a obtenção de recursos, como documentos HTML. É a base de qualquer troca de dados na Web e um protocolo cliente-servidor.

As solicitações HTTP consistem na maneira como a Web funciona. Toda vez que você navega para uma página Web, seu navegador realiza várias solicitações para o servidor da página da Web. Então, o servidor responde com todos os dados necessários para renderizar a página e, na sequência, o seu navegador renderiza a página para que a veja.

Requisições GET são feitas somente para leitura de dados.

Clientes e servidores se comunicam trocando mensagens individuais (ao contrário de um fluxo de dados). As mensagens enviadas pelo cliente, geralmente um navegador da Web, são chamadas de solicitações (requests), ou também requisições, e as mensagens enviadas pelo servidor como resposta são chamadas de respostas (responses).

**Fonte.:** https://developer.mozilla.org/pt-BR/docs/Web/HTTP/Overview

### Tipos de Requisições

* GET
* POST
* PUT
* DELETE
* HEAD
* OPTIONS

### Códigos de Status (avaliam a qualidade da resposta)

* 1XX - Informação
* 2XX - Sucesso
* 3XX - Redirecionar
* 4XX - Erro de cliente (você cometeu um erro) - Ex.: 404 (Not Found); 406 (Not Acceptable)
* 5XX - Erro de servidor (eles cometeram um erro)


### Cabeçalhos

**Cabeçalhos:** são enviados com a solicitação e retornados na resposta. Os cabeçalhos são usados para que o cliente e o servidor saibam como interpretar os dados que estão sendo enviados e recebidos na solicitação/resposta.

### Estrutura das Requisições

![image.png](attachment:image.png)

### Estrutura das Respostas

![image.png](attachment:image.png)

Abaixo da resposta é apresentado o código retornado, que no caso é um texto em formato HTML.

# Urllib

A biblioteca `urllib` faz uma requisição do tipo GET para o servidor web que disponibiliza a URL, e retorna um objeto da classe HTTPResponse. 

O módulo `urlopen` permite abrir o objeto retornado, cujo objetivo será obter um arquivo HTML que pode ser acessado.

In [5]:
from urllib.request import urlopen # Biblioteca nativa do python

In [6]:
url = "https://evaldowolkers.wordpress.com/"
html = urlopen(url)
html.read() # retorna o HTML da página

b'<!DOCTYPE html>\n<html lang="pt-BR" class="no-js">\n<head>\n\t<meta charset="UTF-8">\n\t<meta name="viewport" content="width=device-width, initial-scale=1">\n\t<link rel="profile" href="https://gmpg.org/xfn/11">\n\t\t<script>(function(html){html.className = html.className.replace(/\\bno-js\\b/,\'js\')})(document.documentElement);</script>\n<title>Evaldo Wolkers</title>\n<meta name=\'robots\' content=\'max-image-preview:large\' />\n<link rel=\'dns-prefetch\' href=\'//s1.wp.com\' />\n<link rel=\'dns-prefetch\' href=\'//s2.wp.com\' />\n<link rel=\'dns-prefetch\' href=\'//s0.wp.com\' />\n<link rel=\'dns-prefetch\' href=\'//fonts.googleapis.com\' />\n<link rel=\'dns-prefetch\' href=\'//s.pubmine.com\' />\n<link rel=\'dns-prefetch\' href=\'//x.bidswitch.net\' />\n<link rel=\'dns-prefetch\' href=\'//static.criteo.net\' />\n<link rel=\'dns-prefetch\' href=\'//ib.adnxs.com\' />\n<link rel=\'dns-prefetch\' href=\'//aax.amazon-adsystem.com\' />\n<link rel=\'dns-prefetch\' href=\'//bidder.criteo

In [10]:
type(html)

http.client.HTTPResponse

Às vezes, os sites retornam erro 403 ou 406 pois tratam scraping (obtenção dos dados da página por meio de códigos). A função "headers" do módulo Requests permite reverter isso, enviando ao servidor o tipo de navegador (fictício) que está sendo utilizado pelo usuário.

O novo código ficaria assim:

In [None]:
# urllib
url = "http://pythonparatodos.com.br/aula.html"
request = Request(url, headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3), AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36'})
html = urlopen(request)
texto = html.read()

# requests
url = "http://pythonparatodos.com.br/aula.html"
request = requests.get(url, headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3), AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36'})
texto = request.text

# Requests

Biblioteca externa que deve ser instalada;

`requests` realiza o mesmo processo que `urllib`, porém possui suporte para várias versões do Python. 

Além disso, é uma biblioteca feita para trabalhar com os objetos HTTP retornados, possuindo vários métodos importantes. Também inclui urllib3 dentro dela.

Para realizar requisições post ou patch

Documentação: https://pt.stackoverflow.com/questions/419384/urllib-request-ou-request

In [27]:
import requests # Biblioteca externa, deve ser baixada

In [28]:
html = requests.get("https://evaldowolkers.wordpress.com/")

In [29]:
type(html) # Objeto Response

requests.models.Response

In [30]:
html.encoding # Requests adivinha e trabalha a codificação da página automaticamente

'UTF-8'

In [32]:
html.headers # Cabeçalhos (ATENÇÃO NO 'Content-Type')

{'Server': 'nginx', 'Date': 'Wed, 08 Dec 2021 05:36:47 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Vary': 'Accept-Encoding, Cookie', 'X-hacker': "If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.", 'Host-Header': 'WordPress.com', 'Link': '<https://wp.me/24QMu>; rel=shortlink', 'Content-Encoding': 'gzip', 'X-ac': '1.gru _dfw ', 'Strict-Transport-Security': 'max-age=15552000'}

In [33]:
html.text # Retorna o HTML formatado

'<!DOCTYPE html>\n<html lang="pt-BR" class="no-js">\n<head>\n\t<meta charset="UTF-8">\n\t<meta name="viewport" content="width=device-width, initial-scale=1">\n\t<link rel="profile" href="https://gmpg.org/xfn/11">\n\t\t<script>(function(html){html.className = html.className.replace(/\\bno-js\\b/,\'js\')})(document.documentElement);</script>\n<title>Evaldo Wolkers</title>\n<meta name=\'robots\' content=\'max-image-preview:large\' />\n<link rel=\'dns-prefetch\' href=\'//s1.wp.com\' />\n<link rel=\'dns-prefetch\' href=\'//s2.wp.com\' />\n<link rel=\'dns-prefetch\' href=\'//s0.wp.com\' />\n<link rel=\'dns-prefetch\' href=\'//fonts.googleapis.com\' />\n<link rel=\'dns-prefetch\' href=\'//s.pubmine.com\' />\n<link rel=\'dns-prefetch\' href=\'//x.bidswitch.net\' />\n<link rel=\'dns-prefetch\' href=\'//static.criteo.net\' />\n<link rel=\'dns-prefetch\' href=\'//ib.adnxs.com\' />\n<link rel=\'dns-prefetch\' href=\'//aax.amazon-adsystem.com\' />\n<link rel=\'dns-prefetch\' href=\'//bidder.criteo.

In [34]:
html.content # Retorna a resposta binária do servidor

b'<!DOCTYPE html>\n<html lang="pt-BR" class="no-js">\n<head>\n\t<meta charset="UTF-8">\n\t<meta name="viewport" content="width=device-width, initial-scale=1">\n\t<link rel="profile" href="https://gmpg.org/xfn/11">\n\t\t<script>(function(html){html.className = html.className.replace(/\\bno-js\\b/,\'js\')})(document.documentElement);</script>\n<title>Evaldo Wolkers</title>\n<meta name=\'robots\' content=\'max-image-preview:large\' />\n<link rel=\'dns-prefetch\' href=\'//s1.wp.com\' />\n<link rel=\'dns-prefetch\' href=\'//s2.wp.com\' />\n<link rel=\'dns-prefetch\' href=\'//s0.wp.com\' />\n<link rel=\'dns-prefetch\' href=\'//fonts.googleapis.com\' />\n<link rel=\'dns-prefetch\' href=\'//s.pubmine.com\' />\n<link rel=\'dns-prefetch\' href=\'//x.bidswitch.net\' />\n<link rel=\'dns-prefetch\' href=\'//static.criteo.net\' />\n<link rel=\'dns-prefetch\' href=\'//ib.adnxs.com\' />\n<link rel=\'dns-prefetch\' href=\'//aax.amazon-adsystem.com\' />\n<link rel=\'dns-prefetch\' href=\'//bidder.criteo