# 05 - Webscrapping - Raspagem de Dados da Internet
## Aula 12 - 01 - Webscrapping - Conhecendo o Pacote Requests

## Professor: Orlando Oliveira dos Santos, MsC.
 - E-mail: professor.orlando.santos@gmail.com 
 - Youtube :https://www.youtube.com/channel/UCPWWbkPWFmOjXH50TQWNAYg
 - Linkedin: https://linkedin.com/in/orlandoosantos
 - Facebook: https://www.facebook.com/proforlandosantosmsc/
 - Twitter: https://twitter.com/ProfOrlandoMsC
 - Instagram: https://www.instagram.com/proforlandosantosmsc/



## Formação Acadêmica
- Mestrado em Computação Aplicada - UnB (2014 – 2016)	
- MBA, Administração Estratégica de Sistemas de Informação – FGV (2011 – 2013)
- Tecnólogo em Processamento de Dados, Análise e Desenvolvimento de Sistemas – FAETEC/SP (2000-2002)

#  Webscrapping - Conhecendo o Pacote Requests

## Pacote requests

- Requests é uma biblioteca HTTP para Python simples e elegante, feita para seres humanos.

- https://requests.readthedocs.io/pt_BR/latest/index.html

### Instalação


In [None]:
!pip install requests

## Faça um Requisições Simples 


In [None]:
import requests



##Método Get
get(url, params=None, **kwargs)

O resultado obtido será um objeto response que tem todas as informações sobre o conteúdo requisitado.

In [None]:
import requests
url = 'https://www.camara.leg.br/deputados/quem-sao/resultado?search=&partido=&uf=&legislatura=56&sexo='
r = requests.get(url)

### Checando se a requisição ocorreu com sucesso usando o  atributo "ok"
- Retorna True se: attr: `status_code` é menor que 400, False se não.
- Este atributo verifica se o código de status da resposta está entre 400 e 600 para ver se houve um erro do cliente ou do servidor. 
- E se o código de status está entre 200 e 400, isso retornará True

In [None]:
r.ok

### Checando o código do status da resposta

In [None]:
r.status_code

### Checando o cabeçalhos da resposta usando um dicionário Python:

In [None]:
print(r.headers)

### Verificando o enconding inferido do texto
- Será usando par decodificar o texto ao chamar o método r.text
- Se não estiver correto, pode ser alterado. Por Exemplo: ```r.encoding = utf-8```

In [None]:
r.encoding

### Obtendo o conteúdo do Response em texto Unicode.
 - Se Response.encoding for None, a codificação será adivinhada ```r.encoding```.  Lembre que você pode alterar se necesário.

 

In [None]:
r.text

### Obtendo o conteúdo do Response em bytes

In [None]:
r.content

## Acessar o conteúdo por chunks de forma iterativa

In [None]:
for data in list(r.iter_content(chunk_size=100))[:10]:
    print(data)

## Acessar o conteúdo por linhas de forma iterativa

In [None]:
for data in list(r.iter_lines())[:10]:
    print(data)

## Decodificando o conteúdo no formato Json com método response.json()

### Exemplo de Acesso a API de localidades do IBGE



In [None]:
import requests
url = 'https://servicodados.ibge.gov.br/api/v1/localidades/estados'
r = requests.get(url)
json_pesquisas = r.json()

for estado in json_pesquisas:
  print(estado)

### Exemplo de Acesso a API de agregados do IBGE

### Obtendo a lista de agregados

In [None]:
import requests
url = 'https://servicodados.ibge.gov.br/api/v3/agregados'
r = requests.get(url)
json_agregados = r.json()
sorted([(i, pesq['nome'], pesq['id']) for i, pesq in enumerate(json_agregados)], key = lambda x : x[1])

#### Verificando as series históricas de PIB 

In [None]:
json_agregados[60]

### Exemplo de Acesso ao Dados de PIB a preços correntes dos estados

#### Usar o construtor de consultas da API de agregados do IBGE para criar a url desejada
- endereço de construtor de consultas da API: https://servicodados.ibge.gov.br/api/docs/agregados?versao=3#api-bq


#### Acessar o conteúdo usando o requests

In [None]:
import requests
url = 'https://servicodados.ibge.gov.br/api/v3/agregados/5938/periodos/2002|2003|2004|2005|2006|2007|2008|2009|2010|2011|2012|2013|2014|2015|2016|2017/variaveis/37?localidades=N3[all]'
r = requests.get(url)
json_agregado_pib_estadual = r.json()

In [None]:
json_agregado_pib_estadual[0]['resultados'][0]['series'][0]

### Exemplo de Acesso ao Dados de população estimada dos estados

In [None]:
import requests
url = 'https://servicodados.ibge.gov.br/api/v3/agregados/6579/periodos/2001|2002|2003|2004|2005|2006|2008|2009|2011|2012|2013|2014|2015|2016|2017|2018|2019|2020/variaveis/9324?localidades=N3[all]'
r = requests.get(url)
json_agregado_pop_estadual = r.json()

In [None]:
json_agregado_pop_estadual[0]['resultados'][0]['series'][0]

## configurando  Cabeçalhos personalizados
Para adicionar cabeçalhos HTTP para uma requisição, simplesmente passe-os em um dict para o parâmetro headers.

### Escolhendo o formato do arquivo desejando na API da Câmara dos Deputados
- Escolhendo o formado xml

In [None]:
import requests
url = 'https://dadosabertos.camara.leg.br/api/v2/deputados' 
headers = {'accept': 'text/xml'}
r = requests.get(url, headers=headers)
r.text

In [None]:

import requests
url = 'https://dadosabertos.camara.leg.br/api/v2/deputados' 
headers = {'accept': 'application/xml'}
r = requests.get(url, headers=headers)
r.text

In [None]:
url = 'https://dadosabertos.camara.leg.br/api/v2/deputados' 
headers = {'accept': 'application/json'}
r = requests.get(url, headers=headers)
r.text

In [None]:
for dep in list(r.json()['dados'])[:10]:
    print(dep['nome'])

## Passando parâmetros para a query string do Request




In [None]:
url = 'https://dadosabertos.camara.leg.br/api/v2/deputados' 
headers = {'accept': 'application/json'}
parametros = {'ordem': 'DESC', 'ordenarPor': 'nome'}
r = requests.get(url, headers=headers, params=parametros)
print(r.url)
r.text