In [4]:
import requests
import json

# Acesso aos dados via API

Alguns sites disponibilizam APIs (Application Programming Interface) para a captura de dados. Isso quer dizer, que o site criou uma série de URLs pelas quais os dados são fornecidos de forma 'pura'. O formato mais comum é o [JSON](https://www.json.org/json-en.html) (JavaScript Object Notation). Ele é uma forma muito usada para troca de dados entre sistemas, mas outros podem ser usados, como por exemplo o XML. 

#### Vantagens do JSON

* Leitura mais simples
* Analisador(parsing) mais fácil
* JSON suporta objetos! Sim, ele é tipado!
* Velocidade maior na execução e transporte de dados
* Arquivo com tamanho reduzido
* Quem utiliza? Google, Facebook, Yahoo!, Twitter...

![alt text](imagens/json_formato.png)


### API REST 

Para fins didáticos, vamos usar uma API Fake https://jsonplaceholder.typicode.com/

GET: usado para recuperar informação, normalmente o que nós mais usamos no contexto de ciência de dados


In [2]:
url = 'https://jsonplaceholder.typicode.com/posts/1'

response = requests.get(url)
print(response.json())

{'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}


POST: usado para enviar uma informação para o servidor


In [5]:
url = 'https://jsonplaceholder.typicode.com/posts'

# data={'key': 'value'}
data = { 'title': 'compras','body': 'Preciso de um mouse novo !','userId': 9,}
headers = {'content-type': 'application/json; charset=UTF-8'}

response = requests.post(url, data=json.dumps(data), headers=headers)
print(response.content)

b'{\n  "title": "compras",\n  "body": "Preciso de um mouse novo !",\n  "userId": 9,\n  "id": 101\n}'


In [16]:
response.status_code
#201 deu certo

201

In [17]:
response.headers

{'Date': 'Thu, 18 Nov 2021 19:45:18 GMT', 'Content-Type': 'application/json; charset=utf-8', 'Content-Length': '92', 'Connection': 'keep-alive', 'x-powered-by': 'Express', 'x-ratelimit-limit': '1000', 'x-ratelimit-remaining': '999', 'x-ratelimit-reset': '1637264769', 'vary': 'Origin, X-HTTP-Method-Override, Accept-Encoding', 'access-control-allow-credentials': 'true', 'cache-control': 'no-cache', 'pragma': 'no-cache', 'expires': '-1', 'access-control-expose-headers': 'Location', 'location': 'http://jsonplaceholder.typicode.com/posts/101', 'x-content-type-options': 'nosniff', 'etag': 'W/"5c-JaqVibBG4L3BG4WBSMUZ5GGC6bc"', 'via': '1.1 vegur', 'CF-Cache-Status': 'DYNAMIC', 'Expect-CT': 'max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"', 'Report-To': '{"endpoints":[{"url":"https:\\/\\/a.nel.cloudflare.com\\/report\\/v3?s=BcwwHGqNR1oOIHEP8R7FuEQPdPab5YjXENVNiruIvwUmM%2BTUGvJIbTzuQFNnnZ2UJHLqx6tQN%2FljWq7ydHmHbWWdp%2BbzU%2BTr2JNIEHzQzIFFDRDhPeMBw%2B5tNPZ

In [22]:
url = 'https://jsonplaceholder.typicode.com/posts/101'

response = requests.get(url)
print(response.json())
#Só não veio certinho pq é uma API fake (seria oq demos o post de id 101)

{}


PUT: usado para atualizar uma informação 


In [23]:
url = 'https://jsonplaceholder.typicode.com/posts/1'
data = {'id':1, 'userId':2, 'title':'drink cold milk', 'body':'drinking water is important'}
headers = {'Content-Type':'application/json; charset=UTF-8'}
response = requests.put(url, data=json.dumps(data), headers=headers)


print(response.content)

b'{\n  "id": 1,\n  "userId": 2,\n  "title": "drink cold milk",\n  "body": "drinking water is important"\n}'


DELETE: usado para deletar uma informação 

In [25]:
url = 'https://jsonplaceholder.typicode.com/posts/1'
headers = {'Content-Type': 'application/json; charset=UTF-8'}
response = requests.delete(url, headers=headers)

print(response.content) # <class 'str'>

b'{}'


# Vamos começar a trabalhar com alguns dados! 

In [6]:
import pandas as pd
import numpy as np

https://viacep.com.br/?ref=devresourc.es

## Acessando uma API

In [7]:
response = requests.get('http://viacep.com.br/ws/01001000/json/').text

In [8]:
response

'{\n  "cep": "01001-000",\n  "logradouro": "Praça da Sé",\n  "complemento": "lado ímpar",\n  "bairro": "Sé",\n  "localidade": "São Paulo",\n  "uf": "SP",\n  "ibge": "3550308",\n  "gia": "1004",\n  "ddd": "11",\n  "siafi": "7107"\n}'

In [9]:
requests.get('http://viacep.com.br/ws/000/json/').text # formato errado

'<!DOCTYPE HTML>\n<html lang="pt-br">\n\n<head>\n  <title>ViaCEP 400</title>\n  <meta charset="utf-8" />\n  <style type="text/css">\n      h1 {\n          color: #666;\n          text-align: center;\n          font-size: 4em;\n      }\n      h2, h3 {\n          color: #777;\n          text-align: center;\n          font-size: 3em;\n      }\n      h3 {\n          font-size: 1.5em;\n      }\n  </style>\n</head>\n\n<body>\n    <h1>Erro 400</h1>\n    <h2>Ops!</h2>\n    <h3>Verifique a sua URL (Bad Request)</h3>\n</body>\n\n</html>\n'

In [10]:
requests.get('http://viacep.com.br/ws/99999999/json/').text # formato correto, porem inexistente

'{\n  "erro": true\n}'

In [11]:
 requests_ends = requests.get('http://viacep.com.br/ws/RS/Porto Alegre/Domingos/json/').text #busca por enderenco

In [12]:
requests_ends

'[\n  {\n    "cep": "91420-270",\n    "logradouro": "Rua São Domingos",\n    "complemento": "",\n    "bairro": "Bom Jesus",\n    "localidade": "Porto Alegre",\n    "uf": "RS",\n    "ibge": "4314902",\n    "gia": "",\n    "ddd": "51",\n    "siafi": "8801"\n  },\n  {\n    "cep": "91040-000",\n    "logradouro": "Rua Domingos Rubbo",\n    "complemento": "",\n    "bairro": "Cristo Redentor",\n    "localidade": "Porto Alegre",\n    "uf": "RS",\n    "ibge": "4314902",\n    "gia": "",\n    "ddd": "51",\n    "siafi": "8801"\n  },\n  {\n    "cep": "91040-320",\n    "logradouro": "Rua Domingos Martins",\n    "complemento": "",\n    "bairro": "Cristo Redentor",\n    "localidade": "Porto Alegre",\n    "uf": "RS",\n    "ibge": "4314902",\n    "gia": "",\n    "ddd": "51",\n    "siafi": "8801"\n  },\n  {\n    "cep": "91120-090",\n    "logradouro": "Rua Domingos de Abreu",\n    "complemento": "",\n    "bairro": "Sarandi",\n    "localidade": "Porto Alegre",\n    "uf": "RS",\n    "ibge": "4314902",\n    

### Tratando os dados: transformando em dicionário

In [15]:
response_info = json.loads(response) #Transforma em um dicionário

In [16]:
response_info

{'cep': '01001-000',
 'logradouro': 'Praça da Sé',
 'complemento': 'lado ímpar',
 'bairro': 'Sé',
 'localidade': 'São Paulo',
 'uf': 'SP',
 'ibge': '3550308',
 'gia': '1004',
 'ddd': '11',
 'siafi': '7107'}

In [17]:
print('Logradouro: ', response_info['logradouro'])

Logradouro:  Praça da Sé


In [19]:
requests_ends_dict = json.loads(requests_ends)
requests_ends_dict

[{'cep': '91420-270',
  'logradouro': 'Rua São Domingos',
  'complemento': '',
  'bairro': 'Bom Jesus',
  'localidade': 'Porto Alegre',
  'uf': 'RS',
  'ibge': '4314902',
  'gia': '',
  'ddd': '51',
  'siafi': '8801'},
 {'cep': '91040-000',
  'logradouro': 'Rua Domingos Rubbo',
  'complemento': '',
  'bairro': 'Cristo Redentor',
  'localidade': 'Porto Alegre',
  'uf': 'RS',
  'ibge': '4314902',
  'gia': '',
  'ddd': '51',
  'siafi': '8801'},
 {'cep': '91040-320',
  'logradouro': 'Rua Domingos Martins',
  'complemento': '',
  'bairro': 'Cristo Redentor',
  'localidade': 'Porto Alegre',
  'uf': 'RS',
  'ibge': '4314902',
  'gia': '',
  'ddd': '51',
  'siafi': '8801'},
 {'cep': '91120-090',
  'logradouro': 'Rua Domingos de Abreu',
  'complemento': '',
  'bairro': 'Sarandi',
  'localidade': 'Porto Alegre',
  'uf': 'RS',
  'ibge': '4314902',
  'gia': '',
  'ddd': '51',
  'siafi': '8801'},
 {'cep': '91910-450',
  'logradouro': 'Rua Domingos da Silva',
  'complemento': '',
  'bairro': 'Camaqu

### data frame 

In [23]:
# dict to df

df_cep = pd.DataFrame.from_dict(response_info, orient='index')
df_cep

Unnamed: 0,0
cep,01001-000
logradouro,Praça da Sé
complemento,lado ímpar
bairro,Sé
localidade,São Paulo
uf,SP
ibge,3550308
gia,1004
ddd,11
siafi,7107


In [None]:
pd.DataFrame.from_dict(requests_ends_dict)

### Extraindo uma lista 

In [25]:
# lista de ceps
ceps = ['01001000', '04304111']
dicts_list = []
p1 = 'http://viacep.com.br/ws/'
p3 = '/json/'
for i in ceps:
    search = p1+i+p3
    response = requests.get(search).text
    dicts_list.append(json.loads(response))

In [29]:
dicts_list

[{'cep': '01001-000',
  'logradouro': 'Praça da Sé',
  'complemento': 'lado ímpar',
  'bairro': 'Sé',
  'localidade': 'São Paulo',
  'uf': 'SP',
  'ibge': '3550308',
  'gia': '1004',
  'ddd': '11',
  'siafi': '7107'},
 {'cep': '04304-111',
  'logradouro': 'Rua Major Freire',
  'complemento': 'de 681/682 ao fim',
  'bairro': 'Vila Monte Alegre',
  'localidade': 'São Paulo',
  'uf': 'SP',
  'ibge': '3550308',
  'gia': '1004',
  'ddd': '11',
  'siafi': '7107'}]

In [28]:
pd.DataFrame(dicts_list)

Unnamed: 0,cep,logradouro,complemento,bairro,localidade,uf,ibge,gia,ddd,siafi
0,01001-000,Praça da Sé,lado ímpar,Sé,São Paulo,SP,3550308,1004,11,7107
1,04304-111,Rua Major Freire,de 681/682 ao fim,Vila Monte Alegre,São Paulo,SP,3550308,1004,11,7107


## Referências

* https://pt.linkedin.com/pulse/consumindo-api-e-tratando-dados-com-python-alexandre-tavares
* https://docs.python-requests.org/en/latest/user/quickstart/
* https://towardsdatascience.com/json-and-apis-with-python-fba329ef6ef0