<a href="https://colab.research.google.com/github/marinamangia/data-manipulation-exercises/blob/master/Coleta_de_Dados_API.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Coleta Via API

As **APIs** (Interface de Programação de Aplicações) estão presente na maioria das aplicações e sistemas inteligentes que utilizamos, sejam eles focados em B2B ou em recursos do dia a dia, como o uso do app de navegação. Grande parte das APIs são criadas para integração entre um software de uma empresa e produtos associados. 

**API RESTful** é uma interface que fornece dados em um formato padronizado baseado em requisições HTTP.

As APIs Restful aumentam a performance para situações de concorrência, ou seja, quando muitas pessoas estão pedindo a mesma coisa ao mesmo tempo. Elas utilizam verbos para definir qual é a finalidade da requisição que está sendo enviada. Os métodos são:
 * **GET**: A requisição é um pedido de dados para a API. A API vai buscar os dados solicitados em algum banco e, provavelmente, vai retornar em formato JSON (formato de notação de objeto JavaScript);

* **POST**: Tipo de requisição utilizada para criar um recurso em uma determinada API. São chamados de recursos o objeto que está sendo tratado naquela API.
* **PUT**: Requisição utilizada para atualizar o recurso indicado com alguma informação.
* **DELETE**: Requisição para excluir um dado.


Embora o corpo da requisição e do retorno possam utilizar outros formatos, de modo geral é utilizado o formato **JSON** como padrão, tanto para o envio quanto para o retorno das requisições. 

## JSON

JSON (JavaScript Object Notation) é basicamente um formato leve de troca de informações/dados entre sistemas e muito simples de ler, no caso se assemelha muito a uma estrutura de dicionarios ex:

```
{
   "id":1,
   "nome":"Alexandre Gama",
   "endereco":"R. Qualquer"
}
```




**Para demonstrar como consumir uma API RESTFUL, iremos utilizar a api do IBGE sobre os nomes cadastrados no Brasil:**

Link : https://servicodados.ibge.gov.br/api/docs/nomes?versao=2


In [1]:
import pandas as pd
import json, requests

In [6]:
nome = "marina"

In [7]:
url = f"https://servicodados.ibge.gov.br/api/v2/censos/nomes/{nome}"

In [8]:
response = requests.get(url)

In [9]:
response

<Response [200]>

In [10]:
response.text

'[{"nome":"MARINA","sexo":null,"localidade":"BR","res":[{"periodo":"1930[","frequencia":4387},{"periodo":"[1930,1940[","frequencia":10088},{"periodo":"[1940,1950[","frequencia":16396},{"periodo":"[1950,1960[","frequencia":22755},{"periodo":"[1960,1970[","frequencia":22358},{"periodo":"[1970,1980[","frequencia":15734},{"periodo":"[1980,1990[","frequencia":32329},{"periodo":"[1990,2000[","frequencia":45474},{"periodo":"[2000,2010[","frequencia":39021}]}]'

In [11]:
resp_json = json.loads(response.text)

In [12]:
df_names = pd.DataFrame(resp_json[0]["res"])

In [14]:
df_names["nome"]="marina"

In [15]:
df_names

Unnamed: 0,periodo,frequencia,nome
0,1930[,4387,marina
1,"[1930,1940[",10088,marina
2,"[1940,1950[",16396,marina
3,"[1950,1960[",22755,marina
4,"[1960,1970[",22358,marina
5,"[1970,1980[",15734,marina
6,"[1980,1990[",32329,marina
7,"[1990,2000[",45474,marina
8,"[2000,2010[",39021,marina


In [17]:
# realiza a conversão do response para um formato acessível ao python
json_data = json.loads(response.text)

In [18]:
json_data

[{'localidade': 'BR',
  'nome': 'MARINA',
  'res': [{'frequencia': 4387, 'periodo': '1930['},
   {'frequencia': 10088, 'periodo': '[1930,1940['},
   {'frequencia': 16396, 'periodo': '[1940,1950['},
   {'frequencia': 22755, 'periodo': '[1950,1960['},
   {'frequencia': 22358, 'periodo': '[1960,1970['},
   {'frequencia': 15734, 'periodo': '[1970,1980['},
   {'frequencia': 32329, 'periodo': '[1980,1990['},
   {'frequencia': 45474, 'periodo': '[1990,2000['},
   {'frequencia': 39021, 'periodo': '[2000,2010['}],
  'sexo': None}]

In [19]:
# imprime na tela o valor do primeiro ano do censo - demonstração de navegação
print(json_data[0]['res'][0])

{'periodo': '1930[', 'frequencia': 4387}


In [24]:
pd.DataFrame(json_data[0]['res'])

Unnamed: 0,periodo,frequencia
0,1930[,4387
1,"[1930,1940[",10088
2,"[1940,1950[",16396
3,"[1950,1960[",22755
4,"[1960,1970[",22358
5,"[1970,1980[",15734
6,"[1980,1990[",32329
7,"[1990,2000[",45474
8,"[2000,2010[",39021


In [None]:
## Exemplo de POST com envio de informações
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=json.dumps(payload))
print(r.text)

{
  "args": {}, 
  "data": "{\"key1\": \"value1\", \"key2\": \"value2\"}", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "36", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.23.0", 
    "X-Amzn-Trace-Id": "Root=1-62560f09-7532a51d402eb483594436a2"
  }, 
  "json": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "origin": "34.74.115.175", 
  "url": "http://httpbin.org/post"
}



## Exemplo 2 API Marvel

A seguir vamos consumir uma api onde é necessário uma Key (chave) para acesso.


Fontes :
* https://developer.marvel.com/documentation/generalinfo

* https://developer.marvel.com/documentation/apiresults

* https://developer.marvel.com/docs#!/public/getComicsCollection_get_6

In [None]:
## Pacotes de Hash e datetime
import hashlib
import datetime

In [None]:
## Import de variaveis que contém as keys necessárias.

from marvel_keys import pub_key, priv_key

timestamp = datetime.datetime.now().strftime('%Y-%m-%d%H:%M:%S')

In [None]:
marvel_comics = ' http://gateway.marvel.com/v1/public/comics'

In [None]:
def hash_params():
    """ Marvel API requires that server side requests 
    include md5 hash of timestamp + public key + private key """

    hash_md5 = hashlib.md5()
    hash_md5.update(f'{timestamp}{priv_key}{pub_key}'.encode('utf-8'))
    hashed_params = hash_md5.hexdigest()

    return hashed_params


params = {'ts': timestamp, 'apikey': pub_key, 'hash': hash_params()};


In [None]:
## realiza Requisição
marvel_response = requests.get(marvel_comics, params=params)

In [None]:
marvel_response

<Response [200]>

In [None]:
## Converte json para dicionario
json_data = json.loads(marvel_response.text)

In [None]:
json_data

{'attributionHTML': '<a href="http://marvel.com">Data provided by Marvel. © 2022 MARVEL</a>',
 'attributionText': 'Data provided by Marvel. © 2022 MARVEL',
 'code': 200,
 'copyright': '© 2022 MARVEL',
 'data': {'count': 20,
  'limit': 20,
  'offset': 0,
  'results': [{'characters': {'available': 0,
     'collectionURI': 'http://gateway.marvel.com/v1/public/comics/82967/characters',
     'items': [],
     'returned': 0},
    'collectedIssues': [],
    'collections': [],
    'creators': {'available': 1,
     'collectionURI': 'http://gateway.marvel.com/v1/public/comics/82967/creators',
     'items': [{'name': 'Jim Nausedas',
       'resourceURI': 'http://gateway.marvel.com/v1/public/creators/10021',
       'role': 'editor'}],
     'returned': 1},
    'dates': [{'date': '2099-10-30T00:00:00-0500', 'type': 'onsaleDate'},
     {'date': '2019-10-07T00:00:00-0400', 'type': 'focDate'}],
    'description': None,
    'diamondCode': '',
    'digitalId': 0,
    'ean': '',
    'events': {'available'

In [None]:
json_data['data']['results'][0].keys()

dict_keys(['id', 'digitalId', 'title', 'issueNumber', 'variantDescription', 'description', 'modified', 'isbn', 'upc', 'diamondCode', 'ean', 'issn', 'format', 'pageCount', 'textObjects', 'resourceURI', 'urls', 'series', 'variants', 'collections', 'collectedIssues', 'dates', 'prices', 'thumbnail', 'images', 'creators', 'characters', 'stories', 'events'])

In [None]:
list_titles =  [comic['title'] for comic in json_data['data']['results']]
list_pages = [comic['pageCount'] for comic in json_data['data']['results']]
list_description =  [comic['description'] for comic in json_data['data']['results']]
list_price =  [comic['prices'][-1]['price'] for comic in json_data['data']['results']]
list_last_date =  [comic['modified'] for comic in json_data['data']['results']]

In [None]:
dict_infos = {
    'title': list_titles,
    'qtd_pag': list_pages,
    'descricao': list_description,
    'ult_preco_dolar': list_price,
    'data':list_last_date
}

In [None]:
pd.DataFrame(dict_infos)

Unnamed: 0,title,qtd_pag,descricao,ult_preco_dolar,data
0,Marvel Previews (2017),112,,0.0,2019-11-07T08:46:15-0500
1,Marvel Previews (2017),152,,0.0,2019-08-21T17:11:27-0400
2,Marvel Previews (2017),112,,0.0,2020-02-07T09:35:32-0500
3,Storm (2006),0,,0.0,2015-01-29T20:04:55-0500
4,"Sentry, the (Trade Paperback)",240,,9.99,-0001-11-30T00:00:00-0500
5,Gun Theory (2003) #4,0,,2.5,-0001-11-30T00:00:00-0500
6,Ant-Man (2003) #4,0,,2.99,-0001-11-30T00:00:00-0500
7,Marvel Age Spider-Man Vol. 2: Everyday Hero (D...,96,"""The Marvel Age of Comics continues! This time...",5.99,2018-01-22T15:42:11-0500
8,Official Handbook of the Marvel Universe (2004...,0,,3.99,-0001-11-30T00:00:00-0500
9,Ant-Man (2003) #1,0,Size does matter. And no one knows this more ...,2.99,-0001-11-30T00:00:00-0500


## Desafio

Criar Key e coletar dados dos casos de covid19, utilizando api pública do governo:

Doc:https://brasil.io/dataset/covid19/caso/

Transformar dados JSON em dataframe e Somar as confirmações por estado usando o groupby do pandas:

ref: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html

In [None]:
## Colocar sua Resolução Aqui

In [None]:
#@title Possivel Resolução Request - Clique 2x { vertical-output: true }
key = ''
api_covid = 'https://api.brasil.io/v1/dataset/covid19/caso/data?page=1&page_size=10'
result = requests.get(api_covid, headers={"Authorization": f"Token {key}"})
print(result)
response = json.loads(result.text)
response['results']
pd.DataFrame(response['results'])