# Introdução

- <strong>Curso:</strong> Data Science
- <strong>Turma:</strong> Noite 01 (04/02/2020 a 02/07/2020)
- <strong>Aula:</strong>  Consumindo APIs
- <strong>Data:</strong>  02/06/2020
- <strong>Autor:</strong> Eduardo Tiecher @ Digital House
- <strong>Instruções gerais:</strong><br>
  - Vocês precisarão instalar provavelmente apenas uma biblioteca para essa aula (nba_api). Para os exercícios mais avançados, tem um processo mais complexo de instalação de aplicações e bibliotecas (a saber: google-api-python-client, google-auth-httplib2, google-auth-oauthlib)
  - Precisaremos ter contas em alguns dos serviços que iremos utilizar se der tempo de chegar nos exercícios mais avançados. Tentem criar suas contas antes da aula, pois alguns são bastante complexos. Se não conseguirem não tem problema, aprenderemos bastante já com os serviços mais básicos. 
    - Para os exercícios intermediários, precisaremos de uma conta no Spotify (gratuita é suficiente). Mesmo que não consigam chegar nos exercícios avançados, por favor garantam que a conta esteja criada.
    - Para os exercícios avançados serão necessários uma conta no Google API, no Google Cloud Platform - GCP e no Twitter (a proposta é passar pelo processo de criação de conta durante a aula).

___

# TEORIA

## API (Application Programming Interface)

Antes de falarmos de API, precisamos entender como a internet funciona e porque devemos separar as partes de um software.

## Como funciona o protocolo HTTP

A internet trafega através do protocolo **HTTP (*Hypertext Transfer Protocol*)**. O protocolo HTTP foi criado por **Tim Berners-Lee**, o criador da web, enquanto ele trabalhava na CERN em 1989 (sua equipe e ele também foram responsáveis pelo HTML).

O HTTP possui duas entidades básicas: a **Request (pedido)** e a **Response (resposta)**

Sempre que entramos em uma página, enviamos uma request para o servidor do site e esperamos uma response com o HTML da página.

Sempre que enviamos um ***Request (pedido)*** devemos especificar um método. A tabela abaixo cita os métodos mais comuns e explica brevemente o objetivo de cada um:

| Método |        Objetivo       |
|:------:|:---------------------:|
| GET    | Obter informações     |
| POST   | Salvar informações    |
| PUT    | Atualizar informações |
| DELETE | Deletar informações   |

Todos eles são comumente utilizados por APIs.

O método ***GET*** é o que seu navegador usa para baixar o HTML da página.

O metódo ***POST*** também é muito utilizado sempre que você envia algum formulário em um site.

Além do método, as requisições também possuem um **header**:

O **Header (cabeçalho)** tem a função de dizer para o servidor diversos dados sobre quem fez a solicitação. Dessa forma, o servidor consegue até permitir que você veja mais informações dependendo do seu nível de acesso.

### PROTOCOLO DE COMUNICAÇÃO HTTP
<img src="https://www.pubnub.com/wp-content/uploads/2014/11/HTTP-LONG-POLLING.png">
<br>
Os clientes, nossos computadores, conseguem acessar páginas e aplicações na internet atravez deste protocolo, que responde as requisições com arquivos de acordo com seu nível de acesso e com o que foi solicitado.
Se você acessar o site da Digital House por exemplo e pedir para inspecionar (no Chrome `Ctrl+Shift+i`) os dados de rede, vai ver todos as solicitações e respostas do seu navegador ao servidor.
<br>
O resultado será algo parecido com isso:
<img src="https://developer.chrome.com/devtools/images/network-panel.png">

## Códigos de status
A solicitação que acabamos de fazer tinha um código de status de 200. Os códigos de status são retornados com cada solicitação feita para um servidor da web. Códigos de status indicam informações sobre o que aconteceu com uma solicitação. Aqui estão alguns códigos que são relevantes para solicitações GET :

- 200 - tudo correu bem, e o resultado foi devolvido (se houver)
- 301- o servidor está redirecionando você para um terminal diferente. Isso pode acontecer quando uma empresa troca nomes de domínio ou um nome de terminal é alterado.
- 401- o servidor acha que você não está autenticado. Isso acontece quando você não envia as credenciais corretas para acessar uma API (falaremos sobre autenticação em uma postagem posterior).
- 400- o servidor acha que você fez um pedido incorreto. Isso pode acontecer quando você não envia os dados corretos, entre outras coisas.
- 403 - o recurso que você está tentando acessar é proibido - você não tem as permissões certas para visualizá-lo.
- 404 - o recurso que você tentou acessar não foi encontrado no servidor.

Se tentarmos acessar um site ou endereço que não existe, receberemos o código acima.

In [None]:
import requests

response = requests.get("http://www.globo.com/cursos/data_science")
print(response.status_code)

In [None]:
response = requests.get("http://api.open-notify.org/iss-pass.json")
print(response.status_code)

In [None]:
# This is the latitude and longitude of New York City.
parameters = {"q": 'data science'}

# Make a get request with the parameters.
response = requests.get("http://google.com/search", params=parameters)
print(response.status_code)

# Equivalente a URL: http://google.com/search?q=data+science

## O que é uma API?

Podemos dizer que uma API é como se fosse uma página da web só que para computadores. Só eles conseguirem acessar, ler e interagir da maneira adequada com as APIs.

Ao trabalhar com projetos que envolvem dados, é muito comum vocês utilizarão APIs tanto internas (fornecidas pelas próprias empresas em que vocês trabalham) quanto externas.

APIs são uma das principais formas para se obter dados que devem ser analisados.

<center>
<img src="https://cdn-images-1.medium.com/max/1600/1*CkynRe-J1FVnUAk7JmOTdQ.gif" alt="drawing" width="600px"></center>

### Por que acessar uma API ao invez de um banco de dados diretamente?

Porque o mundo está cheio de pessoas mal intencionadas e ao dar acesso direto ao banco de dados você está correndo risco de ter seus dados apagados, alterados ou que as pessoas tenham acesso a dados que deveriam ser confidenciais.

É uma forma de separar, controlar e até multiplicar os acessos a sistemas de forma organizada.
Imagine se cada cliente de um restaurante fosse fazer os pedidos direto ao Chef na cozinha, é provável que os pedidos saiam errados, fora de ordem ou o Chef fique estressado, por isso existe o garçom que faz o papel de levar os pedidos e trazer a comida organizando uma fila de pedidos.
A API faz exatamente isso, controlando o que pedir e para quem pedir.

<img src="https://cdn-images-1.medium.com/max/1600/1*Elr2TpvMI7xfSack20B6bA.png">

In [None]:
from IPython.display import Audio,Image, YouTubeVideo
id='s7wmiS2mSXY'

YouTubeVideo(id=id,width=600,height=300)

Mas por que usar uma API em vez de um conjunto de dados estáticos que você pode baixar? As APIs são úteis nos seguintes casos:

- Os dados estão mudando rapidamente. Um exemplo disso são os dados do preço das ações. Não faz muito sentido gerar um conjunto de dados e baixá-lo a cada minuto - isso demandará muita largura de banda e será bastante lento.
- Você quer um pequeno pedaço de um conjunto muito maior de dados. Comentários do Reddit são um exemplo. E se você quiser apenas puxar seus próprios comentários no Reddit? Não faz muito sentido baixar todo o banco de dados Reddit, depois filtrar apenas seus próprios comentários.
- Há computação repetida envolvida. Spotify tem uma API que pode dizer o gênero de uma peça musical. Você poderia, teoricamente, criar seu próprio classificador e usá-lo para categorizar a música, mas nunca terá tantos dados quanto o Spotify.

Em casos como os acima, uma API é a solução certa.

Agora, vamos consultar uma API simples para recuperar dados sobre a Estação Espacial Internacional (ISS). O uso de uma API nos poupará tempo e esforço ao fazermos todos os cálculos.
Então, faremos uma solicitação GET para http://api.open-notify.org/iss-passum terminal que não existe, de acordo com a documentação da API .

In [None]:
response = requests.get("http://api.open-notify.org/iss-pass")
print(response.status_code)

In [None]:
response = requests.get("http://api.open-notify.org/iss-pass.json")
print(response.status_code)

In [None]:
# This is the latitude and longitude of New York City.
parameters = {"lat": 40.71, "lon": -74}

# Make a get request with the parameters.
iss = requests.get("http://api.open-notify.org/iss-pass.json", params=parameters)
print(response.status_code)

In [None]:
iss.url # e a reposta ao  parametro acima

In [None]:
response.text # tras a base de informacoes

In [None]:
response.content

In [None]:
type(response.content)

## XML × JSON × YAML

Anos atrás a comunicação entre serviços se dava por XML usando o padrão SOAP. Na era da mobilidade, JSON passou a ser largamente usado. Hoje, aos poucos está sendo substituido por YAML, que é similar,  porém mais amigável para leitura por humanos.

<img src="XML×JSON×YAML.png" width="75%"></img>

A estrutura de um json se parece muito com os dicionários em Python

Ele foi feito para que máquinas entendam seus dados e os utilizem como quiser.

Outra característica das APIs REST é a **divisão dos recursos**. Por exemplo:

https://jsonplaceholder.typicode.com/users/1

Ao abrirmos esta URL estamos fazendo um GET (o navegador executa o GET) para obtermos informações do usuário (/users) com código 1 (/1). Podemos trocar o código do usuário para buscar outros usuários.

Também podemos pedir todos os usuários digitando:

https://jsonplaceholder.typicode.com/users

## Trabalhando com dados JSON
Você deve ter notado que o conteúdo da resposta anterior era um string (embora tenha sido mostrado como um objeto, podemos facilmente converter o conteúdo em uma string usando response.content.decode("utf-8")).

As strings são a forma como passamos as informações para as APIs, mas é difícil obter as informações que queremos delas. Como decodificar a string que recebemos e trabalhar com ela em Python?

O JSON é uma maneira de codificar estruturas de dados, como listas e dicionários, para seqüências de caracteres que garantem que elas sejam facilmente legíveis por máquinas. JSON é o formato principal no qual os dados são passados para as APIs e a maioria dos servidores de API envia suas respostas nesse formato.

O Python tem um ótimo suporte a JSON, com a biblioteca 'json'. Ele faz parte da biblioteca padrão, portanto, não precisamos instalar nada para usá-lo. Podemos converter listas e dicionários em JSON e converter strings em listas e dicionários . No caso dos nossos dados do ISS Pass, é um dicionário codificado para uma string no formato JSON.

A biblioteca json possui dois métodos principais:

- dumps - Utiliza um objeto Python e o converte em uma string.
- loads - Leva uma string JSON e a converte em um objeto Python.

In [None]:
response.json() # tras no formato json

In [None]:
meu_dicionario = response.json() # criando um dicionario
meu_dicionario

In [None]:
meu_dicionario['message'] # esta fazendo uma chamada uma determinada chave do dicionario, como se fosse chamar \
# uma coluna do dataframe

In [None]:
request = meu_dicionario['request'] # adiciono a chava request dentro de outra variavel e consegui acessar os\
# parametro da chave individualmente
request['datetime']

In [None]:
meu_dicionario['request']

In [None]:
type(response.json())

In [None]:
import json
print(json.dumps(response.json(),  sort_keys=True, indent=4))

## Parâmetros de consulta
Você verá que, no último exemplo, recebemos um código de status '400', que indica uma solicitação incorreta. Se você observar a documentação da API do OpenNotify, veremos que o ponto de extremidade do ISS Pass requer dois parâmetros.

O ponto de extremidade do ISS Pass retorna quando o ISS passará em seguida sobre um determinado local na Terra. Para calcular isso, precisamos passar as coordenadas do local para a API. Fazemos isso passando dois parâmetros - latitude e longitude.

Podemos fazer isso adicionando um argumento opcional de palavra-chave params, a nosso pedido. Neste caso, existem dois parâmetros que precisamos passar:

- lat - A latitude do local que queremos.
- lon - A longitude do local que queremos.

Podemos criar um dicionário com esses parâmetros e depois passá-los para a função 'requests.get'.

Nós também podemos fazer a mesma coisa diretamente, adicionando os parâmetros de consulta para a url, como este: http://api.open-notify.org/iss-pass.json?lat=40.71&lon=-74.

É quase sempre preferível configurar os parâmetros como um dicionário, porque requests cuida de algumas coisas que surgem, como formatar corretamente os parâmetros da consulta.

Faremos uma solicitação usando as coordenadas da cidade de São Paulo e veremos a resposta que recebermos.

__São Paulo__<br>
Latitude: -23.68<br>
Longitude: -46.87

In [None]:
# Este comando busca os mesmos dados que o comando que usamos para buscar os dados de São Paulo acima
response = requests.get("http://api.open-notify.org/iss-pass.json?lat=-23.68&lon=-46.87")
print(json.dumps(response.json(), sort_keys=True, indent=4))

## Uma mesma API pode conter diversas **ROTAS** ou endpoints diferentes 

Como o servidor faz para saber o que está sendo pedido na solicitação? Isso é especificado na URL (Uniform Resource Locator), uma espécie de caminho que indica onde um recurso pode ser encontrado.

- protocol: Indica o protocolo que será utilizado para acessar (HTTP, FTP, HTTPS)
- host: Indica como encontrar na rede (local ou internet) o servidor que tem o recurso
- port: Indica em qual porta o servidor está escutando. A 'porta' de um IP é o que permite que um computador se comunique simultaneamente com outros. Cada comunicação requer uma porta (são ao todo 65.535)
- path: Indica o caminho para localizar o recurso dentro do servidor. Como se fossem pastas do navegador de arquivos
- query: Indica qual é a consulta que está sendo realizada. Inclui quais são os argumentos desejados ou necessários, bem como os valores a ser utilizado para cada argumento

<img src="http://digitalad.com.br/DH/Picture1.png">
<br>

Por exemplo, podemos usar a funcionalidade dessa API da ISS para descobrir todas as pessoas que estão em orbita.

In [None]:
# Get the response from the API endpoint.
response = requests.get("http://api.open-notify.org/astros.json")
data = response.json()
print(json.dumps(response.json(), sort_keys=True, indent=4))

Para conseguir capturar um dado específico do JSON, basta fazer as referências como se buscasse em um dicionário, identificando o tipo de cada elemento ou nível do dicionário (exemplo: um dicionário de listas, um dicionário de dicionários, etc).

In [None]:
print('Total de astronautas:', data["number"])
print('Primeiro da lista:', data["people"][0])
print('Nome do 1o da lista:', data["people"][0]['name'])

In [None]:
data['people']

___

# PRÁTICA

## APIs simples

### Mercado Livre
Vamos utilizar a API do MercadoLivre para consultar anúncios<br>
<strong>O que fazer</strong>: acesso, download, tratamento e cálculo<br>
<strong>Documentação</strong>: https://developers.mercadolivre.com.br/pt_br/api-docs-pt-br<br>
<strong>Objetivo</strong>: Qual o preço médio dos anúncios de iphones em Minas Gerais<br>
<strong>Desafio</strong>: Resolve o exercício através de uma função para permitir realizar a mesma consulta com outros itens ou estados<br>
<strong>Dica</strong>: Carregue seus dados para um dataframe para facilitar a manipulação dos dados

In [None]:
import requests
import pandas as pd
import numpy as np
response = requests.get('https://api.mercadolibre.com/sites/MLB/search?q=iphone')


In [None]:
response.json()

In [None]:
response

In [None]:
response.content

In [None]:
iphone = pd.DataFrame(response.json()['results'])
iphone.head()

In [None]:
iphone.tail(1).T

In [None]:
iphone_address = iphone.address.apply(pd.Series).head() # transforma em uma series com 4 colunas
iphone_address

In [None]:
# vou fazer a uniao minha variavel iphone_address  apartir do merge \
# nao esquecendo de apagar a coluna address para as informacoes nao ficarem duplicadas.
iphone_state = iphone.merge(iphone_address,left_index=True, right_index=True).drop('address', axis=1)
iphone_state.head().T

In [None]:
iphone_state.loc[iphone_state.state_name=='Minas Gerais'].price.mean()

In [None]:
iphone_state.loc[iphone_state.state_name=='Minas Gerais'].price.count()

In [None]:
print('Contagem:', iphone_state.loc[iphone_state.state_name=='Minas Gerais',:].price.count())
print('Média:', round(iphone_state.loc[iphone_state.state_name=='Minas Gerais',:].price.mean(),2))

### NBA
Vamos utilizar a API da NBA para entender os principais jogadores das finais.<br>
<strong>O que fazer</strong>: consulta a API através de módulos e funções de uma biblioteca<br>
<strong>Documentação</strong>: https://github.com/swar/nba_api<br>
<strong>Objetivo</strong>: Qual a distância média de arremessos dos jogadores Kawhi Leonard e Stephen Curry na temporada 18/19<br>
<strong>Desafio</strong>: Plote um gráfico comparando o perfil de localização dos arremessos.<br>
<strong>Dica</strong>: A biblioteca tem muitos módulos e funções. Seja objetivo em encontrar aqueles que interessam ao problema

In [None]:
import requests
import pandas as pd
import numpy as np
nba = requests.get('nba_api/stats/endpoints/alltimeleadersgrids.py')

___

## APIs com autenticação

### Spotify
Vamos utilizar a API do Spotify para experimentar o processo de autenticação.<br>
<strong>O que fazer</strong>: estudando a estrutura da API para conseguir a informação desejada<br>
<strong>Documentação</strong>: https://developer.spotify.com/documentation/web-api/<br>
<strong>Objetivo</strong>: Qual a popularidade média da cantora Teresa Cristina e sua música mais popular?<br>
<strong>Dica</strong>: É crítico entender a estrutura da API (quais são as possíveis requisições e quais dados cada uma entrega). Utilize o console (https://developer.spotify.com/console/) para facilitar esse entendimento.

___

## APIs com autenticação complexa (e/ou billing)

### Google Agenda

Vamos utilizar a API do Google Agenda para experimentar o processo de autenticação do Google.<br>
<strong>O que fazer</strong>: entender aspectos da autenticação por crendenciais e tokens.<br>
<strong>Documentação</strong>: https://developers.google.com/calendar/v3/reference<br>
<strong>Objetivo</strong>: Trazer os próximos 4 eventos na sua agenda do Google.<br>
<strong>Dica</strong>: o processo é complexo, mas o Google disponibiliza vários "quick start projects" funcionais. Para esse exercício podem seguir esse: https://developers.google.com/calendar/quickstart/python<br>
<strong>Bibliotecas</strong>: pip install --upgrade google-api-python-client google-auth-httplib2 google-auth-oauthlib

### Twitter
Explorar o serviço.<br>


___

# Próximos passos

Há milhares de APIs e cada uma delas tem um jeito próprio de lidar, ou seja, de fazer nossas solicitações de dados e envio de dados.

Uma das muitas vantagens das APIs é tornar as soluções encaixaveis e reutilizaveis em outros programas.

Na nossa área de ciência de dados, não só utilizamos APIs para consultar dados mas muitas vezes para fornecer nossa aplicação de machine learning como um serviço.

Há várias plataformas que monitoram as inúmeras APIs disponíveis: 
- https://99apis.com/home
- https://www.programmableweb.com/
- https://rapidapi.com/

Há também softwares utilizados na administração de APIs (tanto para consultas quanto para publicação). Um dos mais famosos é o Postman (https://www.postman.com/)