# Consumindo API e tratando dados com Python

**APIs REST**

Uma API (application programming interface) é uma especificação que define como componentes de software devem interagir entre si (thanks, wikipedia!). APIs REST se utilizam do protocolo HTTP para fornecer determinadas funcionalidades aos seus clientes. Essas funcionalidades são descritas por conjuntos de recursos que podem ser acessados remotamente pelos clientes do serviço, através de requisições HTTP comuns.

Em uma API REST existem dois conceitos principais: os recursos (resources) e as coleções (collections). Um recurso é uma unidade que representa um objeto (composto por dados, relacionamentos com outros recursos e métodos). Já uma coleção é um conjunto de recursos que pode ser obtido acessando uma URL. Tal coleção poderia representar a coleção de todos os registros de determinado tipo, ou então, todos os registros que possuem relacionamento com determinado objeto, ou todos os registros que atendem à determinada condição, etc.

Como você pôde ver, uma API REST nada mais é do que um serviço que fornece acesso remoto a recursos via HTTP. Para podermos entender melhor e fazer requisições HTTP a um serviço REST, precisamos conhecer um pouquinho mais sobre o protocolo HTTP e como seus métodos são utilizados em uma API REST.



**HTTP e seus métodos**

O protocolo HTTP define que uma requisição de um cliente para um servidor é composta por:

Uma linha descrevendo a requisição, composta por:
Método: indica o que desejamos fazer com o recurso. Pode ser: GET, POST, PUT, DELETE, além de outros menos utilizados.
URL: o endereço do recurso que se deseja acessar.
Versão: a versão do protocolo a ser usada.
O corpo da requisição, que pode conter informações como o nome do host de onde desejamos obter o recurso solicitado, dados a serem enviados do cliente para o servidor, etc.

O método de uma requisição HTTP indica a ação que pretendemos realizar com aquela requisição, e cada método tem um significado próprio:

**GET:** utilizado para a obtenção de dados. É o tipo de requisição que o navegador faz a um servidor quando você digita uma URL ou clica em um link.

**POST:** utilizada na web para o envio de dados do navegador para o servidor, principalmente quando esses dados vão gerar alguma alteração no último.
PUT: serve para solicitar a criação de objetos no servidor caso esses ainda não existirem. Na prática, a maioria das páginas utiliza o método POST para isso também.

**DELETE:** serve para indicar que o usuário (emissor da requisição em questão) deseja apagar determinado recurso do servidor.

Após executar a requisição do cliente, o serviço responde com uma mensagem de resposta HTTP. O protocolo HTTP define que as mensagens de resposta devem possuir um campo indicando o status da requisição. O status mais conhecido na web é o 404 (not found – recurso não encontrado), mas existem vários, como: 200 (OK), 401 (not authorized – indicando falta de autenticação), 500 (internal server error – erro no servidor), dentre outros. Por ser baseado em HTTP, o padrão REST define que as mensagens de resposta devem conter um código de status, para que o cliente do serviço web possa verificar o que aconteceu com a sua requisição.

**O quê vamos fazer:**

Acessar uma API do site https://brasil.io e pegarmos dados do Covid-19 e prepararmos estes dados para um futuro enriquecimento.

Para esta tarefa utilizaremos algumas bibliotecas do Python, são elas:
- **Json:**
A biblioteca json disponível no Python pode operar com objetos json originários de arquivos ou strings. Ao decodificar o objeto , a biblioteca o  converte para listas ou dicionários Python. E também o inverso, ou seja, converte listas ou dicionários Python em objetos json.

- **Requests:**
A biblioteca requests é utilizada para fazer solicitações HTTP em Python. Ele abstrai as complexidades de fazer solicitações por trás de uma API simples e bonita, para que você possa se concentrar na interação com os serviços e no consumo de dados em seu aplicativo.

- **Pandas:**
O pandas é uma biblioteca de análise e manipulação de dados de código aberto, rápida, poderosa, flexível e fácil de usar, construída sobre a linguagem Python .

Bom agora que já entendemos um pouco sobre APIs RESET, sobre algumas bibliotecas do python e oque vamos fazer vamos colocara mão na massa.

**Instala as Bibliotecas necessárias**

Vamos precisar instalar as bibliotecas do python citado acima, caso estes não esteja instalado, execute a celula abaixo:


In [171]:
!pip install json
!pip install requests
!pip install pandas

[31mERROR: Could not find a version that satisfies the requirement json (from versions: none)[0m
[31mERROR: No matching distribution found for json[0m


**Importa as Bibliotecas**

Agora precisamos importar as bibliotecas para que possamos utilizá las em nosso algoritimo.

In [0]:
import json
import requests
import pandas as pd

**Pega dados do Covid19 da API do Brasil.io**

Com as bibliotecas instanciadas precisamos fazer a requisição à API para capturar os dados e armazena los em uma variável.

In [0]:
dadoscodvi19 = requests.get('https://brasil.io/api/dataset/covid19/caso/data')

**Convertendo dados da API para m dicionario**

Os dados capturados estão no formato JSON e para que possamos manipulá los em python precisamos converter o mesmo em um dicionário e para isso utilizamos a função loads da biblioteca JSON.


In [0]:
dicCovid = json.loads(dadoscodvi19.content)

**Exibir as chaves do Dicionário**

Precisamos agora entender a estrutura do nosso dicionário e para isso precisamos exibir algumas informações estruturais

In [231]:
dicCovid.keys()

dict_keys(['count', 'next', 'previous', 'results'])

Com este resultado podemos ver que temos uma dicionario chamada results e este pode conter nossos dados, para confirmarmos esta hipótese podemos exibir a estrutura da lista results

In [232]:
dicCovid['results'][0].keys()

dict_keys(['city', 'city_ibge_code', 'confirmed', 'confirmed_per_100k_inhabitants', 'date', 'death_rate', 'deaths', 'estimated_population_2019', 'is_last', 'order_for_place', 'place_type', 'state'])

Com isso conseguimos ter a confirmação de nossa hipótese, pois o resultado nos mostra as colunas que esperávamos

**Converte dicionário em Data Frame**

Após termos entendido a estrutura do nosso dicionário podemos agora transformar a chave results em um data frame do pandas, pois só assim conseguiremos utilizar as funções do mesmo

In [0]:
dfCodiv19 = pd.DataFrame(dicCovid ['results'])

**Descrevendo e limpando o dataset**

Para que possamos entender nosso dataframe e sabermos quais colunas temos que ajustar e quais temos que eliminar ou mesmo manter precisamos entender como estão e para isso precisamos coletar informações sobre o dataframe.

In [234]:
dfCodiv19.count()

city                               906
city_ibge_code                     963
confirmed                         1000
confirmed_per_100k_inhabitants     958
date                              1000
death_rate                          90
deaths                             908
estimated_population_2019          963
is_last                           1000
order_for_place                   1000
place_type                        1000
state                             1000
dtype: int64

Com estes dados podemos tirar algumas conlusões:
- temos um total de 1.000 linhas em nosso dataset
- Temos algumas colunas que não nos serão necessárias e que podemos elimina las, são elas:
  - city_ibge_code
  - confirmed_per_100k_inhabitants
  - death_rate
  - estimated_population_2019
  - is_last
  - order_for_place
- deaths e city precisa ser analizada, pois como pudemos ver ela não contem a mesma quantidade de registros que o total do nosso dataset

Vamos liminar as colunas desnecessárias

In [235]:
dfCodiv19.pop('city_ibge_code')
dfCodiv19.pop('confirmed_per_100k_inhabitants')
dfCodiv19.pop('death_rate')
dfCodiv19.pop('estimated_population_2019')
dfCodiv19.pop('is_last')

0       True
1       True
2       True
3       True
4       True
       ...  
995    False
996    False
997    False
998    False
999    False
Name: is_last, Length: 1000, dtype: bool

vamos agora analizar a coluna city que identificamos que, possui dados missing(sujeira ou dados faltantes) e vamos iniciar vendo os dados que estão nulos no dataset

In [236]:
dfCodiv19[dfCodiv19['city'].isnull()]

Unnamed: 0,city,confirmed,date,deaths,order_for_place,place_type,state
1,,25,2020-03-28,0.0,12,state,AC
4,,14,2020-03-28,0.0,18,state,AL
10,,111,2020-03-28,1.0,12,state,AM
12,,4,2020-03-28,0.0,9,state,AP
34,,127,2020-03-28,,21,state,BA
...,...,...,...,...,...,...,...
931,,370,2020-03-25,8.0,13,state,RJ
935,,14,2020-03-25,0.0,9,state,RN
938,,5,2020-03-25,0.0,5,state,RO
941,,8,2020-03-25,0.0,5,state,RR


Com a análise acima podemos ver que os dados que estão com a coluna city nulos são os que mostram as valores de casos confirmados e moretes sumarizados por estado e como não vamos precisar destes dados,pois podemos calular os mesmo quando precisarmos.

Então vamos remover os  dados desnecesários.

In [0]:
dfCodiv19 = dfCodiv19[dfCodiv19['city'].notnull()]

Agora que removemos os dados missing da coluna city, precisamos dar uma analizada no conteudo da coluna para que possamos ter a certeza que os dados são validos.

In [238]:
pd.unique(dfCodiv19[['city']].values.ravel('K'))

array(['Rio Branco', 'Maceió', 'Porto Real do Colégio', 'Boca do Acre',
       'Manacapuru', 'Manaus', 'Parintins', 'Santo Antônio do Içá',
       'Macapá', 'Alagoinhas', 'Barreiras', 'Brumado', 'Camaçari',
       'Canarana', 'Conceição do Jacuípe', 'Conde', 'Feira de Santana',
       'Ilhéus', 'Importados/Indefinidos', 'Ipiaú', 'Itabuna', 'Itagibá',
       'Jequié', 'Juazeiro', 'Lauro de Freitas', 'Porto Seguro', 'Prado',
       'Salvador', 'São Domingos', 'Teixeira de Freitas', 'Aquiraz',
       'Caucaia', 'Fortaleza', 'Fortim', 'Juazeiro do Norte',
       'Maranguape', 'Mauriti', 'Quixadá', 'Sobral',
       'Águas Lindas de Goiás', 'Anápolis', 'Aparecida de Goiânia',
       'Catalão', 'Goianésia', 'Goiânia', 'Hidrolândia', 'Jataí',
       'Luziânia', 'Rio Verde', 'Silvânia', 'Valparaíso de Goiás',
       'Belo Horizonte', 'Betim', 'Boa Esperança', 'Bom Despacho',
       'Campo Belo', 'Campos Altos', 'Carmo do Cajuru', 'Contagem',
       'Coronel Fabriciano', 'Divinópolis', 'Governad

Com isso podemos concluir que a coluna city do nosso dataset está OK 

Então vamos agora analisar a coluna deaths

In [239]:
dfCodiv19[dfCodiv19['deaths'].isnull()]

Unnamed: 0,city,confirmed,date,deaths,order_for_place,place_type,state
5,Boca do Acre,1,2020-03-28,,3,city,AM
6,Manacapuru,2,2020-03-28,,2,city,AM
7,Manaus,105,2020-03-28,,12,city,AM
9,Santo Antônio do Içá,1,2020-03-28,,3,city,AM
13,Alagoinhas,1,2020-03-28,,3,city,BA
...,...,...,...,...,...,...,...
891,Importados/Indefinidos,5,2020-03-25,,9,city,PE
892,Jaboatão dos Guararapes,3,2020-03-25,,7,city,PE
893,Olinda,3,2020-03-25,,4,city,PE
894,Petrolina,2,2020-03-25,,3,city,PE


Com esta anaise podemos ver que existem cidades que não tem mortes e possuem o valor da mesma ausente, então precisamos preencher as mesmas com 0

In [0]:
dfCodiv19 = dfCodiv19.fillna(0)

Vamos agora verificar se temos mais algum valor nulos e se corrigimos a coluna deaths

In [246]:
dfCodiv19.isna().sum()

city               0
confirmed          0
date               0
deaths             0
order_for_place    0
place_type         0
state              0
dtype: int64

Vamos verificar os valores da coluna place_type, pois precisamos ter apenas as cidades em nosso dataset.

In [247]:
pd.unique(dfCodiv19[['place_type']].values.ravel('K'))

array(['city'], dtype=object)

Com isso confirmamos que só possuimos cidades e não temos a necessidade de termos mais esta coluna em nosso dataset, então vamos leiminala

In [248]:
dfCodiv19.pop('place_type')

0      city
2      city
3      city
5      city
6      city
       ... 
995    city
996    city
997    city
998    city
999    city
Name: place_type, Length: 906, dtype: object

caom isso chegamos a conclusão que para nossa análise precisaremos apenas das colunas:
- **City:** que armazena a cidade que os dados representam
- **State:** que armazena a informação da UF onde a cidade está
- **Confirmed:** que armazena a quantidade de casos de COVID-19 confirmados na cidade/estado
- **Date:** que armazena a data em que as informações foram atualizadas
- **Deaths:** que armazena a quantidade de mortos por COVID-19 na Cidade/Estado

**Traduzir nome das Colunas**

In [0]:
dfCodiv19 = dfCodiv19.rename(columns={'city': 'cidade', 'confirmed': 'casosConfirmados', 'date': 'dataAtualizacao', 'deaths': 'mortos', 'state': 'uf'  })

**Exibir dataset Final**

In [251]:
dfCodiv19.head() 

Unnamed: 0,cidade,casosConfirmados,dataAtualizacao,mortos,order_for_place,uf
0,Rio Branco,25,2020-03-28,0.0,12,AC
2,Maceió,13,2020-03-28,0.0,18,AL
3,Porto Real do Colégio,1,2020-03-28,0.0,4,AL
5,Boca do Acre,1,2020-03-28,0.0,3,AM
6,Manacapuru,2,2020-03-28,0.0,2,AM


**Gera CSV com os dados para Utilizarmos em nosso próximo Artigo**

In [0]:
dfCodiv19.to_csv('datasetCodiv19.csv', index=False,sep=';')

**Autor:**

*Alexandre Tavares*

*Engenheiro de Dados*

https://www.linkedin.com/in/alexandre-tavares/