# **Integração com a API publica com dados do corona**

 ### **Integrantes do grupo:** Alecsander, Matheus, Rogerio e Solano.

 > **Objetivo:** fazer a requisição dos dados via API com o retorno em JSON. O JSON é estruturado em um Pandas DataFrame para tratamento dos dados e inserção no banco de dados MySQL.
 URL de acesso: https://covid-api.mmediagroup.fr/v1/cases

#### Para fazer a integração serão utilizadas as seguintes bibliotecas pelos seguintes motivos:

>**Pandas:** A biblioteca Pandas será utilizada para estruturação/tratamento do arquivo e facilitar a inserção no banco.

>**SqlAlchemy:** Para criar a conexão com o banco que será utilizada pelo Pandas.

>**Json:** Para fazer a leitura e estruturação do retorno da API como um arquivo Json.

>**Requests:** Para fazer o request na API e obter o retorno.

>**IterTools:** Para usar as funções de laço e facilitar na leitura do Json para o Pandas DataFrame.


#### Vamos iniciar fazendo a importação das bibliotecas:

In [4]:
# Importação das bibliotecas.
import pandas as pd
from pandas.io.sql import to_sql
from sqlalchemy import create_engine, types
import json
import requests
from itertools import chain

#### A seguir vamos fazer a requisição na API para obter o Json com os dados:

>**Obs.:** Para fazer a requisição é recomendado fazer pela ferramenta **Postman** e exportar a requisição dele.

![Postman.PNG](attachment:Postman.PNG)

In [9]:
# URL para fazer a requisição da API.

url = "https://covid-api.mmediagroup.fr/v1/cases"

# Cabeçalhos de autenticação, nesse caso essa API não exige uma autenticação, portanto estão vazios.

payload={}
headers = {}

# Faz a chamada da API com o método request da bilbioteca requests.
# OBS.: Estamos passando o método GET na chamada da API, 
#       isso indica que estamos solicitando somente um retorno de informação.

retorno = requests.request("GET", url, headers=headers, data=payload)

#### Agora a variável "retorno" está com o retorno da API:

In [13]:
# Para mostrar algum valor na tela pelo terminal nós usamos o comando print("Seu texto entre aspas ou uma variável").

print(retorno.text)


{"Afghanistan": {"All": {"confirmed": 67743, "recovered": 56711, "deaths": 2855, "country": "Afghanistan", "population": 35530081, "sq_km_area": 652090, "life_expectancy": "45.9", "elevation_in_meters": null, "continent": "Asia", "abbreviation": "AF", "location": "Southern and Central Asia", "iso": 4, "capital_city": "Kabul", "lat": "33.93911", "long": "67.709953", "updated": "2021/05/26 23:21:00+00"}}, "Albania": {"All": {"confirmed": 132244, "recovered": 128978, "deaths": 2447, "country": "Albania", "population": 2930187, "sq_km_area": 28748, "life_expectancy": "71.6", "elevation_in_meters": null, "continent": "Europe", "abbreviation": "AL", "location": "Southern Europe", "iso": 8, "capital_city": "Tirana", "lat": "41.1533", "long": "20.1683", "updated": "2021/05/26 23:21:00+00"}}, "Algeria": {"All": {"confirmed": 127646, "recovered": 88861, "deaths": 3440, "country": "Algeria", "population": 41318142, "sq_km_area": 2381741, "life_expectancy": "69.7", "elevation_in_meters": 800, "con

#### Agora para passar o retorno que está em texto e estruturar como um Json vamos fazer o seguinte:

In [8]:
# Do retorno que foi recebido e jogado em memória dento da variável retorno queremos somente o valor em texto, 
# por isso passamos o parâmetro ".text".

dados = retorno.text

# Carregamos e transformamos o texto para o formato Json com a função loads() da biblioteca json.

dados = json.loads(dados)

#### Para analisar melhor o Json agora que ele está estruturado, podemos usar a função "dumps" para printar de forma estruturada:

In [14]:

print(json.dumps(dados, indent=4, sort_keys=True))


{
    "Afghanistan": {
        "All": {
            "abbreviation": "AF",
            "capital_city": "Kabul",
            "confirmed": 67743,
            "continent": "Asia",
            "country": "Afghanistan",
            "deaths": 2855,
            "elevation_in_meters": null,
            "iso": 4,
            "lat": "33.93911",
            "life_expectancy": "45.9",
            "location": "Southern and Central Asia",
            "long": "67.709953",
            "population": 35530081,
            "recovered": 56711,
            "sq_km_area": 652090,
            "updated": "2021/05/26 23:21:00+00"
        }
    },
    "Albania": {
        "All": {
            "abbreviation": "AL",
            "capital_city": "Tirana",
            "confirmed": 132244,
            "continent": "Europe",
            "country": "Albania",
            "deaths": 2447,
            "elevation_in_meters": null,
            "iso": 8,
            "lat": "41.1533",
            "life_expectancy": "71.6",
    

#### Vamos usar o Pandas para estruturar o Json em um DataFrame e usar a função "chain.from_iterable" do itertools para descompactar o Json:

In [17]:
# Descompactando os valores do dict 'dados.values()' com a função chain do módulo itertools
df = pd.DataFrame(chain.from_iterable(map(lambda sec: sec.values(), dados.values())))

#### Agora a variável "df" está com os dados estruturados em um DataFrame e para printar ela em tela bastar passar o nome:

In [18]:

df


Unnamed: 0,confirmed,recovered,deaths,country,population,sq_km_area,life_expectancy,elevation_in_meters,continent,abbreviation,location,iso,capital_city,lat,long,updated
0,67743,56711,2855,Afghanistan,3.553008e+07,652090.0,45.9,,Asia,AF,Southern and Central Asia,4.0,Kabul,33.93911,67.709953,2021/05/26 23:21:00+00
1,132244,128978,2447,Albania,2.930187e+06,28748.0,71.6,,Europe,AL,Southern Europe,8.0,Tirana,41.1533,20.1683,2021/05/26 23:21:00+00
2,127646,88861,3440,Algeria,4.131814e+07,2381741.0,69.7,800,Africa,DZ,Northern Africa,12.0,Alger,28.0339,1.6596,2021/05/26 23:21:00+00
3,13664,13263,127,Andorra,7.696500e+04,468.0,83.5,1996,Europe,AD,Southern Europe,20.0,Andorra la Vella,42.5063,1.5218,2021/05/26 23:21:00+00
4,32933,27204,735,Angola,2.978419e+07,1246700.0,38.3,1112,Africa,AO,Central Africa,24.0,Luanda,-11.2027,17.8739,2021/05/26 23:21:00+00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
783,542831,0,11138,,,,,,,,,,,32.3182,-86.9023,2021/05/26 23:21:00+00
784,999567,0,13031,,,,,,,,,,,35.630066,-79.806419,2021/05/26 23:21:00+00
785,48822,0,1131,,,,,,,,,,,38.897438,-77.026817,2021/05/26 23:21:00+00
786,67301,0,825,,,,,,,,,,,44.693947,-69.381927,2021/05/26 23:21:00+00


#### Para padronizar o nome das colunas e facilitar na inserção no banco vamos deixar os cabeçalhos em maísculo:

In [41]:
# Para fazer o tratamento fazemos usamos a list comprehension em cima das colunas e usamos o upper() para deixar maísculo

df.columns = [x.upper() for x in df.columns]

#### Para conferir o resultado vamos printar o DataFrame novamente:

In [43]:

df


Unnamed: 0,CONFIRMED,RECOVERED,DEATHS,COUNTRY,POPULATION,SQ_KM_AREA,LIFE_EXPECTANCY,ELEVATION_IN_METERS,CONTINENT,ABBREVIATION,LOCATION,ISO,CAPITAL_CITY,LAT,LONG,UPDATED
0,67743,56711,2855,Afghanistan,3.553008e+07,652090.0,45.9,,Asia,AF,Southern and Central Asia,4.0,Kabul,33.93911,67.709953,2021/05/26 23:21:00+00
1,132244,128978,2447,Albania,2.930187e+06,28748.0,71.6,,Europe,AL,Southern Europe,8.0,Tirana,41.1533,20.1683,2021/05/26 23:21:00+00
2,127646,88861,3440,Algeria,4.131814e+07,2381741.0,69.7,800,Africa,DZ,Northern Africa,12.0,Alger,28.0339,1.6596,2021/05/26 23:21:00+00
3,13664,13263,127,Andorra,7.696500e+04,468.0,83.5,1996,Europe,AD,Southern Europe,20.0,Andorra la Vella,42.5063,1.5218,2021/05/26 23:21:00+00
4,32933,27204,735,Angola,2.978419e+07,1246700.0,38.3,1112,Africa,AO,Central Africa,24.0,Luanda,-11.2027,17.8739,2021/05/26 23:21:00+00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
783,542831,0,11138,,,,,,,,,,,32.3182,-86.9023,2021/05/26 23:21:00+00
784,999567,0,13031,,,,,,,,,,,35.630066,-79.806419,2021/05/26 23:21:00+00
785,48822,0,1131,,,,,,,,,,,38.897438,-77.026817,2021/05/26 23:21:00+00
786,67301,0,825,,,,,,,,,,,44.693947,-69.381927,2021/05/26 23:21:00+00


#### Como queremos os dados apenas por pais vamos excluir as linhas onde não temos a informação pois correspondem aos dados de cidade:

In [44]:
# Remover as linhas Nan do campo country
df = df.dropna(subset=['COUNTRY'])

#### Conferindo novamente:

In [45]:
df

Unnamed: 0,CONFIRMED,RECOVERED,DEATHS,COUNTRY,POPULATION,SQ_KM_AREA,LIFE_EXPECTANCY,ELEVATION_IN_METERS,CONTINENT,ABBREVIATION,LOCATION,ISO,CAPITAL_CITY,LAT,LONG,UPDATED
0,67743,56711,2855,Afghanistan,35530081.0,652090.0,45.9,,Asia,AF,Southern and Central Asia,4.0,Kabul,33.93911,67.709953,2021/05/26 23:21:00+00
1,132244,128978,2447,Albania,2930187.0,28748.0,71.6,,Europe,AL,Southern Europe,8.0,Tirana,41.1533,20.1683,2021/05/26 23:21:00+00
2,127646,88861,3440,Algeria,41318142.0,2381741.0,69.7,800,Africa,DZ,Northern Africa,12.0,Alger,28.0339,1.6596,2021/05/26 23:21:00+00
3,13664,13263,127,Andorra,76965.0,468.0,83.5,1996,Europe,AD,Southern Europe,20.0,Andorra la Vella,42.5063,1.5218,2021/05/26 23:21:00+00
4,32933,27204,735,Angola,29784193.0,1246700.0,38.3,1112,Africa,AO,Central Africa,24.0,Luanda,-11.2027,17.8739,2021/05/26 23:21:00+00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
721,6086,2853,45,Vietnam,95540800.0,331689.0,69.3,398,Asia,VN,Southeast Asia,704.0,Hanoi,14.058324,108.277199,2021/05/26 23:21:00+00
723,6688,3306,1313,Yemen,28250420.0,527968.0,59.8,999,Asia,YE,Middle East,887.0,Sanaa,15.552727,48.516388,2021/05/26 23:21:00+00
724,93627,91239,1273,Zambia,17094130.0,752618.0,37.2,1138,Africa,ZM,Eastern Africa,894.0,Lusaka,-13.133897,27.849332,2021/05/26 23:21:00+00
725,38819,36531,1589,Zimbabwe,16529904.0,390757.0,37.8,961,Africa,ZW,Eastern Africa,716.0,Harare,-19.015438,29.154857,2021/05/26 23:21:00+00


#### Vamos agora formatar o campo "UPDATED" para o tipo data antes de inserir no banco: 

In [50]:
# Formatar o campo updated para o formato YYYY-MM-DD HH:MM:SS
df['UPDATED'] = pd.to_datetime(df['UPDATED'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['UPDATED'] = df['UPDATED'].apply(pd.to_datetime)


#### Vamos criar a conexão com o banco pela função "create_engine" do sqlalchemy:

In [51]:
# Cria a engine/método de conexão para conectar ao mysql instalado localmente
conn = create_engine('mysql+mysqlconnector://root:12345@localhost/staging', connect_args={'auth_plugin': 'mysql_native_password'})

#### E por final vamos inserir no banco de dados usando a função to_sql que vai fazer toda a parte estrutural do sql, inclusive criar a tabela com os tipos de dados do DataFrame:

In [52]:
# Método to_sql transforma o DataFrame em um insert automaticamente, passando a engine criada acima para conectar ao banco
to_sql(df, 'PAIS', conn, schema='staging', if_exists='append')



#### Para finalizar, podemos conferir no banco de dados que os dados já estão inseridos na tabela criada pela função to_sql:
![sql.PNG](attachment:sql.PNG)