In [1]:
# importando bibliotecas/pacotes
import requests
import json
import pandas as pd
import os

In [2]:
# guardando o URL de onde requisitaremos dados em uma variavel
url = 'https://api.covid19api.com/summary'

In [3]:
# fazendo uma requisicao ao URL da API
response = requests.get(url)
# escrevendo os dados brutos em um JSON na minha pasta
with open('./raw_data.json', 'w') as file_output:
    json.dump(response.json(), file_output)
# ate aqui ja pode ser considerado um processo de EL - Extract and Load

In [4]:
# mas digamos que os requisitos sejam que:
#    - os dados sejam salvos em um formato estruturado para facilitar a analise, como um CSV
#    - so precisamos dos dados do Brasil
#    - nao precisamos dos campos "Slug", "CountryCode" e "Premium"

In [5]:
# hora de um pouco de transformacao!

In [6]:
# inicializando uma variavel que tem os dados brutos segmentados
data = dict(json.load(open('./raw_data.json')))

In [7]:
# exemplificando
print(data.keys())
print("\n")
print(data['Global'])

dict_keys(['Global', 'Countries', 'Date'])


{'NewConfirmed': 254211, 'TotalConfirmed': 23200844, 'NewDeaths': 5163, 'TotalDeaths': 804375, 'NewRecovered': 199034, 'TotalRecovered': 14910035}


In [8]:
# inicializando uma variavel que contem apenas os dados de cada pais (uma lista de paises com seus respectivos dados)
countries_data = data['Countries']

In [9]:
# agora quero encontrar o pais 'Brazil' dentro da minha lista de paises
for country in countries_data: # para cada pais dentro da minha lista
    if country['Country'] == 'Brazil': # se o nome do pais for 'Brazil'
        brazil_data = country # armazena os valores dentro de uma variavel chamada brazil_data


In [10]:
# mostrando os dados do Brasil
print(brazil_data)

{'Country': 'Brazil', 'CountryCode': 'BR', 'Slug': 'brazil', 'NewConfirmed': 50032, 'TotalConfirmed': 3582362, 'NewDeaths': 892, 'TotalDeaths': 114250, 'NewRecovered': 58408, 'TotalRecovered': 2913966, 'Date': '2020-08-23T20:34:26Z', 'Premium': {}}


In [11]:
%%capture
# retirando os campos desnecessarios
brazil_data.pop('Slug')
brazil_data.pop('Premium')
brazil_data.pop('CountryCode')

In [12]:
# transcrevendo em CSV
df = pd.DataFrame.from_dict(brazil_data, orient='index') # lendo o dicionario como um dataframe
df = df.T # transpondo linhas para colunas

In [13]:
# mostrando os dados
df.head()

Unnamed: 0,Country,NewConfirmed,TotalConfirmed,NewDeaths,TotalDeaths,NewRecovered,TotalRecovered,Date
0,Brazil,50032,3582362,892,114250,58408,2913966,2020-08-23T20:34:26Z


In [14]:
df.to_csv('brazil_data.csv', index=False) # passa o dataframe para um arquivo CSV e remove a coluna de indices

In [15]:
# removendo meu "arquivo de staging"
os.remove('./raw_data.json')

In [16]:
# pronto! agora esses dados podem ser consumidos por algum software de analise para alguma visualizacao