<a href="https://colab.research.google.com/github/luisfelipebarreto/covid-report-dashboard/blob/main/Dashboard_Covid_M28_Exercicio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: COVID-19 Dashboard
---

# **Tópicos**

<ol type="1">
  <li>Introdução;</li>
  <li>Análise Exploratória de Dados;</li>
  <li>Visualização Interativa de Dados;</li>
</ol>


---

---

# **COVID Dashboard**

## 1\. Introdução

### **1.1. TLDR**

 - **Dashboard**:
  - Looker Studio Dashboard ([Clique aqui](https://lookerstudio.google.com/reporting/ff89b4ed-fb86-49a9-9bea-a1b2ea5d8182)).
 - **Processamento**:
  - Kaggle Notebook ([Clique aqui](https://www.kaggle.com/code/lusfelipebarreto/an-lise-de-dados-covid-19-dashboard)).
  - Github ([Clique aqui](https://github.com/luisfelipebarreto/covid-report-dashboard)).
 - **Fontes**:
  - Casos de COVID-19 pela universidade John Hopkins ([link](https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports));
  - Vacinação contra COVID-19 pela universidade de Oxford ([link](https://covid.ourworldindata.org/data/owid-covid-data.csv)).

### **1.2. Contexto**

A pandemia da doença pelo coronavírus 2019, COVID-19 (sigla em inglês para coronavirus disease 2019) foi reconhecida pela Organização Mundial da Saúde (OMS) no dia 11 de março de 2020. No Brasil o primeiro caso foi confirmado em 26 de fevereiro. Nosso país foi um dos que mais sofreu com o vírus, o qual dizimou mais de 700 mil pessoas. Um dia emblemático no Brasil contra essa luta foi o 17 de janeiro de 2021, na qual foi aplicada a primeira dose da vacina contra a COVID-19.

O acompanhamento dos dados sobre a pandemia é de extrema importância para compreender como a doença está agindo e auxiliar os competentes à tomarem as melhores decisões baseadas em dados evolutivos factuais.

Esse projeto visa montar um dashboard de dados para melhor visualização do avanço da doença no Brasil, entre 2021 e 2022, fazendo um paralelo, durante esse mesmo período, com a vacinação contra esse terrível vírus que assolou a humanidade a partir do final de 2019.

Para acessar o dashboard basta clicar neste [link](https://lookerstudio.google.com/reporting/ff89b4ed-fb86-49a9-9bea-a1b2ea5d8182)

### **1.3. Dados**

Os dados sobre **casos da COVID-19** são compilados pelo centro de ciência de sistemas e engenharia da universidade americana **John Hopkins** ([link](https://www.jhu.edu)). Os dados são atualizados diariamente deste janeiro de 2020 com uma granularidade temporal de dias e geográfica de regiões de países (estados, condados, etc.). O website do projeto pode ser acessado neste [link](https://systems.jhu.edu/research/public-health/ncov/) enquanto os dados, neste [link](https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports). Abaixo estão descritos os dados derivados do seu processamento.

 - **date**: data de referência;
 - **pais**: país;
 - **estado**: Estado;
 - **populacao**: população estimada;
 - **casos**: número acumulado de infectados;
 - **casos_1d**: número diário de infectados;
 - **casos_media_movel_7d**: média móvel de 7 dias do número diário de infectados;
 - **casos_media_movel_7d_rate_14d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
 - **casos_tendencia**: tendência de queda ou crescimento da doença;
 - **mortes**: número acumulado de mortos;
 - **mortes_1d**: número diário de mortos;
 - **mortes_media_movel_7d**: média móvel de 7 dias do número diário de mortos;
 - **mortes_media_movel_7d_rate_14d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
 - **mortes_tendencia**: tendência de queda ou crescimento do número de mortes por COVID-19;
 - **rate_fatalidade_casos**: porcentagem de óbitos em relação ao número de casos da doença;
 - **mes**: mês de referência;
 - **ano**: ano de referência.

Os dados sobre **vacinação da COVID-19** são compilados pelo projeto Nosso Mundo em Dados (*Our World in Data* ou OWID) da universidade britânica de **Oxford** ([link](https://www.ox.ac.uk)). Os dados são **atualizados diariamente** deste janeiro de 2020 com uma **granularidade temporal de dias e geográfica de países**. O website do projeto pode ser acessado neste [link](https://ourworldindata.org) enquanto os dados, neste [link](https://covid.ourworldindata.org/data/owid-covid-data.csv). Abaixo estão descritos os dados derivados do seu processamento.

 - **date**: data de referência;
 - **pais**: país;
 - **populacao**: população estimada;
 - **total_doses**: número acumulado de doses administradas;
 - **uma_dose**: número acumulado de pessoas com uma dose;
 - **uma_dose_perc**: número acumulado relativo de pessoas com uma dose;
 - **duas_doses**: número acumulado de pessoas com duas doses;
 - **duas_doses_perc**: número acumulado relativo de pessoas com duas doses;
 - **tres_doses**: número acumulado de pessoas com três doses;
 - **tres_doses_perc**: número acumulado relativo de pessoas com três doses;
 - **mes**: mês de referência;
 - **ano**: ano de referência.

## 2\. Análise Exploratória de Dados

### **2.1. Pacotes e bibliotecas**

Abaixo estão os pacotes Python utilizados no projeto, afim de processar os dados e manipulá-los para a construção do nosso dashboard interativo.


In [None]:
import math
from typing import Iterator
from datetime import datetime, timedelta

import numpy as np
import pandas as pd

### **2.2. Extração**

#### **2.2.1 Casos**

Começaremos fazendo a extração do arquivo csv dos casos segundo a Universidade John Hopkins. Note que os dados estão armazenados um arquivo para cada dia, no exemplo abaixo estou extraindo os dados do dia 12 de janeiro de 2021

In [None]:
cases = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/01-12-2021.csv', sep=',')

In [None]:
cases.head()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
0,,,,Afghanistan,2021-01-13 05:22:15,33.93911,67.709953,53584,2301,44608,6675,Afghanistan,137.647787,4.294192
1,,,,Albania,2021-01-13 05:22:15,41.1533,20.1683,64627,1252,38421,24954,Albania,2245.708527,1.937271
2,,,,Algeria,2021-01-13 05:22:15,28.0339,1.6596,102641,2816,69608,30217,Algeria,234.067409,2.743543
3,,,,Andorra,2021-01-13 05:22:15,42.5063,1.5218,8682,86,7930,666,Andorra,11236.653077,0.990555
4,,,,Angola,2021-01-13 05:22:15,-11.2027,17.8739,18343,422,15512,2409,Angola,55.811022,2.300605


Para extrair os dados de interesse, no caso, entre 2021 e 2022, vamos utilizar um iterador para extraí-los no intervalo de tempo que definimos.

In [None]:
def date_range(start_date: datetime, end_date: datetime) -> Iterator[datetime]:
  date_range_days: int = (end_date - start_date).days
  for lag in range(date_range_days):
    yield start_date + timedelta(lag)

In [None]:
start_date = datetime(2021,  1,  1)
end_date   = datetime(2022, 12, 31)

In [None]:
# Lista vazia para armazenar os DataFrames diários de casos
caso_diario = []

# Laço para iterar sobre o range de datas estipuladas anteriormente
for date in date_range(start_date=start_date, end_date=end_date):
  date_str = date.strftime('%m-%d-%Y') # Converte a data para o formato '%m-%d-%Y'
  data_source_url = f'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/{date_str}.csv' # URL do arquivo csv

  caso = pd.read_csv(data_source_url, sep=',') # Lê o arquivo csv
  caso = caso.drop(['FIPS', 'Admin2', 'Last_Update', 'Lat', 'Long_', 'Recovered', 'Active', 'Combined_Key'], axis=1) # Remove as colunas em questão pois não são do nosso interesse
  caso = caso.query('Country_Region == "Brazil"').reset_index(drop=True) # Filtra apenas os dados do Brasil
  caso['Date'] = pd.to_datetime(date.strftime('%Y-%m-%d')) # Adiciona a coluna 'Date' ao DataFrame fazendo a conversão para o formato '%Y-%m-%d'
  caso_diario.append(caso)  # Adiciona o DataFrame diário na lista

# Concatena todos os DataFrames da lista
cases = pd.concat(caso_diario, sort=False)

In [None]:
cases.query('Province_State == "Rio Grande do Norte"').head()

Unnamed: 0,Province_State,Country_Region,Confirmed,Deaths,Incident_Rate,Case_Fatality_Ratio,Date
18,Rio Grande do Norte,Brazil,119338,3009,3374.906219,2.528875,2021-01-01
18,Rio Grande do Norte,Brazil,119338,3009,3384.54449,2.523359,2021-01-02
18,Rio Grande do Norte,Brazil,119835,3025,3395.608541,2.519336,2021-01-03
18,Rio Grande do Norte,Brazil,120676,3060,3398.65971,2.526303,2021-01-04
18,Rio Grande do Norte,Brazil,121495,3073,3422.555779,2.537826,2021-01-05


In [None]:
cases.query('Province_State == "Rio Grande do Norte"').tail()

Unnamed: 0,Province_State,Country_Region,Confirmed,Deaths,Incident_Rate,Case_Fatality_Ratio,Date
18,Rio Grande do Norte,Brazil,581633,8621,16585.611088,1.482206,2022-12-26
18,Rio Grande do Norte,Brazil,581834,8624,16591.342722,1.48221,2022-12-27
18,Rio Grande do Norte,Brazil,582130,8686,16599.783339,1.492107,2022-12-28
18,Rio Grande do Norte,Brazil,582456,8687,16609.079422,1.491443,2022-12-29
18,Rio Grande do Norte,Brazil,582618,8689,16613.698949,1.491372,2022-12-30


#### **2.2.2 Vacinação**

De forma análoga, vamos extrair os dados sobre a vacinação da Universidade de Oxford.

In [None]:
vaccines = pd.read_csv('https://covid.ourworldindata.org/data/owid-covid-data.csv', sep=',', parse_dates=[3], infer_datetime_format=True)

  vaccines = pd.read_csv('https://covid.ourworldindata.org/data/owid-covid-data.csv', sep=',', parse_dates=[3], infer_datetime_format=True)
  vaccines = pd.read_csv('https://covid.ourworldindata.org/data/owid-covid-data.csv', sep=',', parse_dates=[3], infer_datetime_format=True)


In [None]:
vaccines.head()

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,population,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
0,AFG,Asia,Afghanistan,2020-01-05,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
1,AFG,Asia,Afghanistan,2020-01-06,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
2,AFG,Asia,Afghanistan,2020-01-07,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
3,AFG,Asia,Afghanistan,2020-01-08,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
4,AFG,Asia,Afghanistan,2020-01-09,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,


In [None]:
vaccines.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 409978 entries, 0 to 409977
Data columns (total 67 columns):
 #   Column                                      Non-Null Count   Dtype         
---  ------                                      --------------   -----         
 0   iso_code                                    409978 non-null  object        
 1   continent                                   390204 non-null  object        
 2   location                                    409978 non-null  object        
 3   date                                        409978 non-null  datetime64[ns]
 4   total_cases                                 370544 non-null  float64       
 5   new_cases                                   398301 non-null  float64       
 6   new_cases_smoothed                          397071 non-null  float64       
 7   total_deaths                                347781 non-null  float64       
 8   new_deaths                                  398701 non-null  float64      

Vamos aqui filtrar as colunas que nos interessam para o desenvolvimento desse projeto e consequente visualizalção dos dados.

In [None]:
vaccines = vaccines.query('location == "Brazil"').reset_index(drop=True)
vaccines = vaccines[['location', 'population','total_tests', 'new_tests', 'positive_rate', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'total_boosters', 'date']]

In [None]:
vaccines.tail()

Unnamed: 0,location,population,total_tests,new_tests,positive_rate,total_vaccinations,people_vaccinated,people_fully_vaccinated,total_boosters,date
1620,Brazil,215313504.0,,,,,,,,2024-06-12
1621,Brazil,215313504.0,,,,,,,,2024-06-13
1622,Brazil,215313504.0,,,,,,,,2024-06-14
1623,Brazil,215313504.0,,,,,,,,2024-06-15
1624,Brazil,215313504.0,,,,,,,,2024-06-16


### **2.3. Wrangling**

Vamos manipular os dados para os enriquecer, melhorar sua qualidade e garantir uma boa granularidade para nosso dashboard.

#### **2.3.1 Wrangling dos casos**

In [None]:
cases.shape

(19683, 7)

In [None]:
cases.info()

<class 'pandas.core.frame.DataFrame'>
Index: 19683 entries, 0 to 26
Data columns (total 7 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Province_State       19683 non-null  object        
 1   Country_Region       19683 non-null  object        
 2   Confirmed            19683 non-null  int64         
 3   Deaths               19683 non-null  int64         
 4   Incident_Rate        19683 non-null  float64       
 5   Case_Fatality_Ratio  19683 non-null  float64       
 6   Date                 19683 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(2), int64(2), object(2)
memory usage: 1.2+ MB


In [None]:
# Renomeando as colunas, ainda em inglês
cases = cases.rename(
  columns={
    'Province_State': 'state',
    'Country_Region': 'country',
  }
)

for col in cases.columns:
  cases = cases.rename(columns={col: col.lower()})

In [None]:
# Renomeando os Estados brasileiros com caracteres especiais para melhor adequação com o mapa do dashboard
states_map = {
    'Amapa': 'Amapá',
    'Ceara': 'Ceará',
    'Espirito Santo': 'Espírito Santo',
    'Goias': 'Goiás',
    'Para': 'Pará',
    'Paraiba': 'Paraíba',
    'Parana': 'Paraná',
    'Piaui': 'Piauí',
    'Rondonia': 'Rondônia',
    'Sao Paulo': 'São Paulo'
}

cases['state'] = cases['state'].apply(lambda state: states_map.get(state) if state in states_map.keys() else state)

In [None]:
# Criando coluna 'month' e 'year' para uma melhor granularidade dos dados
cases['month'] = cases['date'].apply(lambda date: date.strftime('%Y-%m'))
cases['year']  = cases['date'].apply(lambda date: date.strftime('%Y'))

In [None]:
# Criando coluna 'population' para estimar a população total de acordo com os casos confirmados e porcentagem de ocorrência
cases['population'] = round(100000 * (cases['confirmed'] / cases['incident_rate']))
cases = cases.drop('incident_rate', axis=1)

In [None]:
# Definindo uma função chamada 'get_trend', que retorna a tendência de queda, crescimento ou estabilidade de uma razão
# 15 pontos percentuais para mais ou para menos definirão essa classificação
def get_trend(rate: float) -> str:

  if np.isnan(rate):
    return np.NaN

  if rate < 0.85:
    status = 'em queda'
  elif rate > 1.15:
    status = 'crescimento'
  else:
    status = 'estável'

  return status

cases_by_state = []  # Lista vazia para armazenar DataFrames por estado

for state in cases['state'].drop_duplicates():
  cases_per_state = cases.query(f'state == "{state}"').reset_index(drop=True)  # Filtra o DataFrame por Estado
  cases_per_state = cases_per_state.sort_values(by=['date'])  # Ordena o DataFrame por data

  # Cria uma coluna 'confirmed_1d' que é a diferença de casos entre uma data e a anterior
  cases_per_state['confirmed_1d'] = cases_per_state['confirmed'].diff(periods=1)

  # Cria uma coluna 'confirmed_moving_avg_7d' que faz uma média dos número de casos diários entre dia em questão e os últimos 7 dias
  cases_per_state['confirmed_moving_avg_7d'] = np.ceil(cases_per_state['confirmed_1d'].rolling(window=7).mean())

  # Cria uma coluna 'confirmed_moving_avg_7d_rate_14d' que calcula a razão entre a média móvel de casos do dia em questão e a média móvel de 14 dias atrás
  cases_per_state['confirmed_moving_avg_7d_rate_14d'] = cases_per_state['confirmed_moving_avg_7d']/cases_per_state['confirmed_moving_avg_7d'].shift(periods=14)

  # Cria uma coluna 'confirmed_trend' que aplica a função 'get_trend' para cada valor da coluna 'confirmed_moving_avg_7d_rate_14d'
  cases_per_state['confirmed_trend'] = cases_per_state['confirmed_moving_avg_7d_rate_14d'].apply(get_trend)

  # De forma análoga, faremos esse processo para o número de mortes
  cases_per_state['deaths_1d'] = cases_per_state['deaths'].diff(periods=1)
  cases_per_state['deaths_moving_avg_7d'] = np.ceil(cases_per_state['deaths_1d'].rolling(window=7).mean())
  cases_per_state['deaths_moving_avg_7d_rate_14d'] = cases_per_state['deaths_moving_avg_7d']/cases_per_state['deaths_moving_avg_7d'].shift(periods=14)
  cases_per_state['deaths_trend'] = cases_per_state['deaths_moving_avg_7d_rate_14d'].apply(get_trend)

  cases_by_state.append(cases_per_state)  # Adiciona o DataFrame por estado na lista

# Concatena todos os DataFrames da lista por estado
cases = pd.concat(cases_by_state, ignore_index=True)

In [None]:
# Reorganizando a ordem do DataFrame
cases = cases[['date', 'country', 'state', 'population', 'confirmed', 'confirmed_1d', 'confirmed_moving_avg_7d', 'confirmed_moving_avg_7d_rate_14d', 'confirmed_trend', 'deaths', 'deaths_1d', 'deaths_moving_avg_7d', 'deaths_moving_avg_7d_rate_14d', 'deaths_trend', 'case_fatality_ratio', 'month', 'year']]

In [None]:
cases.tail(1)

Unnamed: 0,date,country,state,population,confirmed,confirmed_1d,confirmed_moving_avg_7d,confirmed_moving_avg_7d_rate_14d,confirmed_trend,deaths,deaths_1d,deaths_moving_avg_7d,deaths_moving_avg_7d_rate_14d,deaths_trend,case_fatality_ratio,month,year
19682,2022-12-30,Brazil,Tocantins,1572866.0,359567,0.0,361.0,0.71063,em queda,4208,0.0,0.0,,,1.170296,2022-12,2022


In [None]:
# Renomeando as colunas
new_column_names = {
    'country': 'pais',
    'state': 'estado',
    'population': 'populacao',
    'confirmed': 'casos',
    'confirmed_1d' : 'casos_1d',
    'confirmed_moving_avg_7d': 'casos_media_movel_7d',
    'confirmed_moving_avg_7d_rate_14d': 'casos_media_movel_7d_rate_14d',
    'confirmed_trend': 'casos_tendencia',
    'deaths': 'mortes',
    'deaths_1d': 'mortes_1d',
    'deaths_moving_avg_7d': 'mortes_media_movel_7d',
    'deaths_moving_avg_7d_rate_14d': 'mortes_media_movel_7d_rate_14d',
    'deaths_trend': 'mortes_tendencia',
    'case_fatality_ratio': 'rate_fatalidade_casos',
    'month': 'mes',
    'year': 'ano'
}

cases = cases.rename(columns=new_column_names)

In [None]:
cases.tail(2)

Unnamed: 0,date,pais,estado,populacao,casos,casos_1d,casos_media_movel_7d,casos_media_movel_7d_rate_14d,casos_tendencia,mortes,mortes_1d,mortes_media_movel_7d,mortes_media_movel_7d_rate_14d,mortes_tendencia,rate_fatalidade_casos,mes,ano
19681,2022-12-29,Brazil,Tocantins,1572866.0,359567,0.0,361.0,0.71063,em queda,4208,0.0,0.0,,,1.170296,2022-12,2022
19682,2022-12-30,Brazil,Tocantins,1572866.0,359567,0.0,361.0,0.71063,em queda,4208,0.0,0.0,,,1.170296,2022-12,2022


#### **2.3.2 Wrangling da vacinação**

In [None]:
# Preenche os dados faltantes com o dado anterior válido mais próximo
vaccines = vaccines.fillna(method='ffill')

In [None]:
# Filtra os dados da vacinação do começo 2021 até o final de 2022, nosso período de interesse
vaccines = vaccines[(vaccines['date'] >= '2021-01-01') & (vaccines['date'] <= '2022-12-31')].reset_index(drop=True)

In [None]:
# Renomeando as colunas
vaccines = vaccines.rename(
  columns={
    'location': 'country',
    'total_vaccinations': 'total',
    'people_vaccinated': 'one_shot',
    'people_fully_vaccinated': 'two_shots',
    'total_boosters': 'three_shots',
  }
)

In [None]:
# Cria a coluna 'month' e 'year' para melhor granularidade dos dados
vaccines['month'] = vaccines['date'].apply(lambda date: date.strftime('%Y-%m'))
vaccines['year']  = vaccines['date'].apply(lambda date: date.strftime('%Y'))

In [None]:
# Cria as colunas para saber a porcentagem de 1, 2 e 3 doses administradas em relação à população
vaccines['one_shot_perc'] = round(vaccines['one_shot'] / vaccines['population'], 4)
vaccines['two_shots_perc'] = round(vaccines['two_shots'] / vaccines['population'], 4)
vaccines['three_shots_perc'] = round(vaccines['three_shots'] / vaccines['population'], 4)

In [None]:
# Garantindo o tipo do dado para consistência da base de dados
vaccines['population'] = vaccines['population'].astype('Int64')
vaccines['total'] = vaccines['total'].astype('Int64')
vaccines['one_shot'] = vaccines['one_shot'].astype('Int64')
vaccines['two_shots'] = vaccines['two_shots'].astype('Int64')
vaccines['three_shots'] = vaccines['three_shots'].astype('Int64')

In [None]:
# Reorganizando as colunas
vaccines = vaccines[['date', 'country', 'population', 'total', 'one_shot', 'one_shot_perc', 'two_shots', 'two_shots_perc', 'three_shots', 'three_shots_perc', 'month', 'year']]

In [None]:
vaccines.tail()

Unnamed: 0,date,country,population,total,one_shot,one_shot_perc,two_shots,two_shots_perc,three_shots,three_shots_perc,month,year
725,2022-12-27,Brazil,215313504,480310839,188549744,0.8757,174881292,0.8122,122616211,0.5695,2022-12,2022
726,2022-12-28,Brazil,215313504,480310839,188549744,0.8757,174881292,0.8122,122616211,0.5695,2022-12,2022
727,2022-12-29,Brazil,215313504,480331769,188552661,0.8757,174886102,0.8122,122629436,0.5695,2022-12,2022
728,2022-12-30,Brazil,215313504,480332769,188553047,0.8757,174886846,0.8122,122629436,0.5695,2022-12,2022
729,2022-12-31,Brazil,215313504,480333910,188553932,0.8757,174887915,0.8122,122629436,0.5695,2022-12,2022


In [None]:
# Renomeando as colunas
new_column_names_vaccines = {
    'country': 'pais',
    'population': 'populacao',
    'total': 'total_doses',
    'one_shot': 'uma_dose',
    'one_shot_perc': 'uma_dose_perc',
    'two_shots': 'duas_doses',
    'two_shots_perc': 'duas_doses_perc',
    'three_shots': 'tres_doses',
    'three_shots_perc': 'tres_doses_perc',
    'month': 'mes',
    'year': 'ano'
}

vaccines = vaccines.rename(columns=new_column_names_vaccines)

In [None]:
vaccines.tail(1)

Unnamed: 0,date,pais,populacao,total_doses,uma_dose,uma_dose_perc,duas_doses,duas_doses_perc,tres_doses,tres_doses_perc,mes,ano
729,2022-12-31,Brazil,215313504,480333910,188553932,0.8757,174887915,0.8122,122629436,0.5695,2022-12,2022


### **2.4. Carregamento**

In [None]:
cases.to_csv('./covid-cases.csv', sep=',', index=False)

In [None]:
vaccines.to_csv('./covid-vaccines.csv', sep=',', index=False)

## 3\. Visualização Interativa de Dados

### **3.1. KPIs**

O dashboard de dados contem os seguintes indicadores chaves de desempenho (*key performance indicator* ou KPI) consolidados:

1. Casos e mortes nas 24 horas;
1. Média móvel (7 dias) de casos e mortes;
1. A variação da média móvel em 14 dias de casos e mortes
1. Tendência de casos e mortes;
1. Proporção de vacinados com 1ª, 2ª e 3ª doses.
1. A letalidade da doença, ou seja, a porcentagem de óbitos em relação ao número de casos

### **3.2. EDA**

O dashboard de dados contem os seguintes gráficos para a análise exploratória de dados (*exploratory data analysis*
ou EDA) interativa:

1. Distribuição do números de casos e mortes ao longo do tempo;
1. Distribuição da média móvel (7 dias) do números de casos e mortes ao longo do tempo;
1. Distribuição geográfica dos casos por estado por dia.
1. Evolução do número de 1ª, 2ª e 3ª doses aplicadas