<a href="https://colab.research.google.com/github/VivianeMatosOliveira/Curso_Analista_Dados_EBAC/blob/main/covid_19_Dashboard.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: COVID-19 Dashboard
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução;</li>
  <li>Análise Exploratória de Dados;</li>
  <li>Visualização Interativa de Dados;</li>
  <li>Storytelling.</li>
</ol>


---

# **Exercícios**

Este *notebook* deve servir como um guia para **você continuar** a construção da sua própria análise exploratória de dados interativa. Fique a vontate para copiar os códigos da aula mas busque explorar os dados ao máximo. Por fim, publique seu *notebook* no [Kaggle](https://www.kaggle.com/) e seu *dashboard* [Google Data Studio](https://datastudio.google.com/).

---

# **COVID-19: AVANÇO DE CASOS E DA VACINAÇÃO NO BRASIL**

## 1\. Contexto

<center><img src='https://www.siass.ufcg.edu.br/images/siass/campanhas/coronavirus/coronavirus-covid-19.jpg' width = "900">

COVID-19 é uma doença infecciosa causada pelo vírus SARS-Cov-2, identificada pela primeira vez em dezembro de 2019 na cidade de Wuhan, na China, com um surto de pneumonia por causa desconhecida. Houve relatos que as pessoas infectadas tiveram contatos com animais em um mercado de frutos do mar e animais vivos na cidade, mas não foi confirmado que o vírus tenha sido transmitido por estes animais.

Em Janeiro de 2020, o vírus se espalhou rapidamente em outras partes da China e depois para outros países, quando em Março de 2020 foi decretada pela OMS (Organização Mundial da Saúde) como pandemia global.

Transmitido principalmente por meio de gotículas provenientes de tosses ou espirros de pessoas infectadas, a gravidade dos sintomas varia muito de pessoa para pessoa, mas podem incluir febre, tosse seca, fadiga, dor de cabeça, perda de olfato ou paladar, dor de garganta, dores musculares e dificuldades na respiração. Em casos mais graves, a doença pode levar a pneumonia, falência de orgãos e até a morte.

Desde o início da pandemia, a COVID-19 afetou milhões de pessoas em todo o mundo e teve um impacto significativo na saúde pública, economia e na sociedade como um todo.

Após alguns meses de pesquisas, as vacinas foram liberadas no mês Dezembro de 2020, tornando-se uma medida muito importante para controlar a proliferação da doença.

Mesmo após a liberação das vacinas, notou-se um aumento de casos principalmente em épocas de festas e datas comemorativas, fazendo com que o vírus sofresse mutações gerando novas variantes e consequentemente novas doses de vacinas.

Esse **projeto** busca construir um dashboard de dados para exploração e visualização interativa de dados sobre o avanço de casos e da vacinação do Brasil. O processamento de dados está neste `link` e o dashboard, neste `link`.

### 1.1 Obtenção dos Dados

Os dados utilizados neste projeto foram obtidos de duas fontes:
1. **Avanço de Casos** : dados compilados pelo centro de ciência de sistemas e engenharia da universidade americana **John Hopkins** ([link](https://www.jhu.edu)). Os dados são atualizados diariamente deste janeiro de 2020 com uma granularidade temporal de dias e geográfica de regiões de países (estados, condados, etc.). O website do projeto pode ser acessado neste [link](https://systems.jhu.edu/research/public-health/ncov/) enquanto os dados, neste [link](https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports).

2. **Avanço da Vacinação** :dados compilados pelo projeto Nosso Mundo em Dados (*Our World in Data* ou OWID) da universidade britânica de **Oxford** ([link](https://www.ox.ac.uk)). Os dados são **atualizados diariamente** deste janeiro de 2020 com uma **granularidade temporal de dias e geográfica de países**. O website do projeto pode ser acessado neste [link](https://ourworldindata.org) enquanto os dados, neste [link](https://covid.ourworldindata.org/data/owid-covid-data.csv)

### 1.2 Descrição das variáveis


Abaixo estão descritos as variáveis derivadas do processamento dos dados. O processamento foi dividido em **Casos** e **Vacinação**

**Casos da COVID-19**

 - **date**: data de referência;
 - **state**: estado;
 - **country**: país;
 - **population**: população estimada;
 - **confirmed**: número acumulado de infectados;
 - **confirmed_1d**: número diário de infectados;
 - **confirmed_moving_avg_7d**: média móvel de 7 dias do número diário de infectados;
 - **confirmed_moving_avg_7d_rate_14d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
 - **deaths**: número acumulado de mortos;
 - **deaths_1d**: número diário de mortos;
 - **deaths_moving_avg_7d**: média móvel de 7 dias do número diário de mortos;
 - **deaths_moving_avg_7d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
 - **month**: mês de referência;
 - **year**: ano de referência.

**Vacinação da COVID-19**

 - **date**: data de referência;
 - **country**: país;
 - **population**: população estimada;
 - **total**: número acumulado de doses administradas;
 - **one_shot**: número acumulado de pessoas com uma dose;
 - **one_shot_perc**: número acumulado relativo de pessoas com uma dose;
 - **two_shots**: número acumulado de pessoas com duas doses;
 - **two_shot_perc**: número acumulado relativo de pessoas com duas doses;
 - **three_shots**: número acumulado de pessoas com três doses;
 - **three_shot_perc**: número acumulado relativo de pessoas com três doses;
 - **month**: mês de referência;
 - **year**: ano de referência.

## 2\. Análise Exploratória dos Dados

Na análise exploratória dos dados, estaremos compreendendo os datasets que serão analisados

### 2.1 Pacotes e bibliotecas

Nesta sessão vamos utilizar os seguintes pacotes Python para processar os dados bruto em um formato adequado para um painel para exploração interativa de dados.

In [1]:
import math
from typing import Iterator
from datetime import datetime, timedelta

import numpy as np
import pandas as pd

### 2.2 Processando os dados de **CASOS**

Nesta sessão vamos processar o dados referente ao dataset com as informações referente aos **Casos da COVID-19**

#### 2.2.1 Extração

Os dados referente aos casos estão compilados em arquivos separados por dia, portanto será necessário o tratamento das informações, para que  o arquivo com todas as datas seja unificado, sendo assim, precisaremos iterar dentro de um intervalo de tempo definido para extraí-lo.

Para esse projeto não será necessário utilizarmos todas as colunas, portanto, de forma iterativa, serão selecionadas apenas as colunas de interesse

Os dados compilados serão especificamente do Brasil, portanto será necessário selecionar apenas as linhas com dados do Brasil



In [2]:
# lendo um arquivo de uma data específica
cases = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/01-12-2021.csv', sep=',')

In [3]:
# visualizando as primeiras entradas do dataset
cases.head()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
0,,,,Afghanistan,2021-01-13 05:22:15,33.93911,67.709953,53584,2301,44608,6675,Afghanistan,137.647787,4.294192
1,,,,Albania,2021-01-13 05:22:15,41.1533,20.1683,64627,1252,38421,24954,Albania,2245.708527,1.937271
2,,,,Algeria,2021-01-13 05:22:15,28.0339,1.6596,102641,2816,69608,30217,Algeria,234.067409,2.743543
3,,,,Andorra,2021-01-13 05:22:15,42.5063,1.5218,8682,86,7930,666,Andorra,11236.653077,0.990555
4,,,,Angola,2021-01-13 05:22:15,-11.2027,17.8739,18343,422,15512,2409,Angola,55.811022,2.300605


In [4]:
# visualizando amostras aleatórias do dataset
cases.sample(10)

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
1701,21073.0,Franklin,Kentucky,US,2021-01-13 05:22:15,38.23794,-84.879626,2435,22,0,2413,"Franklin, Kentucky, US",4775.352513,0.903491
1998,27005.0,Becker,Minnesota,US,2021-01-13 05:22:15,46.934794,-95.671581,2783,38,0,2745,"Becker, Minnesota, US",8084.710804,1.365433
3970,,,,Vanuatu,2021-01-13 05:22:15,-15.3767,166.9592,1,0,1,0,Vanuatu,0.34167,0.0
3876,55099.0,Price,Wisconsin,US,2021-01-13 05:22:15,45.680518,-90.360989,1060,6,0,1054,"Price, Wisconsin, US",7939.480189,0.566038
802,5077.0,Lee,Arkansas,US,2021-01-13 05:22:15,34.784989,-90.783839,1529,28,0,1501,"Lee, Arkansas, US",17263.181664,1.831262
372,,,,Liberia,2021-01-13 05:22:15,6.428055,-9.429499,1800,83,1697,20,Liberia,35.589461,4.611111
1234,16035.0,Clearwater,Idaho,US,2021-01-13 05:22:15,46.674599,-115.662239,856,8,0,848,"Clearwater, Idaho, US",9776.153495,0.934579
1387,18043.0,Floyd,Indiana,US,2021-01-13 05:22:15,38.32118,-85.903854,5851,130,0,5721,"Floyd, Indiana, US",7451.41489,2.221842
2839,40021.0,Cherokee,Oklahoma,US,2021-01-13 05:22:15,35.906928,-94.999809,4427,23,0,4404,"Cherokee, Oklahoma, US",9098.382555,0.519539
1444,18157.0,Tippecanoe,Indiana,US,2021-01-13 05:22:15,40.388727,-86.89414,16808,126,0,16682,"Tippecanoe, Indiana, US",8587.251957,0.749643


In [5]:
# iterando dentro de um intervalo de tempo definido para extração dos dados
def date_range(start_date: datetime, end_date: datetime) -> Iterator[datetime]:
  date_range_days: int = (end_date - start_date).days
  for lag in range(date_range_days):
    yield start_date + timedelta(lag)

In [6]:
start_date = datetime(2021,  1,  1)
end_date   = datetime(2021, 12, 31)

In [7]:
#Verificando as colunas do dataset
cases.columns

Index(['FIPS', 'Admin2', 'Province_State', 'Country_Region', 'Last_Update',
       'Lat', 'Long_', 'Confirmed', 'Deaths', 'Recovered', 'Active',
       'Combined_Key', 'Incident_Rate', 'Case_Fatality_Ratio'],
      dtype='object')

In [8]:
# selecionando as colunas de interesse e as linhas referente ao Brasil, de forma iterativa
cases = None
cases_is_empty = True

for date in date_range(start_date=start_date, end_date=end_date):

  date_str = date.strftime('%m-%d-%Y')
  data_source_url = f'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/{date_str}.csv'

  case = pd.read_csv(data_source_url, sep=',')

  case = case.drop(['FIPS', 'Admin2', 'Last_Update', 'Lat', 'Long_', 'Recovered', 'Active', 'Combined_Key', 'Case_Fatality_Ratio'], axis=1)
  case = case.query('Country_Region == "Brazil"').reset_index(drop=True)
  case['Date'] = pd.to_datetime(date.strftime('%Y-%m-%d'))

  if cases_is_empty:
    cases = case
    cases_is_empty = False
  else:
    cases = cases.append(case, ignore_index=True)

  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_inde

In [9]:
# consultando um estado específico
cases.query('Province_State == "Sao Paulo"').head()

Unnamed: 0,Province_State,Country_Region,Confirmed,Deaths,Incident_Rate,Date
24,Sao Paulo,Brazil,1466191,46775,3192.990778,2021-01-01
51,Sao Paulo,Brazil,1467953,46808,3196.827966,2021-01-02
78,Sao Paulo,Brazil,1471422,46845,3204.382565,2021-01-03
105,Sao Paulo,Brazil,1473670,46888,3209.278136,2021-01-04
132,Sao Paulo,Brazil,1486551,47222,3237.329676,2021-01-05


#### **2.2.2. Wrangling**

Vamos manipular os dados para o dashboard. O foco é em garantir uma boa granularidade e qualidade da base de dados.

Logo abaixo, conseguimos ver a quantidade de entradas no dataset, a quantidade de colunas, se há a ocorrência de valores não nulos e o tipo de dados de cada variável, fator muito importante para trabalharmos com os dados corretamente.

O total de entrada é de 9.828 e o total de colunas é de 6.

Para melhor entendimento as colunas 'Province_State' será renomeada para 'state' e a coluna 'Country_Region' será renomeada como 'country'





Os nomes dos estados serão renomeados, considerando sua pontuação ortográfica

Para enriquecer a base de dados serão computadas novas colunas, com o objetivo de:
 - Criar Chaves temporais: mês e ano
 - Cálcular a População estimada para cada estado
 - Criar as métricas: Número de mortes a cada 24 horas, média móvel (7 dias) e estabilidade (14 dias) de casos e mortes por estado

In [10]:
cases.head()

Unnamed: 0,Province_State,Country_Region,Confirmed,Deaths,Incident_Rate,Date
0,Acre,Brazil,41689,796,4726.992352,2021-01-01
1,Alagoas,Brazil,105091,2496,3148.928928,2021-01-01
2,Amapa,Brazil,68361,926,8083.066602,2021-01-01
3,Amazonas,Brazil,201574,5295,4863.536793,2021-01-01
4,Bahia,Brazil,494684,9159,3326.039611,2021-01-01


In [11]:
cases.shape

(9828, 6)

In [12]:
cases.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9828 entries, 0 to 9827
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Province_State  9828 non-null   object        
 1   Country_Region  9828 non-null   object        
 2   Confirmed       9828 non-null   int64         
 3   Deaths          9828 non-null   int64         
 4   Incident_Rate   9828 non-null   float64       
 5   Date            9828 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 460.8+ KB


In [13]:
# renomeando o nome das colunas

cases = cases.rename(
  columns={
    'Province_State': 'state',
    'Country_Region': 'country'
  }
)

for col in cases.columns:
  cases = cases.rename(columns={col: col.lower()})

In [14]:
# Verificando valores unicos para a coluna country

cases['country'].unique()

array(['Brazil'], dtype=object)

In [15]:
# verificando valores unicos para a coluna state
cases['state'].unique()

array(['Acre', 'Alagoas', 'Amapa', 'Amazonas', 'Bahia', 'Ceara',
       'Distrito Federal', 'Espirito Santo', 'Goias', 'Maranhao',
       'Mato Grosso', 'Mato Grosso do Sul', 'Minas Gerais', 'Para',
       'Paraiba', 'Parana', 'Pernambuco', 'Piaui', 'Rio Grande do Norte',
       'Rio Grande do Sul', 'Rio de Janeiro', 'Rondonia', 'Roraima',
       'Santa Catarina', 'Sao Paulo', 'Sergipe', 'Tocantins'],
      dtype=object)

In [16]:
# ajustando o nome dos estados
states_map = {
    'Amapa': 'Amapá',
    'Ceara': 'Ceará',
    'Espirito Santo': 'Espírito Santo',
    'Goias': 'Goiás',
    'Para': 'Pará',
    'Paraiba': 'Paraíba',
    'Parana': 'Paraná',
    'Piaui': 'Piauí',
    'Rondonia': 'Rondônia',
    'Sao Paulo': 'São Paulo'
}

cases['state'] = cases['state'].apply(lambda state: states_map.get(state) if state in states_map.keys() else state)

In [17]:
# computando novas colunas como chaves temporais
cases['month'] = cases['date'].apply(lambda date: date.strftime('%Y-%m'))
cases['year']  = cases['date'].apply(lambda date: date.strftime('%Y'))

In [18]:
# computando nova coluna para calcular a população estimada do estado
cases['population'] = round(100000 * (cases['confirmed'] / cases['incident_rate']))
cases = cases.drop('incident_rate', axis=1)

In [19]:
# computando nova coluna para calcular as métricas: Número, média móvel (7 dias) e estabilidade (14 dias) de casos e mortes por estado

| 1 | 2 | 3 | 4 | 5 | 6 | <font color='red'>7</font> | <font color='green'>8</font> | 9 | 10 | 11 | 12 | 13 | <font color='blue'>14<font color='red'> | 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| - | - | - | - | - | - | - | - | - | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
| <font color='red'>D-6</font> | <font color='red'>D-5</font> | <font color='red'>D-4</font> | <font color='red'>D-3</font> | <font color='red'>D-2</font> | <font color='red'>D-1</font> | <font color='red'>D0</font> | | | | | | | | | | | | | | |
| D-7 | <font color='green'>D-6</font> | <font color='green'>D-5</font> | <font color='green'>D-4</font> | <font color='green'>D-3</font> | <font color='green'>D-2</font> | <font color='green'>D-1</font> | <font color='green'>D0</font> | | | | | | | | | | | | | |
| D-13 | D-12 | D-11 | D-10 | D-9 | D-8 | D-7 | <font color='blue'>D-6</font> | <font color='blue'>D-5</font> | <font color='blue'>D-4</font> | <font color='blue'>D-3</font> | <font color='blue'>D-2</font> | <font color='blue'>D-1</font> | <font color='blue'>D0</font> | | | | | | | |

In [20]:
cases_ = None
cases_is_empty = True

def get_trend(rate: float) -> str:

  if np.isnan(rate):
    return np.NaN

  if rate < 0.75:
    status = 'downward'
  elif rate > 1.15:
    status = 'upward'
  else:
    status = 'stable'

  return status


for state in cases['state'].drop_duplicates():

  cases_per_state = cases.query(f'state == "{state}"').reset_index(drop=True)
  cases_per_state = cases_per_state.sort_values(by=['date'])

  cases_per_state['confirmed_1d'] = cases_per_state['confirmed'].diff(periods=1)
  cases_per_state['confirmed_moving_avg_7d'] = np.ceil(cases_per_state['confirmed_1d'].rolling(window=7).mean())
  cases_per_state['confirmed_moving_avg_7d_rate_14d'] = cases_per_state['confirmed_moving_avg_7d']/cases_per_state['confirmed_moving_avg_7d'].shift(periods=14)
  cases_per_state['confirmed_trend'] = cases_per_state['confirmed_moving_avg_7d_rate_14d'].apply(get_trend)

  cases_per_state['deaths_1d'] = cases_per_state['deaths'].diff(periods=1)
  cases_per_state['deaths_moving_avg_7d'] = np.ceil(cases_per_state['deaths_1d'].rolling(window=7).mean())
  cases_per_state['deaths_moving_avg_7d_rate_14d'] = cases_per_state['deaths_moving_avg_7d']/cases_per_state['deaths_moving_avg_7d'].shift(periods=14)
  cases_per_state['deaths_trend'] = cases_per_state['deaths_moving_avg_7d_rate_14d'].apply(get_trend)

  if cases_is_empty:
    cases_ = cases_per_state
    cases_is_empty = False
  else:
    cases_ = cases_.append(cases_per_state, ignore_index=True)

cases = cases_
cases_ = None

  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append

Para garantir a consitencia da base de dados, será feito o *type casting* das colunas.

In [21]:
cases['population'] = cases['population'].astype('Int64')
cases['confirmed_1d'] = cases['confirmed_1d'].astype('Int64')
cases['confirmed_moving_avg_7d'] = cases['confirmed_moving_avg_7d'].astype('Int64')
cases['deaths_1d'] = cases['deaths_1d'].astype('Int64')
cases['deaths_moving_avg_7d'] = cases['deaths_moving_avg_7d'].astype('Int64')

Por fim, vamos reorganizar as colunas e conferir o resultado final.

In [22]:
cases = cases[['date', 'country', 'state', 'population', 'confirmed', 'confirmed_1d', 'confirmed_moving_avg_7d', 'confirmed_moving_avg_7d_rate_14d', 'confirmed_trend', 'deaths', 'deaths_1d', 'deaths_moving_avg_7d', 'deaths_moving_avg_7d_rate_14d', 'deaths_trend', 'month', 'year']]

In [23]:
cases.head(n=25)

Unnamed: 0,date,country,state,population,confirmed,confirmed_1d,confirmed_moving_avg_7d,confirmed_moving_avg_7d_rate_14d,confirmed_trend,deaths,deaths_1d,deaths_moving_avg_7d,deaths_moving_avg_7d_rate_14d,deaths_trend,month,year
0,2021-01-01,Brazil,Acre,881935,41689,,,,,796,,,,,2021-01,2021
1,2021-01-02,Brazil,Acre,881935,41941,252.0,,,,798,2.0,,,,2021-01,2021
2,2021-01-03,Brazil,Acre,881935,42046,105.0,,,,802,4.0,,,,2021-01,2021
3,2021-01-04,Brazil,Acre,881935,42117,71.0,,,,806,4.0,,,,2021-01,2021
4,2021-01-05,Brazil,Acre,881935,42170,53.0,,,,808,2.0,,,,2021-01,2021
5,2021-01-06,Brazil,Acre,881935,42378,208.0,,,,814,6.0,,,,2021-01,2021
6,2021-01-07,Brazil,Acre,881935,42478,100.0,,,,821,7.0,,,,2021-01,2021
7,2021-01-08,Brazil,Acre,881935,42814,336.0,161.0,,,823,2.0,4.0,,,2021-01,2021
8,2021-01-09,Brazil,Acre,881935,42908,94.0,139.0,,,823,0.0,4.0,,,2021-01,2021
9,2021-01-10,Brazil,Acre,881935,43127,219.0,155.0,,,825,2.0,4.0,,,2021-01,2021


#### **2.2.3. Carregamento**

Com os dados manipulados, vamos persisti-lo em disco, fazer o seu download e carrega-lo no Google Data Studio.

In [24]:
cases.to_csv('./covid-cases.csv', sep=',', index=False)

### 2.3 Processando os dados de **VACINAÇÃO**

Nesta sessão vamos processar o dados referente ao dataset com as informações referente à **Vacinação da COVID-19**

#### 2.3.1 Extração

Os dados referente a vacinação estão compilados em um unico arquivo

Para esse projeto não será necessário utilizarmos todas as colunas, portanto, serão selecionadas apenas as colunas de interesse

Os dados compilados serão especificamente do Brasil, portanto será necessário selecionar apenas as linhas com dados do Brasil


In [25]:
# lendo o arquivo
vaccines = pd.read_csv('https://covid.ourworldindata.org/data/owid-covid-data.csv', sep=',', parse_dates=[3], infer_datetime_format=True)

In [26]:
#visualizando as primeiras linhas do dataset
vaccines.head()

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,population,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
0,AFG,Asia,Afghanistan,2020-01-03,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
1,AFG,Asia,Afghanistan,2020-01-04,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
2,AFG,Asia,Afghanistan,2020-01-05,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
3,AFG,Asia,Afghanistan,2020-01-06,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
4,AFG,Asia,Afghanistan,2020-01-07,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,


In [27]:
#selecionado as as colunas de interesse e as linhas referentes ao Brasil
vaccines = vaccines.query('location == "Brazil"').reset_index(drop=True)
vaccines = vaccines[['location', 'population', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'total_boosters', 'date']]

In [28]:
vaccines.head()

Unnamed: 0,location,population,total_vaccinations,people_vaccinated,people_fully_vaccinated,total_boosters,date
0,Brazil,215313504.0,,,,,2020-01-03
1,Brazil,215313504.0,,,,,2020-01-04
2,Brazil,215313504.0,,,,,2020-01-05
3,Brazil,215313504.0,,,,,2020-01-06
4,Brazil,215313504.0,,,,,2020-01-07


#### **2.3.2. Wrangling**

Vamos manipular os dados para o dashboard. O foco é em garantir uma boa granularidade e qualidade da base de dados.

Logo abaixo, conseguimos ver a quantidade de entradas no dataset, a quantidade de colunas,  a ocorrência de valores não nulos e o tipo de dados de cada variável, fator muito importante para trabalharmos com os dados corretamente.

O total de entrada é de 1.294 e o total de colunas é de 7.

Para melhor entendimento as colunas 'location' será renomeada para 'country', a coluna 'total_vaccinations' para 'total', a coluna 'people_vaccinated' para 'one_shot', a coluna 'people_fully_vaccinated' para 'two_shots' e a coluna 'total_boosters' para 'three_shots'.

Será necessário tratar alguns dados faltantes, para isso, os mesmos serão preenchidos com o valor anterior válido mais próximo.

Para garantir que ambas as bases de dados tratem do mesmo período de tempo,  a base de dados será filtrada de acordo com a coluna `date`

Para enriquecer a base de dados serão computadas novas colunas, com o objetivo de:
 - Criar Chaves temporais: mês e ano
 - Computar Dados relativos a vacinação, levando em consideração o número absoluto de vacinação em relação ao total da população, classificando por tipo de dose

In [29]:
# visualizando as primeiras linhas do dataset
vaccines.head()

Unnamed: 0,location,population,total_vaccinations,people_vaccinated,people_fully_vaccinated,total_boosters,date
0,Brazil,215313504.0,,,,,2020-01-03
1,Brazil,215313504.0,,,,,2020-01-04
2,Brazil,215313504.0,,,,,2020-01-05
3,Brazil,215313504.0,,,,,2020-01-06
4,Brazil,215313504.0,,,,,2020-01-07


In [30]:
vaccines.shape

(1294, 7)

In [31]:
vaccines.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1294 entries, 0 to 1293
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   location                 1294 non-null   object        
 1   population               1294 non-null   float64       
 2   total_vaccinations       695 non-null    float64       
 3   people_vaccinated        691 non-null    float64       
 4   people_fully_vaccinated  675 non-null    float64       
 5   total_boosters           455 non-null    float64       
 6   date                     1294 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(5), object(1)
memory usage: 70.9+ KB


In [32]:
# Tratando dados faltantes
vaccines = vaccines.fillna(method='ffill')

In [33]:
# Filtrando a base de dados de acordo com a coluna date
vaccines = vaccines[(vaccines['date'] >= '2021-01-01') & (vaccines['date'] <= '2021-12-31')].reset_index(drop=True)

In [34]:
# renomeando as colunas
vaccines = vaccines.rename(
  columns={
    'location': 'country',
    'total_vaccinations': 'total',
    'people_vaccinated': 'one_shot',
    'people_fully_vaccinated': 'two_shots',
    'total_boosters': 'three_shots',
  }
)

In [35]:
# computando novas colunas mes e ano
vaccines['month'] = vaccines['date'].apply(lambda date: date.strftime('%Y-%m'))
vaccines['year']  = vaccines['date'].apply(lambda date: date.strftime('%Y'))

In [36]:
# computando novas colunas com dados relativos sobre a vacinação
vaccines['one_shot_perc'] = round(vaccines['one_shot'] / vaccines['population'], 4)
vaccines['two_shots_perc'] = round(vaccines['two_shots'] / vaccines['population'], 4)
vaccines['three_shots_perc'] = round(vaccines['three_shots'] / vaccines['population'], 4)

Garantir o tipo do dado é fundamental para consistência da base de dados. Vamos fazer o *type casting* das colunas.

In [37]:
vaccines['population'] = vaccines['population'].astype('Int64')
vaccines['total'] = vaccines['total'].astype('Int64')
vaccines['one_shot'] = vaccines['one_shot'].astype('Int64')
vaccines['two_shots'] = vaccines['two_shots'].astype('Int64')
vaccines['three_shots'] = vaccines['three_shots'].astype('Int64')

Por fim, vamos reorganizar as colunas e conferir o resultado final.

In [38]:
vaccines = vaccines[['date', 'country', 'population', 'total', 'one_shot', 'one_shot_perc', 'two_shots', 'two_shots_perc', 'three_shots', 'three_shots_perc', 'month', 'year']]

In [39]:
vaccines.tail()

Unnamed: 0,date,country,population,total,one_shot,one_shot_perc,two_shots,two_shots_perc,three_shots,three_shots_perc,month,year
360,2021-12-27,Brazil,215313504,329011365,165952037,0.7707,142764283,0.6631,25218893,0.1171,2021-12,2021
361,2021-12-28,Brazil,215313504,329861730,166062249,0.7713,142965728,0.664,25758909,0.1196,2021-12,2021
362,2021-12-29,Brazil,215313504,330718457,166143380,0.7716,143282084,0.6655,26219623,0.1218,2021-12,2021
363,2021-12-30,Brazil,215313504,331164041,166185628,0.7718,143398692,0.666,26507937,0.1231,2021-12,2021
364,2021-12-31,Brazil,215313504,331273910,166195505,0.7719,143436012,0.6662,26571077,0.1234,2021-12,2021


#### **2.2.3. Carregamento**

Com os dados manipulados, vamos persisti-lo em disco, fazer o seu download e carrega-lo no Google Data Studio.

In [40]:
vaccines.to_csv('./covid-vaccines.csv', sep=',', index=False)

## 3\. Exploração Interativa de Dados

### **3.1. KPIs**

O dashboard de dados contem os seguintes indicadores chaves de desempenho (*key performance indicator* ou KPI) consolidados:

1. Casos e mortes nas 24 horas;
1. Média móvel (7 dias) de casos e mortes;
1. Tendência de casos e mortes;
1. Proporção de vacinados com 1ª, 2ª e 3ª doses.

### **3.2. EDA**

O dashboard de dados contem os seguintes gráficos para a análise exploratória de dados (*exploratory data analysis*
ou EDA) interativa:

1. Distribuição do números de casos e mortes ao longo do tempo;
1. Distribuição da média móvel (7 dias) do números de casos e mortes ao longo do tempo;
1. Distribuição geográfica dos casos por estado por dia.

### 4\. Storytelling

 - **Dashboard**:
  - Google Data Studio (`link`).
 - **Processamento**:
  - Kaggle Notebook (`link`).
 - **Fontes**:
  - Casos pela universidade John Hopkins ([link](https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports));
  - Vacinação pela universidade de Oxford ([link](https://covid.ourworldindata.org/data/owid-covid-data.csv)).