# **Análise Exploratória de Dados** - COVID-19 DASHBOARD 2021

Este é um projeto desenvolvido com objetivos de estudo, desenvolvido durante o curso de Analista de Dados.<br>

Aluno [Tobias Melo](https://www.linkedin.com/in/tobias-melow/)<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li><a href="#introducao">Introdução</a>;</li>
  <li><a href="#analise">Análise Exploratória de Dados</a>;</li>
  <li><a href="#visualizacao">Visualização Interativa de Dados</a>;</li>
  <li><a href="#storytelling">Storytelling</a>.</li>
</ol>


---

<h1 id="introducao"><strong>1. Introdução</strong></h1>

### **1.1. Fontes**


  Essas foram as fontes utilizadas durante todo o projeto:

  * Casos pela universidade John Hopkins ([link](https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports));
  * Vacinação pela universidade de Oxford ([link](https://covid.ourworldindata.org/data/owid-covid-data.csv));
  * Vacinação pelo estado de São Paulo ([link](https://github.com/wcota/covid19br-vac)).

### **1.2. Pandemia Coronavírus 2019**


> A COVID-19 é uma infecção respiratória aguda causada pelo coronavírus
SARS-CoV-2, potencialmente grave, de elevada transmissibilidade e de
distribuição global. Fonte: Governo brasileiro ([link](https://www.gov.br/saude/pt-br/coronavirus/o-que-e-o-coronavirus)).

A disponibilidade de dados sobre a evolução da pandemia no tempo em uma determinada região geográfica é fundamental para o seu combate! Este projeto busca construir um dashboard de dados para exploração e visualização interativa de dados sobre o avanço de casos e da vacinação do Brasil. O dashboard esta dispinível neste [link](https://datastudio.google.com/reporting/7d2a284b-02d6-46ca-816c-5f6084ed6a30).

### **1.3. Dados**

Os dados sobre **casos da COVID-19** são compilados pelo centro de ciência de sistemas e engenharia da universidade americana **John Hopkins** ([link](https://www.jhu.edu/)). Os dados **são atualizados diariamente** deste janeiro de 2020 com uma granularidade temporal de dias e geográfica de regiões de países (estados, condados, etc.). O website do projeto pode ser acessado neste [link](https://systems.jhu.edu/research/public-health/ncov/) enquanto os dados, neste [link](https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports). Abaixo estão descritos os dados derivados do seu processamento.


* **date**: data de referência;
* **state**: estado;
* **country**: país;
* **population**: população estimada;
* **confirmed**: número acumulado de infectados;
* **confirmed_1d**: número diário de infectados;
* **confirmed_moving_avg_7d**: média móvel de 7 dias do número diário de infectados;
* **confirmed_moving_avg_7d_rate_14d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
* **deaths**: número acumulado de mortos;
* **deaths_1d**: número diário de mortos;
* **deaths_moving_avg_7d**: média móvel de 7 dias do número diário de mortos;
* **deaths_moving_avg_7d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
* **month**: mês de referência;
* **year**: ano de referência.

Os dados sobre **vacinação da COVID-19** são compilados pelo projeto Nosso Mundo em Dados (Our World in Data ou OWID) da universidade britânica de **Oxford** ([link](https://www.ox.ac.uk/)). Os dados são **atualizados diariamente** deste janeiro de 2020 com uma **granularidade temporal de dias e geográfica de países**. O website do projeto pode ser acessado neste [link](https://ourworldindata.org/) enquanto os dados, neste [link](https://covid.ourworldindata.org/data/owid-covid-data.csv). Abaixo estão descritos os dados derivados do seu processamento.

* **date**: data de referência;
* **country**: país;
* **population**: população estimada;
* **total**: número acumulado de doses administradas;
* **one_shot**: número acumulado de pessoas com uma dose;
* **one_shot_perc**: número acumulado relativo de pessoas com uma dose;
* **two_shots**: número acumulado de pessoas com duas doses;
* **two_shot_perc**: número acumulado relativo de pessoas com duas doses;
* **three_shots**: número acumulado de pessoas com três doses;
* **three_shot_perc**: número acumulado relativo de pessoas com três doses;
* **month**: mês de referência;
* **year**: ano de referência.

Os dados sobre **vacinação da COVID-19 em São Paulo** são compilados pelo [Wesley Cota](https://github.com/wcota). Os dados estão com uma **granularidade temporal de dias e geográfica de São Paulo com suas cidades**. O website do projeto pode ser acessado neste [link](https://covid19br.wcota.me/) enquanto os dados, neste [link](https://github.com/wcota/covid19br-vac/). Abaixo estão descritos os dados derivados do seu processamento.

* **date**: data de referência;
* **state**: estado;
* **city**: cidade;
* **ibgeID**: id específico do IBGE;
* **dose**: número da dose;
* **vaccine**: vacina que foi aplicada;
* **sex**: sexo;
* **age**: faixa de idade;
* **count**: quantidade de vacinas;
* **pop2021**: população estimada em 2021;
* **month**: mês de referência;
* **year**: ano de referência.

---

<h1 id="analise"><strong>2. Análise Exploratória de Dados - COVID Dashboard</strong></h1>

Aqui vamos explorar 'quase' todas as oportunidades de análise dos dados, além de tratá-los da melhor forma. Deixar os dados o mais estruturado possível facilita no momento em que montaremos o dashboard.
Acrescento que as oportunidades de análise são amplas e sempre podem ser analisadas mais a fundo, encorajo-o a pegar os datasets disponibilizados nos links acima e explorar além do que foi visto neste projeto!

## **2.1. Pacotes e bibliotecas**

Nesta sessão vamos utilizar os seguintes pacotes Python para processar os dados bruto em um formato adequado para um painel para exploração interativa de dados.

In [1]:
# - 1º pacotes nativos do python;
import math
from typing import Iterator
from datetime import datetime, timedelta

# - 2º pacotes de terceiros;
import numpy as np
import pandas as pd

## **2.2. Casos**

Vamos processar os dados de **casos** da universidade John Hopkins.

### **2.2.1. Extração**

O dado está compilado em um arquivo por dia, exemplo para 2021/12/01.

In [None]:
cases = pd.read_csv(
 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/' +
 'master/csse_covid_19_data/csse_covid_19_daily_reports/01-12-2021.csv',
 sep=','
)

In [None]:
cases.head()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
0,,,,Afghanistan,2021-01-13 05:22:15,33.93911,67.709953,53584,2301,44608,6675,Afghanistan,137.647787,4.294192
1,,,,Albania,2021-01-13 05:22:15,41.1533,20.1683,64627,1252,38421,24954,Albania,2245.708527,1.937271
2,,,,Algeria,2021-01-13 05:22:15,28.0339,1.6596,102641,2816,69608,30217,Algeria,234.067409,2.743543
3,,,,Andorra,2021-01-13 05:22:15,42.5063,1.5218,8682,86,7930,666,Andorra,11236.653077,0.990555
4,,,,Angola,2021-01-13 05:22:15,-11.2027,17.8739,18343,422,15512,2409,Angola,55.811022,2.300605


Portanto, precisaremos iterar dentro de um intervalo de tempo definido para extraí-lo.

In [None]:
##### DESCRIÇÃO DA FUNÇÃO #####

# Pegaremos o range de datas de 2021. 

# Iterator - Tem um comportamento parecido com as listas, porém ele gera um elemento por vez;
# Yield - Preserva o número gerado.

def date_range(start_date: datetime, end_date: datetime) -> Iterator[datetime]:
 date_range_days: int = (end_date - start_date).days
 for lag in range(date_range_days):
  yield start_date + timedelta(lag)

In [None]:
# Início de 2021
start_date = datetime(2021, 1, 1)

# Fim de 2021
end_date = datetime(2021, 12, 31)

De maneira iterativa, vamos selecionar as colunas de interesse e as linhas referentes ao
**Brasil**.

In [None]:
cases = None
cases_is_empty = True

for date in date_range(start_date=start_date, end_date=end_date):
  # formatando o modelo de data
  date_str = date.strftime('%m-%d-%Y')

  # url dos dados
  data_source_url = f'https://raw.githubusercontent.com/CSSEGISandData/' + f'COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/' + f'{date_str}.csv'
  
  # transformando em DataFrame (DF)
  case = pd.read_csv(data_source_url, sep=',')

  # removendo colunas que não utilizaremos
  case = case.drop(['FIPS', 'Admin2', 'Last_Update', 'Lat', 'Long_', 'Recovered', 'Active', 'Combined_Key', 'Case_Fatality_Ratio'], axis=1)
  
  # filtrando apenas dados do brasil
  case = case.query('Country_Region == "Brazil"').reset_index(drop=True)

  # formatando a data do DF
  case['Date'] = pd.to_datetime(date.strftime('%Y-%m-%d'))

  # colocando um DF dentro do outro para cada data do iterador
  if cases_is_empty:
      cases = case
      cases_is_empty = False
  else:
      cases = cases.append(case, ignore_index=True)

Vamos visualizar os dados

In [None]:
cases.query('Province_State == "Sao Paulo"').head()

Unnamed: 0,Province_State,Country_Region,Confirmed,Deaths,Incident_Rate,Date
24,Sao Paulo,Brazil,1466191,46775,3192.990778,2021-01-01
51,Sao Paulo,Brazil,1467953,46808,3196.827966,2021-01-02
78,Sao Paulo,Brazil,1471422,46845,3204.382565,2021-01-03
105,Sao Paulo,Brazil,1473670,46888,3209.278136,2021-01-04
132,Sao Paulo,Brazil,1486551,47222,3237.329676,2021-01-05


### **2.2.2. Wrangling**

Vamos manipular os dados para o dashboard. O foco é em garantir uma boa
granularidade e qualidade da base de dados. Lembrando que um dado bem estruturado facilita no processo de criação do dashboard.

In [None]:
# Visualizando as primeiras informações

cases.head()

Unnamed: 0,Province_State,Country_Region,Confirmed,Deaths,Incident_Rate,Date
0,Acre,Brazil,41689,796,4726.992352,2021-01-01
1,Alagoas,Brazil,105091,2496,3148.928928,2021-01-01
2,Amapa,Brazil,68361,926,8083.066602,2021-01-01
3,Amazonas,Brazil,201574,5295,4863.536793,2021-01-01
4,Bahia,Brazil,494684,9159,3326.039611,2021-01-01


In [None]:
# Quantidade de linhas e colunas do DF

print(f'Qtd. Linhas: {cases.shape[0]}\nQtd. Colunas: {cases.shape[1]}')

Qtd. Linhas: 9828

Qtd. Colunas: 6


In [None]:
# As principais informações do DF

cases.info()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 9828 entries, 0 to 9827

Data columns (total 6 columns):

 #   Column          Non-Null Count  Dtype         

---  ------          --------------  -----         

 0   Province_State  9828 non-null   object        

 1   Country_Region  9828 non-null   object        

 2   Confirmed       9828 non-null   int64         

 3   Deaths          9828 non-null   int64         

 4   Incident_Rate   9828 non-null   float64       

 5   Date            9828 non-null   datetime64[ns]

dtypes: datetime64[ns](1), float64(1), int64(2), object(2)

memory usage: 460.8+ KB


* Começamos com o nome das colunas.

In [None]:
# Renomenando as colunas

cases = cases.rename(
  columns={
    'Province_State': 'state',
    'Country_Region': 'country'
 }
)

# Deixando o nome das colunas em minúsculo

for col in cases.columns:
  cases = cases.rename(columns={col: col.lower()})

* Ajustamos o nome dos estados.

In [None]:
# Para colocar o tipo certo na coluna states lá no dashboard, precisamos deixar os estados com o nome mais próximo da realidade

states_map = {
    'Amapa': 'Amapá',
    'Ceara': 'Ceará',
    'Espirito Santo': 'Espírito Santo',
    'Goias': 'Goiás',
    'Para': 'Pará',
    'Paraiba': 'Paraíba',
    'Parana': 'Paraná',
    'Piaui': 'Piauí',
    'Rondonia': 'Rondônia',
    'Sao Paulo': 'São Paulo'
}

cases['state'] = cases['state'].apply(lambda state: states_map.get(state) if state in states_map.keys() else state)

Vamos então computar novas colunas para enriquecer a base de dados.

* Chaves temporais:

In [None]:
cases['month'] = cases['date'].apply(lambda date: date.strftime('%Y-%m'))
cases['year']  = cases['date'].apply(lambda date: date.strftime('%Y'))

* População estimada do estado:

In [None]:
cases['population'] = round(100000 * (cases['confirmed'] / cases['incident_rate']))

# essa coluna não será utilizada futuramente
cases = cases.drop('incident_rate', axis=1)

* Número, média móvel (7 dias) e estabilidade (14 dias) de casos e mortes por estado:

Abaixo é apenas uma tabela para usarmos como referência nos cálculos a seguir:

| 1 | 2 | 3 | 4 | 5 | 6 | <font color='red'>7</font> | <font color='green'>8</font> | 9 | 10 | 11 | 12 | 13 | <font color='blue'>14<font color='red'> | 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| - | - | - | - | - | - | - | - | - | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
| <font color='red'>D-6</font> | <font color='red'>D-5</font> | <font color='red'>D-4</font> | <font color='red'>D-3</font> | <font color='red'>D-2</font> | <font color='red'>D-1</font> | <font color='red'>D0</font> | | | | | | | | | | | | | | |
| D-7 | <font color='green'>D-6</font> | <font color='green'>D-5</font> | <font color='green'>D-4</font> | <font color='green'>D-3</font> | <font color='green'>D-2</font> | <font color='green'>D-1</font> | <font color='green'>D0</font> | | | | | | | | | | | | | |
| D-13 | D-12 | D-11 | D-10 | D-9 | D-8 | D-7 | <font color='blue'>D-6</font> | <font color='blue'>D-5</font> | <font color='blue'>D-4</font> | <font color='blue'>D-3</font> | <font color='blue'>D-2</font> | <font color='blue'>D-1</font> | <font color='blue'>D0</font> | | | | | | | |

In [None]:
cases_ = None
cases_is_empty = True

# Função condicional, representa o status por cada rate
def get_trend(rate: float) -> str:

  if np.isnan(rate):
    return np.NaN
    
  if rate < 0.75:
    status = 'downward'
  elif rate > 1.15:
    status = 'upward'
  else:
    status = 'stable'

  return status


for state in cases['state'].drop_duplicates():

  cases_per_state = cases.query(f'state == "{state}"').reset_index(drop=True)
  cases_per_state = cases_per_state.sort_values(by=['date'])

  cases_per_state['confirmed_1d'] = cases_per_state['confirmed'].diff(periods=1)
  cases_per_state['confirmed_moving_avg_7d'] = np.ceil(cases_per_state['confirmed_1d'].rolling(window=7).mean())
  cases_per_state['confirmed_moving_avg_7d_rate_14d'] = cases_per_state['confirmed_moving_avg_7d']/cases_per_state['confirmed_moving_avg_7d'].shift(periods=14)
  cases_per_state['confirmed_trend'] = cases_per_state['confirmed_moving_avg_7d_rate_14d'].apply(get_trend)

  cases_per_state['deaths_1d'] = cases_per_state['deaths'].diff(periods=1)
  cases_per_state['deaths_moving_avg_7d'] = np.ceil(cases_per_state['deaths_1d'].rolling(window=7).mean())
  cases_per_state['deaths_moving_avg_7d_rate_14d'] = cases_per_state['deaths_moving_avg_7d']/cases_per_state['deaths_moving_avg_7d'].shift(periods=14)
  cases_per_state['deaths_trend'] = cases_per_state['deaths_moving_avg_7d_rate_14d'].apply(get_trend)

  if cases_is_empty:
    cases_ = cases_per_state
    cases_is_empty = False
  else:
    cases_ = cases_.append(cases_per_state, ignore_index=True)

cases = cases_
cases_ = None

Garantir o tipo do dado é fundamental para consistência da base de dados. Vamos fazer o `type casting` das colunas.

In [None]:
cases['population'] = cases['population'].astype('Int64')
cases['confirmed_1d'] = cases['confirmed_1d'].astype('Int64')
cases['confirmed_moving_avg_7d'] = cases['confirmed_moving_avg_7d'].astype('Int64')
cases['deaths_1d'] = cases['deaths_1d'].astype('Int64')
cases['deaths_moving_avg_7d'] = cases['deaths_moving_avg_7d'].astype('Int64')

Por fim, vamos reorganizar as colunas e conferir o resultado final.

In [None]:
cases = cases[['date', 'country', 'state', 'population', 'confirmed', 'confirmed_1d', 'confirmed_moving_avg_7d', 
               'confirmed_moving_avg_7d_rate_14d', 'confirmed_trend', 'deaths', 'deaths_1d', 'deaths_moving_avg_7d', 
               'deaths_moving_avg_7d_rate_14d', 'deaths_trend', 'month', 'year']]

In [None]:
cases.head(n=25)

Unnamed: 0,date,country,state,population,confirmed,confirmed_1d,confirmed_moving_avg_7d,confirmed_moving_avg_7d_rate_14d,confirmed_trend,deaths,deaths_1d,deaths_moving_avg_7d,deaths_moving_avg_7d_rate_14d,deaths_trend,month,year
0,2021-01-01,Brazil,Acre,881935,41689,,,,,796,,,,,2021-01,2021
1,2021-01-02,Brazil,Acre,881935,41941,252.0,,,,798,2.0,,,,2021-01,2021
2,2021-01-03,Brazil,Acre,881935,42046,105.0,,,,802,4.0,,,,2021-01,2021
3,2021-01-04,Brazil,Acre,881935,42117,71.0,,,,806,4.0,,,,2021-01,2021
4,2021-01-05,Brazil,Acre,881935,42170,53.0,,,,808,2.0,,,,2021-01,2021
5,2021-01-06,Brazil,Acre,881935,42378,208.0,,,,814,6.0,,,,2021-01,2021
6,2021-01-07,Brazil,Acre,881935,42478,100.0,,,,821,7.0,,,,2021-01,2021
7,2021-01-08,Brazil,Acre,881935,42814,336.0,161.0,,,823,2.0,4.0,,,2021-01,2021
8,2021-01-09,Brazil,Acre,881935,42908,94.0,139.0,,,823,0.0,4.0,,,2021-01,2021
9,2021-01-10,Brazil,Acre,881935,43127,219.0,155.0,,,825,2.0,4.0,,,2021-01,2021


### **2.2.3. Carregamento** 

Com os dados manipulados, vamos transformar em disco, fazer o seu download e carregá-lo no Google Data Studio.

In [None]:
cases.to_csv('./covid-cases.csv', sep=',', index=False)

## **2.3. Vacinação**

Vamos processar os dados de **vacinação** da universidade de Oxford.

### **2.3.1. Extração**

Os dados estão compilados em um único arquivo.

In [None]:
vaccines = pd.read_csv('https://covid.ourworldindata.org/data/owid-covid-data.csv', sep=',', parse_dates=[3], infer_datetime_format=True)

In [None]:
vaccines.head()

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,population,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
0,AFG,Asia,Afghanistan,2020-02-24,5.0,5.0,,,,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
1,AFG,Asia,Afghanistan,2020-02-25,5.0,0.0,,,,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
2,AFG,Asia,Afghanistan,2020-02-26,5.0,0.0,,,,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
3,AFG,Asia,Afghanistan,2020-02-27,5.0,0.0,,,,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
4,AFG,Asia,Afghanistan,2020-02-28,5.0,0.0,,,,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,


Vamos selecionar as colunas de interesse e as linhas referentes ao **Brasil**.

In [None]:
vaccines = vaccines.query('location == "Brazil"').reset_index(drop=True)
vaccines = vaccines[['location', 'population', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'total_boosters', 'date']]

In [None]:
vaccines.head()

Unnamed: 0,location,population,total_vaccinations,people_vaccinated,people_fully_vaccinated,total_boosters,date
0,Brazil,215313504.0,,,,,2020-02-26
1,Brazil,215313504.0,,,,,2020-02-27
2,Brazil,215313504.0,,,,,2020-02-28
3,Brazil,215313504.0,,,,,2020-02-29
4,Brazil,215313504.0,,,,,2020-03-01


### **2.3.2. Wrangling**

Vamos manipular os dados para o dashboard. O foco é em garantir uma boa granularidade e qualidade da base de dados.

In [None]:
# Visualizando as primeiras informações

vaccines.head()

Unnamed: 0,location,population,total_vaccinations,people_vaccinated,people_fully_vaccinated,total_boosters,date
0,Brazil,215313504.0,,,,,2020-02-26
1,Brazil,215313504.0,,,,,2020-02-27
2,Brazil,215313504.0,,,,,2020-02-28
3,Brazil,215313504.0,,,,,2020-02-29
4,Brazil,215313504.0,,,,,2020-03-01


In [None]:
# Quantidade de linhas e colunas do DF

print(f'Qtd. Linhas: {vaccines.shape[0]}\nQtd. Colunas: {vaccines.shape[1]}')

Qtd. Linhas: 1005

Qtd. Colunas: 7


In [None]:
# As principais informações do DF

vaccines.info()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 1005 entries, 0 to 1004

Data columns (total 7 columns):

 #   Column                   Non-Null Count  Dtype         

---  ------                   --------------  -----         

 0   location                 1005 non-null   object        

 1   population               1005 non-null   float64       

 2   total_vaccinations       609 non-null    float64       

 3   people_vaccinated        605 non-null    float64       

 4   people_fully_vaccinated  589 non-null    float64       

 5   total_boosters           379 non-null    float64       

 6   date                     1005 non-null   datetime64[ns]

dtypes: datetime64[ns](1), float64(5), object(1)

memory usage: 55.1+ KB


Vamos começar tratando os dados faltantes, a estratégia será a de preencher os buracos com o valor anterior válido mais próximo.

In [None]:
vaccines = vaccines.fillna(method='ffill')

Vamos também filtrar a base de dados de acordo com a coluna `date` para garantir que ambas as bases de dados tratam do mesmo período de tempo.

In [None]:
vaccines = vaccines[(vaccines['date'] >= '2021-01-01') & (vaccines['date'] <= '2021-12-31')].reset_index(drop=True)

Agora, vamos alterar o nome das colunas.

In [None]:
vaccines = vaccines.rename(
  columns={
    'location': 'country',
    'total_vaccinations': 'total',
    'people_vaccinated': 'one_shot',
    'people_fully_vaccinated': 'two_shots',
    'total_boosters': 'three_shots',
  }
)

Vamos então computar novas colunas para enriquecer a base de dados.

* Chaves temporais:

In [None]:
vaccines['month'] = vaccines['date'].apply(lambda date: date.strftime('%Y-%m'))
vaccines['year']  = vaccines['date'].apply(lambda date: date.strftime('%Y'))

* Dados relativos:

In [None]:
vaccines['one_shot_perc'] = round(vaccines['one_shot'] / vaccines['population'], 4)
vaccines['two_shots_perc'] = round(vaccines['two_shots'] / vaccines['population'], 4)
vaccines['three_shots_perc'] = round(vaccines['three_shots'] / vaccines['population'], 4)

Garantir o tipo do dado é fundamental para consistência da base de dados. Vamos fazer o `type casting` das colunas.

In [None]:
vaccines['population'] = vaccines['population'].astype('Int64')
vaccines['total'] = vaccines['total'].astype('Int64')
vaccines['one_shot'] = vaccines['one_shot'].astype('Int64')
vaccines['two_shots'] = vaccines['two_shots'].astype('Int64')
vaccines['three_shots'] = vaccines['three_shots'].astype('Int64')

Por fim, vamos reorganizar as colunas e conferir o resultado final.

In [None]:
vaccines = vaccines[['date', 'country', 'population', 'total', 'one_shot', 'one_shot_perc', 
                     'two_shots', 'two_shots_perc', 'three_shots', 'three_shots_perc', 'month', 'year']]

In [None]:
vaccines.tail()

Unnamed: 0,date,country,population,total,one_shot,one_shot_perc,two_shots,two_shots_perc,three_shots,three_shots_perc,month,year
360,2021-12-27,Brazil,215313504,329011365,165952037,0.7707,142764283,0.6631,25218893,0.1171,2021-12,2021
361,2021-12-28,Brazil,215313504,329861730,166062249,0.7713,142965728,0.664,25758909,0.1196,2021-12,2021
362,2021-12-29,Brazil,215313504,330718457,166143380,0.7716,143282084,0.6655,26219623,0.1218,2021-12,2021
363,2021-12-30,Brazil,215313504,331164041,166185628,0.7718,143398692,0.666,26507937,0.1231,2021-12,2021
364,2021-12-31,Brazil,215313504,331273910,166195505,0.7719,143436012,0.6662,26571077,0.1234,2021-12,2021


### **2.3.3. Carregamento** 

Com os dados manipulados, vamos transformar em disco, fazer o seu download e carregá-lo no Google Data Studio.

In [None]:
vaccines.to_csv('./covid-vaccines.csv', sep=',', index=False)

## **2.4. Vacinação em São Paulo**

Vamos processar os dados de vacinação em São Paulo.

### **2.4.1. Extração**

Os dados estão compilados em um arquivo zip, vamos descompactar com uma função do próprio pandas.

In [29]:
vaccines_sp = pd.read_csv('https://github.com/wcota/covid19br-vac/blob/main/processed_SP.csv.gz?raw=true', sep=',', compression='gzip', parse_dates=[0], infer_datetime_format=True)

In [14]:
vaccines_sp.head()

Unnamed: 0,date,state,city,ibgeID,dose,vaccine,sex,age,count,pop2021
0,2021-01-16,SP,Itararé/SP,3523206,1,Sinovac,F,20-24,1,50778
1,2021-01-17,SP,Aguaí/SP,3500303,2,Pfizer/BioNTech,F,55-59,1,36981
2,2021-01-17,SP,Americana/SP,3501608,2,Sinovac,F,30-34,1,244370
3,2021-01-17,SP,Américo Brasiliense/SP,3501707,2,Sinovac,F,25-29,1,41545
4,2021-01-17,SP,Américo Brasiliense/SP,3501707,2,Sinovac,F,30-34,3,41545


### **2.4.2. Wrangling**

Vamos manipular os dados para o dashboard. O foco é em garantir uma boa granularidade e qualidade da base de dados. Lembrando que um dado bem estruturado facilita no processo de criação do dashboard.

Vamos começar tratando os dados faltantes, a estratégia será a de preencher os buracos com o valor anterior válido mais próximo.

In [30]:
vaccines_sp = vaccines_sp.fillna(method='ffill')

In [16]:
if vaccines_sp.isnull().any().any():
  print('Há valores nulos.')
else:
  print('Não há valores nulos.')

Não há valores nulos.


In [17]:
# Visualizando as primeiras informações

vaccines_sp.head()

Unnamed: 0,date,state,city,ibgeID,dose,vaccine,sex,age,count,pop2021
0,2021-01-16,SP,Itararé/SP,3523206,1,Sinovac,F,20-24,1,50778
1,2021-01-17,SP,Aguaí/SP,3500303,2,Pfizer/BioNTech,F,55-59,1,36981
2,2021-01-17,SP,Americana/SP,3501608,2,Sinovac,F,30-34,1,244370
3,2021-01-17,SP,Américo Brasiliense/SP,3501707,2,Sinovac,F,25-29,1,41545
4,2021-01-17,SP,Américo Brasiliense/SP,3501707,2,Sinovac,F,30-34,3,41545


In [18]:
# Quantidade de linhas e colunas do DF

print(f'Qtd. Linhas: {vaccines_sp.shape[0]}\nQtd. Colunas: {vaccines_sp.shape[1]}')

Qtd. Linhas: 9357799
Qtd. Colunas: 10


O DataFrame contém muitas linhas, ultrapassa 9mi. Vamos filtrar apenas dados de 2021, isso reduzirá a quantidade de informações e o processamento.

In [31]:
vaccines_sp = vaccines_sp[(vaccines_sp['date'] >= '2021-01-01') & (vaccines_sp['date'] <= '2021-12-31')].reset_index(drop=True)

In [20]:
# Quantidade de linhas e colunas do DF

print(f'Qtd. Linhas: {vaccines_sp.shape[0]}\nQtd. Colunas: {vaccines_sp.shape[1]}')

Qtd. Linhas: 4512702
Qtd. Colunas: 10


Reduziu bastante!

In [21]:
# As principais informações do DF

vaccines_sp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4512702 entries, 0 to 4512701
Data columns (total 10 columns):
 #   Column   Dtype         
---  ------   -----         
 0   date     datetime64[ns]
 1   state    object        
 2   city     object        
 3   ibgeID   int64         
 4   dose     int64         
 5   vaccine  object        
 6   sex      object        
 7   age      object        
 8   count    int64         
 9   pop2021  int64         
dtypes: datetime64[ns](1), int64(4), object(5)
memory usage: 344.3+ MB


In [22]:
vaccines_sp.head()

Unnamed: 0,date,state,city,ibgeID,dose,vaccine,sex,age,count,pop2021
0,2021-01-16,SP,Itararé/SP,3523206,1,Sinovac,F,20-24,1,50778
1,2021-01-17,SP,Aguaí/SP,3500303,2,Pfizer/BioNTech,F,55-59,1,36981
2,2021-01-17,SP,Americana/SP,3501608,2,Sinovac,F,30-34,1,244370
3,2021-01-17,SP,Américo Brasiliense/SP,3501707,2,Sinovac,F,25-29,1,41545
4,2021-01-17,SP,Américo Brasiliense/SP,3501707,2,Sinovac,F,30-34,3,41545


Vamos então computar novas colunas para enriquecer a base de dados.

* Chaves temporais:

In [32]:
vaccines_sp['month'] = vaccines_sp['date'].apply(lambda date: date.strftime('%Y-%m'))
vaccines_sp['year']  = vaccines_sp['date'].apply(lambda date: date.strftime('%Y'))

Neste caso, nossos dados já estão com os tipos certos, mas garantir o tipo do dado é fundamental para a consistência da base de dados. Não podemos esquecer de fazer o `type casting` das colunas.

Vamos olhar um pouco para as variáveis categórias:

In [24]:
vaccines_sp.dose.drop_duplicates()

0          1
1          2
135        0
2036758    3
Name: dose, dtype: int64

In [25]:
vaccines_sp.sex.drop_duplicates()

0    F
5    M
Name: sex, dtype: object

In [26]:
vaccines_sp.age.drop_duplicates()

0       20-24
1       55-59
2       30-34
3       25-29
6       65-69
7       50-54
8       10-14
9       15-19
12      40-44
13      45-49
14      80-84
16      35-39
17      85-89
27      60-64
48      70-74
54        90+
103       5-9
133     75-79
2867      0-4
Name: age, dtype: object

> Temos a 1, 2 e 3 dose, o sexo está dividido entre masculino e feminino, e as idades terminam em 90+.

Por fim, vamos reorganizar as colunas e conferir o resultado final.

> Não usaremos as colunas **pop2021**, **ibgeID** e **dose** (parece ter dado faltante, decido não continuar com essa coluna).

In [33]:
vaccines_sp = vaccines_sp[['date', 'state', 'city', 'vaccine', 'dose', 'sex', 'age', 'count', 'month', 'year']]

In [35]:
vaccines_sp.tail()

Unnamed: 0,date,state,city,vaccine,dose,sex,age,count,month,year
4512697,2021-12-31,SP,Taubaté/SP,Pfizer/BioNTech,3,M,60-64,2,2021-12,2021
4512698,2021-12-31,SP,Tremembé/SP,Pfizer/BioNTech,1,F,5-9,1,2021-12,2021
4512699,2021-12-31,SP,Tremembé/SP,Sinovac,1,F,5-9,1,2021-12,2021
4512700,2021-12-31,SP,Tremembé/SP,Sinovac,1,M,55-59,1,2021-12,2021
4512701,2021-12-31,SP,Tremembé/SP,Sinovac,1,M,55-59,1,2021-12,2021


### **2.4.3. Carregamento** 

Com os dados manipulados, vamos transformar em disco, fazer o seu download e carregá-lo no Google Data Studio.

In [34]:
vaccines_sp.to_csv('./covid-vaccines-sp.csv', sep=',', index=False)

---

<h1 id="visualizacao"><strong>3. Visualização Interativa de Dados</strong></h1>

### **3.1. KPIs** 

O dashboard de dados contém os seguintes indicadores chaves de desempenho (*key performance indicator* ou KPI) consolidados:

1. Casos e mortes nas 24 horas;
1. Média móvel (7 dias) de casos e mortes;
1. Tendência de casos e mortes;
1. Proporção de vacinados com 1ª, 2ª e 3ª doses;
1. Análise sobre as vacinações em São Paulo;

### **3.2. EDA** 

O dashboard de dados contém os seguintes gráficos para a análise exploratória de dados (*exploratory data analysis* ou EDA) interativa:

1. Distribuição do números de casos e mortes ao longo do tempo;
1. Distribuição da média móvel (7 dias) do números de casos e mortes ao longo do tempo;
1. Distribuição geográfica dos casos por estado por dia.

<h1 id="storytelling"><strong>4. Storytelling</strong></h1>

Aqui está o link do dashboard de dados. [Dashboard / COVID-19](https://datastudio.google.com/reporting/7d2a284b-02d6-46ca-816c-5f6084ed6a30).