<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: COVID-19 Dashboard
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução;</li>
  <li>Análise Exploratória de Dados;</li>
  <li>Visualização Interativa de Dados;</li>
  <li>Storytelling.</li>
</ol>


---

# **Exercícios**

Este *notebook* deve servir como um guia para **você continuar** a construção da sua própria análise exploratória de dados interativa. Fique a vontate para copiar os códigos da aula mas busque explorar os dados ao máximo. Por fim, publique seu *notebook* no [Kaggle](https://www.kaggle.com/) e seu *dashboard* [Google Data Studio](https://datastudio.google.com/).

---

# **COVID Dashboard**

## 1\. Contexto


Contexto: COVID Dashboard

O COVID Dashboard é um projeto dedicado à análise exploratória de dados relacionados à pandemia de COVID-19. O objetivo principal é fornecer uma visão abrangente e interativa das tendências, padrões e estatísticas associadas à propagação do vírus em diferentes regiões.

Descrição do Problema:
A pandemia de COVID-19, causada pelo coronavírus SARS-CoV-2, teve um impacto global significativo na saúde pública, na economia e na sociedade como um todo. O acompanhamento e análise dos dados relacionados ao COVID-19 são cruciais para entender a evolução da doença, identificar áreas de maior impacto e avaliar a eficácia das medidas de contenção.

Objetivos do Dashboard:

- Monitoramento Global: Apresentar uma visão geral da situação global, destacando o número total de casos confirmados, recuperados e óbitos.

- Análise por Região: Permitir a análise detalhada da situação em diferentes regiões, incluindo países, estados ou províncias, destacando variações nas taxas de infecção, mortalidade e recuperação.

- Tendências Temporais: Apresentar gráficos interativos para visualizar as tendências ao longo do tempo, identificando picos, declínios e possíveis padrões sazonais.

- Comparação de Medidas: Analisar a eficácia de diferentes medidas de contenção adotadas por diferentes regiões e países, como lockdowns, distanciamento social e campanhas de vacinação.

- Informações Demográficas: Integrar dados demográficos para entender como diferentes grupos populacionais são afetados, considerando fatores como idade, sexo e condições de saúde pré-existentes.

### **1.1. TLDR**
 - **Dashboard**:
  - Google Data Studio ([link](https://lookerstudio.google.com/reporting/d966c761-bc08-4d13-b4df-536863b611f6)).
 - **Processamento**:
  - Kaggle Notebook (`link`).
 - **Fontes**:
  - Casos pela universidade John Hopkins ([link](https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports));
  - Vacinação pela universidade de Oxford ([link](https://covid.ourworldindata.org/data/owid-covid-data.csv)).

### **1.2. Dados**

Os dados sobre **casos da COVID-19** são compilados pelo centro de ciência de sistemas e engenharia da universidade americana **John Hopkins** ([link](https://www.jhu.edu)). Os dados são atualizados diariamente deste janeiro de 2020 com uma granularidade temporal de dias e geográfica de regiões de países (estados, condados, etc.). O website do projeto pode ser acessado neste [link](https://systems.jhu.edu/research/public-health/ncov/) enquanto os dados, neste [link](https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports). Abaixo estão descritos os dados derivados do seu processamento.

 - **date**: data de referência;
 - **state**: estado;
 - **country**: país;
 - **population**: população estimada;
 - **confirmed**: número acumulado de infectados;
 - **confirmed_1d**: número diário de infectados;
 - **confirmed_moving_avg_7d**: média móvel de 7 dias do número diário de infectados;
 - **confirmed_moving_avg_7d_rate_14d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
 - **deaths**: número acumulado de mortos;
 - **deaths_1d**: número diário de mortos;
 - **deaths_moving_avg_7d**: média móvel de 7 dias do número diário de mortos;
 - **deaths_moving_avg_7d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
 - **month**: mês de referência;
 - **year**: ano de referência.

## 2\. Pacotes e bibliotecas

In [2]:
# importe todas as suas bibliotecas aqui, siga os padrões do PEP8:
import math
from typing import Iterator
from datetime import datetime, timedelta

import numpy as np
import pandas as pd

## 3\. Extração

In [3]:
# faça o código de extração dos dados:
#
# - coleta de dados;
# - wrangling da estrutura;
# - exploração do schema;
# - etc.

...

Ellipsis

In [4]:
# Lendo o arquivo CSV contendo dados de casos de COVID-19 em 01-12-2021 do repositório da Universidade Johns Hopkins.
cases = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/01-12-2021.csv', sep=',')

In [5]:
cases.head()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
0,,,,Afghanistan,2021-01-13 05:22:15,33.93911,67.709953,53584,2301,44608,6675,Afghanistan,137.647787,4.294192
1,,,,Albania,2021-01-13 05:22:15,41.1533,20.1683,64627,1252,38421,24954,Albania,2245.708527,1.937271
2,,,,Algeria,2021-01-13 05:22:15,28.0339,1.6596,102641,2816,69608,30217,Algeria,234.067409,2.743543
3,,,,Andorra,2021-01-13 05:22:15,42.5063,1.5218,8682,86,7930,666,Andorra,11236.653077,0.990555
4,,,,Angola,2021-01-13 05:22:15,-11.2027,17.8739,18343,422,15512,2409,Angola,55.811022,2.300605


In [6]:
cases.tail()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
4007,,,Unknown,Ukraine,2021-01-13 05:22:15,,,0,0,0,0,"Unknown, Ukraine",0.0,0.0
4008,,,,Nauru,2021-01-13 05:22:15,-0.5228,166.9315,0,0,0,0,Nauru,0.0,0.0
4009,,,Niue,New Zealand,2021-01-13 05:22:15,-19.0544,-169.8672,0,0,0,0,"Niue, New Zealand",0.0,0.0
4010,,,,Tuvalu,2021-01-13 05:22:15,-7.1095,177.6493,0,0,0,0,Tuvalu,0.0,0.0
4011,,,Pitcairn Islands,United Kingdom,2021-01-13 05:22:15,-24.3768,-128.3242,0,0,0,0,"Pitcairn Islands, United Kingdom",0.0,0.0


- O dado está compilado em um arquivo por dia, exemplo para 2021/12/01.

- Portanto, precisaremos iterar dentro de um intervalo de tempo definido para extraí-lo.



In [7]:
# Gerando uma faixa de datas entre `start_date` e `end_date`, retornando um iterador de datetime.
def date_range(start_date: datetime, end_date: datetime) -> Iterator[datetime]:
  date_range_days: int = (end_date - start_date).days
  for lag in range(date_range_days):
    yield start_date + timedelta(lag)

In [8]:
start_date = datetime(2021,  1,  1)
end_date   = datetime(2021, 12, 31)

- Agora de forma iterativa, vamos selecionar as colunas de interesse e as linhas referentes ao Brasil.

In [9]:
# Inicializa variáveis
cases = None  # DataFrame para armazenar casos de COVID-19
cases_is_empty = True  # Flag indicando se o DataFrame está vazio

# Itera sobre as datas no intervalo especificado
for date in date_range(start_date=start_date, end_date=end_date):

  # Formata a data como string e constrói a URL do arquivo CSV diário
  date_str = date.strftime('%m-%d-%Y')
  data_source_url = f'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/{date_str}.csv'

  # Lê o arquivo CSV diário e realiza pré-processamento nos dados
  case = pd.read_csv(data_source_url, sep=',')
  case = case.drop(['FIPS', 'Admin2', 'Last_Update', 'Lat', 'Long_', 'Recovered', 'Active', 'Combined_Key', 'Case_Fatality_Ratio'], axis=1)
  case = case.query('Country_Region == "Brazil"').reset_index(drop=True)
  case['Date'] = pd.to_datetime(date.strftime('%Y-%m-%d'))

  # Atualiza o DataFrame consolidado com os novos casos
  if cases_is_empty:
    cases = case
    cases_is_empty = False
  else:
    cases = cases.append(case, ignore_index=True)

# O DataFrame 'cases' agora contém dados consolidados de casos de COVID-19 para o Brasil no período especificado.


  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_index=True)
  cases = cases.append(case, ignore_inde

In [10]:
cases.query('Province_State == "Bahia"').head()

Unnamed: 0,Province_State,Country_Region,Confirmed,Deaths,Incident_Rate,Date
4,Bahia,Brazil,494684,9159,3326.039611,2021-01-01
31,Bahia,Brazil,495286,9187,3330.087197,2021-01-02
58,Bahia,Brazil,496008,9218,3334.94161,2021-01-03
85,Bahia,Brazil,496823,9246,3340.421315,2021-01-04
112,Bahia,Brazil,499900,9276,3361.109722,2021-01-05


## 4\. Transformação

#### **4.1. Wrangling**

- Agora vamos trabalhar os dados para o dashboard. O foco é em garantir boa granularidade e qualidade da base de dados.

Começando o nome das colunas. 'Province_State'e 'Country_Region'

In [11]:
cases.columns

Index(['Province_State', 'Country_Region', 'Confirmed', 'Deaths',
       'Incident_Rate', 'Date'],
      dtype='object')

In [12]:
cases.shape

(9828, 6)

In [13]:
cases.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9828 entries, 0 to 9827
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Province_State  9828 non-null   object        
 1   Country_Region  9828 non-null   object        
 2   Confirmed       9828 non-null   int64         
 3   Deaths          9828 non-null   int64         
 4   Incident_Rate   9828 non-null   float64       
 5   Date            9828 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 460.8+ KB


In [14]:
# Renomeiando as colunas 'Province_State' e 'Country_Region'
cases = cases.rename(
  columns={
    'Province_State': 'state',
    'Country_Region': 'country'
  }
)

# Converte todos os nomes de colunas para letras minúsculas
for col in cases.columns:
  cases = cases.rename(columns={col: col.lower()})


In [15]:
cases.columns

Index(['state', 'country', 'confirmed', 'deaths', 'incident_rate', 'date'], dtype='object')

Ajustamos o nome dos estados. Acentuação





In [16]:
# Mapeando e corrigindo nomes de estados no DataFrame 'cases' utilizando o dicionário 'states_map'.
states_map = {
    'Amapa': 'Amapá',
    'Ceara': 'Ceará',
    'Espirito Santo': 'Espírito Santo',
    'Goias': 'Goiás',
    'Para': 'Pará',
    'Paraiba': 'Paraíba',
    'Parana': 'Paraná',
    'Piaui': 'Piauí',
    'Rondonia': 'Rondônia',
    'Sao Paulo': 'São Paulo'
}

# Aplicando a correção nos nomes dos estados na coluna 'state'
cases['state'] = cases['state'].apply(lambda state: states_map.get(state) if state in states_map.keys() else state)


In [17]:
para_cases = cases[cases['state'] == 'Pará']
print(para_cases['state'])


13      Pará
40      Pará
67      Pará
94      Pará
121     Pará
        ... 
9706    Pará
9733    Pará
9760    Pará
9787    Pará
9814    Pará
Name: state, Length: 364, dtype: object


- Vamos então computar novas colunas para enriquecer a base de dados.
  - Chaves temporais:

In [18]:
# Adicionando colunas 'month' e 'year' ao DataFrame 'cases', representando o mês e o ano correspondentes à coluna 'date'.
cases['month'] = cases['date'].apply(lambda date: date.strftime('%Y-%m'))
cases['year']  = cases['date'].apply(lambda date: date.strftime('%Y'))


 - População estimada do estado:

In [19]:
# Calculando a coluna 'population' com base na taxa de incidência e remove a coluna 'incident_rate' no DataFrame 'cases'.
cases['population'] = round(100000 * (cases['confirmed'] / cases['incident_rate']))
cases = cases.drop('incident_rate', axis=1)


 - Número, média móvel (7 dias) e estabilidade (14 dias) de casos e mortes por estado:

In [20]:
# Calculando tendências diárias e móveis para casos confirmados e mortes por estado no DataFrame 'cases'.
cases_ = None  # Inicializa um novo DataFrame 'cases_'
cases_is_empty = True  # Flag indicando se o DataFrame 'cases_' está vazio

# Função para determinar a tendência com base na taxa
def get_trend(rate: float) -> str:
  if np.isnan(rate):
    return np.NaN
  if rate < 0.75:
    status = 'downward'
  elif rate > 1.15:
    status = 'upward'
  else:
    status = 'stable'
  return status

# Iterando sobre estados no DataFrame original 'cases'
for state in cases['state'].drop_duplicates():
  cases_per_state = cases.query(f'state == "{state}"').reset_index(drop=True)
  cases_per_state = cases_per_state.sort_values(by=['date'])

  # Calculando métricas relacionadas a casos confirmados
  cases_per_state['confirmed_1d'] = cases_per_state['confirmed'].diff(periods=1)
  cases_per_state['confirmed_moving_avg_7d'] = np.ceil(cases_per_state['confirmed_1d'].rolling(window=7).mean())
  cases_per_state['confirmed_moving_avg_7d_rate_14d'] = cases_per_state['confirmed_moving_avg_7d'] / cases_per_state['confirmed_moving_avg_7d'].shift(periods=14)
  cases_per_state['confirmed_trend'] = cases_per_state['confirmed_moving_avg_7d_rate_14d'].apply(get_trend)

  # Calculando métricas relacionadas a mortes
  cases_per_state['deaths_1d'] = cases_per_state['deaths'].diff(periods=1)
  cases_per_state['deaths_moving_avg_7d'] = np.ceil(cases_per_state['deaths_1d'].rolling(window=7).mean())
  cases_per_state['deaths_moving_avg_7d_rate_14d'] = cases_per_state['deaths_moving_avg_7d'] / cases_per_state['deaths_moving_avg_7d'].shift(periods=14)
  cases_per_state['deaths_trend'] = cases_per_state['deaths_moving_avg_7d_rate_14d'].apply(get_trend)

  # Atualizando o DataFrame consolidado 'cases_'
  if cases_is_empty:
    cases_ = cases_per_state
    cases_is_empty = False
  else:
    cases_ = cases_.append(cases_per_state, ignore_index=True)

# Atualiza o DataFrame original 'cases' com as tendências calculadas
cases = cases_
cases_ = None  # Libera a variável temporária 'cases_'


  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append(cases_per_state, ignore_index=True)
  cases_ = cases_.append

- Garantir o tipo do dado é fundamental para consistência da base de dados. Vamos fazer o *type casting* das colunas.

In [21]:
# Convertendo colunas específicas para o tipo de dados Int64 no DataFrame 'cases'.
cases['population'] = cases['population'].astype('Int64')
cases['confirmed_1d'] = cases['confirmed_1d'].astype('Int64')
cases['confirmed_moving_avg_7d'] = cases['confirmed_moving_avg_7d'].astype('Int64')
cases['deaths_1d'] = cases['deaths_1d'].astype('Int64')
cases['deaths_moving_avg_7d'] = cases['deaths_moving_avg_7d'].astype('Int64')


Rreorganizando as colunas e conferir o resultado final.

In [22]:
cases = cases[['date', 'country', 'state', 'population', 'confirmed', 'confirmed_1d', 'confirmed_moving_avg_7d', 'confirmed_moving_avg_7d_rate_14d', 'confirmed_trend', 'deaths', 'deaths_1d', 'deaths_moving_avg_7d', 'deaths_moving_avg_7d_rate_14d', 'deaths_trend', 'month', 'year']]

In [23]:
cases.head(n=25)

Unnamed: 0,date,country,state,population,confirmed,confirmed_1d,confirmed_moving_avg_7d,confirmed_moving_avg_7d_rate_14d,confirmed_trend,deaths,deaths_1d,deaths_moving_avg_7d,deaths_moving_avg_7d_rate_14d,deaths_trend,month,year
0,2021-01-01,Brazil,Acre,881935,41689,,,,,796,,,,,2021-01,2021
1,2021-01-02,Brazil,Acre,881935,41941,252.0,,,,798,2.0,,,,2021-01,2021
2,2021-01-03,Brazil,Acre,881935,42046,105.0,,,,802,4.0,,,,2021-01,2021
3,2021-01-04,Brazil,Acre,881935,42117,71.0,,,,806,4.0,,,,2021-01,2021
4,2021-01-05,Brazil,Acre,881935,42170,53.0,,,,808,2.0,,,,2021-01,2021
5,2021-01-06,Brazil,Acre,881935,42378,208.0,,,,814,6.0,,,,2021-01,2021
6,2021-01-07,Brazil,Acre,881935,42478,100.0,,,,821,7.0,,,,2021-01,2021
7,2021-01-08,Brazil,Acre,881935,42814,336.0,161.0,,,823,2.0,4.0,,,2021-01,2021
8,2021-01-09,Brazil,Acre,881935,42908,94.0,139.0,,,823,0.0,4.0,,,2021-01,2021
9,2021-01-10,Brazil,Acre,881935,43127,219.0,155.0,,,825,2.0,4.0,,,2021-01,2021


## 5\. Carregamento

Com os dados manipulado e organizado, vamos persisti-lo em disco, fazer o seu download e carrega-lo no Google Data Studio.

In [24]:
cases.to_csv('./covid-cases.csv', sep=',', index=False)

### **5.1. Vacinação**

- Processando os dados de **vacinação** da universidade de Oxford.

#### **5.1.1. Extração**

Os dados estão compilados em um único arquivo, ao contrario do nosso arquivo anterior.

In [25]:
vaccines = pd.read_csv('https://covid.ourworldindata.org/data/owid-covid-data.csv', sep=',', parse_dates=[3], infer_datetime_format=True)

In [26]:
vaccines.head()

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,population,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
0,AFG,Asia,Afghanistan,2020-01-03,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
1,AFG,Asia,Afghanistan,2020-01-04,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
2,AFG,Asia,Afghanistan,2020-01-05,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
3,AFG,Asia,Afghanistan,2020-01-06,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
4,AFG,Asia,Afghanistan,2020-01-07,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,


- Selecionando as colunas de interesse e as linhas referentes ao Brasil.

In [27]:
# Filtrando dados relacionados à vacinação para o Brasil no DataFrame 'vaccines' e seleciona colunas específicas.
vaccines = vaccines.query('location == "Brazil"').reset_index(drop=True)
vaccines = vaccines[['location', 'population', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'total_boosters', 'date']]


In [28]:
vaccines.head()

Unnamed: 0,location,population,total_vaccinations,people_vaccinated,people_fully_vaccinated,total_boosters,date
0,Brazil,215313504.0,,,,,2020-01-03
1,Brazil,215313504.0,,,,,2020-01-04
2,Brazil,215313504.0,,,,,2020-01-05
3,Brazil,215313504.0,,,,,2020-01-06
4,Brazil,215313504.0,,,,,2020-01-07


#### **5.2 Wrangling**

- Manipulando os dados para o dashboard. O foco é em garantir uma boa granularidade e qualidade da base de dados.

In [29]:
vaccines.head()

Unnamed: 0,location,population,total_vaccinations,people_vaccinated,people_fully_vaccinated,total_boosters,date
0,Brazil,215313504.0,,,,,2020-01-03
1,Brazil,215313504.0,,,,,2020-01-04
2,Brazil,215313504.0,,,,,2020-01-05
3,Brazil,215313504.0,,,,,2020-01-06
4,Brazil,215313504.0,,,,,2020-01-07


In [30]:
vaccines.shape

(1447, 7)

In [31]:
vaccines.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1447 entries, 0 to 1446
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   location                 1447 non-null   object        
 1   population               1447 non-null   float64       
 2   total_vaccinations       695 non-null    float64       
 3   people_vaccinated        691 non-null    float64       
 4   people_fully_vaccinated  675 non-null    float64       
 5   total_boosters           455 non-null    float64       
 6   date                     1447 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(5), object(1)
memory usage: 79.3+ KB


- Tratando os dados faltantes, a estratégia será a de preencher os buracos com o valor anterior válido mais próximo.

In [32]:
# Preenchendo valores ausentes no DataFrame 'vaccines' usando a técnica de preenchimento para a frente (forward fill).
vaccines = vaccines.fillna(method='ffill')


- Filtrando a base de dados de acordo com a coluna `date` para garantir que ambas as bases de dados tratam do mesmo período de tempo.

In [33]:
vaccines = vaccines[(vaccines['date'] >= '2021-01-01') & (vaccines['date'] <= '2021-12-31')].reset_index(drop=True)

- Alterando o nome das colunas.

In [34]:
# Renomeado colunas específicas no DataFrame 'vaccines'.
vaccines = vaccines.rename(
  columns={
    'location': 'country',
    'total_vaccinations': 'total',
    'people_vaccinated': 'one_shot',
    'people_fully_vaccinated': 'two_shots',
    'total_boosters': 'three_shots',
  }
)


- Computando novas colunas para enriquecer a base de dados.
     - Chaves temporais:

In [35]:
vaccines['month'] = vaccines['date'].apply(lambda date: date.strftime('%Y-%m'))
vaccines['year']  = vaccines['date'].apply(lambda date: date.strftime('%Y'))

 - Dados relativos:

In [36]:
# Calculando percentuais de pessoas vacinadas com uma, duas e três doses em relação à população no DataFrame 'vaccines'.
vaccines['one_shot_perc'] = round(vaccines['one_shot'] / vaccines['population'], 4)
vaccines['two_shots_perc'] = round(vaccines['two_shots'] / vaccines['population'], 4)
vaccines['three_shots_perc'] = round(vaccines['three_shots'] / vaccines['population'], 4)


- Garantir o tipo do dado é fundamental para consistência da base de dados. Vamos fazer o *type casting* das colunas.

In [37]:
vaccines['population'] = vaccines['population'].astype('Int64')
vaccines['total'] = vaccines['total'].astype('Int64')
vaccines['one_shot'] = vaccines['one_shot'].astype('Int64')
vaccines['two_shots'] = vaccines['two_shots'].astype('Int64')
vaccines['three_shots'] = vaccines['three_shots'].astype('Int64')

Reorganizando as colunas e conferir o resultado final.

In [38]:
vaccines = vaccines[['date', 'country', 'population', 'total', 'one_shot', 'one_shot_perc', 'two_shots', 'two_shots_perc', 'three_shots', 'three_shots_perc', 'month', 'year']]

In [39]:
vaccines.tail()

Unnamed: 0,date,country,population,total,one_shot,one_shot_perc,two_shots,two_shots_perc,three_shots,three_shots_perc,month,year
360,2021-12-27,Brazil,215313504,329011365,165952037,0.7707,142764283,0.6631,25218893,0.1171,2021-12,2021
361,2021-12-28,Brazil,215313504,329861730,166062249,0.7713,142965728,0.664,25758909,0.1196,2021-12,2021
362,2021-12-29,Brazil,215313504,330718457,166143380,0.7716,143282084,0.6655,26219623,0.1218,2021-12,2021
363,2021-12-30,Brazil,215313504,331164041,166185628,0.7718,143398692,0.666,26507937,0.1231,2021-12,2021
364,2021-12-31,Brazil,215313504,331273910,166195505,0.7719,143436012,0.6662,26571077,0.1234,2021-12,2021


#### **5.3. Carregamento**

Com os dados manipulados, vamos persisti-lo em disco, fazer o seu download e carrega-lo no Google Data Studio.

In [40]:
# Salvando o DataFrame 'vaccines' em um arquivo CSV chamado 'covid-vaccines.csv' sem incluir índices.
vaccines.to_csv('./covid-vaccines.csv', sep=',', index=False)


In [47]:
cases.columns

Index(['date', 'country', 'state', 'population', 'confirmed', 'confirmed_1d',
       'confirmed_moving_avg_7d', 'confirmed_moving_avg_7d_rate_14d',
       'confirmed_trend', 'deaths', 'deaths_1d', 'deaths_moving_avg_7d',
       'deaths_moving_avg_7d_rate_14d', 'deaths_trend', 'month', 'year'],
      dtype='object')

In [46]:
vaccines.columns

Index(['date', 'country', 'population', 'total', 'one_shot', 'one_shot_perc',
       'two_shots', 'two_shots_perc', 'three_shots', 'three_shots_perc',
       'month', 'year'],
      dtype='object')