<a href="https://colab.research.google.com/github/wanderrbrito/Codigos/blob/main/Profissao_Analista_de_dados_Projeto2_Modulo28.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

---

# **Tópicos**

<ol type="1">
  <li>Introdução;</li>
  <li>Análise Exploratória de Dados;</li>
  <li>Visualização Interativa de Dados;</li>
  <li>Storytelling.</li>
</ol>


---

# **COVID Dashboard**

https://lookerstudio.google.com/reporting/817fc9e7-a24b-4b23-b7c0-0f4bfdbc78d4

## 1. Contexto



*A Covid-19, doença respiratória causada por uma nova cepa do SARS-Cov2 e declarada como pandemia pela OMS por causa do seu alcançe global e sua rápida disseminação.
Este projeto visa demonstrar a relação entre a quantidade de casos, numero de mortes e sua reducao apos a criação das vacinas.*


##1.1 Objetivo do projeto##

Analise de dados usando Python para extração e manipulação de dados e geraçao de Dashboard usando o Google Looker Studio.
O relatório ira permitir uma visualização personalizada dos dados do número de casos, de mortes e da vacinação  por períodos do ano de 2021 no Brasil e sua distribuição por estado.

#1.2 Fonte dos Dados.#

Os dados utilizadados no projeto formam obtidos das fontes:

1.   Dados dos Casos: Centro de ciência de sistemas e engenharia da universidade americana **John Hopkins** ([link](https://www.jhu.edu)).
2.   Dados da Vacinação: Compilados pelo projeto Nosso Mundo em
     Dados (*Our World in Data* ou OWID) da universidade de **Oxford** ([link](https://www.ox.ac.uk))
3.   Dados da Vacinacao por Estado: **Ministerio da saude** - Vacinometro Covid-19 ([link](https://infoms.saude.gov.br/extensions/SEIDIGI_DEMAS_Vacina_C19/SEIDIGI_DEMAS_Vacina_C19.html))



#1.2.1 Links do Notebook e do Dashboard#

* Notebook (Github([link](https://github.com/wanderrbrito/Codigos/commit/0670f1805cf6e7527458f8b9e8c0a1732733e1c5)

#1.3 Dados#

##1.3.1 Dados dos casos##

Os dados sobre **casos da COVID-19** são compilados pelo centro de ciência de sistemas e engenharia da universidade americana **John Hopkins** com atualizaçãp  diaria deste janeiro de 2020 com uma granularidade temporal de dias e geográfica de regiões de países e iremos tratar apenas dados do Brasil. Abaixo estao desritos os dado apos o processamento


 - **date**: data de referência;
 - **state**: estado;
 - **country**: país;
 - **population**: população estimada;
 - **confirmed**: número acumulado de infectados;
 - **confirmed_1d**: número diário de infectados;
 - **confirmed_moving_avg_7d**: média móvel de 7 dias do número diário de infectados;
 - **confirmed_moving_avg_7d_rate_14d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
 - **deaths**: número acumulado de mortos;
 - **deaths_1d**: número diário de mortos;
 - **deaths_moving_avg_7d**: média móvel de 7 dias do número diário de mortos;
 - **deaths_moving_avg_7d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
 - **month**: mês de referência;
 - **year**: ano de referência.

##1.3.2 Dados da Vacinação##

Os dados sobre **vacinação da COVID-19** são compilados pelo projeto Nosso Mundo em Dados (*Our World in Data* ou OWID) da universidade britânica de **Oxford**. Os dados são atualizados diariamente desde janeiro de 2020 com uma granularidade temporal de dias e geográfica de países. Abaixo estão descritos os dados derivados do seu processamento.

 - **date**: data de referência;
 - **country**: país;
 - **population**: população estimada;
 - **total**: número acumulado de doses administradas;
 - **one_shot**: número acumulado de pessoas com uma dose;
 - **one_shot_perc**: número acumulado relativo de pessoas com uma dose;
 - **two_shots**: número acumulado de pessoas com duas doses;
 - **two_shot_perc**: número acumulado relativo de pessoas com duas doses;
 - **three_shots**: número acumulado de pessoas com três doses;
 - **three_shot_perc**: número acumulado relativo de pessoas com três doses;
 - **month**: mês de referência;
 - **year**: ano de referência.

##1.3.2 Dados da Vacinção por estado##

*Os nomes das colunas serao alterados  para manter o padrão dos outros datasets*
* estado: estado;
* total_aplicado: total das doses aplicadas;
* primeira_dose: quantidade de vacinas aplicadas da primeira dose
* segunda_dose: quantidade de vacinas aplicadas da segunda dose;
* terceira_dose: quantidade de vacinas aplicadas da terceira dose


Os dados sobre a vacinação por estados são compliados pelo Vacinometro Covid-19 do Ministerio da Saúde e com os valores totais por estado e valores das primeira, segunda e terceira doses.

## 2\. Pacotes e bibliotecas

In [1]:
# bibliotecas
import math
from typing import Iterator
from datetime import datetime, timedelta

import numpy as np
import pandas as pd

## 3\. Extração e Manipulação dos dados

##3.1 Dados da Covid##
Os dados estao compilado em um arquivo por dia, exemplo para 2021/12/01.

In [2]:
# extração dos dados do site da Universidas Jhon Hopkins
cases = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/01-12-2021.csv', sep=',')

In [3]:
cases.head()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
0,,,,Afghanistan,2021-01-13 05:22:15,33.93911,67.709953,53584,2301,44608,6675,Afghanistan,137.647787,4.294192
1,,,,Albania,2021-01-13 05:22:15,41.1533,20.1683,64627,1252,38421,24954,Albania,2245.708527,1.937271
2,,,,Algeria,2021-01-13 05:22:15,28.0339,1.6596,102641,2816,69608,30217,Algeria,234.067409,2.743543
3,,,,Andorra,2021-01-13 05:22:15,42.5063,1.5218,8682,86,7930,666,Andorra,11236.653077,0.990555
4,,,,Angola,2021-01-13 05:22:15,-11.2027,17.8739,18343,422,15512,2409,Angola,55.811022,2.300605


In [4]:
cases.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4012 entries, 0 to 4011
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   FIPS                 3265 non-null   float64
 1   Admin2               3270 non-null   object 
 2   Province_State       3834 non-null   object 
 3   Country_Region       4012 non-null   object 
 4   Last_Update          4012 non-null   object 
 5   Lat                  3923 non-null   float64
 6   Long_                3923 non-null   float64
 7   Confirmed            4012 non-null   int64  
 8   Deaths               4012 non-null   int64  
 9   Recovered            4012 non-null   int64  
 10  Active               4012 non-null   int64  
 11  Combined_Key         4012 non-null   object 
 12  Incident_Rate        3923 non-null   float64
 13  Case_Fatality_Ratio  3963 non-null   float64
dtypes: float64(5), int64(4), object(5)
memory usage: 438.9+ KB


In [5]:
# Iterarção dentro de um intervalo de tempo definido para extrair os dados de interesse.
def date_range(start_date: datetime, end_date: datetime) -> Iterator[datetime]:
  date_range_days: int = (end_date - start_date).days
  for lag in range(date_range_days):
    yield start_date + timedelta(lag)

start_date = datetime(2021,  1,  1)
end_date   = datetime(2021, 12, 31)

In [6]:
# Selecionando os dados referentes ao Brasil.
cases_list = []  # Use a list to store DataFrames

for date in date_range(start_date=start_date, end_date=end_date):

    date_str = date.strftime('%m-%d-%Y')
    data_source_url = f'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/{date_str}.csv'

    case = pd.read_csv(data_source_url, sep=',')

    case = case.drop(['FIPS', 'Admin2', 'Last_Update', 'Lat', 'Long_', 'Recovered', 'Active', 'Combined_Key', 'Case_Fatality_Ratio'], axis=1)
    case = case.query('Country_Region == "Brazil"').reset_index(drop=True)
    case['Date'] = pd.to_datetime(date.strftime('%Y-%m-%d'))

    cases_list.append(case)

cases = pd.concat(cases_list, ignore_index=True)

In [7]:
cases.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9828 entries, 0 to 9827
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Province_State  9828 non-null   object        
 1   Country_Region  9828 non-null   object        
 2   Confirmed       9828 non-null   int64         
 3   Deaths          9828 non-null   int64         
 4   Incident_Rate   9828 non-null   float64       
 5   Date            9828 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 460.8+ KB


In [8]:
cases.query('Province_State == "Bahia"').head()
#casos.query('estado == "Bahia"').head()

Unnamed: 0,Province_State,Country_Region,Confirmed,Deaths,Incident_Rate,Date
4,Bahia,Brazil,494684,9159,3326.039611,2021-01-01
31,Bahia,Brazil,495286,9187,3330.087197,2021-01-02
58,Bahia,Brazil,496008,9218,3334.94161,2021-01-03
85,Bahia,Brazil,496823,9246,3340.421315,2021-01-04
112,Bahia,Brazil,499900,9276,3361.109722,2021-01-05


In [9]:
# Alterando o nome das colunas.
cases = cases.rename(
  columns={
    'Province_State': 'state',
    'Country_Region': 'country'
  }
)

for col in cases.columns:
  cases = cases.rename(columns={col: col.lower()})

In [11]:
cases.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9828 entries, 0 to 9827
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   state          9828 non-null   object        
 1   country        9828 non-null   object        
 2   confirmed      9828 non-null   int64         
 3   deaths         9828 non-null   int64         
 4   incident_rate  9828 non-null   float64       
 5   date           9828 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 460.8+ KB


In [12]:
display(cases)

Unnamed: 0,state,country,confirmed,deaths,incident_rate,date
0,Acre,Brazil,41689,796,4726.992352,2021-01-01
1,Alagoas,Brazil,105091,2496,3148.928928,2021-01-01
2,Amapa,Brazil,68361,926,8083.066602,2021-01-01
3,Amazonas,Brazil,201574,5295,4863.536793,2021-01-01
4,Bahia,Brazil,494684,9159,3326.039611,2021-01-01
...,...,...,...,...,...,...
9823,Roraima,Brazil,128793,2078,21261.355551,2021-12-30
9824,Santa Catarina,Brazil,1242654,20183,17343.904663,2021-12-30
9825,Sao Paulo,Brazil,4455011,155186,9701.879932,2021-12-30
9826,Sergipe,Brazil,278507,6057,12115.869171,2021-12-30


In [14]:
# Ajustando o nome dos estados.
states_map = {
    'Amapa': 'Amapá',
    'Ceara': 'Ceará',
    'Espirito Santo': 'Espírito Santo',
    'Goias': 'Goiás',
    'Para': 'Pará',
    'Paraiba': 'Paraíba',
    'Parana': 'Paraná',
    'Piaui': 'Piauí',
    'Maranhao': 'Maranhão',
    'Rondonia': 'Rondônia',
    'Sao Paulo': 'São Paulo'
}

cases['state'] = cases['state'].apply(lambda state: states_map.get(state) if state in states_map.keys() else state)

In [16]:
display(cases)

Unnamed: 0,state,country,confirmed,deaths,incident_rate,date
0,Acre,Brazil,41689,796,4726.992352,2021-01-01
1,Alagoas,Brazil,105091,2496,3148.928928,2021-01-01
2,Amapá,Brazil,68361,926,8083.066602,2021-01-01
3,Amazonas,Brazil,201574,5295,4863.536793,2021-01-01
4,Bahia,Brazil,494684,9159,3326.039611,2021-01-01
...,...,...,...,...,...,...
9823,Roraima,Brazil,128793,2078,21261.355551,2021-12-30
9824,Santa Catarina,Brazil,1242654,20183,17343.904663,2021-12-30
9825,São Paulo,Brazil,4455011,155186,9701.879932,2021-12-30
9826,Sergipe,Brazil,278507,6057,12115.869171,2021-12-30


In [17]:
# Criar novas colunas  "mes" e "ano" para enriquecer a base de dados.
cases['month'] = cases['date'].apply(lambda date: date.strftime('%Y-%m'))
cases['year']  = cases['date'].apply(lambda date: date.strftime('%Y'))

In [18]:
cases.head()

Unnamed: 0,state,country,confirmed,deaths,incident_rate,date,month,year
0,Acre,Brazil,41689,796,4726.992352,2021-01-01,2021-01,2021
1,Alagoas,Brazil,105091,2496,3148.928928,2021-01-01,2021-01,2021
2,Amapá,Brazil,68361,926,8083.066602,2021-01-01,2021-01,2021
3,Amazonas,Brazil,201574,5295,4863.536793,2021-01-01,2021-01,2021
4,Bahia,Brazil,494684,9159,3326.039611,2021-01-01,2021-01,2021


In [19]:
 # População estimada do estado:
cases['population'] = round(100000 * (cases['confirmed'] / cases['incident_rate']))
cases = cases.drop('incident_rate', axis=1)

In [20]:
#Calculando o Número, a média móvel (7 dias) e estabilidade (14 dias) de casos e mortes por estado:
cases_ = None
cases_is_empty = True

def get_trend(rate: float) -> str:

  if np.isnan(rate):
    return np.NaN

  if rate < 0.85:
    status = 'downward'
  elif rate > 1.15:
    status = 'upward'
  else:
    status = 'stable'

  return status


for state in cases['state'].drop_duplicates():

  cases_per_state = cases.query(f'state == "{state}"').reset_index(drop=True)
  cases_per_state = cases_per_state.sort_values(by=['date'])

  cases_per_state['confirmed_1d'] = cases_per_state['confirmed'].diff(periods=1)
  cases_per_state['confirmed_moving_avg_7d'] = np.ceil(cases_per_state['confirmed_1d'].rolling(window=7).mean())
  cases_per_state['confirmed_moving_avg_7d_rate_14d'] = cases_per_state['confirmed_moving_avg_7d']/cases_per_state['confirmed_moving_avg_7d'].shift(periods=14)
  cases_per_state['confirmed_trend'] = cases_per_state['confirmed_moving_avg_7d_rate_14d'].apply(get_trend)

  cases_per_state['deaths_1d'] = cases_per_state['deaths'].diff(periods=1)
  cases_per_state['deaths_moving_avg_7d'] = np.ceil(cases_per_state['deaths_1d'].rolling(window=7).mean())
  cases_per_state['deaths_moving_avg_7d_rate_14d'] = cases_per_state['deaths_moving_avg_7d']/cases_per_state['deaths_moving_avg_7d'].shift(periods=14)
  cases_per_state['deaths_trend'] = cases_per_state['deaths_moving_avg_7d_rate_14d'].apply(get_trend)

  if cases_is_empty:
    cases_ = cases_per_state
    cases_is_empty = False
  # else:
  #   cases_ = cases_.append(cases_per_state, ignore_index=True)

cases = cases_
cases_ = None

In [22]:
display(cases)

  sqr = _ensure_numeric((avg - values) ** 2)


Unnamed: 0,state,country,confirmed,deaths,date,month,year,population,confirmed_1d,confirmed_moving_avg_7d,confirmed_moving_avg_7d_rate_14d,confirmed_trend,deaths_1d,deaths_moving_avg_7d,deaths_moving_avg_7d_rate_14d,deaths_trend
0,Acre,Brazil,41689,796,2021-01-01,2021-01,2021,881935.0,,,,,,,,
1,Acre,Brazil,41941,798,2021-01-02,2021-01,2021,881935.0,252.0,,,,2.0,,,
2,Acre,Brazil,42046,802,2021-01-03,2021-01,2021,881935.0,105.0,,,,4.0,,,
3,Acre,Brazil,42117,806,2021-01-04,2021-01,2021,881935.0,71.0,,,,4.0,,,
4,Acre,Brazil,42170,808,2021-01-05,2021-01,2021,881935.0,53.0,,,,2.0,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
359,Acre,Brazil,88378,1850,2021-12-26,2021-12,2021,881935.0,5.0,7.0,0.875000,stable,0.0,0.0,,
360,Acre,Brazil,88379,1850,2021-12-27,2021-12,2021,881935.0,1.0,7.0,1.000000,stable,0.0,0.0,,
361,Acre,Brazil,88379,1850,2021-12-28,2021-12,2021,881935.0,0.0,6.0,0.857143,stable,0.0,0.0,,
362,Acre,Brazil,88379,1851,2021-12-29,2021-12,2021,881935.0,0.0,5.0,0.714286,downward,1.0,1.0,1.0,stable


In [23]:
# Fazendo o "type Casting" das colunas
cases['population'] = cases['population'].astype('Int64')
cases['confirmed_1d'] = cases['confirmed_1d'].astype('Int64')
cases['confirmed_moving_avg_7d'] = cases['confirmed_moving_avg_7d'].astype('Int64')
cases['deaths_1d'] = cases['deaths_1d'].astype('Int64')
cases['deaths_moving_avg_7d'] = cases['deaths_moving_avg_7d'].astype('Int64')

In [24]:
# Organizando as colunas
cases = cases[['date', 'country', 'state', 'population', 'confirmed', 'confirmed_1d', 'confirmed_moving_avg_7d', 'confirmed_moving_avg_7d_rate_14d', 'confirmed_trend', 'deaths', 'deaths_1d', 'deaths_moving_avg_7d', 'deaths_moving_avg_7d_rate_14d', 'deaths_trend', 'month', 'year']]

In [25]:
cases.drop_duplicates('state')

Unnamed: 0,date,country,state,population,confirmed,confirmed_1d,confirmed_moving_avg_7d,confirmed_moving_avg_7d_rate_14d,confirmed_trend,deaths,deaths_1d,deaths_moving_avg_7d,deaths_moving_avg_7d_rate_14d,deaths_trend,month,year
0,2021-01-01,Brazil,Acre,881935,41689,,,,,796,,,,,2021-01,2021


##3.1.2 Carregamento
Salvando os dados no arquivo casos.csv para carregar no Looker Studio

In [26]:
cases.to_csv('./covid-cases.csv', sep=',', index=False)

##3.2 Dados das Vacinas##
Os dados estao complidados em um unico arquivo

In [27]:
vaccines = pd.read_csv('https://covid.ourworldindata.org/data/owid-covid-data.csv', sep=',', parse_dates=[3], infer_datetime_format=True)

  vaccines = pd.read_csv('https://covid.ourworldindata.org/data/owid-covid-data.csv', sep=',', parse_dates=[3], infer_datetime_format=True)


In [28]:
vaccines = vaccines.query('location == "Brazil"').reset_index(drop=True)
vaccines = vaccines[['location', 'population', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'total_boosters', 'date']]

In [30]:
vaccines.head()

Unnamed: 0,location,population,total_vaccinations,people_vaccinated,people_fully_vaccinated,total_boosters,date
0,Brazil,215313504,,,,,2020-01-05
1,Brazil,215313504,,,,,2020-01-06
2,Brazil,215313504,,,,,2020-01-07
3,Brazil,215313504,,,,,2020-01-08
4,Brazil,215313504,,,,,2020-01-09


In [31]:
vaccines.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1674 entries, 0 to 1673
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   location                 1674 non-null   object        
 1   population               1674 non-null   int64         
 2   total_vaccinations       695 non-null    float64       
 3   people_vaccinated        691 non-null    float64       
 4   people_fully_vaccinated  675 non-null    float64       
 5   total_boosters           455 non-null    float64       
 6   date                     1674 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(4), int64(1), object(1)
memory usage: 91.7+ KB


In [32]:
# Tratando dados faltantes, preenchendo os buracos com o valor anterior válido mais próximo
vaccines = vaccines.fillna(method='ffill')

  vaccines = vaccines.fillna(method='ffill')


In [33]:
# Filtrar a base de dados com a coluna `data` para garantir que as bases irao tratam do mesmo período de tempo.
vaccines = vaccines[(vaccines['date'] >= '2021-01-01') & (vaccines['date'] <= '2021-12-31')].reset_index(drop=True)

In [34]:
# Alterando o nome das colunas.
vaccines = vaccines.rename(
  columns={
    'location': 'country',
    'total_vaccinations': 'total',
    'people_vaccinated': 'one_shot',
    'people_fully_vaccinated': 'two_shots',
    'total_boosters': 'three_shots',
  }
)

In [35]:
vaccines.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   country      365 non-null    object        
 1   population   365 non-null    int64         
 2   total        349 non-null    float64       
 3   one_shot     349 non-null    float64       
 4   two_shots    330 non-null    float64       
 5   three_shots  121 non-null    float64       
 6   date         365 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(4), int64(1), object(1)
memory usage: 20.1+ KB


In [36]:
# Chaves temporais
vaccines['month'] = vaccines['date'].apply(lambda date: date.strftime('%Y-%m'))
vaccines['year']  = vaccines['date'].apply(lambda date: date.strftime('%Y'))

In [37]:
# Dados relativos
vaccines['one_shot_perc'] = round(vaccines['one_shot'] / vaccines['population'], 4)
vaccines['two_shots_perc'] = round(vaccines['two_shots'] / vaccines['population'], 4)
vaccines['three_shots_perc'] = round(vaccines['three_shots'] / vaccines['population'], 4)

Garantir o tipo do dado é fundamental para consistência da base de dados. Vamos fazer o *type casting* das colunas.

In [38]:
# Fazendo o "type casting" das colunas.
vaccines['population'] = vaccines['population'].astype('Int64')
vaccines['total'] = vaccines['total'].astype('Int64')
vaccines['one_shot'] = vaccines['one_shot'].astype('Int64')
vaccines['two_shots'] = vaccines['two_shots'].astype('Int64')
vaccines['three_shots'] = vaccines['three_shots'].astype('Int64')

In [40]:
vaccines.head()

Unnamed: 0,country,population,total,one_shot,two_shots,three_shots,date,month,year,one_shot_perc,two_shots_perc,three_shots_perc
0,Brazil,215313504,,,,,2021-01-01,2021-01,2021,,,
1,Brazil,215313504,,,,,2021-01-02,2021-01,2021,,,
2,Brazil,215313504,,,,,2021-01-03,2021-01,2021,,,
3,Brazil,215313504,,,,,2021-01-04,2021-01,2021,,,
4,Brazil,215313504,,,,,2021-01-05,2021-01,2021,,,


In [41]:
# Reorganizando as colunas.
vaccines = vaccines[['date', 'country', 'population', 'total', 'one_shot', 'one_shot_perc', 'two_shots', 'two_shots_perc', 'three_shots', 'three_shots_perc', 'month', 'year']]

In [42]:
display(vaccines)

Unnamed: 0,date,country,population,total,one_shot,one_shot_perc,two_shots,two_shots_perc,three_shots,three_shots_perc,month,year
0,2021-01-01,Brazil,215313504,,,,,,,,2021-01,2021
1,2021-01-02,Brazil,215313504,,,,,,,,2021-01,2021
2,2021-01-03,Brazil,215313504,,,,,,,,2021-01,2021
3,2021-01-04,Brazil,215313504,,,,,,,,2021-01,2021
4,2021-01-05,Brazil,215313504,,,,,,,,2021-01,2021
...,...,...,...,...,...,...,...,...,...,...,...,...
360,2021-12-27,Brazil,215313504,329011365,165952037,0.7707,142764283,0.6631,25218893,0.1171,2021-12,2021
361,2021-12-28,Brazil,215313504,329861730,166062249,0.7713,142965728,0.6640,25758909,0.1196,2021-12,2021
362,2021-12-29,Brazil,215313504,330718457,166143380,0.7716,143282084,0.6655,26219623,0.1218,2021-12,2021
363,2021-12-30,Brazil,215313504,331164041,166185628,0.7718,143398692,0.6660,26507937,0.1231,2021-12,2021


##3.2.1 Carregamento
Salvando os dados no arquivo vacinas.csv para carregar no Looker Studio

In [55]:
vaccines.to_csv('./covid-vaccines.csv', sep=',', index=False)

###Acrescentando vacinacao por estados###

In [56]:
vacinas_estado = pd.read_csv('/content/vacinas_estado.csv')

In [57]:
vacinas_estado.head(27)

Unnamed: 0,estado,total_aplicado,primeira_dose,segunda_dose,terceira_dose
0,AC,1062798,587681,475117,0
1,AL,4203879,2307993,1895885,1
2,AM,5072827,2749686,2220863,102278
3,AP,922014,518788,403221,5
4,BA,20389997,11073812,9316035,150
5,CE,13091020,7123711,5967284,25
6,DF,4365164,2295500,2069658,6
7,ES,5775152,3107823,2667302,27
8,GO,9825242,5331143,4494098,1
9,MA,8155668,4506497,3649169,2


In [58]:
vacinas_estado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   estado          27 non-null     object
 1   total_aplicado  27 non-null     int64 
 2   primeira_dose   27 non-null     int64 
 3   segunda_dose    27 non-null     int64 
 4   terceira_dose   27 non-null     int64 
dtypes: int64(4), object(1)
memory usage: 1.2+ KB


In [59]:
# Alterando os momes das colunas para o mesmo padrão dos demais datasets
vacinas_estado = vacinas_estado.rename(
  columns={
    'estado': 'state',
    'total_aplicado': 'total_v',
    'primeira_dose': 'people_vaccinated',
    'segunda_dose': 'people_fully_vaccinated',
    'terceira_dose': 'total_boosters',
    }
)

for col in vacinas_estado.columns:
  vacinas_estado = vacinas_estado.rename(columns={col: col.lower()})

In [60]:
# Ajustando o nome dos estados de Sigla para Estado
states_map = {
    'AC': 'Acre',
    'AL': 'Alagoas',
    'AP': 'Amapá',
    'AM': 'Amazonas',
    'BA': 'Bahia',
    'CE': 'Ceará',
    'DF': 'Distrito Federal',
    'ES': 'Espírito Santo',
    'GO': 'Goiás',
    'MA': 'Maranhão',
    'MT': 'Mato Grosso',
    'MS': 'Mato Grosso do Sul',
    'MG': 'Minas Gerais',
    'PA': 'Pará',
    'PB': 'Paraíba',
    'PR': 'Paraná',
    'PE': 'Pernambuco',
    'PI': 'Piauí',
    'RJ': 'Rio de Janeiro',
    'RN': 'Rio Grande do Norte',
    'RS': 'Rio Grande do Sul',
    'RO': 'Rondônia',
    'RR': 'Roraima',
    'SC': 'Santa Catarina',
    'SP': 'São Paulo',
    'SE': 'Sergipe',
    'TO': 'Tocantins',
}

vacinas_estado['state'] = vacinas_estado['state'].apply(lambda state: states_map.get(state) if state in states_map.keys() else state)

In [61]:
vacinas_estado.head(27)

Unnamed: 0,state,total_v,people_vaccinated,people_fully_vaccinated,total_boosters
0,Acre,1062798,587681,475117,0
1,Alagoas,4203879,2307993,1895885,1
2,Amazonas,5072827,2749686,2220863,102278
3,Amapá,922014,518788,403221,5
4,Bahia,20389997,11073812,9316035,150
5,Ceará,13091020,7123711,5967284,25
6,Distrito Federal,4365164,2295500,2069658,6
7,Espírito Santo,5775152,3107823,2667302,27
8,Goiás,9825242,5331143,4494098,1
9,Maranhão,8155668,4506497,3649169,2


Salvando os dados no arquivo vacinas_estado.csv para carregar no Looker Studio

In [63]:
vacinas_estado.to_csv('./vacinas_estados.csv', sep=',', index=False)