<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: COVID-19 Dashboard
Caderno de **Exercícios**<br>

Aluno [João Chiavegatto](https://www.linkedin.com/in/jo%C3%A3o-paulo-chiavegatto-456a36125/)

Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução;</li>
  <li>Análise Exploratória de Dados;</li>
  <li>Visualização Interativa de Dados;</li>
  <li>Storytelling.</li>
</ol>


---

# **COVID Dashboard**

## 1\. Contexto

Este é um notebook de preparação de dados para criação de dashboard no *Google Data Studio* para o curso de Análise de Dados da Ebac, elaborado em maio de 2024.

 - **Dashboard**: Google Data Studio ([link](https://lookerstudio.google.com/reporting/5357324d-4a18-4be7-ab4a-ff021eba20bd/page/gvfsD)).
 - **Processamento**: Kaggle Notebook (`link`).
 - **Fontes**:
  - Casos pela universidade John Hopkins ([link](https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports));
  - Vacinação pela universidade de Oxford ([link](https://covid.ourworldindata.org/data/owid-covid-data.csv)).

### **1.2. Pandemia Coronavírus 2019**

> A COVID-19 é uma infecção respiratória aguda causada pelo coronavírus SARS-CoV-2, potencialmente grave, de elevada transmissibilidade e de distribuição global. Fonte: Governo brasileiro ([link](https://www.gov.br/saude/pt-br/coronavirus/o-que-e-o-coronavirus)).

A disponibilidade de dados sobre a evolução da pandemia no tempo em uma determinada região geográfica é fundamental para o seu combate! Este projeto busca construir um dashboard de dados para exploração e visualização interativa de dados sobre o avanço de casos e da vacinação do Brasil.

### **1.3. Dados**

Os dados sobre **casos da COVID-19** são compilados pelo centro de ciência de sistemas e engenharia da universidade americana **John Hopkins** ([link](https://www.jhu.edu)). Os dados são atualizados diariamente deste janeiro de 2020 com uma granularidade temporal de dias e geográfica de regiões de países (estados, condados, etc.). O website do projeto pode ser acessado neste [link](https://systems.jhu.edu/research/public-health/ncov/) enquanto os dados, neste [link](https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports). Abaixo estão descritos os dados derivados do seu processamento.

 - **date**: data de referência;
 - **state**: estado;
 - **country**: país;
 - **population**: população estimada;
 - **confirmed**: número acumulado de infectados;
 - **confirmed_1d**: número diário de infectados;
 - **confirmed_moving_avg_7d**: média móvel de 7 dias do número diário de infectados;
 - **confirmed_moving_avg_7d_rate_14d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
 - **deaths**: número acumulado de mortos;
 - **deaths_1d**: número diário de mortos;
 - **deaths_moving_avg_7d**: média móvel de 7 dias do número diário de mortos;
 - **deaths_moving_avg_7d**: média móvel de 7 dias dividido pela média móvel de 7 dias de 14 dias atrás;
 - **month**: mês de referência;
 - **year**: ano de referência.

Os dados sobre **vacinação da COVID-19** são compilados pelo projeto Nosso Mundo em Dados (*Our World in Data* ou OWID) da universidade britânica de **Oxford** ([link](https://www.ox.ac.uk)). Os dados são **atualizados diariamente** deste janeiro de 2020 com uma **granularidade temporal de dias e geográfica de países**. O website do projeto pode ser acessado neste [link](https://ourworldindata.org) enquanto os dados, neste [link](https://covid.ourworldindata.org/data/owid-covid-data.csv). Abaixo estão descritos os dados derivados do seu processamento.

 - **date**: data de referência;
 - **country**: país;
 - **population**: população estimada;
 - **total**: número acumulado de doses administradas;
 - **one_shot**: número acumulado de pessoas com uma dose;
 - **one_shot_perc**: número acumulado relativo de pessoas com uma dose;
 - **two_shots**: número acumulado de pessoas com duas doses;
 - **two_shot_perc**: número acumulado relativo de pessoas com duas doses;
 - **three_shots**: número acumulado de pessoas com três doses;
 - **three_shot_perc**: número acumulado relativo de pessoas com três doses;
 - **month**: mês de referência;
 - **year**: ano de referência.

---

## 2\. Pacotes e bibliotecas

In [1]:
# Importa os módulos nativos do Python para manipulação de datas e horas.
from datetime import datetime, timedelta

# Importa a biblioteca math para funções e constantes matemáticas.
import math

# Importa a classe Iterator do módulo typing para fornecer tipos especializados.
from typing import Iterator

# Importa a biblioteca numpy (np) para funções matemáticas e arrays multidimensionais.
import numpy as np

# Importa a biblioteca pandas (pd) para manipulação e visualização de dados tabulares.
import pandas as pd

---

## 3\. Casos

### **3.2. Extração dos dados de Casos**

Vamos extrair os dados de **casos** da universidade John Hopkins.





- Os dados estão organizados em um arquivo por dia, como no exemplo abaixo para o dia 2021-12-01:

In [2]:
cases = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/01-12-2021.csv', sep=',')

In [3]:
cases.head()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
0,,,,Afghanistan,2021-01-13 05:22:15,33.93911,67.709953,53584,2301,44608,6675,Afghanistan,137.647787,4.294192
1,,,,Albania,2021-01-13 05:22:15,41.1533,20.1683,64627,1252,38421,24954,Albania,2245.708527,1.937271
2,,,,Algeria,2021-01-13 05:22:15,28.0339,1.6596,102641,2816,69608,30217,Algeria,234.067409,2.743543
3,,,,Andorra,2021-01-13 05:22:15,42.5063,1.5218,8682,86,7930,666,Andorra,11236.653077,0.990555
4,,,,Angola,2021-01-13 05:22:15,-11.2027,17.8739,18343,422,15512,2409,Angola,55.811022,2.300605


In [4]:
cases.tail()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
4007,,,Unknown,Ukraine,2021-01-13 05:22:15,,,0,0,0,0,"Unknown, Ukraine",0.0,0.0
4008,,,,Nauru,2021-01-13 05:22:15,-0.5228,166.9315,0,0,0,0,Nauru,0.0,0.0
4009,,,Niue,New Zealand,2021-01-13 05:22:15,-19.0544,-169.8672,0,0,0,0,"Niue, New Zealand",0.0,0.0
4010,,,,Tuvalu,2021-01-13 05:22:15,-7.1095,177.6493,0,0,0,0,Tuvalu,0.0,0.0
4011,,,Pitcairn Islands,United Kingdom,2021-01-13 05:22:15,-24.3768,-128.3242,0,0,0,0,"Pitcairn Islands, United Kingdom",0.0,0.0


- Portanto, para nosso objetivo de análise, vamos iterar dentro de um intervalo de tempo definido para extraí-los:

In [5]:
#Define função date_range que recebe como entrada duas datas e retorna um iterador de datas;
def date_range(start_date: datetime, end_date: datetime) -> Iterator[datetime]:
#Calcula o número de datas entre a data de início (start_date) e de fim (end_date);
  date_range_days: int = (end_date - start_date).days
#Itera sobre um intervalo de dias entre as datas de início e de fim;
  for lag in range(date_range_days):
#Produz uma data na sequência de datas, começando pela data de início e avançando para cada dia subsequente.
    yield start_date + timedelta(lag)

In [6]:
#Define como data de início 01 de janeiro de 2021
start_date = datetime(2021,  1,  1)
#Define como data de fim 31 de dezembro de 2021
end_date   = datetime(2021, 12, 31)

- De maneira iterativa, vamos selecionar as colunas de interesse e as linhas referentes ao Brasil:

In [7]:
# Inicializa a variável 'cases' como None, que será usada para armazenar os dados de casos de COVID-19;
cases = None

# Inicializa a variável 'cases_is_empty' como True para controlar se 'cases' está vazio;
cases_is_empty = True

# Itera sobre todas as datas no intervalo de datas especificado;
for date in date_range(start_date=start_date, end_date=end_date):

  # Converte a data para uma string no formato 'mm-dd-yyyy';
  date_str = date.strftime('%m-%d-%Y')

  # Constrói a URL para obter os dados do COVID-19 para a data especificada;
  data_source_url = f'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/{date_str}.csv'

  # Lê os dados do CSV usando a URL construída;
  case = pd.read_csv(data_source_url, sep=',')

  # Remove colunas desnecessárias dos dados e filtra apenas os dados para o Brasil;
  case = case.drop(['FIPS', 'Admin2', 'Last_Update', 'Lat', 'Long_', 'Recovered', 'Active', 'Combined_Key', 'Case_Fatality_Ratio'], axis=1)
  case = case.query('Country_Region == "Brazil"').reset_index(drop=True)

  # Adiciona uma coluna 'Date' com a data da iteração atual.
  case['Date'] = pd.to_datetime(date.strftime('%Y-%m-%d'))

# Verifica se 'cases' está vazio;
  if cases_is_empty:
# Se 'cases' estiver vazio, atribui os dados da iteração atual a 'cases';
    cases = case
# Altera 'cases_is_empty' para False, indicando que 'cases' não está mais vazio.
    cases_is_empty = False
# Se 'cases' não estiver vazio, anexa os dados da iteração atual a 'cases'.
  else:
    cases = pd.concat([cases, case], ignore_index=True)

### **3.3. Wrangling dos dados de Casos**

Vamos manipular os dados de casos para o dashboard. O foco é em garantir uma boa granularidade e qualidade da base de dados.

In [9]:
cases.shape

(9828, 6)

In [10]:
cases.head()

Unnamed: 0,Province_State,Country_Region,Confirmed,Deaths,Incident_Rate,Date
0,Acre,Brazil,41689,796,4726.992352,2021-01-01
1,Alagoas,Brazil,105091,2496,3148.928928,2021-01-01
2,Amapa,Brazil,68361,926,8083.066602,2021-01-01
3,Amazonas,Brazil,201574,5295,4863.536793,2021-01-01
4,Bahia,Brazil,494684,9159,3326.039611,2021-01-01


In [11]:
cases.tail()

Unnamed: 0,Province_State,Country_Region,Confirmed,Deaths,Incident_Rate,Date
9823,Roraima,Brazil,128793,2078,21261.355551,2021-12-30
9824,Santa Catarina,Brazil,1242654,20183,17343.904663,2021-12-30
9825,Sao Paulo,Brazil,4455011,155186,9701.879932,2021-12-30
9826,Sergipe,Brazil,278507,6057,12115.869171,2021-12-30
9827,Tocantins,Brazil,235558,3939,14976.355265,2021-12-30


In [12]:
cases.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9828 entries, 0 to 9827
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Province_State  9828 non-null   object        
 1   Country_Region  9828 non-null   object        
 2   Confirmed       9828 non-null   int64         
 3   Deaths          9828 non-null   int64         
 4   Incident_Rate   9828 non-null   float64       
 5   Date            9828 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 460.8+ KB


In [None]:
cases[['Province_State', 'Country_Region']].describe()

In [None]:
cases[['Confirmed', 'Deaths', 'Incident_Rate']].describe()

In [None]:
cases['Date'].describe()

- Começamos alterando os nomes das colunas para que representem melhor os dados que contém:

In [17]:
# Renomeia as colunas do DataFrame 'cases' de acordo com o mapeamento fornecido.
cases = cases.rename(
  columns={
    'Province_State': 'state',
    'Country_Region': 'country'
  }
)

- Para padronização e facilitar leitura, vamos deixar todos os nomes de colunas em caixa baixa:

In [18]:
# Itera sobre todas as colunas do DataFrame 'cases';
for col in cases.columns:
  # Renomeia cada coluna para seu equivalente em letras minúsculas.
  cases = cases.rename(columns={col: col.lower()})

- Agora, vamos renomear os estados na coluna states para facilitar sua identificação pelo Google Data Studio:

In [19]:
# Define um dicionário 'states_map' que mapeia nomes de estados para seus nomes corretos.
states_map = {
    'Amapa': 'Amapá',
    'Ceara': 'Ceará',
    'Espirito Santo': 'Espírito Santo',
    'Goias': 'Goiás',
    'Para': 'Pará',
    'Paraiba': 'Paraíba',
    'Parana': 'Paraná',
    'Piaui': 'Piauí',
    'Rondonia': 'Rondônia',
    'Sao Paulo': 'São Paulo'
}

# Aplica uma função lambda à coluna 'state' do DataFrame 'cases'.
# A função lambda verifica se o estado está no dicionário 'states_map'.
# Se estiver, retorna o nome correto do estado usando 'states_map.get(state)'.
# Caso contrário, retorna o próprio estado sem alterações.
cases['state'] = cases['state'].apply(lambda state: states_map.get(state) if state in states_map.keys() else state)

- Finalmente, vamos computar novas colunas para enriquecer a base de dados.



1. Chaves temporais nas colunas year e month



In [20]:
cases['month'] = cases['date'].apply(lambda date: date.strftime('%Y-%m'))
cases['year']  = cases['date'].apply(lambda date: date.strftime('%Y'))

2. População estimada dos estados na coluna population, com base nos dados das colunas confirmed e incident_rate

In [21]:
# A fórmula utilizada é (confirmados / taxa de incidência) * 100.000, para expressar a população em termos de 100.000 habitantes.
cases['population'] = round(100000 * (cases['confirmed'] / cases['incident_rate']))

# Remove a coluna 'incident_rate' do DataFrame 'cases' pois não será mais necessária após o cálculo da população.
cases = cases.drop('incident_rate', axis=1)

3. Número diário, média móvel e estabilidade

In [22]:
# Inicializa a variável 'cases_' como None, que será usada para armazenar os dados agregados dos estados.
cases_ = None
# Inicializa a variável 'cases_is_empty' como True para controlar se 'cases_' está vazio.
cases_is_empty = True

# Define uma função chamada 'get_trend' que recebe uma taxa como entrada e retorna a tendência com base nessa taxa.
def get_trend(rate: float) -> str:

  # Verifica se a taxa é um valor NaN (não é um número).
  if np.isnan(rate):
    return np.NaN

  # Define a tendência com base na taxa.
  if rate < 0.75:
    status = 'downward'  # Tendência decrescente
  elif rate > 1.15:
    status = 'upward'    # Tendência crescente
  else:
    status = 'stable'    # Tendência estável

  return status

# Itera sobre cada estado presente na coluna 'state' do DataFrame 'cases' sem duplicatas.
for state in cases['state'].drop_duplicates():

  # Seleciona apenas as linhas correspondentes ao estado atual.
  cases_per_state = cases.query(f'state == "{state}"').reset_index(drop=True)
  # Ordena as entradas por data.
  cases_per_state = cases_per_state.sort_values(by=['date'])

  # Calcula o número de casos confirmados diários.
  cases_per_state['confirmed_1d'] = cases_per_state['confirmed'].diff(periods=1)
  # Calcula a média móvel de 7 dias dos casos confirmados.
  cases_per_state['confirmed_moving_avg_7d'] = np.ceil(cases_per_state['confirmed_1d'].rolling(window=7).mean())
  # Calcula a taxa de variação da média móvel de 7 dias em relação aos últimos 14 dias.
  cases_per_state['confirmed_moving_avg_7d_rate_14d'] = cases_per_state['confirmed_moving_avg_7d']/cases_per_state['confirmed_moving_avg_7d'].shift(periods=14)
  # Aplica a função 'get_trend' para determinar a tendência dos casos confirmados.
  cases_per_state['confirmed_trend'] = cases_per_state['confirmed_moving_avg_7d_rate_14d'].apply(get_trend)

  # Calcula o número de mortes diárias.
  cases_per_state['deaths_1d'] = cases_per_state['deaths'].diff(periods=1)
  # Calcula a média móvel de 7 dias das mortes.
  cases_per_state['deaths_moving_avg_7d'] = np.ceil(cases_per_state['deaths_1d'].rolling(window=7).mean())
  # Calcula a taxa de variação da média móvel de 7 dias das mortes em relação aos últimos 14 dias.
  cases_per_state['deaths_moving_avg_7d_rate_14d'] = cases_per_state['deaths_moving_avg_7d']/cases_per_state['deaths_moving_avg_7d'].shift(periods=14)
  # Aplica a função 'get_trend' para determinar a tendência das mortes.
  cases_per_state['deaths_trend'] = cases_per_state['deaths_moving_avg_7d_rate_14d'].apply(get_trend)

  # Verifica se 'cases_' está vazio.
  if cases_is_empty:
    # Se 'cases_' estiver vazio, atribui os dados do estado atual a 'cases_'.
    cases_ = cases_per_state
    cases_is_empty = False
  else:
    # Se 'cases_' não estiver vazio, anexa os dados do estado atual a 'cases_'.
    cases_ = pd.concat([cases_, cases_per_state], ignore_index=True)
# Atualiza o DataFrame original 'cases' com os dados agregados dos estados.
cases = cases_
# Define 'cases_' como None após a conclusão do loop para liberar memória.
cases_ = None

4. Para finalizar, garantir o tipo do dado é fundamental para consistência da base de dados. Vamos fazer o *type casting* das novas colunas

In [23]:
cases['population'] = cases['population'].astype('Int64')
cases['confirmed_1d'] = cases['confirmed_1d'].astype('Int64')
cases['confirmed_moving_avg_7d'] = cases['confirmed_moving_avg_7d'].astype('Int64')
cases['deaths_1d'] = cases['deaths_1d'].astype('Int64')
cases['deaths_moving_avg_7d'] = cases['deaths_moving_avg_7d'].astype('Int64')

- Cumpridas todas essas etapas, vamos reorganizar as colunas para facilitar a visualização e conferir o resultado final do wrangling

In [24]:
cases = cases[['date', 'country', 'state', 'population', 'confirmed', 'confirmed_1d', 'confirmed_moving_avg_7d', 'confirmed_moving_avg_7d_rate_14d', 'confirmed_trend', 'deaths', 'deaths_1d', 'deaths_moving_avg_7d', 'deaths_moving_avg_7d_rate_14d', 'deaths_trend', 'month', 'year']]

In [None]:
cases.shape

In [None]:
cases.info()

In [None]:
cases.head()

In [None]:
cases.tail()

In [None]:
cases[['population', 'confirmed_1d', 'confirmed_moving_avg_7d', 'deaths_1d', 'deaths_moving_avg_7d']].describe()

---

### **3.4. Carregamento dos dados de Casos**

Com os dados manipulados, vamos persisti-lo em disco, fazer o seu download e carrega-lo no Google Data Studio.

In [31]:
cases.to_csv('./covid-cases.csv', sep=',', index=False)

## 4\. Vacinação

### **4.2. Extração dos dados de Vacinação**

Vamos extrair os dados de **vacinação** da universidade de Oxford.

- Os dados estão compilados em um único arquivo, facilitando sua extração.

In [8]:
# O parâmetro parse_dates=[3] indica que a coluna na posição 3 (indexada em zero) deve ser interpretada como datas.
# O parâmetro infer_datetime_format=True indica que o Pandas deve tentar inferir automaticamente o formato das datas.
vaccines = pd.read_csv('https://covid.ourworldindata.org/data/owid-covid-data.csv', sep=',', parse_dates=[3], infer_datetime_format=True)

In [None]:
vaccines.shape

In [None]:
vaccines.head()

In [None]:
vaccines.tail()

- Vamos selecionar as colunas de interesse e as linhas referentes ao Brasil:

In [12]:
vaccines = vaccines.query('location == "Brazil"').reset_index(drop=True)
vaccines = vaccines[['location', 'population', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'total_boosters', 'date']]

In [None]:
vaccines.shape

In [None]:
vaccines.head()

In [None]:
vaccines.tail()

---

Nessa etapa, faremos a padronização, o enriquecimento e o controle de qualidade dos bancos de dados.

### **4.3. Wrangling dos dados de Vacinação**

Vamos manipular os dados de casos para o dashboard. O foco é em garantir uma boa granularidade e qualidade da base de dados.

In [None]:
vaccines.info()

In [None]:
vaccines['location'].describe()

In [None]:
vaccines[['population', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'total_boosters']].describe()

In [None]:
vaccines['date'].describe()

- Vamos começar tratando os dados faltantes, a estratégia será a de preencher os buracos com o valor anterior válido mais próximo:

In [20]:
vaccines = vaccines.fillna(method='ffill')

- Vamos também filtrar a base de dados de acordo com a coluna date para garantir que ambas as bases de dados tratam do mesmo período de tempo:

In [21]:
vaccines = vaccines[(vaccines['date'] >= '2021-01-01') & (vaccines['date'] <= '2021-12-31')].reset_index(drop=True)

- Vamos também alterar os nomes das colunas para que representem melhor os dados que contém:

In [22]:
vaccines = vaccines.rename(
  columns={
    'location': 'country',
    'total_vaccinations': 'total',
    'people_vaccinated': 'one_shot',
    'people_fully_vaccinated': 'two_shots',
    'total_boosters': 'three_shots',
  }
)

- Finalmente, vamos computar novas colunas para enriquecer a base de dados:

1. Chaves temporais

In [23]:
vaccines['month'] = vaccines['date'].apply(lambda date: date.strftime('%Y-%m'))
vaccines['year']  = vaccines['date'].apply(lambda date: date.strftime('%Y'))

2. Dados relativos

In [24]:
# Calcula a porcentagem de pessoas que receberam uma dose de vacina, dividindo o número de pessoas com uma dose pelo tamanho da população.
vaccines['one_shot_perc'] = round(vaccines['one_shot'] / vaccines['population'], 4)

# Calcula a porcentagem de pessoas que receberam duas doses de vacina, dividindo o número de pessoas com duas doses pelo tamanho da população.
vaccines['two_shots_perc'] = round(vaccines['two_shots'] / vaccines['population'], 4)

# Calcula a porcentagem de pessoas que receberam três doses de vacina, dividindo o número de pessoas com três doses pelo tamanho da população.
vaccines['three_shots_perc'] = round(vaccines['three_shots'] / vaccines['population'], 4)

4. Para finalizar, garantir o tipo do dado é fundamental para consistência da base de dados. Vamos fazer o *type casting* das novas colunas

In [25]:
vaccines['population'] = vaccines['population'].astype('Int64')
vaccines['total'] = vaccines['total'].astype('Int64')
vaccines['one_shot'] = vaccines['one_shot'].astype('Int64')
vaccines['two_shots'] = vaccines['two_shots'].astype('Int64')
vaccines['three_shots'] = vaccines['three_shots'].astype('Int64')

- Cumpridas todas essas etapas, vamos reorganizar as colunas para facilitar a visualização e conferir o resultado final do wrangling

In [26]:
vaccines = vaccines[['date', 'country', 'population', 'total', 'one_shot', 'one_shot_perc', 'two_shots', 'two_shots_perc', 'three_shots', 'three_shots_perc', 'month', 'year']]

In [None]:
vaccines.shape

In [None]:
vaccines.info()

In [None]:
vaccines.head()

In [None]:
vaccines.tail()

In [None]:
vaccines[['one_shot_perc', 'two_shots_perc', 'three_shots_perc']].describe()

### **4.4. Carregamento dos dados de Vacinação**

Com os dados manipulados, vamos persisti-lo em disco, fazer o seu download e carrega-lo no Google Data Studio.

In [33]:
vaccines.to_csv('./covid-vaccines.csv', sep=',', index=False)