<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: COVID-19 Dashboard
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Contexto;</li>
  <li>Análise Exploratória de Dados;</li>
  <li>Carregamentos dos dados;</li>
  <li>Visualização Interativa de Dados;</li>
  <li>Storytelling.</li>
</ol>


---

# **COVID Dashboard**


# **1. Contexto**

A pandemia de COVID-19 é uma pandemia global de doença causada pelo coronavírus SARS-CoV-2. O vírus foi identificado pela primeira vez na cidade de Wuhan, na China, em dezembro de 2019. Desde então, o vírus se espalhou para mais de 200 países e territórios, infectando mais de 500 milhões de pessoas e matando mais de 5 milhões. Fonte: OMS

Vacinação da COVID-19 - Os dados são compilados pelo projeto Nosso Mundo em Dados (Our World in Data ou OWID) da universidade britânica de Oxford (link). Os dados são atualizados diariamente deste janeiro de 2020 com uma granularidade temporal de dias e geográfica de países. O repositório do projeto pode ser acessado neste link enquanto os dados, neste link.

Escreva uma breve descrição do problema.

## 2\. Pacotes e bibliotecas

In [1]:
import numpy as np
import pandas as pd
import seaborn as sb
URL = 'https://covid.ourworldindata.org/data/owid-covid-data.csv'


## 3\. Extração

In [2]:
data = pd.read_csv(URL, parse_dates=[3])
data.columns.values


array(['iso_code', 'continent', 'location', 'date', 'total_cases',
       'new_cases', 'new_cases_smoothed', 'total_deaths', 'new_deaths',
       'new_deaths_smoothed', 'total_cases_per_million',
       'new_cases_per_million', 'new_cases_smoothed_per_million',
       'total_deaths_per_million', 'new_deaths_per_million',
       'new_deaths_smoothed_per_million', 'reproduction_rate',
       'icu_patients', 'icu_patients_per_million', 'hosp_patients',
       'hosp_patients_per_million', 'weekly_icu_admissions',
       'weekly_icu_admissions_per_million', 'weekly_hosp_admissions',
       'weekly_hosp_admissions_per_million', 'total_tests', 'new_tests',
       'total_tests_per_thousand', 'new_tests_per_thousand',
       'new_tests_smoothed', 'new_tests_smoothed_per_thousand',
       'positive_rate', 'tests_per_case', 'tests_units',
       'total_vaccinations', 'people_vaccinated',
       'people_fully_vaccinated', 'total_boosters', 'new_vaccinations',
       'new_vaccinations_smoothed', 't

## 4\. Transformação

**Delimitação de interesse:** para a análise usaremos as seguintes colunas:

* Data
* País
* PPC
* IDH
* Total casos
* Total de mortes
* Novas mortes
* Novos casos por milhão
* Novas mortes por milhão
* Limitar Data 31-03-2020 até 31-03-2022
* Limitar países: Alemanha, EUA, India e Brazil.


In [3]:
covid = data[['date', 'location', 'gdp_per_capita', 'human_development_index','total_cases', 'total_deaths', 'new_deaths', 'new_cases_per_million', 'new_deaths_per_million']]
covid = covid.set_index(keys=['date'])
covid = covid['2020-03-31': '2022-03-31']
covid = covid.query('location in ["Germany", "United States", "India", "Brazil"]')


In [4]:
# Vamos traduzir os nomes dos países para o Português
paises_dic = {
    "Germany": "Alemanha",
    "United States": "Estados Unidos",
    "India": "Índia",
    "Brazil": "Brasil"
}
covid["location"] = covid["location"].map(paises_dic)

In [5]:
covid = covid.fillna(method='ffill')
covid.info()


<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2924 entries, 2020-03-31 to 2022-03-31
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   location                 2924 non-null   object 
 1   gdp_per_capita           2924 non-null   float64
 2   human_development_index  2924 non-null   float64
 3   total_cases              2924 non-null   float64
 4   total_deaths             2924 non-null   float64
 5   new_deaths               2924 non-null   float64
 6   new_cases_per_million    2924 non-null   float64
 7   new_deaths_per_million   2924 non-null   float64
dtypes: float64(7), object(1)
memory usage: 205.6+ KB


In [7]:
covid["deaths_percent"] = (covid["total_deaths"]/covid["total_cases"]).round(4)
covid.loc['2021'].drop_duplicates('location')


Unnamed: 0_level_0,location,gdp_per_capita,human_development_index,total_cases,total_deaths,new_deaths,new_cases_per_million,new_deaths_per_million,deaths_percent
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2021-01-01,Brasil,14103.452,0.765,7448560.0,190488.0,0.0,0.0,0.0,0.0256
2021-01-01,Alemanha,45229.245,0.947,1660178.0,47009.0,0.0,0.0,0.0,0.0283
2021-01-01,Índia,6426.674,0.645,10187850.0,147622.0,0.0,0.0,0.0,0.0145
2021-01-01,Estados Unidos,54225.446,0.926,18890446.0,342920.0,0.0,0.0,0.0,0.0182


## 5\. Carregamento

In [8]:
covid.to_csv('./covid.csv', sep=',', index=True)

# **Dados publicados:**

* Dashboard: Google Data Studio ([link](https://lookerstudio.google.com/reporting/ebc436ad-b403-427a-ac49-5f1ce20f0eee)).
* Processamento: Kaggle Notebook ([link](https://www.kaggle.com/code/diogosouza95/an-lise-de-dados-covid-19)).
* Fonte de dados: Universidade de Oxford ([link](https://github.com/owid/covid-19-data/tree/master/public/data)).

# **Storytelling**

O estudo analisou o impacto da pandemia de COVID-19 de 2020 a 2022 em quatro países: Brasil, Alemanha, Índia e Estados Unidos. Focando nas variáveis do Índice de Desenvolvimento Humano (IDH) e Produto Interno Bruto (PIB), o objetivo foi entender se há uma correlação direta entre esses indicadores e o número de mortes por milhão de habitantes.

**Resultados Principais:**
 * 1. Desempenho Variado ao Longo do Tempo:

Os gráficos de linhas revelaram que todos os países tiveram picos de casos e mortes em diferentes períodos. O Brasil e a Índia experimentaram picos acentuados em várias ondas, enquanto Alemanha e Estados Unidos também enfrentaram ondas severas, mas em diferentes momentos.

* 2. IDH vs. Novas Mortes por Milhão:

A análise de dispersão mostrou que não há uma correlação clara entre o IDH e o número de novas mortes por milhão. Países com alto IDH, como Alemanha e Estados Unidos, e países com IDH relativamente mais baixo, como Índia e Brasil, tiveram variações significativas em novas mortes por milhão.

* 3. PIB vs. Novas Mortes por Milhão:

De forma semelhante, o PIB per capita não mostrou uma relação direta com as novas mortes por milhão. Isso sugere que a riqueza econômica por si só não garantiu melhores resultados em termos de controle de mortalidade da pandemia.
