<img alt="bruno logo" width="15%" src="https://raw.githubusercontent.com/brunobonatini/Data_Science/main/logo.png">

#### **Data Scientist & Analyst**
*by [Bruno Bonatini](https://www.linkedin.com/in/bsbonatini/)*

---
  

# Panorama do COVID-19 no Brasil

COVID-19 é uma doença infecciosa causada pelo vírus SARS-Cov-2, identificada pela primeira vez em dezembro de 2019 na cidade de Wuhan, na China, com um surto de pneumonia por causa desconhecida. Houve relatos que as pessoas infectadas tiveram contatos com animais em um mercado de frutos do mar e animais vivos na cidade, mas não foi confirmado que o vírus tenha sido transmitido por estes animais.

Em Janeiro de 2020, o vírus se espalhou rapidamente em outras partes da China e depois para outros países, quando em Março de 2020 foi decretada pela OMS (Organização Mundial da Saúde) como pandemia global.

Transmitido principalmente por meio de gotículas provenientes de tosses ou espirros de pessoas infectadas, a gravidade dos sintomas varia muito de pessoa para pessoa, mas podem incluir febre, tosse seca, fadiga, dor de cabeça, perda de olfato ou paladar, dor de garganta, dores musculares e dificuldades na respiração. Em casos mais graves, a doença pode levar a pneumonia, falência de orgãos e até a morte.

<img alt="Colaboratory logo" width="50%" src="https://raw.githubusercontent.com/brunobonatini/Data_Science/main/Projeto_Covid19/covid19.jpg">

Desde o início da pandemia, a COVID-19 afetou milhões de pessoas em todo o mundo e teve um impacto significativo na saúde pública, economia e na sociedade como um todo.

Após alguns meses de pesquisas, as vacinas foram liberadas no mês Dezembro de 2020, tornando-se uma medida muito importante para controlar a proliferação da doença.

Mesmo após a liberação das vacinas, notou-se um aumento de casos principalmente em épocas de festas e datas comemorativas, fazendo com que o vírus sofresse mutações gerando novas variantes e consequentemente novas doses de vacinas.

Neste **projeto** farei a análise de uma maneira geral sobre a COVID-19 no Brasil e no Mundo, para assim conseguir extrair alguns insights importantes dos dados. 

## Obtenção dos Dados

Os dados utilizados neste projeto foram obtidos através de uma fonte super segura e confiável no [GitHub](https://github.com/owid/covid-19-data/tree/master/public/data), que extraiu-os diretamente do site [Our World in Data](https://ourworldindata.org/).

A grande dificuldade de se analisar dados de uma nova doença como a COVID-19 é que há muitas incertezas em relação ao vírus. 

Além de ser uma doença relativamente nova e altamente contagiosa, os sistemas de saúde não dão conta da quantidade de pacientes infectados e que precisam de tratamento, os cientistas precisam coletar dados em tempo real para analisar e entender a natureza da doença e os sistemas governamentais, estaduais e federais, divulgam informações diferentes de acordo com o benefício próprio de cada um, gerando muita diferença nos números, muitas vezes por questões políticas.

Caso tenham algum problema em baixar o arquivo diretamente do repositório oficial, deixo aqui o [meu link](https://raw.githubusercontent.com/brunobonatini/Data_Science/main/Projeto_Covid19/owid-covid-data.csv) atualizado em 06.03.2023.

# Importando as bibliotecas necessárias e o dataset para o desenvolvimento do Projeto

In [2]:
# importando as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# importando o dataset COVID-19 para um DataFrame
data = 'https://raw.githubusercontent.com/brunobonatini/Data_Science/main/Projeto_Covid19/owid-covid-data.csv'
df = pd.read_csv(data)


Após a importação das bibliotecas e do dataset, vou visualizar as primeiras entradas para ter uma visão geral dos dados, e na sequência vou analisar quais variáveis utilizarei neste projeto, copiando-as em um novo DataFrame.

In [3]:
# visualizando as primeiras entradas do dataframe
df.head()

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,population,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
0,AFG,Asia,Afghanistan,2020-02-24,5.0,5.0,,,,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
1,AFG,Asia,Afghanistan,2020-02-25,5.0,0.0,,,,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
2,AFG,Asia,Afghanistan,2020-02-26,5.0,0.0,,,,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
3,AFG,Asia,Afghanistan,2020-02-27,5.0,0.0,,,,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
4,AFG,Asia,Afghanistan,2020-02-28,5.0,0.0,,,,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,


In [4]:
# visualizando as variáveis do dataset

df.columns

Index(['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases',
       'new_cases_smoothed', 'total_deaths', 'new_deaths',
       'new_deaths_smoothed', 'total_cases_per_million',
       'new_cases_per_million', 'new_cases_smoothed_per_million',
       'total_deaths_per_million', 'new_deaths_per_million',
       'new_deaths_smoothed_per_million', 'reproduction_rate', 'icu_patients',
       'icu_patients_per_million', 'hosp_patients',
       'hosp_patients_per_million', 'weekly_icu_admissions',
       'weekly_icu_admissions_per_million', 'weekly_hosp_admissions',
       'weekly_hosp_admissions_per_million', 'total_tests', 'new_tests',
       'total_tests_per_thousand', 'new_tests_per_thousand',
       'new_tests_smoothed', 'new_tests_smoothed_per_thousand',
       'positive_rate', 'tests_per_case', 'tests_units', 'total_vaccinations',
       'people_vaccinated', 'people_fully_vaccinated', 'total_boosters',
       'new_vaccinations', 'new_vaccinations_smoothed',
       't

# 1.Análise Exploratória dos Dados

Nesta etapa do projeto, farei a descrição apenas das variáveis que serão utilizadas neste projeto a fim de conhecer melhor como os dados estão estruturados, estas variáveis serão copiadas para um novo DataFrame `df_covid`, conseguindo assim uma melhor análise e processamento dos dados.

Será realizada também nesta fase, a identificação, substituição ou remoção dos valores ausentes, dados duplicados ou inconsistentes.

Vou visualizar a distribuição dos dados em suas variáveis através de um gráfico e analisar os seus valores estatísticos, buscando encontrar outliers que nos prejudica e impede que uma análise seja feita com qualidade.

## 1.1.Dicionário de Variáveis

* **continent** - Nome do continente
* **location** - Localização geográfica
* **date** - Data de obervação da doença
* **total_cases** - Novos casos confirmados de COVID-19 (suavização de 7 dias). As contagens podem incluir casos prováveis, quando relatados.
* **total_deaths** - Total de mortes atribuídas à COVID-19. As contagens podem incluir mortes prováveis, quando relatadas
* **total_vaccinations** - Número total de doses de vacinação contra COVID-19 administradas
* **people_vaccinated** - Número total de pessoas que receberam pelo menos uma dose de vacina
* **people_fully_vaccinated** - Número total de pessoas que receberam todas as doses prescritas pelo protocolo inicial de vacinação
* **population** - População (últimos valores disponíveis). Consulte https://github.com/owid/covid-19-data/blob/master/scripts/input/un/population_latest.csv para obter a lista completa de fontes 
* **median_age** - Idade média da população, projeção da ONU para 2020
* **life_expectancy** - Expectativa de vida ao nascer em 2019
* **gdp_per_capita** - Produto interno bruto em paridade de poder de compra (dólares internacionais constantes de 2011), ano mais recente disponível


In [5]:
# copiando as variáveis que serão utilizadas neste projeto para um novo dataframe
df_covid = df[['date', 'continent', 'location', 'total_cases', 
               'total_deaths', 'total_vaccinations',
               'people_vaccinated', 'people_fully_vaccinated', 'population', 
               'median_age', 'life_expectancy', 'gdp_per_capita']].copy()

In [6]:
# visualizando as primeiras entradas do dataframe
df_covid.head()

Unnamed: 0,date,continent,location,total_cases,total_deaths,total_vaccinations,people_vaccinated,people_fully_vaccinated,population,median_age,life_expectancy,gdp_per_capita
0,2020-02-24,Asia,Afghanistan,5.0,,,,,41128772.0,18.6,64.83,1803.987
1,2020-02-25,Asia,Afghanistan,5.0,,,,,41128772.0,18.6,64.83,1803.987
2,2020-02-26,Asia,Afghanistan,5.0,,,,,41128772.0,18.6,64.83,1803.987
3,2020-02-27,Asia,Afghanistan,5.0,,,,,41128772.0,18.6,64.83,1803.987
4,2020-02-28,Asia,Afghanistan,5.0,,,,,41128772.0,18.6,64.83,1803.987


## 1.2.Qual o volume do DataFrame? Quais os tipos de dados das variáveis?

Logo abaixo, conseguimos ver a quantidade de entradas no dataset e a quantidade de colunas, lembrando que copiei apenas as colunas utilizadas neste projeto.

Portanto, o total de entrada é de 261.499 e o total de colunas passou de 67 para 12.

In [7]:
# verificando o tamanho do dataframe, tipos de variáveis e valores ausentes
df_covid.info()

print('\nTotal de entradas: {}'.format(df_covid.shape[0]))
print('Total de variáveis: {}'.format(df_covid.shape[1]))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 261499 entries, 0 to 261498
Data columns (total 12 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   date                     261499 non-null  object 
 1   continent                246824 non-null  object 
 2   location                 261499 non-null  object 
 3   total_cases              246951 non-null  float64
 4   total_deaths             227230 non-null  float64
 5   total_vaccinations       72431 non-null   float64
 6   people_vaccinated        69329 non-null   float64
 7   people_fully_vaccinated  66997 non-null   float64
 8   population               260378 non-null  float64
 9   median_age               210748 non-null  float64
 10  life_expectancy          240047 non-null  float64
 11  gdp_per_capita           210543 non-null  float64
dtypes: float64(9), object(3)
memory usage: 23.9+ MB

Total de entradas: 261499
Total de variáveis: 12


Pode-se notar que as variáveis acima estão declaradas como `float`, isso quer dizer que estão com o valor em decimal. Porém os dados que estamos analisando são baseados na quantidade de pessoas que estão vacinadas ou infectadas, portanto não existe o caso de 1.5 pessoas ou 0.5 pessoa foi infectada pela COVID-19.

Com este problema, precisamos transformar estas variáveis com valores decimais para valores inteiros (`int64`). Mas antes de transformar os tipos das variáveis, vou fazer o tratamento dos vaores ausentes.

## 1.3.Qual a quantidade de valores ausentes em relação ao total de entradas?

In [8]:
(df_covid.isnull().sum() / df_covid.shape[0]).sort_values(ascending=False)

people_fully_vaccinated    0.743796
people_vaccinated          0.734879
total_vaccinations         0.723016
gdp_per_capita             0.194861
median_age                 0.194077
total_deaths               0.131048
life_expectancy            0.082035
continent                  0.056119
total_cases                0.055633
population                 0.004287
date                       0.000000
location                   0.000000
dtype: float64

Conseguimos perceber acima que existem muitos valores ausentes em algumas variáveis, portanto precisamos analisar e tomar a decisão do que será feito com estes dados.

Existem duas maneiras mais comuns para tratarmos estes valores ausentes, fazendo a remoção, que é a forma mais drástica, ou preenchendo os valores com algumas medidas estatísticas como, média, mediana ou moda.

Podemos identificar as seguintes situações nos valores ausentes:

* Mais de 70% dos dados das variáveis `people_fully_vaccinated`, `people_vaccinated`e `total_vaccination` estão faltando, estes não entrarão nesta análise e serão excluídos.
* Nas variáveis `gpd_per_capita` e `median_age` 19% dos dados estão faltando.
* 13% dos dados da variável `total_deaths` estão faltando.


In [9]:
# copiando os dados em um dataframe de limpeza
df_clean = df_covid.copy()

In [10]:
# eliminando as colunas com mais de 70% de valores ausentes
df_clean.drop('people_fully_vaccinated', axis=1, inplace=True)
df_clean.drop('people_vaccinated', axis=1, inplace=True)
df_clean.drop('total_vaccinations', axis=1, inplace=True)

## 1.4.Tratando os valores ausentes

Com as variáveis removidas, agora vou tratar os valores ausentes fazendo uma análise de cada variável para o preenchimento da maneira correta, sempre buscando não afetar bruscamente os valores estatísticos dos dados.

In [11]:
# visualizando os dados ausentes restantes
df_clean.isnull().sum().sort_values(ascending=False)

gdp_per_capita     50956
median_age         50751
total_deaths       34269
life_expectancy    21452
continent          14675
total_cases        14548
population          1121
date                   0
location               0
dtype: int64

Agora vou verificar os valores estatísticos de cada variável para tratar os campos que não foram preenchidos da melhor maneira, afim de não afetar os dados para minha análise.

In [12]:
# visualizando os dados estatísticos da variável gdr_per_capita
df_clean['gdp_per_capita'].describe()

count    210543.000000
mean      19492.620225
std       20515.161357
min         661.240000
25%        4449.898000
50%       12951.839000
75%       27717.847000
max      116935.600000
Name: gdp_per_capita, dtype: float64

Podemos ver nos dados da variável acima, sua média e mediana não estão com valores tão distantes, porém existe um valor máximo de 116935 que faz com que o desvio padrão aumente, isso signifia que este valor máximo pode ser um outlier.

Nesta variável adotarei o valor da mediana para preencher os valores faltantes, para depois tratarmos possível outlier.

In [13]:
# preenchendo os valores ausentes da variável gdp_per_capita com a mediana
gdp_median = df_clean['gdp_per_capita'].median()
df_clean = df_clean.fillna({'gdp_per_capita': 'gdp_median'})

In [15]:
# visualizando os dados estatísticos da variável median_age
df_clean['median_age'].describe()

count    210748.000000
mean         30.579723
std           9.062453
min          15.100000
25%          22.300000
50%          29.900000
75%          39.100000
max          48.200000
Name: median_age, dtype: float64

Na variável `median_age` consigo observar que os valores estão distribuídos sem qualquer problema inicialmente. Portanto adotarei o preenchimento dos valores ausentes utilizando a `média` de idades, pois está bem próxima da mediana.

In [17]:
# preenchendo os valores ausentes da variável median_age com a média
median_age_mean = df_clean['median_age'].mean()
df_clean = df_clean.fillna({'median_age': 'median_age_mean'})

In [21]:
# visualizando os dados estatísticos da variável total_deaths
df_clean['total_deaths'].describe()

count    2.272300e+05
mean     8.047437e+04
std      4.096264e+05
min      1.000000e+00
25%      1.250000e+02
50%      1.363000e+03
75%      1.110700e+04
max      6.876591e+06
Name: total_deaths, dtype: float64

Nesta variável acima, pode-se notar que o valor da média está um pouco distante do valor da mediana, talves por existir um valor máximo de 6.8 porém 75% dos demais são abaixo 1.1, fazendo com que a média suba, afastando-se dos valores que seriam normais. Portanto, neste caso vou preencher os valores ausentes com a `mediana`.

In [22]:
# preenchendo os valores ausentes da variável total_deaths com a mediana
td_median = df_clean['total_deaths'].median()
df_clean = df_clean.fillna({'total_deaths': 'td_median'})

In [24]:
# verificando os dados estatísticos das variáveis com valores ausentes restantes
df_clean.describe()

Unnamed: 0,total_cases,population,life_expectancy
count,246951.0,260378.0,240047.0
mean,5378331.0,140510100.0,73.59558
std,33005270.0,691592000.0,7.446573
min,1.0,47.0,53.28
25%,5873.0,836783.0,69.5
50%,62654.0,6948395.0,75.05
75%,653730.0,33696610.0,79.07
max,675806900.0,7975105000.0,86.75


Os dados estatísticos das variáveis acima estão com os valores bem próximos, e aparentemente não há nenhuma discrepância. Com isso vou utilizar a `média` para preencher os valores ausentes destas variáveis.

In [26]:
tc_mean = df_clean['total_cases'].mean()
pop_mean = df_clean['population'].mean()
le_mean = df_clean['life_expectancy'].mean()

df_clean = df_clean.fillna({'total_cases': 'tc_mean'})
df_clean = df_clean.fillna({'population': 'pop_mean'})
df_clean = df_clean.fillna({'life_expectancy': 'le_mean'})

Concluída a etapa de tratamento de valores ausentes, restando apenas a variável `continent` que não entrará nesta análise e será deletada.

A próxima etapa será alterar o tipo das variáveis de `float`(número flutuante) para `int`(número inteiro), pois como foi mensionado um pouco acima, não existe 1.5 casos de mortes e nem 0.5 caso confirmados da doença. Vou transformar também a variável `date` que está como `object`(string) para o formato `datetime`(data).

In [28]:
# eliminando a variável continent do dataset
df_clean.drop('continent', axis=1, inplace=True)

In [29]:
# verificando os valores ausentes restantes
df_clean.isnull().sum().sort_values(ascending=False)

date               0
location           0
total_cases        0
total_deaths       0
population         0
median_age         0
life_expectancy    0
gdp_per_capita     0
dtype: int64

In [32]:
# verificando os tipos das variáveis
df_clean.dtypes

date               object
location           object
total_cases        object
total_deaths       object
population         object
median_age         object
life_expectancy    object
gdp_per_capita     object
dtype: object

In [33]:
df_clean.head()

Unnamed: 0,date,location,total_cases,total_deaths,population,median_age,life_expectancy,gdp_per_capita
0,2020-02-24,Afghanistan,5.0,td_median,41128772.0,18.6,64.83,1803.987
1,2020-02-25,Afghanistan,5.0,td_median,41128772.0,18.6,64.83,1803.987
2,2020-02-26,Afghanistan,5.0,td_median,41128772.0,18.6,64.83,1803.987
3,2020-02-27,Afghanistan,5.0,td_median,41128772.0,18.6,64.83,1803.987
4,2020-02-28,Afghanistan,5.0,td_median,41128772.0,18.6,64.83,1803.987


* *Transforme a coluna `date` no formato `datetime`*
    * `df.date = pd.to_datetime(df.date)`
* *Ver para a data mais atual, quais os países que têm mais casos e mortes. Veja o exemplo:*
    * `df.loc[df.date == '2020-06-14'].sort_values(by="total_cases", ascending=False)`
    * `df.loc[df.date == '2020-06-14'].sort_values(by="total_deaths", ascending=False)`
* Plotar um gráfico de barras para os 5 países com mais mortes
    * `df.loc[df.date == '2020-06-14', ['location', 'total_deaths']].sort_values(by="total_deaths", ascending=False)[1:6]`
    * `ax.bar('location', 'total_deaths', data=top5_total_deaths)`
* Plotar um gráfico de linhas para ver a evolução do total de casos de COVID-19 no mundo.
    * `df.loc[df.location == "World", "total_deaths"].reset_index(drop=True).plot()`
* [OPCIONAL] Plotar um gráfico de dispersão considerando `gdp_per_capita` (ou seja, o PIB dos países) pelo número total de mortos. Pegue a data mais recente apenas.
    * Lembre-se que não é nada conclusivo, pois envolve fatores como proporcão de testes, etc.

* Criar uma cópia do DataFrame apenas com o Brasil
    * `df_brasil = df.loc[df.location == "Brazil"].copy()`
* Identificar quando foi registrada a primeira morte no Brasil
* Identificar quantos dias demorou para registrarmos a primeira morte, considerando o primeiro caso de COVID-19 registrado.
* Plotar gráficos de linha em escalas linear e logarítmica para os casos totais e mortes totais.

## Conclusão