<a href="https://colab.research.google.com/github/lucasmanesco/covid_19/blob/main/Panorama_do_COVID_19_no_Brasil.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Panorama do COVID-19 no Brasil

COVID-19 é uma doença infecciosa causada por um recém descoberto coronavírus (SARS-CoV-2). O vírus foi descoberto em janeiro de 2020, após um surto de pneumonia na cidade de Wuhan, na China.

Transmitido principalmente por meio de gotículas provenientes de tosses ou espirros de pessoas infectadas, a gravidade dos sintomas varia muito de pessoa para pessoa.

Dentre os principais sintomas, os infectados podem apresentar tosse, dificuldade para respirar, dores de garganta, febre e outras manifestações clínicas. Há ainda os assintomáticos, que, apesar de não sentirem os sintomas, são potenciais transmissores da doença e também importantes para os levantamentos de dados.

<center><img alt="Colaboratory logo" width="50%" src="https://img.freepik.com/free-photo/doctor-analyzing-blood-samples-with-microscope_23-2148958410.jpg?w=1060&t=st=1665157970~exp=1665158570~hmac=ea6a1ac8ebf9d1cf27eb1944dcb10e7acf74e04cf6621b0fb80404b982d0041e"></center>

No mundo todo, até a data da realização desse estudo, são mais de 620 milhões de infectados com uma taxa de letalidade de aproximadamente 1%.

Com o objetivo de elevar a consciência situacional a respeito do COVID-19 no Brasil, irei realizar uma análise sobre os dados públicos da doença.

## Obtenção dos Dados

Os dados utilizados nesse estudo foram coletados a partir do portal Our World in Data, o qual é atualizado diariamente:

*Hannah Ritchie, Edouard Mathieu, Lucas Rodés-Guirao, Cameron Appel, Charlie Giattino, Esteban Ortiz-Ospina, Joe Hasell, Bobbie Macdonald, Diana Beltekian and Max Roser (2020) - "Coronavirus Pandemic (COVID-19)". Published online at OurWorldInData.org. Retrieved from: https://ourworldindata.org/coronavirus*

A atualização das informações de cada município brasileiro é muito dinâmica e complexa, levando em consideração os serviços de saúde tem suas particularidades de infraestrutura e organização em cada local. Portanto é possível que haja divergências devido à decorrência de erros e/ou atrasos no repasse de informações. 

### Dicionário de Variáveis
* *Construa um dicionário de variáveis.*
    * *A descrição do nome de cada coluna pode ser encontrada [neste link](https://github.com/owid/covid-19-data/blob/master/public/data/owid-covid-data-codebook.md).*

### Importação dos Dados
Para iniciar nosso projeto, vamos importar as bibliotecas necessárias e conectar ao Drive para importação do DataSet.

Nessa análise usaremos as bibliotecas Pandas, MatplotLib e ...

In [None]:
# importar as bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt
from google.colab import drive

In [None]:
# montar o drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# importar o dataset COVID-19 para um DataFrame
data_path = '/content/drive/MyDrive/Colab Notebooks/Projetos/COV-19/owid-covid-data.csv'
df = pd.read_csv(data_path, sep=',')

## Análise Exploratória Inicial - Visualizando Dataframe e Estrutura

Antes de qualquer análise vamos visualizar a estrutura do dataframe, os tipos de dados, dimensões e começar a entender o material que temos em mãos.


In [None]:
# visualizando 5 primeiras entradas
df.head()

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
0,AFG,Asia,Afghanistan,2020-02-24,5.0,5.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
1,AFG,Asia,Afghanistan,2020-02-25,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
2,AFG,Asia,Afghanistan,2020-02-26,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
3,AFG,Asia,Afghanistan,2020-02-27,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
4,AFG,Asia,Afghanistan,2020-02-28,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,


In [None]:
# visualizando tamanho do dataframe
print(f'Tamanho do Dataframe:\nLinhas: {df.shape[0]}\nColunas: {df.shape[1]}')

Tamanho do Dataframe:
Linhas: 221911
Colunas: 67


In [None]:
# extraindo nomes das colunas
print(df.columns)

Index(['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases',
       'new_cases_smoothed', 'total_deaths', 'new_deaths',
       'new_deaths_smoothed', 'total_cases_per_million',
       'new_cases_per_million', 'new_cases_smoothed_per_million',
       'total_deaths_per_million', 'new_deaths_per_million',
       'new_deaths_smoothed_per_million', 'reproduction_rate', 'icu_patients',
       'icu_patients_per_million', 'hosp_patients',
       'hosp_patients_per_million', 'weekly_icu_admissions',
       'weekly_icu_admissions_per_million', 'weekly_hosp_admissions',
       'weekly_hosp_admissions_per_million', 'total_tests', 'new_tests',
       'total_tests_per_thousand', 'new_tests_per_thousand',
       'new_tests_smoothed', 'new_tests_smoothed_per_thousand',
       'positive_rate', 'tests_per_case', 'tests_units', 'total_vaccinations',
       'people_vaccinated', 'people_fully_vaccinated', 'total_boosters',
       'new_vaccinations', 'new_vaccinations_smoothed',
       't

In [None]:
# visualizando o tipo das variáveis
df.dtypes

iso_code                                    object
continent                                   object
location                                    object
date                                        object
total_cases                                float64
                                            ...   
human_development_index                    float64
excess_mortality_cumulative_absolute       float64
excess_mortality_cumulative                float64
excess_mortality                           float64
excess_mortality_cumulative_per_million    float64
Length: 67, dtype: object

## Identificando Valores Ausentes

Dados ausentes são sempre um problema em cenários da vida real. Áreas como aprendizado de máquina e mineração de dados enfrentam sérios problemas na precisão de suas previsões de modelo devido à baixa qualidade dos dados causada por valores ausentes. Nessas áreas, o tratamento de valor faltante é o principal ponto de foco para tornar seus modelos mais precisos e válidos.

Vamos identificar os valores ausentes em nosso Dataframe e tratá-los da melhor maneira possível.

In [None]:
# identificando quantidade de valores ausentes por coluna
df.isnull().sum()

iso_code                                        0
continent                                   12751
location                                        0
date                                            0
total_cases                                  9148
                                            ...  
human_development_index                     44502
excess_mortality_cumulative_absolute       214451
excess_mortality_cumulative                214451
excess_mortality                           214404
excess_mortality_cumulative_per_million    214451
Length: 67, dtype: int64

In [None]:
# identificando porcentagem de valores ausentes por coluna
(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)

weekly_icu_admissions_per_million          0.967104
weekly_icu_admissions                      0.967104
excess_mortality_cumulative_per_million    0.966383
excess_mortality_cumulative                0.966383
excess_mortality_cumulative_absolute       0.966383
                                             ...   
total_cases                                0.041224
population                                 0.005813
date                                       0.000000
location                                   0.000000
iso_code                                   0.000000
Length: 67, dtype: float64

In [None]:
# filtrando as colunas com mais de 50% de valores ausentes
(df.isnull().sum() / df.shape[0]).loc[lambda x : x > 0.50].sort_values(ascending=False)

weekly_icu_admissions                      0.967104
weekly_icu_admissions_per_million          0.967104
excess_mortality_cumulative_per_million    0.966383
excess_mortality_cumulative                0.966383
excess_mortality_cumulative_absolute       0.966383
excess_mortality                           0.966171
weekly_hosp_admissions                     0.935686
weekly_hosp_admissions_per_million         0.935686
icu_patients_per_million                   0.872805
icu_patients                               0.872805
hosp_patients                              0.860322
hosp_patients_per_million                  0.860322
total_boosters                             0.849967
total_boosters_per_hundred                 0.849967
new_vaccinations                           0.769813
people_fully_vaccinated_per_hundred        0.744808
people_fully_vaccinated                    0.744808
people_vaccinated                          0.732325
people_vaccinated_per_hundred              0.732325
total_vaccin

In [None]:
# filtrando as colunas com menos de 50% de valores ausentes
(df.isnull().sum() / df.shape[0]).loc[lambda x : x < 0.50].sort_values(ascending=False)

extreme_poverty                               0.466381
new_people_vaccinated_smoothed_per_hundred    0.423408
new_people_vaccinated_smoothed                0.423408
new_vaccinations_smoothed_per_million         0.420723
new_vaccinations_smoothed                     0.420723
male_smokers                                  0.388079
female_smokers                                0.379585
hospital_beds_per_thousand                    0.270559
reproduction_rate                             0.248721
stringency_index                              0.245540
human_development_index                       0.200540
aged_65_older                                 0.186764
aged_70_older                                 0.182388
gdp_per_capita                                0.181010
cardiovasc_death_rate                         0.180275
median_age                                    0.178089
diabetes_prevalence                           0.138272
new_deaths_smoothed_per_million               0.137181
new_deaths

In [66]:
# identificando os intervalos que iremos remover do df e os intervalos que vamos tratar os dados
remover = list((df.isnull().sum() / df.shape[0]).loc[lambda x : x > 0.50].index)
tratar = list((df.isnull().sum() / df.shape[0]).loc[lambda x : x < 0.50].index)

In [39]:
# removendo as colunas com mais de 50% de valores ausentes
df_clean = df.drop(columns=remover)

In [67]:
df[tratar[0]]

0         AFG
1         AFG
2         AFG
3         AFG
4         AFG
         ... 
221906    ZWE
221907    ZWE
221908    ZWE
221909    ZWE
221910    ZWE
Name: iso_code, Length: 221911, dtype: object

## Análise Exploratória dos Dados

*Crie uma breve contextualização sobre o que será feito na fase de Análise Exploratória de Dados...*


* *Identifique a porcentagem de valores ausentes das colunas*
    * `df.isnull().sum() / df.shape[0]` ou
    * `(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)` *para ordem decrescente.*
* *Transforme a coluna `date` no formato `datetime`*
    * `df.date = pd.to_datetime(df.date)`
* *Ver para a data mais atual, quais os países que têm mais casos e mortes. Veja o exemplo:*
    * `df.loc[df.date == '2020-06-14'].sort_values(by="total_cases", ascending=False)`
    * `df.loc[df.date == '2020-06-14'].sort_values(by="total_deaths", ascending=False)`
* Plotar um gráfico de barras para os 5 países com mais mortes
    * `df.loc[df.date == '2020-06-14', ['location', 'total_deaths']].sort_values(by="total_deaths", ascending=False)[1:6]`
    * `ax.bar('location', 'total_deaths', data=top5_total_deaths)`
* Plotar um gráfico de linhas para ver a evolução do total de casos de COVID-19 no mundo.
    * `df.loc[df.location == "World", "total_deaths"].reset_index(drop=True).plot()`
* [OPCIONAL] Plotar um gráfico de dispersão considerando `gdp_per_capita` (ou seja, o PIB dos países) pelo número total de mortos. Pegue a data mais recente apenas.
    * Lembre-se que não é nada conclusivo, pois envolve fatores como proporcão de testes, etc.


Vamos......

### Análise Exploratória para o Brasil

* Criar uma cópia do DataFrame apenas com o Brasil
    * `df_brasil = df.loc[df.location == "Brazil"].copy()`
* Identificar quando foi registrada a primeira morte no Brasil
* Identificar quantos dias demorou para registrarmos a primeira morte, considerando o primeiro caso de COVID-19 registrado.
* Plotar gráficos de linha em escalas linear e logarítmica para os casos totais e mortes totais.

## Conclusão

*Escreva suas conclusões e análises sobre os dados relativos à COVID-19...*