# Uma análise sobre os números da Covid-19

### O que é a SARS-CoV-2 ou Covid-19, como é popularmente conhecida? 

 A COVID-19 é uma doença causada pelo coronavírus, denominado SARS-CoV-2, que apresenta um espectro clínico variando de infecções assintomáticas a quadros graves. De acordo com a Organização Mundial de Saúde, a maioria (cerca de 80%) dos pacientes com COVID-19 podem ser assintomáticos ou oligossintomáticos (poucos sintomas), e aproximadamente 20% dos casos detectados requer atendimento hospitalar por apresentarem dificuldade respiratória, dos quais aproximadamente 5% podem necessitar de suporte ventilatório.
 
 Definição extraída do: https://coronavirus.saude.gov.br/sobre-a-doenca

Apesar de parecer ser uma doença com uma baixa mortalidade, o covid-19 tem uma extrema facilidade de transmissão, e junto dessa facilidade de transmissão, ocorrem as superlotações de hospitais. 
Não é segredo para ninguém que o Brasil sempre sofreu com problemas de leitos em hospitais durante anos anteriores, porém, dessa vez temos uma agravante muito maior, que causa um colapso no nosso frágil sistema de saúde de maneira mais rápida.

Como as atenções do mundo hoje giram em torno dos números da doença e seus impactos, resolvi fazer uma análise dos números até o dia de hoje, 28/03/2021.

Para esta análise, irei utilizar o dataset https://github.com/owid/covid-19-data/tree/master/public/data.

Este dataset é fornecido pelo Our Wolrd in Data, um projeto do Global Change Data Lab , uma organização sem fins lucrativos com sede no Reino Unido.

O objetivo dele é  tornar o conhecimento dos grandes problemas acessível e compreensível. Como eles dizem em sua página inicial , Our World in Data é sobre Pesquisa e dados para fazer progresso contra os maiores problemas do mundo.

## Dados do Brasil

Não é segredo para ninguém que o Brasil ainda não possui uma forte cultura de dados, e consequenetemente como temos grandes conflitos aos reais números da Covid-19 em nosso país. Causando conflitos de informações e divergências, o que gerou ate mesmo aos jornalistas criarem uma base de dados para fazerem os relatórios dos números da Covid. 


A Our Wolrd in Data deixa alguns alertas sobre seu dataset se tratando do Brasil:

°Os números dos casos relatados em uma determinada data não mostram necessariamente o número de novos casos naquele dia - isso se deve a atrasos na notificação.

°O número real de casos provavelmente será muito maior do que o número de casos confirmados - isso se deve aos testes limitados.

Vamos iniciar nossa análise, realizando a importação das bibliotecas a serem utilizadas.

Um detalhe, não irei realizar nenhum processo de visualização de dados neste notebook, apenas o tratamento dos dados. Toda a visualização estará disponível no artigo ao qual esta tratativa se destina.

In [1]:
#Realizando a importação das bibliotecas Pandas e Numpy

import pandas as pd
import numpy as np

A Our Wolrd in Data disponibiliza vários tipos de datasets, seja eles referentes ao número de vacinados ou mesmo a números gerais da Covid-19.
Neste análise utilizei o **owid-covid-data.csv**

In [2]:
#Importando o Dataset e visualizando suas 05 primeiras linhas
df = pd.read_csv("https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/owid-covid-data.csv")
df.head()

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,gdp_per_capita,extreme_poverty,cardiovasc_death_rate,diabetes_prevalence,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index
0,AFG,Asia,Afghanistan,2020-02-24,1.0,1.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
1,AFG,Asia,Afghanistan,2020-02-25,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
2,AFG,Asia,Afghanistan,2020-02-26,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
3,AFG,Asia,Afghanistan,2020-02-27,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
4,AFG,Asia,Afghanistan,2020-02-28,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511


Em todo o código utilizei poucas colunas, sendo assim irei descrever o significado de cada uma delas em um dicionário:

**date** : Data de observação

**continent** :Continente da localização geográfica

**location** :Localização geográfica

**total_cases** : Total de casos confirmados de COVID-19

**new_cases** : Novos casos confirmados de COVID-19

**total_deaths** : Total de mortes atribuídas a COVID-19

**new_deaths** : Novas mortes atribuídas a COVID-19

**total_deaths_per_million** :	Total de mortes atribuídas a COVID-19 por 1.000.000 de pessoas


Um passo muito importante é realizar uma análise exploratória em nosso dataset, afinal, precisamos saber com o que estamos lidando.

Desta forma, irei visualizar o corpo do dataset

In [3]:
#Visualizando o tamanho do dataset
df.shape

(78245, 59)

Podemos perceber que, até a data de hoje, 28-03-2021, nosso dataset possui 77954 linhas e 59 colunas. 

Como é um conjunto de dados que esta sempre atualizando, nos próximos dias a quantidade de linhas estará maior.

Agora, vamos chegar os nomes das colunas presentes, ou seja, o cabeçalho.

In [4]:
#Conhecendo as colunas do Dataset
df.columns

Index(['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases',
       'new_cases_smoothed', 'total_deaths', 'new_deaths',
       'new_deaths_smoothed', 'total_cases_per_million',
       'new_cases_per_million', 'new_cases_smoothed_per_million',
       'total_deaths_per_million', 'new_deaths_per_million',
       'new_deaths_smoothed_per_million', 'reproduction_rate', 'icu_patients',
       'icu_patients_per_million', 'hosp_patients',
       'hosp_patients_per_million', 'weekly_icu_admissions',
       'weekly_icu_admissions_per_million', 'weekly_hosp_admissions',
       'weekly_hosp_admissions_per_million', 'new_tests', 'total_tests',
       'total_tests_per_thousand', 'new_tests_per_thousand',
       'new_tests_smoothed', 'new_tests_smoothed_per_thousand',
       'positive_rate', 'tests_per_case', 'tests_units', 'total_vaccinations',
       'people_vaccinated', 'people_fully_vaccinated', 'new_vaccinations',
       'new_vaccinations_smoothed', 'total_vaccinations_per_hun

Outra informação importante é saber como estão salvos os tipos dos dados. Esta informação possui muita relevãncia pois, em alguns cenários será necessário fazer uma alteração do type do dado.

In [5]:
#Visualizando os tipos dos dados
df.dtypes

iso_code                                  object
continent                                 object
location                                  object
date                                      object
total_cases                              float64
new_cases                                float64
new_cases_smoothed                       float64
total_deaths                             float64
new_deaths                               float64
new_deaths_smoothed                      float64
total_cases_per_million                  float64
new_cases_per_million                    float64
new_cases_smoothed_per_million           float64
total_deaths_per_million                 float64
new_deaths_per_million                   float64
new_deaths_smoothed_per_million          float64
reproduction_rate                        float64
icu_patients                             float64
icu_patients_per_million                 float64
hosp_patients                            float64
hosp_patients_per_mi

Não é segredo para ninguém que as informações do covid podem estar falhas e ausentes, então nada mais correto que fazermos um check para entendermos quais colunas possuem uma quantidade significativa de dados ausentes

In [6]:
# utilizando uma matemática simples, e ordenando do maior para o menor, percebmos quais colunas possuem maior ausência de informações
(df.isnull().sum()/df.shape[0]).sort_values(ascending = False)

weekly_icu_admissions                    0.990888
weekly_icu_admissions_per_million        0.990888
weekly_hosp_admissions                   0.983219
weekly_hosp_admissions_per_million       0.983219
people_fully_vaccinated                  0.954949
people_fully_vaccinated_per_hundred      0.954949
new_vaccinations                         0.937006
people_vaccinated                        0.933235
people_vaccinated_per_hundred            0.933235
total_vaccinations                       0.926040
total_vaccinations_per_hundred           0.926040
icu_patients_per_million                 0.895981
icu_patients                             0.895981
new_vaccinations_smoothed_per_million    0.885271
new_vaccinations_smoothed                0.885271
hosp_patients                            0.875391
hosp_patients_per_million                0.875391
total_tests                              0.543958
total_tests_per_thousand                 0.543958
new_tests                                0.541006


Mencionamos anteriormente, é bem comum precisarmos alterar os tipos de dados, pois podem ter sidos salvos em um formato inadequado. Não foi diferente com este dataset, o dado que informa a data consta como object, sendo assim precisamos convertê-lo para data.

In [7]:
#Transformando a coluna que estava em object em date
df.date = pd.to_datetime(df.date)

## Quais são os cinco países que possuem mais casos de covid?

A primeira pergunta que precisei responder foi esta, sendo assim, primeiramente necessitei filtrar quais dados eu iria utilizar. Usando o comando loc, filtrei primeiramente a data mais recente ao dia de hoje, 28-03-2021, ordenando o total de casos do maior para o menor.

Porém eu havia notado que existia a informação do total do mundo e dos continentes, também. Desta forma, o método que utilizei para fazer o tratamento foi limpar as linhas onde a coluna **'continent'** fosse NaN. Após feito essa trativa, um simples head() me mostraria quais são os cinco países que possuem mais casos de Covid, e infelizmente nosso país é hoje o segundo colocado.

In [8]:
#loc para filtrar a data mais recente, sort_values para ordenar do maior para o menor
#dropna para retirar os NaN da coluna continent, com o axis=0 para tirar todas as linhas.

df_total_cases = df.loc[df.date == '2021-03-28'].sort_values(by='total_cases', ascending = False)
df_total_cases.dropna(subset =['continent'], axis=0, inplace=True)
df_total_cases = df_total_cases[['location', 'total_cases']]
df_total_cases.head()


Unnamed: 0,location,total_cases
74600,United States,30262377.0
10418,Brazil,12534688.0
32527,India,12039644.0
25985,France,4606185.0
58352,Russia,4469327.0


In [9]:
#Salvando os dados em um DataFrame isolado e exportando via CSV.
df1 = df_total_cases.head()
df1.to_csv("top5_paises_casos.csv")


## Quais são os cinco países que possuem mais mortes por covid?

A nossa segunda pergunta a ser respondida é: qual são os cinco países com maior número de mortes por covid-19. Seguindo o mesmo exemplo de anteriormente, utilizei o comando loc para filtrar a data mais recente ao dia de hoje, em seguida ordenando do maior para o menor através do sort_values. Mantendo o padrão de exclusão dos continentes e do valor Wolrd.

Novamente nosso países figura a segunda colocação em um número ainda mais triste, o número de mortes. 

In [10]:
#loc para filtrar a data mais recente, sort_values para ordenar do maior para o menor
#dropna para retirar os NaN da coluna continent, com o axis=0 para tirar todas as linhas.

df_total_deaths = df.loc[df.date == '2021-03-28'].sort_values(by='total_deaths', ascending = False)
df_total_deaths.dropna(subset =['continent'], axis=0, inplace=True)
df_total_deaths = df_total_deaths[['location', 'total_deaths']]
df_total_deaths.head()

Unnamed: 0,location,total_deaths
74600,United States,549419.0
10418,Brazil,312206.0
45845,Mexico,201623.0
32527,India,161843.0
74167,United Kingdom,126834.0


In [11]:
#Salvando os dados em um DataFrame isolado e exportando via CSV.

df2 = df_total_deaths.head()
df2.to_csv("maiores_numeros_de_morte.csv")

## É possível visualizarmos alguma subnotificação apenas com estes dados?

Nossa próxima questão é um pouco mais complexa, é saber se existe subnotificação visível apenas neste dataset. Para fazer essa checagem eu utilizei um padrão, total de mortes e total de casos. Minha razão para fazer esta checagem por estes dados é buscar discrepâncias quanto a diferença de números. 

Logo na terceira linha conseguimos ver um exemplo claríssimo de subnotificação. O México figura no top 3 em total de mortes, porém sequer entraria num top 10 em números de casos. Entendendo que a mortalidade do covid-19 figura entre 2-4%, é bem perceptível que não estão realizando testes com toda a população da mesma forma que realizam com os que morrem com sintomas.

In [12]:
#loc para filtrar a data mais recente, sort_values para ordenar do maior para o menor
#dropna para retirar os NaN da coluna continent, com o axis=0 para tirar todas as linhas.
#Ordenei pelo número de mortes pois era onde eu acreditava que estariam as maiores discrepâncias.

df_subnotification = df.loc[df.date == '2021-03-28'].sort_values(by = 'total_deaths', ascending = False)
df_subnotification = df_subnotification.dropna(subset=['continent'], axis=0)
df_subnotification = df_subnotification[['location', 'total_cases', 'total_deaths']]
df_subnotification.head(15)

Unnamed: 0,location,total_cases,total_deaths
74600,United States,30262377.0,549419.0
10418,Brazil,12534688.0,312206.0
45845,Mexico,2226550.0,201623.0
32527,India,12039644.0,161843.0
74167,United Kingdom,4347013.0,126834.0
35435,Italy,3532057.0,107933.0
58352,Russia,4469327.0,96123.0
25985,France,4606185.0,94754.0
27570,Germany,2784652.0,75959.0
66551,Spain,3255324.0,75010.0


In [13]:
#Salvando os dados em um DataFrame isolado e exportando via CSV.


df3 = df_subnotification.head(15)
df3.to_csv("df_subnotificacao.csv")

## Quais são os top 20 países com mais mortes por milhão de habitantes?

Certo dia no supermercado com meu pai, comentei que o Brasil deveria ser um dos primeiros em número de mortes por milhão de habitantes, meu pai disse que o Brasil estava na posição 26, naquela data. Eu logo questionei e disse que provávelmente ele viu isso de alguma fonte errônea. 

Este diálogo com meu pai foi há 1 mês mais ou menos, e nas últimas semanas o Brasil vive seu pior momento em números de mortes. Quando resolvi realizar a checagem dos dados, notei que realmente a afirmação do Brasil, um mês atrás figurar no top 26, fazia sentido, é, meu velho estava certo.

Neste caso mantive o padrão quanto aos filtros, apenas preferi resetar o index para poder visualizar melhor os países por colocação de forma mais simples.

In [14]:
#loc para filtrar a data mais recente, sort_values para ordenar do maior para o menor
#dropna para retirar os NaN da coluna continent, com o axis=0 para tirar todas as linhas.
#Reset_Index para olhar os países como se fosse um ranking
#Head para ver os 20 primeiros

df_total_deaths_per_million = df.loc[df.date == '2021-03-28'].sort_values(by='total_deaths_per_million', ascending = False)
df_total_deaths_per_million.dropna(subset =['continent'], axis=0, inplace=True)
df_total_deaths_per_million = df_total_deaths_per_million[['location', 'total_deaths_per_million']]
df_total_deaths_per_million = df_total_deaths_per_million.reset_index()
df_total_deaths_per_million[['location', 'total_deaths_per_million']].head(20)


Unnamed: 0,location,total_deaths_per_million
0,San Marino,2475.102
1,Czechia,2416.103
2,Hungary,2067.42
3,Montenegro,1982.288
4,Belgium,1975.648
5,Slovenia,1932.723
6,Bosnia and Herzegovina,1895.87
7,United Kingdom,1868.338
8,Bulgaria,1829.186
9,Italy,1785.143


In [15]:
#Salvando os dados em um DataFrame isolado e exportando via CSV.


df4 = df_total_deaths_per_million[['location', 'total_deaths_per_million']].head(20)
df4.to_csv("total_death_per_milion.csv")


## Comparando a evolução de novas mortes por dia entre os três maiores países da America do Sul.

Um exercício que me propus a fazer é entender como esta comportando as evoluções de mortes por dia, nos maiores países da America do Sul. Minha ideia era entender se realmente somos esse desastre todo no controle da Covid, e a resposta é que sim.

É extremamente perceptível nossa curva de evolução de casos. Apesar da curva do Uruguai estar bem próxima, os números de mortes são brutalmente menores, e o Uruguai aparenta estar no pico da sua segunda onda. Comparando com a Argentina tomamos goleada, a Argentina se mostra extremamente controlada quanto ao avanço do número de mortes por Covid-19, enquanto o Brasil bate recorde de mortes semana pós semana.

## Comparando a evolução de novos casos por dia entre os três maiores países da America do Sul.

Nesta comparação resolvi analisar como são os picos de cada país. Algo que percebi é que, o Brasil teve um aumento do número de casos por dia em Outubro, e deste então este número não para de subir, ou seja, quase 6 meses em uma crescente. Em contrapartida Uruguai possui um pico referente aos últimos 30 dias, e a Argentina segue um padrão semelhante.

Com isso podemos notar como faz diferença uma gestão de controle da Pandemia, onde nosso país, extremamente mal gerido nesta fase, tem um total descontrole em números de casos, o que apenas reflete o caos que hoje vivemos com o nosso sistema de saúde em caos, com quase todos os estados em Onda Vermelha.

In [16]:
#isolando Datasets por países
df_brazil = df.loc[df.location == 'Brazil']
df_argentina = df.loc[df.location == 'Argentina']
df_uruguai = df.loc[df.location == 'Uruguay']


In [17]:
#exportando Datasets por CSV

df_brazil.to_csv("df_brazil.csv")
df_argentina.to_csv("df_argentina.csv")
df_uruguai.to_csv("df_uruguai.csv")