<a href="https://colab.research.google.com/github/adrianadamata/Data_Science_COVID-19/blob/master/COVID_19_no_contexto_do_Brasil.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science na Prática 2.0**
*by [sigmoidal.ai](https://sigmoidal.ai)*  

---
  

# COVID-19 no Brasil

COVID-19 é uma doença causada pelo coronavírus SARS-COV2. Este novo vírus foi identificado na China, após pacientes apresentarem quadro de pneumonia com causa desconhecida. Esses pacientes foram  vinculados a um mercado atacadista de frutos do mar e animais úmidos na China. 

Inicialmente, o grande número de pessoas infectadas na cidade de Wuhan, China, alarmou o mundo devido a seu alto potencial de contágio. Isso ocorre pois pessoas assintomáticas também transmitem o vírus. A doença pode evoluir para quadros severos de pneumonia e causar mortes, principalmente em indivíduos mais vulneráveis ao vírus (estudos a respeito das comorbidades que mais representam risco ao COVID-19 ainda estão em fase de andamento). 

Em Março, a Organização Mundial de Saúde reconheceu o COVID-19 como pandemia e há uma verdadeira confusão a respeito de tratamentos em potencial.

Fato é, não se sabe muita coisa a respeito do COVID-19. Estudos estão sendo realizados no mundo todo, porém os resultados ainda não são conclusivos e definitivos.

<center><img alt="Colaboratory logo" width="50%" src="https://raw.githubusercontent.com/carlosfab/dsnp2/master/img/covid19.jpg"></center>

Até o presente momento, observa-se que cerca de 80% dos casos confirmados são assintomáticos e rápidos. A maioria das pessoas que se encaixam nesse grupo, se recupera sem nenhuma sequela.

No entanto, 15% das pessoas terão infecções graves e precisarão de oxigênio. O restante das pessoas, que representam 5%, serão classificadas como infecções muito graves e precisarão de ventilação assistida, por meio de respiradores mecânicos em ambiente hospitalar.

Com o objetivo de elevar a consciência situacional a respeito do COVID-19 no Brasil, irei realizar uma análise sobre os dados públicos da doença.

## Obtenção dos Dados

Os dados utilizados neste projeto são referentes ao *dataset* da *Our World in Data* disponível no [github](https://github.com/owid/covid-19-data/tree/master/public/data). Tais dados são atualizados diariamente, e possui a descrição das fontes dos dados em cada País. Os créditos deste *dataset* são dos autores responsáveis pela elaboração, como segue: Diana Beltekian, Daniel Gavrilov, Charlie Giattino, Joe Hasell, Bobbie Macdonald, Edouard Mathieu, Esteban Ortiz-Ospina, Hannah Ritchie e Max Roser. 

No Brasil, os dados foram extraídos do Ministério da Saúde, que inclui a quantidade de testes de PCR realizados para COVID-19. Conforme descrição mais recente, esse número refere-se aos testes realizados em laboratórios públicos.

Sabe-se que os protocolos nas unidades de saúde têm restringido o teste a apenas pessoas idosas e com comorbidades, além de profissionais de saúde devidamente registrados. Possivelmente, tal fato decorre de quantidade de testes ineficiente para todos que manifestam sintomas. Desta forma, as unidades tratam o paciente como COVID-19, embora não realize o teste em todos. 

### Importando os dados do COVID-19

* Os dados foram importados em formato ***.csv***, conforme código abaixo:

In [1]:
# importar as bibliotecas necessárias
import pandas as pd



# importar o dataset COVID-19 para um DataaFrame
df = pd.read_csv("https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/owid-covid-data.csv")
df.head()

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,total_deaths,new_deaths,total_cases_per_million,new_cases_per_million,total_deaths_per_million,new_deaths_per_million,total_tests,new_tests,total_tests_per_thousand,new_tests_per_thousand,new_tests_smoothed,new_tests_smoothed_per_thousand,tests_units,stringency_index,population,population_density,median_age,aged_65_older,aged_70_older,gdp_per_capita,extreme_poverty,cvd_death_rate,diabetes_prevalence,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy
0,AFG,Asia,Afghanistan,2019-12-31,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,,38928341.0,54.422,18.6,2.581,1.337,1803.987,,597.029,9.59,,,37.746,0.5,64.83
1,AFG,Asia,Afghanistan,2020-01-01,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,0.0,38928341.0,54.422,18.6,2.581,1.337,1803.987,,597.029,9.59,,,37.746,0.5,64.83
2,AFG,Asia,Afghanistan,2020-01-02,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,0.0,38928341.0,54.422,18.6,2.581,1.337,1803.987,,597.029,9.59,,,37.746,0.5,64.83
3,AFG,Asia,Afghanistan,2020-01-03,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,0.0,38928341.0,54.422,18.6,2.581,1.337,1803.987,,597.029,9.59,,,37.746,0.5,64.83
4,AFG,Asia,Afghanistan,2020-01-04,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,0.0,38928341.0,54.422,18.6,2.581,1.337,1803.987,,597.029,9.59,,,37.746,0.5,64.83


In [2]:
#@title
df.new_tests_smoothed.describe()

count      8969.000000
mean      13690.658602
std       46014.064908
min           0.000000
25%         928.000000
50%        3013.000000
75%        8603.000000
max      636683.000000
Name: new_tests_smoothed, dtype: float64

In [3]:
df.new_tests.describe()

count      7913.000000
mean      14633.983192
std       51099.470008
min       -3743.000000
25%         823.000000
50%        2680.000000
75%        8435.000000
max      721054.000000
Name: new_tests, dtype: float64

### Dicionário de Variáveis
`iso_code`- 3 letras representando o País (conforme o código 	ISO 3166-1 alpha-3);

`continent`- continente referente à localização geográfica;

`location` - localização geográfica;

`date` - data da observação;

`total_cases` - total de casos confirmados de COVID-19;

`new_cases` - novos casos confirmados de COVID-19;

`total_deaths` - total de mortes atribuídas ao COVID-19;

`new_deaths` - novas mortes atribuídas ao COVID-19;

`total_cases_per_million` - total de casos confirmados de COVID-19 por $1.000.000$ de pessoas;

`new_cases_per_million	` - novos casos confirmados de COVID-19 por $1.000.000$ de pessoas;

`total_deaths_per_million` - total de mortes atribuídas ao COVID-19 por $1.000.000$ de pessoas;

`new_deaths_per_million` - novas mortes atribuídas ao COVID-19 por $1.000.000$ de pessoas;

`total_tests` - total de testes para COVID-19;

`new_tests` - novos testes para COVID-19;

`total_tests_per_thousand` -  total de testes de COVID-19 por $1.000$ pessoas;

`new_tests_per_thousand` - novos testes de COVID-19 por $1.000$ pessoas;

`new_tests_smoothed` - dados suavizados de novos testes para COVID-19 (quando necessário em países que não relatam diariamente a quantidade de testes realizados);

`new_tests_smoothed_per_thousand` - dados suavizados de novos testes de COVID-19 por $1.000$ pessoas;

`tests_units` - unidades utilizadas para relatar os dados de teste, em determinado local;

`stringency_index` - Índice de Estresse da Resposta do Governo. Valor dimensionado entre 0  e 100, que abrange 9 indicadores para contenção como fechamento de escolas e proibição de viagens;

`population` - população em 2020;

`population_density` - número de pessoas por ${Km}^²$, no ano mais recente disponível;

`median_age` - idade média da população segundo projeção da ONU para 2020;

`aged_65_older` - Proporção da população com 65 anos ou mais, ano mais recente disponível;

`aged_70_older` - Percentagem da população com 70 anos ou mais em 2015;

`gdp_per_capita` - Produto interno bruto por pessoa; Equivalente ao poder de compra (dólares internacionais constantes de 2011) no último ano disponível;

`extreme_poverty` - Percentagem da população que vive em extrema pobreza, último ano disponível desde 2010;

`cvd_death_rate` - Taxa de mortalidade por doenças cardiovasculares em 2017;

`diabetes_prevalence` - Prevalência de diabetes (% da população entre 20 e 79 anos) em 2017;

`female_smokers` - Percentagem de mulheres que fumam, no último ano disponível;

`male_smokers` - Proporção de homens que fumam, no último ano disponível;

`handwashing_facilities` - Percentagem da população com instalações básicas de lavagem das mãos nas instalações, último ano disponível;

`hospital_beds_per_thousand` - Leitos de hospital por $1.000$ pessoas, último ano disponível desde 2010;

`life_expectancy` - Expectativa de vida no nascimento em 2019;

In [6]:
df.columns

Index(['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases',
       'total_deaths', 'new_deaths', 'total_cases_per_million',
       'new_cases_per_million', 'total_deaths_per_million',
       'new_deaths_per_million', 'total_tests', 'new_tests',
       'total_tests_per_thousand', 'new_tests_per_thousand',
       'new_tests_smoothed', 'new_tests_smoothed_per_thousand', 'tests_units',
       'stringency_index', 'population', 'population_density', 'median_age',
       'aged_65_older', 'aged_70_older', 'gdp_per_capita', 'extreme_poverty',
       'cvd_death_rate', 'diabetes_prevalence', 'female_smokers',
       'male_smokers', 'handwashing_facilities', 'hospital_beds_per_thousand',
       'life_expectancy'],
      dtype='object')

## Análise Exploratória dos Dados

*Crie uma breve contextualização sobre o que será feito na fase de Análise Exploratória de Dados...*

...

...

### Análise Exploratória Inicial

* *Visualizar as 5 primeiras entradas*
    * `df.head()`
* *Qual o tamanho do seu DataFrame*
    * `df.shape`
* *Extrair e imprimir os nomes das colunas*
    * `df.columns`
* *Quais os tipos das variáveis*
    * `df.dtypes`
* *Identifique a porcentagem de valores ausentes das colunas*
    * `df.isnull().sum() / df.shape[0]` ou
    * `(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)` *para ordem decrescente.*
* *Transforme a coluna `date` no formato `datetime`*
    * `df.date = pd.to_datetime(df.date)`
* *Ver para a data mais atual, quais os países que têm mais casos e mortes. Veja o exemplo:*
    * `df.loc[df.date == '2020-06-14'].sort_values(by="total_cases", ascending=False)`
    * `df.loc[df.date == '2020-06-14'].sort_values(by="total_deaths", ascending=False)`
* Plotar um gráfico de barras para os 5 países com mais mortes
    * `df.loc[df.date == '2020-06-14', ['location', 'total_deaths']].sort_values(by="total_deaths", ascending=False)[1:6]`
    * `ax.bar('location', 'total_deaths', data=top5_total_deaths)`
* Plotar um gráfico de linhas para ver a evolução do total de casos de COVID-19 no mundo.
    * `df.loc[df.location == "World", "total_deaths"].reset_index(drop=True).plot()`
* [OPCIONAL] Plotar um gráfico de dispersão considerando `gdp_per_capita` (ou seja, o PIB dos países) pelo número total de mortos. Pegue a data mais recente apenas.
    * Lembre-se que não é nada conclusivo, pois envolve fatores como proporcão de testes, etc.


Vamos......

### Análise Exploratória para o Brasil

* Criar uma cópia do DataFrame apenas com o Brasil
    * `df_brasil = df.loc[df.location == "Brazil"].copy()`
* Identificar quando foi registrada a primeira morte no Brasil
* Identificar quantos dias demorou para registrarmos a primeira morte, considerando o primeiro caso de COVID-19 registrado.
* Plotar gráficos de linha em escalas linear e logarítmica para os casos totais e mortes totais.

## Conclusão

Uma sugestão é que o Ministério da Saúde no Brasil disponibilize os dados referentes a todos os pacientes que são registrados e tratados como COVID-19, inclusive os pacientes que não são testados, já que todos os pacientes suspeitos são devidamente registrados, inclusive por médicos particulares. 