<img alt="Colaboratory logo" width="100%" src="https://raw.githubusercontent.com/EricRaniere/Projetos-Estudos/main/Banner.jpg">

# Uma análise sobre COVID-19 no Brasil

A COVID-19 é a doença infecciosa causada pelo novo coronavírus, identificado pela primeira vez em dezembro de 2019, em Wuhan, na China.

As evidências disponíveis atualmente apontam que o vírus causador da COVID-19 pode se espalhar por meio do contato direto, indireto (através de superfícies ou objetos contaminados) ou próximo (na faixa de um metro) com pessoas infectadas através de secreções como saliva e secreções respiratórias ou de suas gotículas respiratórias, que são expelidas quando uma pessoa tosse, espirra, fala ou canta. As pessoas que estão em contato próximo (a menos de 1 metro) com uma pessoa infectada podem pegar a COVID-19 quando essas gotículas infecciosas entrarem na sua boca, nariz ou olhos.

A COVID-19 é uma doença infecciosa causada pelo novo coronavírus (SARS-CoV-2) e tem como principais sintomas febre, cansaço e tosse seca. Alguns pacientes podem apresentar dores, congestão nasal, dor de cabeça, conjuntivite, dor de garganta, diarreia, perda de paladar ou olfato, erupção cutânea na pele ou descoloração dos dedos das mãos ou dos pés. Esses sintomas geralmente são leves e começam gradualmente. Algumas pessoas são infectadas, mas apresentam apenas sintomas muito leves.

<img alt="Colaboratory" width="100%" src="https://raw.githubusercontent.com/EricRaniere/DataScienceNaPratica/main/AnaliseCovid/covidimage.jpg">

A maioria das pessoas (cerca de 80%) se recupera da doença sem precisar de tratamento hospitalar. Uma em cada seis pessoas infectadas por COVID-19 fica gravemente doente e desenvolve dificuldade de respirar. As pessoas idosas e as que têm outras condições de saúde como pressão alta, problemas cardíacos e do pulmão, diabetes ou câncer, têm maior risco de ficarem gravemente doentes. No entanto, qualquer pessoa pode pegar a COVID-19 e ficar gravemente doente.

Com o objetivo de elevar a consciência situacional a respeito do COVID-19 no Brasil, irei realizar uma análise sobre os dados públicos da doença.

## Obtenção dos Dados

*Para realizar essa análise será utilizado a base de dados do Our World in Data, que possui um repositório completo e confiável sobre COVID-19 no GitHub.*

*Como ainda estamos enfrentando a pandemia qualquer conclusão ou análise não poderá ser definitiva. Com a doença ainda em curso somente em um horizonte maior de tempo poderemos analisar todos os seus efeitos.*

### Dicionário de Variáveis
* *Construa um dicionário de variáveis.*
    * *A descrição do nome de cada coluna pode ser encontrada [neste link](https://github.com/owid/covid-19-data/blob/master/public/data/owid-covid-data-codebook.md).*

### Importando os dados do COVID-19

* Você deve entrar no site [https://github.com/owid/covid-19-data/tree/master/public/data](https://github.com/owid/covid-19-data/tree/master/public/data) e conhecer a base dados. Usaremos o formato `csv` neste projeto.
    * Caso encontre algum problema em baixar diretamente do repositório oficial, você pode usar [este meu link](https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/owid-covid-data.csv) (atualizado até 14 de junho de 2020).
* *Importe os dados do `csv` para a variável `df`.*
    * *`pd.read_csv("endereco_do_arquivo.csv")`*

In [None]:
# importar as bibliotecas necessárias
import pandas as pd

In [None]:
# importar o dataset COVID-19 para um DataaFrame
df = pd.read_csv('https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/owid-covid-data.csv')

In [None]:
df.describe()

Unnamed: 0,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,total_cases_per_million,new_cases_per_million,new_cases_smoothed_per_million,total_deaths_per_million,new_deaths_per_million,new_deaths_smoothed_per_million,reproduction_rate,icu_patients,icu_patients_per_million,hosp_patients,hosp_patients_per_million,weekly_icu_admissions,weekly_icu_admissions_per_million,weekly_hosp_admissions,weekly_hosp_admissions_per_million,new_tests,total_tests,total_tests_per_thousand,new_tests_per_thousand,new_tests_smoothed,new_tests_smoothed_per_thousand,positive_rate,tests_per_case,total_vaccinations,people_vaccinated,people_fully_vaccinated,total_boosters,new_vaccinations,new_vaccinations_smoothed,total_vaccinations_per_hundred,people_vaccinated_per_hundred,people_fully_vaccinated_per_hundred,total_boosters_per_hundred,new_vaccinations_smoothed_per_million,stringency_index,population,population_density,median_age,aged_65_older,aged_70_older,gdp_per_capita,extreme_poverty,cardiovasc_death_rate,diabetes_prevalence,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
count,123547.0,123545.0,122502.0,112502.0,112698.0,122502.0,122912.0,122910.0,121872.0,111880.0,112076.0,121872.0,103316.0,15619.0,15619.0,18310.0,18310.0,1262.0,1262.0,2186.0,2186.0,54508.0,54699.0,54699.0,54508.0,65945.0,65945.0,61972.0,61316.0,32339.0,30847.0,27820.0,5353.0,26969.0,57375.0,32339.0,30847.0,27820.0,5353.0,57375.0,106737.0,129676.0,118248.0,112730.0,111482.0,112114.0,113459.0,75896.0,112985.0,116659.0,88023.0,86749.0,56858.0,102686.0,121411.0,113078.0,4580.0,4580.0,4580.0,4580.0
mean,1993874.0,8325.824752,8354.281304,49574.09,184.453034,169.027681,19161.451466,85.103623,85.170643,394.851076,1.573964,1.438331,0.999696,897.390998,22.097093,4029.439104,154.067142,214.013781,16.363102,2975.236923,80.763865,56475.72,11600520.0,494.662241,2.519829,52657.14,2.399795,0.086487,159.830328,102915500.0,56088400.0,37900220.0,2388777.0,1043237.0,501544.4,49.367412,28.757302,22.372959,2.441199,3436.251312,56.479635,158514500.0,398.277123,30.502665,8.746613,5.533611,19233.28199,13.500754,259.932665,8.036324,10.59116,32.746564,50.87412,3.030145,73.257895,0.726273,30724.468472,8.455262,15.6589,755.471243
std,11404010.0,43496.028089,43032.176985,254670.3,874.02518,820.126987,31981.956175,196.268669,166.215454,653.541611,4.097878,3.079878,0.342337,2828.467372,24.373546,11243.198345,208.060569,494.95227,31.40285,10323.874028,136.063638,195016.6,48439860.0,1205.434822,6.617384,175294.2,5.673908,0.095893,841.823266,485120900.0,268762600.0,193236500.0,6893225.0,4068645.0,2767935.0,49.020672,25.723324,23.297924,6.395711,4190.073553,20.649502,731646600.0,1857.217459,9.116014,6.184263,4.21709,20054.595532,19.989318,119.824646,4.307155,10.503238,13.51066,31.822876,2.456188,7.532961,0.150052,86337.136808,15.822375,31.093173,1139.369805
min,1.0,-74347.0,-6223.0,1.0,-1918.0,-232.143,0.001,-3125.829,-272.971,0.0,-75.911,-10.844,-0.02,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,47.0,0.137,15.1,1.144,0.526,661.24,0.1,79.37,0.99,0.1,7.7,1.188,0.1,53.28,0.394,-31959.4,-27.35,-95.92,-1749.128494
25%,2315.0,3.0,10.286,78.0,0.0,0.143,396.0215,0.335,1.649,11.541,0.0,0.003,0.83,25.0,3.846,104.0,21.687,5.091,1.431,43.085,9.63825,2098.0,250664.5,21.8115,0.187,2250.0,0.207,0.016,8.0,343239.0,252629.5,143834.8,129.0,6192.0,1036.5,5.93,4.39,2.5,0.0,574.0,42.59,2078723.0,36.253,22.2,3.466,2.063,4449.898,0.6,168.711,5.31,1.9,21.6,20.859,1.3,67.92,0.602,-186.075,-1.09,-0.99,-46.8954
50%,26064.0,104.0,129.571,719.0,2.0,2.0,3058.347,11.2605,15.757,76.9295,0.164,0.206,1.01,125.0,12.887,516.5,69.6525,25.8565,5.448,250.761,32.772,7641.5,1262217.0,111.44,0.753,8157.0,0.826,0.05,19.5,2596711.0,1784722.0,1142124.0,38212.0,37556.0,8406.0,32.28,21.83,12.9,0.04,2200.0,57.41,9749625.0,83.479,29.7,6.378,3.871,12951.839,2.2,243.811,7.11,6.3,31.4,49.839,2.4,74.62,0.744,1992.15,5.03,6.275,345.233709
75%,257350.5,1069.0,1125.0,6371.0,22.0,18.429,24007.06625,82.52375,92.02725,501.6535,1.381,1.387,1.17,533.0,33.523,2435.75,199.972,150.8335,16.61625,1206.8665,102.7565,29509.5,5162169.0,454.2205,2.32225,31725.0,2.385,0.124,57.8,15742220.0,9662620.0,6816216.0,1119859.0,237984.0,60851.5,84.945,50.85,39.0725,1.12,4992.5,72.22,37344790.0,209.588,39.1,14.178,8.678,27216.445,21.2,329.942,10.08,19.3,41.3,83.241,4.0,78.74,0.845,19256.7,13.44,21.7425,1304.780877
max,247574300.0,905975.0,826467.571,5013591.0,18007.0,14703.286,231372.93,8620.69,3385.473,6003.582,203.513,94.804,5.92,28891.0,192.269,133268.0,1544.082,4002.456,279.224,116243.0,1361.145,3740296.0,621566200.0,16542.056,325.76,3080396.0,90.037,0.97,50000.0,7127910000.0,3914788000.0,3068814000.0,85758180.0,56342560.0,43232260.0,266.07,120.46,118.17,45.14,117497.0,100.0,7874966000.0,20546.766,48.2,27.049,18.493,116935.6,77.6,724.417,30.53,44.0,78.1,100.0,13.8,86.75,0.957,754457.3,106.83,373.48,6142.92247


## Análise Exploratória dos Dados

*Crie uma breve contextualização sobre o que será feito na fase de Análise Exploratória de Dados...*

...

...

### Análise Exploratória Inicial

* *Visualizar as 5 primeiras entradas*
    * `df.head()`
* *Qual o tamanho do seu DataFrame*
    * `df.shape`
* *Extrair e imprimir os nomes das colunas*
    * `df.columns`
* *Quais os tipos das variáveis*
    * `df.dtypes`
* *Identifique a porcentagem de valores ausentes das colunas*
    * `df.isnull().sum() / df.shape[0]` ou
    * `(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)` *para ordem decrescente.*
* *Transforme a coluna `date` no formato `datetime`*
    * `df.date = pd.to_datetime(df.date)`
* *Ver para a data mais atual, quais os países que têm mais casos e mortes. Veja o exemplo:*
    * `df.loc[df.date == '2020-06-14'].sort_values(by="total_cases", ascending=False)`
    * `df.loc[df.date == '2020-06-14'].sort_values(by="total_deaths", ascending=False)`
* Plotar um gráfico de barras para os 5 países com mais mortes
    * `df.loc[df.date == '2020-06-14', ['location', 'total_deaths']].sort_values(by="total_deaths", ascending=False)[1:6]`
    * `ax.bar('location', 'total_deaths', data=top5_total_deaths)`
* Plotar um gráfico de linhas para ver a evolução do total de casos de COVID-19 no mundo.
    * `df.loc[df.location == "World", "total_deaths"].reset_index(drop=True).plot()`
* [OPCIONAL] Plotar um gráfico de dispersão considerando `gdp_per_capita` (ou seja, o PIB dos países) pelo número total de mortos. Pegue a data mais recente apenas.
    * Lembre-se que não é nada conclusivo, pois envolve fatores como proporcão de testes, etc.


Vamos......

### Análise Exploratória para o Brasil

* Criar uma cópia do DataFrame apenas com o Brasil
    * `df_brasil = df.loc[df.location == "Brazil"].copy()`
* Identificar quando foi registrada a primeira morte no Brasil
* Identificar quantos dias demorou para registrarmos a primeira morte, considerando o primeiro caso de COVID-19 registrado.
* Plotar gráficos de linha em escalas linear e logarítmica para os casos totais e mortes totais.

## Conclusão

*Escreva suas conclusões e análises sobre os dados relativos à COVID-19...*