<a href="https://colab.research.google.com/github/Pedro-Henrique8899-eng/covid-19-data/blob/master/analisando_casos_de_covid.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Obtenção de Dados

A coleta de dados para análises tem sido um desafio e tanto durante o período pandêmico, uma vez que, as fontes para obtenção de dados são as mais variadas. Temos os dados disponiblizados pelo governo federal, imprensa, pelos estados e os dados não oficiais.

Analisar uma doença nova já é um desafio gigantesco, em um país como o Brasil onde não se tem uma cultura de dados esse desafio se torna ainda maior.

## Dicionário de Variáveis

* ...iso_code - Código
* ...continent - Continente
* ...location - localização
* ...date - data
* ...total_cases - total de casos
* ...new_cases - novos casos
* ...total_deaths - total de mortes
* ...new_deaths - novas mortes
* ...total_cases_per_million - total de casos por milhão
* ...new_cases_per_million - novos casos por milhão
* ...total_deaths_per_million - total de mortes por milhão
* ...total_tests - total de testes
* ...new_tests - novos testes
* ...total_tests_per_thousand - total de testes por mil habitantes
* ...new_tests_per_thousand - novos testes por mil
* ...new_tests_smoothed - novos testes suavizados
* ...new_tests_smoothed_per_thousand - novos testes suavizados por mil 
* ...tests_units - unidades de teste
* ...stringency_index - índice de rigor
* ...population - população
* ...population_density - densidade populacional
* ...median_age - idade média
* ...aged_65_older - com 65 anos de idade
* ...aged_70_older - com 70 anos de idade
* ...gdp_per_capita - PIB per capita
* ...extreme_poverty - pobreza extrema
* ...cvd_death_rate - taxa de mortalidade
* ...diabetes_prevalence - prevalência de diabetes
* ...female_smokers - fumantes femininas
* ...male_smokers - fumantes masculinos
* ...handwashing_facilities - instalações de lavagens das mãos
* ...hospital_beds_per_thousand - leitos de hospital por mil habitantes

## Importando os dados do Covid-19

*  Os dados utilizados nesta análise foram obtidos em (https://raw.githubusercontent.com/Pedro-Henrique8899-eng/data_science_sigmoidal/main/owid-covid-data.csv). Utilizaremos o formato `csv` desse arquivo.



*  A variável `df` irá receber o endereço do arquivo

   df = pd.read_csv('Endereço_do_arquivo.csv')

In [2]:
# importando as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [4]:
# importando o Dataset da Covid-19 para um DataFrame
df = pd.read_csv('https://raw.githubusercontent.com/Pedro-Henrique8899-eng/data_science_sigmoidal/main/owid-covid-data.csv')


## Análise Exploratória de Dados

A etapa de análise exploratória dos dados é uma etapa extremamente importante, pois será através dela que vamos obter informações referentes aos dados que estamos trabalhando e como eles estão estruturados.


## Análise Exploratória inicial

De início, faremos uma breve exploração dos dados afim de verificar algumas informações relevantes para que possamos prosseguir para uma análise um pouco mais detalhada.

In [13]:
# verificando as primeiras 5 entradas do DataFrame
print('Quantidade de linhas: {}' .format(df.shape[0]))
print('Quantidade de colunas: {}'.format(df.shape[1]))

Quantidade de linhas: 75558
Quantidade de colunas: 59


Acima podemos observar que o nosso dataset possui 75558 linhas e 59 colunas.

In [23]:
# verificando as primeiras 5 entradas
df.head() 

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,total_cases_per_million,new_cases_per_million,new_cases_smoothed_per_million,total_deaths_per_million,new_deaths_per_million,new_deaths_smoothed_per_million,reproduction_rate,icu_patients,icu_patients_per_million,hosp_patients,hosp_patients_per_million,weekly_icu_admissions,weekly_icu_admissions_per_million,weekly_hosp_admissions,weekly_hosp_admissions_per_million,new_tests,total_tests,total_tests_per_thousand,new_tests_per_thousand,new_tests_smoothed,new_tests_smoothed_per_thousand,positive_rate,tests_per_case,tests_units,total_vaccinations,people_vaccinated,people_fully_vaccinated,new_vaccinations,new_vaccinations_smoothed,total_vaccinations_per_hundred,people_vaccinated_per_hundred,people_fully_vaccinated_per_hundred,new_vaccinations_smoothed_per_million,stringency_index,population,population_density,median_age,aged_65_older,aged_70_older,gdp_per_capita,extreme_poverty,cardiovasc_death_rate,diabetes_prevalence,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index
0,AFG,Asia,Afghanistan,2020-02-24,1.0,1.0,,,,,0.026,0.026,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,8.33,38928341.0,54.422,18.6,2.581,1.337,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
1,AFG,Asia,Afghanistan,2020-02-25,1.0,0.0,,,,,0.026,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,8.33,38928341.0,54.422,18.6,2.581,1.337,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
2,AFG,Asia,Afghanistan,2020-02-26,1.0,0.0,,,,,0.026,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,8.33,38928341.0,54.422,18.6,2.581,1.337,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
3,AFG,Asia,Afghanistan,2020-02-27,1.0,0.0,,,,,0.026,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,8.33,38928341.0,54.422,18.6,2.581,1.337,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
4,AFG,Asia,Afghanistan,2020-02-28,1.0,0.0,,,,,0.026,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,8.33,38928341.0,54.422,18.6,2.581,1.337,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511


In [26]:
# verificando o nome das colunas
df.columns

Index(['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases',
       'new_cases_smoothed', 'total_deaths', 'new_deaths',
       'new_deaths_smoothed', 'total_cases_per_million',
       'new_cases_per_million', 'new_cases_smoothed_per_million',
       'total_deaths_per_million', 'new_deaths_per_million',
       'new_deaths_smoothed_per_million', 'reproduction_rate', 'icu_patients',
       'icu_patients_per_million', 'hosp_patients',
       'hosp_patients_per_million', 'weekly_icu_admissions',
       'weekly_icu_admissions_per_million', 'weekly_hosp_admissions',
       'weekly_hosp_admissions_per_million', 'new_tests', 'total_tests',
       'total_tests_per_thousand', 'new_tests_per_thousand',
       'new_tests_smoothed', 'new_tests_smoothed_per_thousand',
       'positive_rate', 'tests_per_case', 'tests_units', 'total_vaccinations',
       'people_vaccinated', 'people_fully_vaccinated', 'new_vaccinations',
       'new_vaccinations_smoothed', 'total_vaccinations_per_hun

Podemos verificar todos os nomes de cada uma das colunas do nosso DataFrame.

A variável date é dada como um objeto do tipo string. Com isso, vamos transformá-la em um objeto do tipo datetime.

In [46]:
# transformando a variável date em um objeto do tipo datetime
df['date'] = pd.to_datetime(df.date)

In [47]:
# verificando os tipos das variáveis
df.dtypes

iso_code                                         object
continent                                        object
location                                         object
date                                     datetime64[ns]
total_cases                                     float64
new_cases                                       float64
new_cases_smoothed                              float64
total_deaths                                    float64
new_deaths                                      float64
new_deaths_smoothed                             float64
total_cases_per_million                         float64
new_cases_per_million                           float64
new_cases_smoothed_per_million                  float64
total_deaths_per_million                        float64
new_deaths_per_million                          float64
new_deaths_smoothed_per_million                 float64
reproduction_rate                               float64
icu_patients                                    

É importante que verifiquemos a porcentagem de valores nulos em cada uma das colunas do nosso Quadro de Dados. Faremos isso na ordem decrescente.

In [50]:
# verificando a porcentagem de valores nulos em cada coluna
(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)

weekly_icu_admissions                    0.990961
weekly_icu_admissions_per_million        0.990961
weekly_hosp_admissions                   0.983311
weekly_hosp_admissions_per_million       0.983311
people_fully_vaccinated                  0.962585
people_fully_vaccinated_per_hundred      0.962585
new_vaccinations                         0.946690
people_vaccinated                        0.943950
people_vaccinated_per_hundred            0.943950
total_vaccinations                       0.937558
total_vaccinations_per_hundred           0.937558
new_vaccinations_smoothed                0.906350
new_vaccinations_smoothed_per_million    0.906350
icu_patients                             0.897311
icu_patients_per_million                 0.897311
hosp_patients                            0.876426
hosp_patients_per_million                0.876426
total_tests                              0.550742
total_tests_per_thousand                 0.550742
new_tests                                0.547831
