<a href="https://colab.research.google.com/github/FlaviaSantos1804/covid19-brasil/blob/master/Covid19_no_Brasil.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise da pandemia de Covid-19 no Brasil 
Após o 1º caso confirmado em 26/02/2020 no estado paulista, o país vem sofrendo com graves consequências tanto econômicas, quanto sociais. Hospitais e cemitérios vivem cenas aterrorizantes, muitas vidas foram perdidas. Resta saber quando o normal voltará depois de um longo período de isolamento social.




+ Este notebook tem como finalidade acompanhar a evolução da pandemia no país, explorando datasets fornecidos pelo Ministério da Saúde regularmente, os quais são tratados por Raphael Fontes e disponibilizados na kaggle no seguinte endereço: https://www.kaggle.com/unanimad/corona-virus-brazil.
Esta análise não possui ligações com organizações, sendo apenas um pequeno projeto pessoal que permite implementar conhecimentos adquiridos tanto em python, quanto em data science.


## 1. Importando as bibliotecas 


In [6]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

## 2. Atribuindo o carregamento do dataset em csv à uma variável

#### A variável se chama dados e este dataset não apresenta dados à respeito de cidades, apenas de estados e regiões.

In [None]:
dados = pd.read_csv('covid19brasil.csv')
dados

Unnamed: 0,date,region,state,cases,deaths
0,2020-02-25,Centro-Oeste,DF,0,0
1,2020-02-25,Centro-Oeste,GO,0,0
2,2020-02-25,Centro-Oeste,MS,0,0
3,2020-02-25,Centro-Oeste,MT,0,0
4,2020-02-25,Nordeste,AL,0,0
...,...,...,...,...,...
3073,2020-06-17,Sudeste,RJ,86963,8138
3074,2020-06-17,Sudeste,SP,191517,11521
3075,2020-06-17,Sul,PR,11085,386
3076,2020-06-17,Sul,RS,17128,387


## 3. Explorando o dataset

### 3.1 Visualizando as 10 primeiras linhas

In [None]:
dados.head(10)

Unnamed: 0,date,region,state,cases,deaths
0,2020-02-25,Centro-Oeste,DF,0,0
1,2020-02-25,Centro-Oeste,GO,0,0
2,2020-02-25,Centro-Oeste,MS,0,0
3,2020-02-25,Centro-Oeste,MT,0,0
4,2020-02-25,Nordeste,AL,0,0
5,2020-02-25,Nordeste,BA,0,0
6,2020-02-25,Nordeste,CE,0,0
7,2020-02-25,Nordeste,MA,0,0
8,2020-02-25,Nordeste,PB,0,0
9,2020-02-25,Nordeste,PE,0,0


### 3.2 Alterando os nomes das colunas

In [None]:
alteracoes = {

'date':'data',
'region':'regiao',
'state':'uf',
'cases':'casos',
'deaths':'obitos'
    
}

In [None]:
dados.rename(columns=alteracoes,inplace=True)

In [None]:
# Visualizando 3 linhas aleatórias.

dados.sample(3)  

Unnamed: 0,data,regiao,uf,casos,obitos
573,2020-03-17,Nordeste,CE,5,0
379,2020-03-10,Centro-Oeste,GO,0,0
2603,2020-05-31,Nordeste,RN,7402,305


### 3.3 Modificando o formato da coluna data

In [None]:
# O formato da coluna data está como objeto, ou seja, string. 

dados.dtypes

data      object
regiao    object
uf        object
casos      int64
obitos     int64
dtype: object

In [None]:
# Agora, o formato da coluna data será datetime.

from datetime import datetime
dados['data']=pd.to_datetime(dados['data'],format='%Y-%m-%d')




In [None]:
# Verificando o formato das colunas.

dados.dtypes

data      datetime64[ns]
regiao            object
uf                object
casos              int64
obitos             int64
dtype: object

### 3.4 Verificando o tamanho do dataset






In [None]:
linhas = dados.shape[0]
colunas = dados.shape[1]

print(f'O dataframe possui {linhas} linhas e {colunas} colunas')

O dataframe possui 3078 linhas e 5 colunas


### 3.5 Conferindo a presença de valores nulos

In [None]:
verificando_nulos = dados.isnull()
verificando_nulos

In [None]:
lista=[]
for item in verificando_nulos.iterrows():
  for tf in item[-1]:
      if(tf==True):
        lista.append(tf) 
        dados.dropna(inplace=True)             
print("Total de valores nulos removidos do dataframe: {}".format(len(lista)))
print("O dataframe possui {} linhas atualizadas".format(dados.shape[0]))


Total de valores nulos removidos do dataframe: 0
O dataframe possui 3078 linhas atualizadas


### 3.6 Examinando algumas medidas

In [None]:
# Todos as unidades federativas presentes. 

for uf in dados['uf'].unique():
  print(uf)

In [None]:
# Quantidade de vezes que cada uf aparece.

dados['uf'].value_counts()

### 3.7 Removendo duplicatas do dataframe

In [None]:
# Caso existam linhas duplicadas, elas serão removidas.

dados.drop_duplicates(inplace=True)

In [None]:
dados

Unnamed: 0,data,regiao,uf,casos,obitos
0,2020-02-25 00:00:00,Centro-Oeste,DF,0,0
1,2020-02-25 00:00:00,Centro-Oeste,GO,0,0
2,2020-02-25 00:00:00,Centro-Oeste,MS,0,0
3,2020-02-25 00:00:00,Centro-Oeste,MT,0,0
4,2020-02-25 00:00:00,Nordeste,AL,0,0
...,...,...,...,...,...
3073,2020-06-17 00:00:00,Sudeste,RJ,86963,8138
3074,2020-06-17 00:00:00,Sudeste,SP,191517,11521
3075,2020-06-17 00:00:00,Sul,PR,11085,386
3076,2020-06-17 00:00:00,Sul,RS,17128,387
