<a href="https://colab.research.google.com/github/FlaviaSantos1804/covid19-brasil/blob/master/Covid19_no_Brasil.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise da pandemia de Covid-19 no Brasil 
Após o 1º caso confirmado em 26/02/2020 no estado paulista, o país vem sofrendo com graves consequências tanto econômicas, quanto sociais. Hospitais e cemitérios vivem cenas aterrorizantes, muitas vidas foram perdidas. Resta saber quando o normal voltará depois de um longo período de isolamento social.




+ Este notebook tem como finalidade acompanhar a evolução da pandemia no país, explorando datasets fornecidos pelo Ministério da Saúde regularmente, os quais são tratados por Raphael Fontes e disponibilizados na kaggle no seguinte endereço: https://www.kaggle.com/unanimad/corona-virus-brazil.
Esta análise não possui ligações com organizações, sendo apenas um pequeno projeto pessoal que permite implementar conhecimentos adquiridos tanto em python, quanto em data science.


## 1. Importando as bibliotecas 


In [480]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

##2. Utilizando o primeiro dataset
####A fim de que as datas estejam atualizadas, este dataset é modificado diariamente. No link da kaggle, seu nome original está como "brazil_covid19.csv". Neste notebook para fins didáticos, foi alterado para "covid19brasil.csv".
####O dataset não possui dados à respeito de cidades, apenas de regiões e estados brasileiros, contando com números de casos confirmados acumulados por data, como também de óbitos. 

### 2.1 Atribuindo o carregamento do dataset em csv à uma variável



In [481]:
# A variável se chama df_regioes_ufs.

df_regioes_ufs = pd.read_csv('covid19brasil.csv')
df_regioes_ufs

Unnamed: 0,date,region,state,cases,deaths
0,2020-02-25,Centro-Oeste,DF,0,0
1,2020-02-25,Centro-Oeste,GO,0,0
2,2020-02-25,Centro-Oeste,MS,0,0
3,2020-02-25,Centro-Oeste,MT,0,0
4,2020-02-25,Nordeste,AL,0,0
...,...,...,...,...,...
3100,2020-06-18,Sudeste,RJ,87317,8412
3101,2020-06-18,Sudeste,SP,192628,11846
3102,2020-06-18,Sul,PR,11919,406
3103,2020-06-18,Sul,RS,17822,406


### 2.2 Explorando o df_regioes_ufs

#### 2.2.1 Visualizando as 10 primeiras linhas

In [482]:
df_regioes_ufs.head(10)

Unnamed: 0,date,region,state,cases,deaths
0,2020-02-25,Centro-Oeste,DF,0,0
1,2020-02-25,Centro-Oeste,GO,0,0
2,2020-02-25,Centro-Oeste,MS,0,0
3,2020-02-25,Centro-Oeste,MT,0,0
4,2020-02-25,Nordeste,AL,0,0
5,2020-02-25,Nordeste,BA,0,0
6,2020-02-25,Nordeste,CE,0,0
7,2020-02-25,Nordeste,MA,0,0
8,2020-02-25,Nordeste,PB,0,0
9,2020-02-25,Nordeste,PE,0,0


#### 2.2.2 Alterando os nomes das colunas

In [483]:
alteracoes = {

'date':'data',
'region':'regiao',
'state':'uf',
'cases':'casos',
'deaths':'obitos'
    
}

In [484]:
df_regioes_ufs.rename(columns=alteracoes,inplace=True)

In [485]:
# Visualizando 3 linhas aleatórias.

df_regioes_ufs.sample(3)  

Unnamed: 0,data,regiao,uf,casos,obitos
2574,2020-05-30,Nordeste,PE,33427,2740
2756,2020-06-06,Centro-Oeste,MS,2132,21
1736,2020-04-29,Nordeste,PB,699,58


#### 2.2.3 Modificando o formato da coluna data

In [486]:
# O formato da coluna data está como objeto, ou seja, string. 

df_regioes_ufs.dtypes

data      object
regiao    object
uf        object
casos      int64
obitos     int64
dtype: object

In [487]:
# Agora, o formato da coluna data será datetime.

from datetime import datetime 
df_regioes_ufs['data']= pd.to_datetime(df_regioes_ufs['data'],format='%Y-%m-%d')



In [488]:
df_regioes_ufs

Unnamed: 0,data,regiao,uf,casos,obitos
0,2020-02-25,Centro-Oeste,DF,0,0
1,2020-02-25,Centro-Oeste,GO,0,0
2,2020-02-25,Centro-Oeste,MS,0,0
3,2020-02-25,Centro-Oeste,MT,0,0
4,2020-02-25,Nordeste,AL,0,0
...,...,...,...,...,...
3100,2020-06-18,Sudeste,RJ,87317,8412
3101,2020-06-18,Sudeste,SP,192628,11846
3102,2020-06-18,Sul,PR,11919,406
3103,2020-06-18,Sul,RS,17822,406


In [489]:
# Verificando o formato das colunas.

df_regioes_ufs.dtypes

data      datetime64[ns]
regiao            object
uf                object
casos              int64
obitos             int64
dtype: object

#### 2.2.4 Verificando o tamanho do df_regioes_ufs






In [490]:
linhas = df_regioes_ufs.shape[0]
colunas = df_regioes_ufs.shape[1]

print(f'O dataframe possui {linhas} linhas e {colunas} colunas')

O dataframe possui 3105 linhas e 5 colunas


#### 2.2.5 Conferindo a presença de valores nulos

In [491]:
verificando_nulos = df_regioes_ufs.isnull()
verificando_nulos

Unnamed: 0,data,regiao,uf,casos,obitos
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
...,...,...,...,...,...
3100,False,False,False,False,False
3101,False,False,False,False,False
3102,False,False,False,False,False
3103,False,False,False,False,False


In [492]:
lista=[]
for item in verificando_nulos.iterrows():
  for tf in item[-1]:
      if(tf==True):
        lista.append(tf) 
        df_regioes_ufs.dropna(inplace=True)             
print("Total de valores nulos removidos do df_regioes_ufs: {}".format(len(lista)))
print("O df_regioes_ufs possui {} linhas atualizadas".format(df_regioes_ufs.shape[0]))


Total de valores nulos removidos do df_regioes_ufs: 0
O df_regioes_ufs possui 3105 linhas atualizadas


#### 2.2.6 Examinando algumas medidas

In [493]:
# Todos as unidades federativas presentes. 

for uf in df_regioes_ufs['uf'].unique():
  print(uf)

DF
GO
MS
MT
AL
BA
CE
MA
PB
PE
PI
RN
SE
AC
AM
AP
PA
RO
RR
TO
ES
MG
RJ
SP
PR
RS
SC


In [494]:
# Quantidade de vezes que cada uf aparece.

df_regioes_ufs['uf'].value_counts()

SP    115
SE    115
ES    115
TO    115
BA    115
RR    115
PE    115
SC    115
MG    115
CE    115
RO    115
PI    115
PB    115
AC    115
PA    115
PR    115
AP    115
RS    115
MT    115
DF    115
RJ    115
MA    115
AL    115
RN    115
AM    115
MS    115
GO    115
Name: uf, dtype: int64

#### 2.2.7 Removendo duplicatas do df_regioes_ufs

In [495]:
# Caso existam linhas duplicadas, elas serão removidas.

df_regioes_ufs.drop_duplicates(inplace=True)

In [496]:
df_regioes_ufs

Unnamed: 0,data,regiao,uf,casos,obitos
0,2020-02-25,Centro-Oeste,DF,0,0
1,2020-02-25,Centro-Oeste,GO,0,0
2,2020-02-25,Centro-Oeste,MS,0,0
3,2020-02-25,Centro-Oeste,MT,0,0
4,2020-02-25,Nordeste,AL,0,0
...,...,...,...,...,...
3100,2020-06-18,Sudeste,RJ,87317,8412
3101,2020-06-18,Sudeste,SP,192628,11846
3102,2020-06-18,Sul,PR,11919,406
3103,2020-06-18,Sul,RS,17822,406


### 2.3 Calculando os números de casos confirmados e de óbitos por UFs

In [497]:
df_regioes_ufs.head()

Unnamed: 0,data,regiao,uf,casos,obitos
0,2020-02-25,Centro-Oeste,DF,0,0
1,2020-02-25,Centro-Oeste,GO,0,0
2,2020-02-25,Centro-Oeste,MS,0,0
3,2020-02-25,Centro-Oeste,MT,0,0
4,2020-02-25,Nordeste,AL,0,0


In [498]:
''' Como os números tanto de casos confirmados, quanto de óbitos são acumulativos, 
deve-se calcular os totais usando a built-in-function max() em ambos. 
Nesta consulta, a qual foi atribuída à variável ufs_casos_obitos, as ufs foram agrupadas, 
e assim pôde-se obter os totais de infectados e de óbitos por estado.'''

ufs_casos_obitos = df_regioes_ufs.groupby('uf').max()[['casos','obitos']]
ufs_casos_obitos

Unnamed: 0_level_0,casos,obitos
uf,Unnamed: 1_level_1,Unnamed: 2_level_1
AC,10664,287
AL,25633,831
AM,60736,2605
AP,19387,342
BA,41577,1263
CE,87273,5377
DF,28521,379
ES,31671,1217
GO,13304,264
MA,66091,1607


In [499]:
# Somando o total de casos de cada uf, pode-se obter o total de casos no país.

total_casos = ufs_casos_obitos['casos'].sum()
print(f"O total de indivíduos infectados no Brasil é de {total_casos}.")

O total de indivíduos infectados no Brasil é de 978142.


In [500]:
''' Através de uma iteração com o número de casos por uf, 
cada um é dividido pelo total de casos no país e multiplicado por 100,
sendo adicionados a uma lista chamada porcentagem_casos_ufs.'''

porcentagem_casos_ufs = []
for _ in ufs_casos_obitos['casos']:
    porcentagem_casos_ufs.append((_/total_casos)*100)  
print(porcentagem_casos_ufs)

[1.0902302528671706, 2.6205806518889894, 6.2093233906733385, 1.9820230600464963, 4.250609829656635, 8.92232416152256, 2.9158343062663703, 3.2378734375990397, 1.360129715317408, 6.756789913938876, 2.5462560650703066, 0.4369508721637554, 0.7679866522447661, 7.833525193683536, 3.2469723209922488, 4.971261841327742, 1.2369369682520532, 1.218534732175901, 8.92682248589673, 1.624406272299932, 1.4112470377511648, 0.7586832995618223, 1.8220258408288368, 1.5921001245217976, 1.7725442727129597, 19.693255171539512, 0.7947721292000548]


In [501]:
''' A lista porcentagem_casos_ufs é então adicionada ao ufs_casos_obitos 
na coluna porcentagem_casos.'''
 

ufs_casos_obitos['porcentagem_casos']=porcentagem_casos_ufs
ufs_casos_obitos

Unnamed: 0_level_0,casos,obitos,porcentagem_casos
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,10664,287,1.09023
AL,25633,831,2.620581
AM,60736,2605,6.209323
AP,19387,342,1.982023
BA,41577,1263,4.25061
CE,87273,5377,8.922324
DF,28521,379,2.915834
ES,31671,1217,3.237873
GO,13304,264,1.36013
MA,66091,1607,6.75679


In [502]:
# A coluna porcentagem_casos é arredondada para duas casas decimais.

ufs_casos_obitos['porcentagem_casos']=ufs_casos_obitos['porcentagem_casos'].round(2)
ufs_casos_obitos

Unnamed: 0_level_0,casos,obitos,porcentagem_casos
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,10664,287,1.09
AL,25633,831,2.62
AM,60736,2605,6.21
AP,19387,342,1.98
BA,41577,1263,4.25
CE,87273,5377,8.92
DF,28521,379,2.92
ES,31671,1217,3.24
GO,13304,264,1.36
MA,66091,1607,6.76


In [503]:
''' O ufs_casos_obitos é ordenado em ordem descrecente pela porcentagem_casos, e é
apresentado os três estados com as maiores porcentagens de contaminação comparadas ao
país como um todo.''' 

ufs_casos_obitos.sort_values('porcentagem_casos',inplace=True,ascending=False)
print("Top 3 dos casos confirmados:\n")
print("{} % dos infectados no país são de {}\n".format(ufs_casos_obitos.iloc[0][2],ufs_casos_obitos.iloc[0].name))
print("{} % dos infectados no país são de {}\n".format(ufs_casos_obitos.iloc[1][2],ufs_casos_obitos.iloc[1].name))
print("{} % dos infectados no país são de {}\n\n".format(ufs_casos_obitos.iloc[2][2],ufs_casos_obitos.iloc[2].name))
ufs_casos_obitos

Top 3 dos casos confirmados:

19.69 % dos infectados no país são de SP

8.93 % dos infectados no país são de RJ

8.92 % dos infectados no país são de CE




Unnamed: 0_level_0,casos,obitos,porcentagem_casos
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SP,192628,11846,19.69
RJ,87317,8412,8.93
CE,87273,5377,8.92
PA,76623,4395,7.83
MA,66091,1607,6.76
AM,60736,2605,6.21
PE,48626,4057,4.97
BA,41577,1263,4.25
PB,31760,709,3.25
ES,31671,1217,3.24


In [504]:
# Somando o total de óbitos de cada uf, pode-se obter o total de óbitos no país.

total_obitos = ufs_casos_obitos['obitos'].sum()
print(f"O total de óbitos no Brasil é de {total_obitos}.")

O total de óbitos no Brasil é de 47748.


In [505]:
''' A coluna porcentagem_obitos é adicionada ao ufs_casos_obitos, sendo a divisão de obitos
por total_obitos. Além disso, foi multiplicada por 100 e arredondada para duas casas decimais.'''


ufs_casos_obitos['porcentagem_obitos']=((ufs_casos_obitos['obitos']/total_obitos)*100).round(2)
ufs_casos_obitos

Unnamed: 0_level_0,casos,obitos,porcentagem_casos,porcentagem_obitos
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SP,192628,11846,19.69,24.81
RJ,87317,8412,8.93,17.62
CE,87273,5377,8.92,11.26
PA,76623,4395,7.83,9.2
MA,66091,1607,6.76,3.37
AM,60736,2605,6.21,5.46
PE,48626,4057,4.97,8.5
BA,41577,1263,4.25,2.65
PB,31760,709,3.25,1.48
ES,31671,1217,3.24,2.55


In [506]:
''' A coluna porcentagem_obitos é iterada, sendo adicionado cada valor à lista 
porcentagem_obitos_ufs, a qual é ordenada em ordem descrecente.'''


porcentagem_obitos_ufs=[]
for _ in ufs_casos_obitos['porcentagem_obitos']:
  porcentagem_obitos_ufs.append(_)
porcentagem_obitos_ufs = sorted(porcentagem_obitos_ufs,reverse=True)
porcentagem_obitos_ufs

[24.81,
 17.62,
 11.26,
 9.2,
 8.5,
 5.46,
 3.37,
 2.65,
 2.55,
 1.74,
 1.48,
 1.37,
 1.19,
 0.88,
 0.85,
 0.85,
 0.84,
 0.79,
 0.78,
 0.72,
 0.6,
 0.59,
 0.55,
 0.48,
 0.46,
 0.32,
 0.08]

In [507]:
''' O ufs_casos_obitos é ordenado em ordem descrecente pela porcentagem_casos, e é
apresentado os três estados com as maiores porcentagens de contaminação e de óbitos, comparados
ao país de modo geral.''' 

ufs_casos_obitos.sort_values('porcentagem_casos',inplace=True,ascending=False)
print("Top 3 dos casos confirmados:\n")
print("{} % dos infectados no país são de {}\n".format(ufs_casos_obitos.iloc[0][2],ufs_casos_obitos.iloc[0].name))
print("{} % dos infectados no país são de {}\n".format(ufs_casos_obitos.iloc[1][2],ufs_casos_obitos.iloc[1].name))
print("{} % dos infectados no país são de {}\n\n".format(ufs_casos_obitos.iloc[2][2],ufs_casos_obitos.iloc[2].name))

print("Top 3 dos óbitos:\n")
print("{} % dos óbitos no país são de {}\n".format(porcentagem_obitos_ufs[0],ufs_casos_obitos.loc[ufs_casos_obitos['porcentagem_obitos']==porcentagem_obitos_ufs[0]].index[0]))
print("{} % dos óbitos no país são de {}\n".format(porcentagem_obitos_ufs[1],ufs_casos_obitos.loc[ufs_casos_obitos['porcentagem_obitos']==porcentagem_obitos_ufs[1]].index[0]))
print("{} % dos óbitos no país são de {}\n".format(porcentagem_obitos_ufs[2],ufs_casos_obitos.loc[ufs_casos_obitos['porcentagem_obitos']==porcentagem_obitos_ufs[2]].index[0]))


ufs_casos_obitos

Top 3 dos casos confirmados:

19.69 % dos infectados no país são de SP

8.93 % dos infectados no país são de RJ

8.92 % dos infectados no país são de CE


Top 3 dos óbitos:

24.81 % dos óbitos no país são de SP

17.62 % dos óbitos no país são de RJ

11.26 % dos óbitos no país são de CE



Unnamed: 0_level_0,casos,obitos,porcentagem_casos,porcentagem_obitos
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SP,192628,11846,19.69,24.81
RJ,87317,8412,8.93,17.62
CE,87273,5377,8.92,11.26
PA,76623,4395,7.83,9.2
MA,66091,1607,6.76,3.37
AM,60736,2605,6.21,5.46
PE,48626,4057,4.97,8.5
BA,41577,1263,4.25,2.65
PB,31760,709,3.25,1.48
ES,31671,1217,3.24,2.55


In [508]:
''' A coluna obitos é iterada, sendo adicionado cada valor à lista 
numero_obitos, a qual é ordenada em ordem descrecente.'''


numero_obitos=[]
for _ in ufs_casos_obitos['obitos']:
  numero_obitos.append(_)
numero_obitos=sorted(numero_obitos,reverse=True)
numero_obitos

[11846,
 8412,
 5377,
 4395,
 4057,
 2605,
 1607,
 1263,
 1217,
 831,
 709,
 655,
 570,
 421,
 406,
 406,
 400,
 379,
 374,
 342,
 287,
 281,
 264,
 231,
 222,
 152,
 39]

In [509]:
''' Foi definida a função dados_ufs, na qual passada a uf em seu parâmetro,
apresenta os dados do DataFrame ufs_casos_obitos correspondentes. Além disso,
caso a uf esteja entre as três primeiras em número de casos confirmados ou de óbitos,
uma mensagem de alerta é mostrada.'''


def dados_ufs(uf):
  if (ufs_casos_obitos['casos'][0]==ufs_casos_obitos.loc[uf][0]):
    print("Campeã em número de casos confirmados !!!\n")
  elif(ufs_casos_obitos['casos'][1]==ufs_casos_obitos.loc[uf][0]):
    print("2º maior número de casos confirmados !!!\n")
  elif(ufs_casos_obitos['casos'][2]==ufs_casos_obitos.loc[uf][0]):
    print("3º maior número de casos confirmados !!!\n")
  if (ufs_casos_obitos['obitos'].max()==ufs_casos_obitos.loc[uf][1]):
    print("Campeã em número de óbitos !!!\n\n")
  elif(numero_obitos[1]==ufs_casos_obitos.loc[uf][1]):
    print("2º maior número de óbitos !!!\n\n")
  elif(numero_obitos[2]==ufs_casos_obitos.loc[uf][1]):
    print("3º maior número de óbitos !!!\n\n")
  print("Casos confirmados: {}".format(ufs_casos_obitos.loc[uf][0]))
  print("Óbitos: {}".format(ufs_casos_obitos.loc[uf][1]))
  print("Porcentagem de casos do total: {} %".format(ufs_casos_obitos.loc[uf][2]))
  print("Porcentagem de óbitos do total: {} %".format(ufs_casos_obitos.loc[uf][3]))


In [510]:
# Testando a função com a uf SP

dados_ufs('SP')

Campeã em número de casos confirmados !!!

Campeã em número de óbitos !!!


Casos confirmados: 192628.0
Óbitos: 11846.0
Porcentagem de casos do total: 19.69 %
Porcentagem de óbitos do total: 24.81 %
