<a href="https://colab.research.google.com/github/Arthurads-rj/portfolio-data-science/blob/main/an%C3%A1lise%20de%20dados%20da%20covid-19%202022/An%C3%A1lise_Covid_19_em_2022.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1 align='center'>Análise Sobre Covid-19 em 2022</h1>
(de 1/1 até 28/2)

O vírus da Covid-19 ainda tem circulado o mundo, com casos novos aparecendo a cada dia. Neste projeto, estarei examinando os dados disponibilizados pelo governo em https://covid.saude.gov.br.


## Objetivos

- Tratamento dos dados
- Análise exploratória
- Plotagem de gráficos


## Importação dos dados

irei utilizar os dados que o governo providenciou sobre o Covid-19 que foram registrados desde o começo do ano de 2022 até o dia 28 de Fevereiro e também importarei as bibliotecas necessárias.

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

In [3]:
dados = '../content/drive/MyDrive/Planilhas/covid 19/HIST_PAINEL_COVIDBR_2022_Parte1_28fev2022.csv'

covid = pd.read_csv(dados, sep=';')

covid.head()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2022-01-01,52,210147125.0,22291507.0,3986,619105,49,21581668.0,90734.0,
1,Brasil,,,76,,,,2022-01-02,1,210147125.0,22293228.0,1721,619133,28,21581717.0,92378.0,
2,Brasil,,,76,,,,2022-01-03,1,210147125.0,22305078.0,11850,619209,76,21591847.0,94022.0,
3,Brasil,,,76,,,,2022-01-04,1,210147125.0,22323837.0,18759,619384,175,21603954.0,100499.0,
4,Brasil,,,76,,,,2022-01-05,1,210147125.0,22351104.0,27267,619513,129,21615473.0,116118.0,


## Análise Inicial

De começo, irei verificar quais são as colunas que existem no dataset e quais os tipos de cada coluna.

In [4]:
covid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 331523 entries, 0 to 331522
Data columns (total 17 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   regiao                  331523 non-null  object 
 1   estado                  331462 non-null  object 
 2   municipio               328630 non-null  object 
 3   coduf                   331523 non-null  int64  
 4   codmun                  329869 non-null  float64
 5   codRegiaoSaude          328630 non-null  float64
 6   nomeRegiaoSaude         328630 non-null  object 
 7   data                    331523 non-null  object 
 8   semanaEpi               331523 non-null  int64  
 9   populacaoTCU2019        330284 non-null  float64
 10  casosAcumulado          331523 non-null  float64
 11  casosNovos              331523 non-null  int64  
 12  obitosAcumulado         331523 non-null  int64  
 13  obitosNovos             331523 non-null  int64  
 14  Recuperadosnovos    

A maioria das colunas são apenas objects e de numeros inteiros, então não precisa de muita formatação. 
Em várias colunas estão faltando alguns dados. Vamos analisar usando o `describe()`

In [5]:
covid.describe()

Unnamed: 0,coduf,codmun,codRegiaoSaude,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
count,331523.0,329869.0,328630.0,331523.0,330284.0,331523.0,331523.0,331523.0,331523.0,61.0,61.0,328630.0
mean,32.360648,325258.01413,32403.123698,5.457642,113890.9,13702.12,58.820344,340.366113,0.273981,23081670.0,1731538.0,0.0693
std,9.873863,98535.173555,9836.356272,6.556972,2980465.0,359594.9,1828.198068,9006.433724,9.213596,1663606.0,1073087.0,0.253964
min,11.0,110000.0,11001.0,1.0,781.0,0.0,-8388.0,0.0,-59.0,21581670.0,90734.0,0.0
25%,25.0,251200.0,25010.0,3.0,5474.0,552.0,0.0,10.0,0.0,21710830.0,710670.0,0.0
50%,31.0,314610.0,31059.0,5.0,11695.0,1174.0,0.0,22.0,0.0,22196440.0,2012626.0,0.0
75%,41.0,411915.0,41015.0,7.0,25762.0,2937.0,9.0,57.0,0.0,24252530.0,2638781.0,0.0
max,76.0,530010.0,53001.0,52.0,210147100.0,28787620.0,298408.0,649333.0,1308.0,26966350.0,3182910.0,1.0


E vamos ver as porcentagens de dados faltando.

In [6]:
(covid.isnull().sum() / covid.shape[0]).sort_values(ascending=False)

emAcompanhamentoNovos     0.999816
Recuperadosnovos          0.999816
interior/metropolitana    0.008726
municipio                 0.008726
codRegiaoSaude            0.008726
nomeRegiaoSaude           0.008726
codmun                    0.004989
populacaoTCU2019          0.003737
estado                    0.000184
obitosAcumulado           0.000000
obitosNovos               0.000000
regiao                    0.000000
casosNovos                0.000000
casosAcumulado            0.000000
data                      0.000000
coduf                     0.000000
semanaEpi                 0.000000
dtype: float64

### Tratamento de Dados
Temos alguns problemas aqui:
- Tanto a coluna de acompanhamentos quanto de novos registros de recuperados tem uma taxa de 99% de dados faltando.
- município, codigo e nome de região de saude tem uma perda de 0,008%
- população tem 0,003% faltando.

Maioria desses dados perdidos tornam as linhas inuteis, então devemos remover esses dados. Mas antes vamos ver qual o problema na coluna "populaçãoTCU2019".

In [7]:
covid[covid['populacaoTCU2019'].isna()]

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
1654,Norte,RO,,11,110000.0,,,2022-01-01,52,,1395.0,0,31,0,,,
1655,Norte,RO,,11,110000.0,,,2022-01-02,1,,1395.0,0,31,0,,,
1656,Norte,RO,,11,110000.0,,,2022-01-03,1,,1395.0,0,31,0,,,
1657,Norte,RO,,11,110000.0,,,2022-01-04,1,,1395.0,0,31,0,,,
1658,Norte,RO,,11,110000.0,,,2022-01-05,1,,0.0,-1395,0,-31,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
316945,Centro-Oeste,GO,,52,520000.0,,,2022-02-24,8,,0.0,0,0,0,,,
316946,Centro-Oeste,GO,,52,520000.0,,,2022-02-25,8,,0.0,0,0,0,,,
316947,Centro-Oeste,GO,,52,520000.0,,,2022-02-26,8,,0.0,0,0,0,,,
316948,Centro-Oeste,GO,,52,520000.0,,,2022-02-27,9,,0.0,0,0,0,,,


Há varios problemas aqui. Não existem valores para a coluna de população e nem na coluna de casos acumulados. Este conjunto de dados é inútil para a análise, então é melhor remover do dataset.

In [8]:
covid.dropna(axis=0, subset=['populacaoTCU2019'], inplace=True)

In [9]:
print(covid.shape)
print(covid.isnull().sum())

(330284, 17)
regiao                         0
estado                        61
municipio                   1654
coduf                          0
codmun                      1654
codRegiaoSaude              1654
nomeRegiaoSaude             1654
data                           0
semanaEpi                      0
populacaoTCU2019               0
casosAcumulado                 0
casosNovos                     0
obitosAcumulado                0
obitosNovos                    0
Recuperadosnovos          330223
emAcompanhamentoNovos     330223
interior/metropolitana      1654
dtype: int64


E em seguida, checar para ver como está o resumo dos dados faltando.

In [10]:
(covid.isnull().sum() / covid.shape[0]).sort_values(ascending=False)

emAcompanhamentoNovos     0.999815
Recuperadosnovos          0.999815
interior/metropolitana    0.005008
municipio                 0.005008
codmun                    0.005008
codRegiaoSaude            0.005008
nomeRegiaoSaude           0.005008
estado                    0.000185
casosNovos                0.000000
obitosNovos               0.000000
obitosAcumulado           0.000000
regiao                    0.000000
casosAcumulado            0.000000
populacaoTCU2019          0.000000
data                      0.000000
coduf                     0.000000
semanaEpi                 0.000000
dtype: float64

### Organização dos dados
Dividi os dados pois estão organizados da seguinte forma:
- Uma parte dos dados estão diretamente relacionada as regiões do Brasil de maneira generalizada, por exemplo, falando do Sudeste como um todo.
- Outra parte dos dados são relacionados aos Estados e seus Municípios.

Os dados estão divididos de maneira respectiva a ordem dita acima.

feita essa divisão, pude começar a analisar os dados.

In [11]:
covid_regioes = covid[covid['municipio'].isna()]
covid_regioes

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2022-01-01,52,210147125.0,22291507.0,3986,619105,49,21581668.0,90734.0,
1,Brasil,,,76,,,,2022-01-02,1,210147125.0,22293228.0,1721,619133,28,21581717.0,92378.0,
2,Brasil,,,76,,,,2022-01-03,1,210147125.0,22305078.0,11850,619209,76,21591847.0,94022.0,
3,Brasil,,,76,,,,2022-01-04,1,210147125.0,22323837.0,18759,619384,175,21603954.0,100499.0,
4,Brasil,,,76,,,,2022-01-05,1,210147125.0,22351104.0,27267,619513,129,21615473.0,116118.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1649,Centro-Oeste,DF,,53,,,,2022-02-24,8,3015268.0,679912.0,1409,11398,6,,,
1650,Centro-Oeste,DF,,53,,,,2022-02-25,8,3015268.0,680841.0,929,11409,11,,,
1651,Centro-Oeste,DF,,53,,,,2022-02-26,8,3015268.0,680841.0,0,11409,0,,,
1652,Centro-Oeste,DF,,53,,,,2022-02-27,9,3015268.0,680841.0,0,11409,0,,,


In [12]:
covid_estados = covid[covid['municipio'].notnull()]
covid_estados

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
1713,Norte,RO,Alta Floresta D'Oeste,11,110001.0,11005.0,ZONA DA MATA,2022-01-01,52,22945.0,4668.0,0,72,0,,,0.0
1714,Norte,RO,Alta Floresta D'Oeste,11,110001.0,11005.0,ZONA DA MATA,2022-01-02,1,22945.0,4680.0,12,72,0,,,0.0
1715,Norte,RO,Alta Floresta D'Oeste,11,110001.0,11005.0,ZONA DA MATA,2022-01-03,1,22945.0,4685.0,5,73,1,,,0.0
1716,Norte,RO,Alta Floresta D'Oeste,11,110001.0,11005.0,ZONA DA MATA,2022-01-04,1,22945.0,4703.0,18,73,0,,,0.0
1717,Norte,RO,Alta Floresta D'Oeste,11,110001.0,11005.0,ZONA DA MATA,2022-01-05,1,22945.0,4721.0,18,73,0,,,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
331518,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2022-02-24,8,3015268.0,679912.0,1409,11398,6,,,1.0
331519,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2022-02-25,8,3015268.0,680841.0,929,11409,11,,,1.0
331520,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2022-02-26,8,3015268.0,680841.0,0,11409,0,,,1.0
331521,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2022-02-27,9,3015268.0,680841.0,0,11409,0,,,1.0


## Análise Exploratória

Antes da análise exploratória começar de fato, é sempre bom fazer perguntas aos dados paraa conseguir extrair informações deles. 

In [13]:
#função para eu conseguir selecionar adequadamente as colunas da tabela criada
#pelo pd.groupby()
def nomeColunas(nome):
  nome.columns = ['_'.join(col).strip() for col in nome.columns.values]

### Número de Casos e Óbitos dos Estados
Uma pergunta relevante seria:
**Quais são os Estados do Brasil que tiveram a maior quantidade de casos e Óbitos confirmados?**

Depois de organizar os dados, fiz uma série de agrupamentos que poderiam trazer uma resposta a essa pergunta.

O primeiro agrupamento feito foi para somar todos os casos e óbitos e mostrar o maior número de casos registrados em um dia por aquele Estado.

In [14]:
estados_contagem = covid_estados.groupby('estado')['casosNovos', 'obitosNovos'].agg(['sum', 'max'])
nomeColunas(estados_contagem)
estados_contagem = estados_contagem.sort_values(by='casosNovos_sum', ascending=False)
estados_contagem

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,casosNovos_sum,casosNovos_max,obitosNovos_sum,obitosNovos_max
estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MG,975509,21013,2969,29
PR,728565,2184,1412,38
RS,648799,2875,1828,18
RJ,642854,23095,2311,75
SP,561345,3766,9327,133
ES,389080,4399,789,7
SC,371538,3487,1182,8
CE,264070,22009,1499,59
BA,226999,2875,1648,40
GO,218932,2182,1063,31


In [15]:
fig = px.bar(estados_contagem, x=estados_contagem.index, y='casosNovos_sum', labels={'casosNovos_sum': 'Total de Óbitos Novos', 'estado': 'Estados'}, title='Total de Casos: Estados')
fig.show()

In [31]:
fig = px.bar(estados_contagem, x=estados_contagem.index, y='obitosNovos_sum', labels={'obitosNovos_sum': 'Total de Óbitos Novos', 'x': 'Estados'}, title='Total de Óbitos: Estados')
fig.show()

In [17]:
fig = px.bar(estados_contagem, x=estados_contagem.index, y='casosNovos_sum', labels={'casosNovos_sum': 'Total de Casos Novos', 'estado': 'Estados'}, title='Total de Casos: Estados')
fig.show()

Minas Gerais foi o Estado que mais teve casos de todos os outros, com quase 1 milhão de casos enquanto São Paulo teve mais óbitos, cerca de 9000, que os outros. Vamos nos aprofundar em Minas Gerais primeiro e ver os dados.

### Examinando Minas Gerais

Primeiro vamos separar Minas Gerais do dataset e filtrar os Municípios que contém mais de 3000 casos

In [18]:
mg = covid_estados.loc[covid_estados['estado']=='MG']
mg_agrup = mg.groupby('municipio')['casosNovos','interior/metropolitana'].sum()
mg_agrup_filt = mg_agrup[mg_agrup['casosNovos'] > 3000]
mg_agrup_filt = mg_agrup_filt.astype({'interior/metropolitana':'bool'})
mg_agrup_filt = mg_agrup_filt.sort_values(by='casosNovos', ascending=False)
mg_agrup_filt


Indexing with multiple keys (implicitly converted to a tuple of keys) will be deprecated, use a list instead.



Unnamed: 0_level_0,casosNovos,interior/metropolitana
municipio,Unnamed: 1_level_1,Unnamed: 2_level_1
Uberlândia,65860,False
Belo Horizonte,45155,True
Uberaba,32846,False
Montes Claros,26548,False
Contagem,17535,True
...,...,...
Três Pontas,3245,False
Piumhi,3220,False
Cambuí,3172,False
João Monlevade,3108,False


In [34]:
fig = px.bar(mg_agrup_filt, color='interior/metropolitana', labels={'value': 'Total de Casos', 'municipio': 'Municípios', 'interior/metropolitana': 'Metropolitana'})
fig.show()

Uberlândia e Belo Horizonte são dois grandes municípios de Minas Gerais, onde o primeiro tem uma das maiores concentrações populacionais do Estado, já o segundo é a capital do Estado. Possivelmente é por isso sua grande quantidade de casos.

In [68]:
mg_u_pop = mg.loc[mg['municipio'] == 'Uberlândia']
mg_u_pop = mg_u_pop[:1]
mg_u_pop = mg_u_pop.populacaoTCU2019.iloc[0]
mg_u_pop

691305.0

In [69]:
mg_casos = mg_agrup_filt['casosNovos']
(mg_casos.iloc[0] / mg_u_pop)

0.09526909251343474

Os casos em Uberlândia correspondem a 0,095% da população.

Vamos ver com ficam a porcentagem em Belo Horizonte

In [70]:
mg_b_pop = mg.loc[mg['municipio'] == 'Belo Horizonte']
mg_b_pop = mg_b_pop[:1]
mg_b_pop = mg_b_pop.populacaoTCU2019.iloc[0]
mg_b_pop

2512070.0

In [71]:
(mg_casos.iloc[1] / mg_u_pop)

0.06531849183790078

Os casos em Belo Horizonte Correspondem a 0,065% da população.

### Examinando São Paulo
Agora, vamos ver o porque que São Paulo tem um pico de óbitos. Mesmo tendo uma baixa incidência de óbitos no país todo por conta das vacinações, o gráfico exibia um pico um tanto quanto discrepante.

In [20]:
sp = covid_estados.loc[covid_estados['estado']=='SP']
sp_agrup = sp.groupby('municipio')['obitosNovos', 'interior/metropolitana'].sum().sort_values(by='obitosNovos', ascending=False)
sp_agrup_filt = sp_agrup[sp_agrup['obitosNovos'] > 100]
sp_agrup_filt = sp_agrup_filt.astype({'interior/metropolitana':'bool'})
sp_agrup_filt


Indexing with multiple keys (implicitly converted to a tuple of keys) will be deprecated, use a list instead.



Unnamed: 0_level_0,obitosNovos,interior/metropolitana
municipio,Unnamed: 1_level_1,Unnamed: 2_level_1
São Paulo,1903,True
Campinas,303,True
Guarulhos,272,True
Ribeirão Preto,227,False
Sorocaba,211,False
São José dos Campos,196,False
Osasco,191,True
São Bernardo do Campo,189,True
Santos,174,False
São José do Rio Preto,169,False


In [33]:
fig = px.bar(sp_agrup_filt, color='interior/metropolitana', labels={'value': 'Total de Óbitos', 'municipio': 'Municípios', 'interior/metropolitana': 'Metropolitana'})
fig.show()

Vamos ver qual a população da Capital de São Paulo

In [58]:
sp_pop = sp.loc[sp['municipio'] == 'São Paulo']
sp_pop = sp_pop['populacaoTCU2019']
sp_pop = sp_pop.iloc[0]
sp_pop

12252023.0

In [59]:
sp_obitos = sp_agrup_filt['obitosNovos'][:1]
sp_obitos.iloc[0]
(sp_obitos / sp_pop)

municipio
São Paulo    0.000155
Name: obitosNovos, dtype: float64

Os óbitos equivalem a 0,00015% da população total de São Paulo.

A capital de São Paulo é um dos maiores municípios do Estado, tendo mais de 12 mil de habitantes, o que significa que existe uma enorme movimentação de pessoas por lá constantemente. Para existir esse pico de óbitos, possivelmente é algo relacionado a proporção de população, afinal, os outros municípios tem uma proximidade na quantidade de óbitos.

### Voltando aos Estados
Abaixo, são o quantos casos e óbitos foram registrados desde o primeiro dia do ano até o dia 28 de Fevereiro. Esse seria mais um resumo mostrando o número de casos por Estado.

In [22]:
estados_frequencia = covid_estados.groupby('estado')['casosNovos', 'obitosNovos'].nunique().sort_values(by=['casosNovos', 'obitosNovos'],ascending=False)
estados_frequencia



Indexing with multiple keys (implicitly converted to a tuple of keys) will be deprecated, use a list instead.



Unnamed: 0_level_0,casosNovos,obitosNovos
estado,Unnamed: 1_level_1,Unnamed: 2_level_1
MG,701,25
PR,603,23
SP,546,51
RS,533,16
ES,519,9
RJ,435,39
SC,429,11
CE,410,41
GO,362,20
PE,324,12


In [23]:
fig = px.bar(estados_frequencia, barmode='group', labels={'value': 'Casos e Óbitos', 'estado': 'Estados'}, title='Total de Casos e Obitos Registrados')
fig.show()

Vemos uma versão compacta dos dados, mostrando a proporção de casos e óbitos dentro do país sem mostrar números reais.

### Visão Geral das Regiões do Brasil
A seguir, temos uma contagem de todos os casos e óbitos agrupados por região, contando com a soma de todos os casos no Brasil no ano.

In [24]:
brasil_contagem = covid_regioes.groupby('regiao')['casosNovos', 'obitosNovos'].agg(['sum', 'max'])
nomeColunas(brasil_contagem)
brasil_contagem


Indexing with multiple keys (implicitly converted to a tuple of keys) will be deprecated, use a list instead.



Unnamed: 0_level_0,casosNovos_sum,casosNovos_max,obitosNovos_sum,obitosNovos_max
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Brasil,6500099,298408,30277,1308
Centro-Oeste,647728,17356,2609,74
Nordeste,1052165,42547,6065,118
Norte,475062,8319,1751,72
Sudeste,2572154,69223,15424,664
Sul,1752990,45154,4428,105


Outra pergunta relevante é: **Qual é o percentual da população do Brasil que foi infectado?**

Isolei a soma de todos os casos e óbitos no Brasil para ter uma reposta.

In [25]:
brasil_apenas = brasil_contagem[:1]
brasil_apenas

Unnamed: 0_level_0,casosNovos_sum,casosNovos_max,obitosNovos_sum,obitosNovos_max
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Brasil,6500099,298408,30277,1308


E a resposta para a pergunta é: 0,03% da população total do Brasil foi infectada.

In [26]:
brasil_populacao = covid_regioes.loc[covid_regioes['regiao'] == 'Brasil']
brasil_populacao = brasil_populacao['populacaoTCU2019']
(brasil_apenas['casosNovos_sum'] / brasil_populacao[0])

regiao
Brasil    0.030931
Name: casosNovos_sum, dtype: float64

Essa contagem é para os gráficos, pois o número de casos contando com o Brasil todo atrapalharia a leitura dos gráficos.

In [27]:
regioes_contagem = brasil_contagem[1:]
regioes_contagem

Unnamed: 0_level_0,casosNovos_sum,casosNovos_max,obitosNovos_sum,obitosNovos_max
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Centro-Oeste,647728,17356,2609,74
Nordeste,1052165,42547,6065,118
Norte,475062,8319,1751,72
Sudeste,2572154,69223,15424,664
Sul,1752990,45154,4428,105


In [28]:
fig = px.bar(regioes_contagem, y=['casosNovos_sum', 'obitosNovos_sum'],labels={'value': 'Casos', 'regiao': 'Regiões'}, barmode='group', title='Total de Casos: Regiões')
fig.show()

O Sudeste teve o foco de todos os casos e óbitos, tendo em mente que vimos que Minas Gerais estavam com a maior contagem de casos confirmados e São Paulo com a maior quantidade de óbitos confirmados.

### Linha do tempo de Casos e Óbitos confirmados
Aqui seria a evolução dos casos ao longo do ano.

In [29]:
evoluçao = covid_estados.groupby('data')['casosNovos', 'obitosNovos'].sum()
evoluçao.head()


Indexing with multiple keys (implicitly converted to a tuple of keys) will be deprecated, use a list instead.



Unnamed: 0_level_0,casosNovos,obitosNovos
data,Unnamed: 1_level_1,Unnamed: 2_level_1
2022-01-01,3951,49
2022-01-02,1681,28
2022-01-03,11799,75
2022-01-04,18594,175
2022-01-05,28382,161


In [30]:
fig = px.line(evoluçao, x=evoluçao.index, y=['casosNovos', 'obitosNovos'], markers=True, labels={'value': 'Total de Casos e Óbitos nos dias', 'data': 'Datas'}, title='Casos e Óbitos no Brasil Ao longo das datas')
fig.show()

Existe um período de incubação do vírus que é por volta de 5 dias, com intervalos de até 12 dias. Próximo do fim do ano, temos o Natal, que as pessoas tendem a se reunir. Além das reuniões, a movimentação comercial fica muito alta, com pessoas indo em shoppings e centros comerciais para comprar presentes e alimentos para o Natal, o que faz sugerir esse pico nos casos no começo do ano.

As férias e essa época de verão que está presente no começo do ano também sustenta a alta movimentação de pessoas, fazendo com que a doença se espalhe rápido.

## Hipóteses e Conclusões

- Existe uma discrepância enorme entre casos confirmados e óbitos. Isso se dá por conta das campanhas de vacinação, que tornaram a população do Brasil bem mais imune a doença.
- O Sudeste, sendo uma região mais comercial do Brasil, é a área que mais tem acúmulo de casos, e em seguida o Sul.
- Ainda existem muitas ondas e picos de caso no Brasil por conta das datas festivas e a maneira como as pessoas escolhem comemorar, o que sugere que é algo relacionado a flexibilização da quarentena.

Mesmo com campanhas de vacinação e com a população mais imunizada, ainda é preciso ter cuidado, pois mesmo sendo poucos óbitos, ainda acontecem, e para evitar que aonteçam mais é preciso evitar aglomerações para não passar o vírus adiante.