<a href="https://colab.research.google.com/github/Thiagogiovanni/projetos_de_estudo/blob/main/visualizandocovid.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Visualizando dados do COVID no ano de 2020

A [Covid-19](https://coronavirus.rs.gov.br/o-que-e) é uma infecção respiratória aguda causada pelo coronavírus SARS-CoV-2, potencialmente grave, de elevada transmissibilidade e de distribuição global.

Esse projeto visa entender, por meio de um gráfico simplificado e dinâmico, como que a quantidade de casos de Covid-19 se comportou durante o ano de 2020.

Será comparado a quantidade de pessoas **comprovadamente** infectadas (por região) a cada semana do ano de 2020.




# **Obtenção dos Dados**

Todos os dados aqui usados foram obtidos a partir do site [CORONAVÍRUS BRASIL](https://covid.saude.gov.br/).

O site entrega os dados por semestre, ou seja, foi necessário baixar dois arquivos CSV. Um referente a cada semestre do ano.

In [1]:
#importando o pacote que será utilizado
import pandas as pd


In [2]:
#primeiro semestre 2020
df = pd.read_csv('/content/HIST_PAINEL_COVIDBR_2020_Parte1_08dez2022.csv', on_bad_lines='skip', sep= ';', parse_dates = ['data'])

In [3]:
#segundo semestre 2020
df2 = pd.read_csv('/content/HIST_PAINEL_COVIDBR_2020_Parte2_08dez2022.csv', on_bad_lines='skip', sep= ';', parse_dates = ['data'])

# Análise dos Dados

In [6]:
#para checarmos se a variável data ficou como queriamos (datetime)
display(df.dtypes)

regiao                            object
estado                            object
municipio                         object
coduf                              int64
codmun                           float64
codRegiaoSaude                   float64
nomeRegiaoSaude                   object
data                      datetime64[ns]
semanaEpi                          int64
populacaoTCU2019                 float64
casosAcumulado                     int64
casosNovos                         int64
obitosAcumulado                    int64
obitosNovos                        int64
Recuperadosnovos                 float64
emAcompanhamentoNovos            float64
interior/metropolitana           float64
dtype: object

In [5]:
df

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2020-02-25,9,210147125.0,0,0,0,0,0.0,0.0,
1,Brasil,,,76,,,,2020-02-26,9,210147125.0,1,1,0,0,1.0,0.0,
2,Brasil,,,76,,,,2020-02-27,9,210147125.0,1,0,0,0,1.0,0.0,
3,Brasil,,,76,,,,2020-02-28,9,210147125.0,1,0,0,0,0.0,1.0,
4,Brasil,,,76,,,,2020-02-29,9,210147125.0,2,1,0,0,1.0,1.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
714476,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-27,31,3015268.0,98480,2148,1339,31,,,1.0
714477,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-28,31,3015268.0,100726,2246,1391,52,,,1.0
714478,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-29,31,3015268.0,102342,1616,1419,28,,,1.0
714479,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-30,31,3015268.0,104442,2100,1444,25,,,1.0


In [8]:
df2

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2020-08-01,31,210147125.0,2707877,45392,93563,1088,1865729.0,748585.0,
1,Brasil,,,76,,,,2020-08-02,32,210147125.0,2733677,25800,94104,541,1883677.0,755896.0,
2,Brasil,,,76,,,,2020-08-03,32,210147125.0,2750318,16641,94665,561,1912319.0,743334.0,
3,Brasil,,,76,,,,2020-08-04,32,210147125.0,2801921,51603,95819,1154,1970767.0,735335.0,
4,Brasil,,,76,,,,2020-08-05,32,210147125.0,2857597,55676,97240,1421,2020637.0,741180.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859702,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-27,53,3015268.0,248543,615,4201,3,,,1.0
859703,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-28,53,3015268.0,249736,1193,4223,22,,,1.0
859704,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-29,53,3015268.0,250457,721,4241,18,,,1.0
859705,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-30,53,3015268.0,251135,678,4248,7,,,1.0


### Como unir os dataframes?

Como podemos observar, o conjunto de dados possui as mesmas colunas. O que nos interessa para a análise é a quantidade de casos por semana e a região. Vamos apenas juntar os dois dataframes como se tivesse "encaixando" um abaixo do outro.

In [9]:
df3 = pd.concat([df, df2], ignore_index = True)

In [10]:
df3

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2020-02-25,9,210147125.0,0,0,0,0,0.0,0.0,
1,Brasil,,,76,,,,2020-02-26,9,210147125.0,1,1,0,0,1.0,0.0,
2,Brasil,,,76,,,,2020-02-27,9,210147125.0,1,0,0,0,1.0,0.0,
3,Brasil,,,76,,,,2020-02-28,9,210147125.0,1,0,0,0,0.0,1.0,
4,Brasil,,,76,,,,2020-02-29,9,210147125.0,2,1,0,0,1.0,1.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1574183,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-27,53,3015268.0,248543,615,4201,3,,,1.0
1574184,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-28,53,3015268.0,249736,1193,4223,22,,,1.0
1574185,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-29,53,3015268.0,250457,721,4241,18,,,1.0
1574186,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-30,53,3015268.0,251135,678,4248,7,,,1.0


### Checando possíveis valores problemáticos

Logo na linha superior percebemos que temos problemas em uma das variáveis que queremos lidar (região). Veja que temos uma região denominada Brasil e nela não temos estado relacionado, um indício que regiões com tal valor, possuem estado ausente.

In [11]:
#quantidade de estados ausentes
(df3.isnull().sum()).sort_values(ascending=False)

emAcompanhamentoNovos     1573877
Recuperadosnovos          1573877
interior/metropolitana      14588
municipio                   14588
codRegiaoSaude              14588
nomeRegiaoSaude             14588
codmun                       8708
populacaoTCU2019             5880
estado                        311
obitosAcumulado                 0
obitosNovos                     0
regiao                          0
casosNovos                      0
casosAcumulado                  0
data                            0
coduf                           0
semanaEpi                       0
dtype: int64

In [12]:
len(df3[df3.regiao == 'Brasil'])

311

#### Hipótese "comprovada".

Veja que a quantidade de valores faltantes em *estado* é igual a quantidade de vezes que aparece Brasil em *região*

O "comprovada" está entre aspas pois não podemos ter certeza absoluta de tal hipótese, para comprova-la iremos primeiro retirar os valores ausentes e depois checaremos se de fato estava certa.

In [13]:
# vamos retirar as linhas com conteúdo na variável estado faltando (análogo a tirar as regiões = Brasil)
df4 = df3.dropna(axis = 0, subset=['estado'])

In [15]:
#checando
(df4.isnull().sum()).sort_values(ascending=False)

emAcompanhamentoNovos     1573877
Recuperadosnovos          1573877
interior/metropolitana      14277
municipio                   14277
codRegiaoSaude              14277
nomeRegiaoSaude             14277
codmun                       8397
populacaoTCU2019             5880
casosNovos                      0
obitosNovos                     0
obitosAcumulado                 0
regiao                          0
casosAcumulado                  0
estado                          0
data                            0
coduf                           0
semanaEpi                       0
dtype: int64

In [16]:
len(df4[df4.regiao == 'Brasil'])

0

Agora de fato, podemos dizer que estavamos certos.

In [17]:
# arrumando os index após o drop
df4 = df4.reset_index()

In [18]:
df4.drop(columns = 'index', inplace=True)

In [19]:
df4

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Norte,RO,,11,,,,2020-02-25,9,1777225.0,0,0,0,0,,,
1,Norte,RO,,11,,,,2020-02-26,9,1777225.0,0,0,0,0,,,
2,Norte,RO,,11,,,,2020-02-27,9,1777225.0,0,0,0,0,,,
3,Norte,RO,,11,,,,2020-02-28,9,1777225.0,0,0,0,0,,,
4,Norte,RO,,11,,,,2020-02-29,9,1777225.0,0,0,0,0,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1573872,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-27,53,3015268.0,248543,615,4201,3,,,1.0
1573873,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-28,53,3015268.0,249736,1193,4223,22,,,1.0
1573874,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-29,53,3015268.0,250457,721,4241,18,,,1.0
1573875,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-30,53,3015268.0,251135,678,4248,7,,,1.0


### Manipulando os dados

Aqui podemos ver que o próprio csv utiizado já vem com uma coluna de casos acumulados (*casosAcumulado*), ou seja, acabou facilitando nosso trabalho, agora temos apenas que pegar o total de casos acumulados a cada semana.

Queremos fazer a análise de casos por semana. Ou seja, uma forma de fazer isso seria pegar a quantidade de casos confirmados até o final do último dia, de cada semana.

In [21]:
# Criando uma coluna com todas as datas que eram domingo
df4['ultimo_semanas'] = (df4['data'].dt.weekday == 6)

In [22]:
df4.head(60)

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana,ultimo_semanas
0,Norte,RO,,11,,,,2020-02-25,9,1777225.0,0,0,0,0,,,,False
1,Norte,RO,,11,,,,2020-02-26,9,1777225.0,0,0,0,0,,,,False
2,Norte,RO,,11,,,,2020-02-27,9,1777225.0,0,0,0,0,,,,False
3,Norte,RO,,11,,,,2020-02-28,9,1777225.0,0,0,0,0,,,,False
4,Norte,RO,,11,,,,2020-02-29,9,1777225.0,0,0,0,0,,,,False
5,Norte,RO,,11,,,,2020-03-01,10,1777225.0,0,0,0,0,,,,True
6,Norte,RO,,11,,,,2020-03-02,10,1777225.0,0,0,0,0,,,,False
7,Norte,RO,,11,,,,2020-03-03,10,1777225.0,0,0,0,0,,,,False
8,Norte,RO,,11,,,,2020-03-04,10,1777225.0,0,0,0,0,,,,False
9,Norte,RO,,11,,,,2020-03-05,10,1777225.0,0,0,0,0,,,,False


Veja que agora nossa última coluna é True para domingos e False para outros dias da semana, como foi dito, vamos filtrar apenas para os domingos.

In [23]:
#pegando ultimo dia da semana
quero = df4[df4['ultimo_semanas'] == True]
quero

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana,ultimo_semanas
5,Norte,RO,,11,,,,2020-03-01,10,1777225.0,0,0,0,0,,,,True
12,Norte,RO,,11,,,,2020-03-08,11,1777225.0,0,0,0,0,,,,True
19,Norte,RO,,11,,,,2020-03-15,12,1777225.0,0,0,0,0,,,,True
26,Norte,RO,,11,,,,2020-03-22,13,1777225.0,3,2,0,0,,,,True
33,Norte,RO,,11,,,,2020-03-29,14,1777225.0,6,0,0,0,,,,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1573844,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-11-29,49,3015268.0,228702,627,3925,5,,,1.0,True
1573851,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-06,50,3015268.0,233731,355,3985,7,,,1.0,True
1573858,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-13,51,3015268.0,239096,462,4066,7,,,1.0,True
1573865,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-20,52,3015268.0,244243,409,4145,7,,,1.0,True


Agora temos um dataframe só com um representante por semana de cada estado.

Nos iremos usar a quantidade de casos acumulados dentro de cada um desses representantes.

In [24]:
# nos interessa as colunas: casos acumulados, semanas e regiao

final = quero[['regiao', 'semanaEpi', 'casosAcumulado']]

In [25]:
final = final.reset_index()

In [26]:
final.drop(columns = 'index', inplace = True)


In [29]:
final.head(25)

Unnamed: 0,regiao,semanaEpi,casosAcumulado
0,Norte,10,0
1,Norte,11,0
2,Norte,12,0
3,Norte,13,3
4,Norte,14,6
5,Norte,15,12
6,Norte,16,35
7,Norte,17,128
8,Norte,18,364
9,Norte,19,705


Vale ressaltar aqui que temos um "problema". As regiões acabam tendo seus valores de semana "zerados" a cada ciclo de 31 semanas, em média. 

Isso ocorre, pois se lembrarmos do dataframe inicial, nós tinhamos regiões e estados, ou seja, quando esse ciclo da semana 10, até a semana 31 reseta e volta para outra semana 10 seria um outro estado sendo analisado, dentro daquela região.

Para resolver isso iremos agrupar os valores com mesma região e analisados numa mesma semana, isso nos dará de fato o que queremos (pensar nas regiões por semana)

Além disso, nossa ideia é agrupar tais variáveis e analisar a quantidade de casos acumulados delas, somando todas (iremos somar a quantidade de casos por semana de cada estado, dando a quantidade de casos da região toda)

In [30]:
final = final.groupby(['regiao','semanaEpi']).casosAcumulado.sum().unstack().reset_index()

In [31]:
final

semanaEpi,regiao,10,11,12,13,14,15,16,17,18,...,44,45,46,47,48,49,50,51,52,53
0,Centro-Oeste,0,1,11,161,798,1416,2134,3124,4246,...,1352570,1389694,1417704,1454224,1487062,1527186,1573054,1622388,1674604,1715764
1,Nordeste,0,3,7,231,1453,3762,8565,18698,35360,...,2906036,2961076,3014402,3081530,3151890,3255094,3364950,3492718,3623372,3716908
2,Norte,0,0,1,49,454,1302,3796,7382,15200,...,1373300,1406852,1433712,1466100,1498718,1536306,1574880,1612942,1654542,1689428
3,Sudeste,2,21,163,926,4684,13356,25598,42506,62176,...,3780928,3888290,3948958,4096812,4245666,4395930,4600730,4808310,5034666,5219650
4,Sul,0,0,18,179,1136,2426,4282,5632,7114,...,1375422,1445498,1513454,1627520,1759466,1914964,2093466,2267546,2490016,2626820


In [21]:
final.to_csv('covid-por-regioes-2020.csv', index = False)

# Resultado

O gráfico pode ser visto clicando [aqui](https://public.flourish.studio/visualisation/12137712/).

