<a href="https://colab.research.google.com/github/RenanBarreto4/Projects/blob/master/ProjetoCOVID.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ProjetoCOVID
### Feito por: Renan Barreto
### GitHub: https://github.com/RenanBarreto4
### Baixar Dataset: https://covid.saude.gov.br/

Este projeto tem como base analisar os dados disponíveis publicamente pelo governo brasileiro do impacto do Corona Vírus em nosso país. É uma recriação de meu primeiro projeto na ICMC Júnior, de forma atualizada, complementada e em python. Todos os gráficos foram feitos usando pacote de visualização interativa gráfica Plotly, então lembre-se sempre de interagir com os gráficos para obter mais informações.

Os principais tópicos a serem analisados serão:
*   Total de casos confirmados de todas as regiões do país;
*   Total de óbitos por região;
*   Gráficos com casos acumulados por região e país;
*   Gráficos com casos novos nas regiões e país;
*   Gráficos de óbitos por mês, de regiões do país e no Brasil todo;
*   Mês em que mais houveram óbitos no país;
*   Gráficos dos três estados com maior taxa de óbitos;











O conjunto de dados representa o período de 25-02-20 até 31-07-20.

Se estiver lendo esse notebook no GitHub, recomendo abri-lo no Google Colab (com o botão "Open in Colab" no início do projeto) ou baixá-lo e abrir em um Jupyter notebook para poder visualizar os gráficos que não aparecem.

### Análise Inicial dos Dados

In [None]:
#importando bibliotecas para análise/manipulação
import pandas as pd
import numpy as np

In [None]:
#importando plotly para visualização de gráficos
!pip3 install -U plotly
import plotly
import plotly.offline as py
import plotly.graph_objs as go

Collecting plotly
[?25l  Downloading https://files.pythonhosted.org/packages/bf/5f/47ab0d9d843c5be0f5c5bd891736a4c84fa45c3b0a0ddb6b6df7c098c66f/plotly-4.9.0-py2.py3-none-any.whl (12.9MB)
[K     |████████████████████████████████| 12.9MB 299kB/s 
Installing collected packages: plotly
  Found existing installation: plotly 4.4.1
    Uninstalling plotly-4.4.1:
      Successfully uninstalled plotly-4.4.1
Successfully installed plotly-4.9.0


In [None]:
#criando função para o plotly rodar em notebooks (vai precisar usar sempre plotly() quando for plotar)
def plotly():
  import IPython
  from plotly.offline import init_notebook_mode
  display(IPython.core.display.HTML('''
        <script src="/static/components/requirejs/require.js"></script>
        <script>
          requirejs.config({
            paths: {
              base: '/static/base',
              plotly: 'https://cdn.plot.ly/plotly-1.5.1.min.js?noext',
            },
          });
        </script>
        '''))
  py.offline.init_notebook_mode(connected=True)

In [None]:
#importando dados
covid_geral = pd.read_excel('COVIDBR_01-08-2020.xlsx') 

In [None]:
#tamanho do dataset
covid_geral.shape

(713956, 17)

In [None]:
#analisando como é o dataset
covid_geral.head(162)   #162  321  4456  6758

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2020-02-25,9,210147125,0,0,0,0,,,
1,Brasil,,,76,,,,2020-02-26,9,210147125,1,1,0,0,,,
2,Brasil,,,76,,,,2020-02-27,9,210147125,1,0,0,0,,,
3,Brasil,,,76,,,,2020-02-28,9,210147125,1,0,0,0,,,
4,Brasil,,,76,,,,2020-02-29,9,210147125,2,1,0,0,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
157,Brasil,,,76,,,,2020-07-31,31,210147125,2662485,52383,92475,1212,1844051.0,725959.0,
158,Brasil,,,76,,,,2020-08-01,31,210147125,2707877,45392,93563,1088,1865729.0,748585.0,
159,Norte,RO,,11,,,,2020-02-25,9,1777225,0,0,0,0,,,
160,Norte,RO,,11,,,,2020-02-26,9,1777225,0,0,0,0,,,


In [None]:
#analisando as últimas 7 colunas
covid_geral.tail(7)

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
713949,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-26,31,3015268,96332,2145,1308,33,,,1.0
713950,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-27,31,3015268,98480,2148,1339,31,,,1.0
713951,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-28,31,3015268,100726,2246,1391,52,,,1.0
713952,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-29,31,3015268,102342,1616,1419,28,,,1.0
713953,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-30,31,3015268,104442,2100,1444,25,,,1.0
713954,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-31,31,3015268,106292,1850,1469,25,,,1.0
713955,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-08-01,31,3015268,107922,1630,1490,21,,,1.0


In [None]:
#retirando o único dia de agosto
covid_geral.drop(covid_geral[covid_geral.data == '2020-08-01'].index, inplace=True)

In [None]:
#elimindando colunas desnecessárias
covid_geral.drop(columns=['coduf', 'codRegiaoSaude', 'nomeRegiaoSaude', 'emAcompanhamentoNovos'], inplace=True)

In [None]:
#describe não ajuda muito nesse caso
covid_geral.describe()

Unnamed: 0,codmun,semanaEpi,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,interior/metropolitana
count,703961.0,708385.0,708385.0,708385.0,708385.0,708385.0,104.0,701294.0
mean,324623.033556,22.269639,422.6689,11.275585,18.205806,0.39163,545404.9,0.069902
std,98416.851914,5.25685,15740.28,381.481553,646.099642,12.253788,543155.3,0.254982
min,110000.0,9.0,0.0,-1812.0,0.0,-238.0,22130.0,0.0
25%,251130.0,18.0,0.0,0.0,0.0,0.0,83597.25,0.0
50%,314510.0,22.0,3.0,0.0,0.0,0.0,318229.5,0.0
75%,411745.0,27.0,32.0,1.0,1.0,0.0,883840.8,0.0
max,530010.0,31.0,2662485.0,69074.0,92475.0,1595.0,1844051.0,1.0


Primeiramente vamos a todas as análises gráficas solicaitadas.

### Total de Casos e Óbitos Por Região

In [None]:
#filtrando uma região e tirando os dados que não preciso
#o dataset possui linhas que com a mesma região porém casos zerados, então retirei essas linhas com codmun nulo
covid_geral[(covid_geral.regiao == 'Sudeste')&(covid_geral.municipio.isnull())&(covid_geral.codmun.isnull())]

Unnamed: 0,regiao,estado,municipio,codmun,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,interior/metropolitana
2703,Sudeste,MG,,,2020-02-25,9,21168791,0,0,0,0,,
2704,Sudeste,MG,,,2020-02-26,9,21168791,0,0,0,0,,
2705,Sudeste,MG,,,2020-02-27,9,21168791,0,0,0,0,,
2706,Sudeste,MG,,,2020-02-28,9,21168791,0,0,0,0,,
2707,Sudeste,MG,,,2020-02-29,9,21168791,0,0,0,0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3333,Sudeste,SP,,,2020-07-27,31,45919049,487654,3672,21676,70,,
3334,Sudeste,SP,,,2020-07-28,31,45919049,487654,0,21676,0,,
3335,Sudeste,SP,,,2020-07-29,31,45919049,514197,26543,22389,713,,
3336,Sudeste,SP,,,2020-07-30,31,45919049,529006,14809,22710,321,,


In [None]:
#criando um dataset sem as linhas nulas, porém sem região definida
covid_geral_null = covid_geral[(covid_geral.municipio.isnull())&(covid_geral.codmun.isnull())]

In [None]:
#criando datasets separados para cada região
covid_regiao_brasil = covid_geral_null[(covid_geral_null.regiao == 'Brasil')]
covid_regiao_nordeste = covid_geral_null[(covid_geral_null.regiao == 'Nordeste')]
covid_regiao_sudeste = covid_geral_null[(covid_geral_null.regiao == 'Sudeste')]
covid_regiao_sul = covid_geral_null[(covid_geral_null.regiao == 'Sul')]
covid_regiao_centro_oeste = covid_geral_null[(covid_geral_null.regiao == 'Centro-Oeste')]
covid_regiao_norte = covid_geral_null[(covid_geral_null.regiao == 'Norte')]

In [None]:
#obtendo total de casos e total de obitos de cada região
datasets = [covid_regiao_nordeste, covid_regiao_sudeste, covid_regiao_sul, covid_regiao_centro_oeste, covid_regiao_norte]
total_de_casos = []
total_de_obitos = []
for dataset in datasets:
  total_de_casos.append(dataset.casosNovos.sum())
print(total_de_casos)

for dataset in datasets:
  total_de_obitos.append(dataset.obitosNovos.sum())
print(total_de_obitos)

[858827, 918197, 226877, 251034, 407550]
[28619, 41788, 4898, 5320, 11850]


In [None]:
#criando uma lista com as regiões e paletas de cores
regioes = ['Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste', 'Norte']
colors1 = ['#4169E1', '#6495ED', '#1E90FF', '#00BFFF', '#87CEFA']  #escala de cores azul
colors2 = ['#cccc00', '#ffff00', '#ffff40', '#ffff54', '#ffff94']  #escala de cores amarela

In [None]:
#criando um gráfico de pizza para a porcentagem de casos por região
plotly()   #chamando a função

trace = go.Pie(labels=regioes, values=total_de_casos, #labels define os setores; values define os dados;
               textinfo='label+percent',   #textinfo define as informações que vão aparecer no gráfico estático
               hoverinfo='label+value+percent',   #hoverinfo define o que aparece quando passa o mouse em cima;
               textfont=dict(size=20),   #textfont pode passar o tamnho da letra
               marker=dict(colors=colors1, line=dict(color='#ffffff', width=2)))  #marker serve para colocar a paleta de cores com colors; line modifica a linha entre os setores, pintando e aumentando a borda

fig = go.Figure([trace])  #criando uma figura com a lista dos trace

fig.update_layout(title = 'Porcentagem de Casos Por Região',
                  title_font_size = 34,
                  title_x = 0.47)

py.iplot(fig) #plotando o gráfico numa lista

In [None]:
#gerando dois gráficos de barras para o total de casos e óbitos
from plotly.subplots import make_subplots   #importando método para gerar subplots
plotly()   #chamando a função

trace1 = go.Bar(x = regioes, y = total_de_casos, name = 'CASOS',marker = {'color': colors1})
trace2 = go.Bar(x = regioes, y = total_de_obitos, name = 'ÓBITOS', marker = {'color': colors2})  

fig = make_subplots(rows=1, cols=2,   #criando figura com 1 linha e 2 colunas
                    subplot_titles=['Total de Casos Por Região', 'Total de Óbitos por Região'])

fig.add_trace(trace1, row=1, col=1)   #adicionando trace1 na linha1, coluna1
fig.add_trace(trace2, row=1, col=2)   #adicionando trace2 na linha1, coluna2

fig.update_layout(#xaxis_title = 'Regiões',  #adicionando título ao eixo x
                  #yaxis_title = 'N° de Casos',   #adicionando título ao eixo y
                  yaxis_dtick = 75000,   #alterando quanto varia o eixo y no gráfico
                  font_size = 17,   #alterando tamanho de todos os textos
                  title_font_size = 35,   #alterando tamanho do título
                  xaxis_title_font_size = 23,   #alterando tamanho do título do eixo x
                  yaxis_title_font_size = 23)  #alterando tamanho do título do eixo y
                  

py.iplot(fig)   #plotando data

> #### Nessa primeira análise, conseguimos notar que a atuação do vírus não tem grande distinção entre os extremos do país, pois as regiões Norte e Nordeste detém 47.6% dos casos e as regiões Sul e Sudeste com 43%, números relativamente semelhantes. 
> #### Até o dia 07/04, apenas a região Sudeste contava com quase 60% dos casos, o que mostra uma disseminação do vírus pelo restante do país. Para o mesmo período, o número de óbitos teve um aumento de 13.764,31%, com um total de 92.475.
> #### É possível observar também que o total de casos e total de óbitos apresentam certa simetria proporcional, exceto na comparação de Nordese e Sudeste, que estão bem mais próximos no total de casos do que de óbitos.
> #### Além disso, vale ressaltar notória dicrepância, tanto no total de casos quanto de óbitos, no Nordeste e Sudeste e relação as outras macrorregiões do país, com 66.8% dos casos e 1.777.024 infectados.




### Casos Acumulados Por Região

In [None]:
#agrupando dataset por região e data, somando os valores e selecionando a coluna de casos acumulados
pd.DataFrame(covid_geral_null.groupby(['regiao','data']).sum()['casosAcumulado'])

Unnamed: 0_level_0,Unnamed: 1_level_0,casosAcumulado
regiao,data,Unnamed: 2_level_1
Brasil,2020-02-25,0
Brasil,2020-02-26,1
Brasil,2020-02-27,1
Brasil,2020-02-28,1
Brasil,2020-02-29,2
...,...,...
Sul,2020-07-27,198183
Sul,2020-07-28,205510
Sul,2020-07-29,212417
Sul,2020-07-30,220865


In [None]:
#destacando os índices, transpondo o dataframe e eliminando o primeiro índice
df_acumulado = pd.DataFrame(covid_geral_null.groupby(['regiao','data']).sum()['casosAcumulado']).unstack().T.droplevel(level=0)
df_acumulado

regiao,Brasil,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-02-25,0,0,0,0,0,0
2020-02-26,1,0,0,0,1,0
2020-02-27,1,0,0,0,1,0
2020-02-28,1,0,0,0,1,0
2020-02-29,2,0,0,0,2,0
...,...,...,...,...,...,...
2020-07-27,2442375,223105,795639,388205,837243,198183
2020-07-28,2483191,230351,810780,393148,843402,205510
2020-07-29,2552265,237728,827885,398428,875807,212417
2020-07-30,2610102,244445,843369,403475,897948,220865


In [None]:
#gráfico temporal de casos acumulados com filtro de tempo
plotly()

trace1 = go.Scatter(x = df_acumulado.index, y = df_acumulado['Centro-Oeste'],  #definindo variáveis para x e y
                    name = 'Centro-Oeste',  #dando um nome para a legenda
                    line = dict(color=colors1[0]),  #colorindo a linha
                    opacity = 0.8)  #alterando a opacidade para 0.8

trace2 = go.Scatter(x = df_acumulado.index, y = df_acumulado['Nordeste'],
                    name = 'Nordeste',
                    line = dict(color=colors1[1]),
                    opacity = 0.8)

trace3 = go.Scatter(x = df_acumulado.index, y = df_acumulado['Norte'],
                    name = 'Norte',
                    line = dict(color=colors1[2]),
                    opacity = 0.8)

trace4 = go.Scatter(x = df_acumulado.index, y = df_acumulado['Sudeste'],
                    name = 'Sudeste',
                    line = dict(color=colors1[3]),
                    opacity = 0.8)

trace5 = go.Scatter(x = df_acumulado.index, y = df_acumulado['Sul'],
                    name = 'Sul',
                    line = dict(color=colors1[4]),
                    opacity = 0.8)

trace6 = go.Scatter(x = df_acumulado.index, y = df_acumulado['Brasil'],
                    name = 'Brasil',
                    line = dict(color='#ffff00'),
                    opacity = 0.8)

data = [trace1, trace2, trace3, trace4, trace5, trace6]

fig = go.Figure(data=data)

fig.update_xaxes(
    rangeslider_visible=True,   #cria um filtro de tempo
    rangeselector=dict(buttons=list([dict(count=1, label="1m", step="month", stepmode="backward"),   #cria botões de filtro de tempo
                                     dict(count=6, label="6m", step="month", stepmode="backward"),
                                     dict(count=1, label="YTD", step="year", stepmode="todate"),
                                     dict(count=1, label="1y", step="year", stepmode="backward"),
                                     dict(step="all")])),
    tickformatstops = [dict(dtickrange=[None, 1000], value="%H:%M:%S.%L ms"),   #conforme dá zoom, os nomes no eixo X fica do jeito que você quiser
                       dict(dtickrange=[1000, 60000], value="%H:%M:%S second"),
                       dict(dtickrange=[60000, 3600000], value="%H:%M minute"),
                       dict(dtickrange=[3600000, 86400000], value="%H:%M hour"),
                       dict(dtickrange=[86400000, 604800000], value="%e° %b day"),
                       dict(dtickrange=[604800000, "M1"], value="%e° %b week"),
                       dict(dtickrange=["M1", "M12"], value="%b %y"),
                       dict(dtickrange=["M12", None], value="%Y")])

fig.update_layout(title_text = 'Casos Acumulados ao Longo do Tempo Por Região',
                  title_font_size = 30,
                  title_x = 0.5,
                  xaxis_gridcolor = "#eee",
                  yaxis_gridcolor = "#eee",
                  plot_bgcolor="#fff")   #alterando cor entre os eixos

py.iplot(fig)

> #### Aqui podemos ver que o primeiro caso registrado foi em 26/02 na região Sudeste e o próximo fora dessa região foi dia 06/03 no Nordeste, sendo estes dois as curvas de crescimento mais acentuadas ao longo do tempo.
> #### Outro aspecto é a semelhança nas curvas de Sudeste e Nordeste, sempre estando próximas. Apenas nos dias 10/06 até 22/06 a região Nordeste possuía mais casos registrados que o Sudeste, fora desse período o Sudeste sempre apresentou mais casos.
> #### Apesar do período representado ser de um pouco mais de 5 meses, nenhuma das 6 curvas apresenta tendência de queda aparente.



In [None]:
#gráfico de barras com os casos acumulados por região
from plotly.subplots import make_subplots 

plotly()

trace1 = go.Bar(x = covid_regiao_centro_oeste.data, y = covid_regiao_centro_oeste.casosAcumulado, name = 'Centro-Oeste', hoverinfo='y')
trace2 = go.Bar(x = covid_regiao_nordeste.data, y = covid_regiao_nordeste.casosAcumulado, name = 'Nordeste', hoverinfo='y')
trace3 = go.Bar(x = covid_regiao_norte.data, y = covid_regiao_norte.casosAcumulado, name = 'Norte', hoverinfo='y')
trace4 = go.Bar(x = covid_regiao_sudeste.data, y = covid_regiao_sudeste.casosAcumulado, name = 'Sudeste', hoverinfo='y')
trace5 = go.Bar(x = covid_regiao_sul.data, y = covid_regiao_sul.casosAcumulado, name = 'Sul', hoverinfo='y')
#trace6 = go.Bar(x = covid_regiao_brasil.data, y = covid_regiao_brasil.casosAcumulado, name = 'Brasil', hoverinfo='y')

fig = make_subplots(rows=3, cols=2,  
                    subplot_titles=['Centro-Oeste','Nordeste','Norte','Sudeste','Sul'],   #atribuindo um subtítulo
                    shared_yaxes=True)   #compartilhando o eixo y com os gráficos da mesma linha

fig.add_trace(trace1, row=1, col=1)   #adicionando trace1 na linha1, coluna1
fig.add_trace(trace2, row=1, col=2)   #adicionando trace2 na linha1, coluna2
fig.add_trace(trace3, row=2, col=1)
fig.add_trace(trace4, row=2, col=2)
fig.add_trace(trace5, row=3, col=1)
#fig.add_trace(trace6, row=3, col=2)  #colocar o brasil tirando a #

fig.update_layout(title = 'Casos Acumulados ao Longo do Tempo Por Região',  #adicionando título
                  font_size = 17,   #alterando tamanho de todos os textos
                  title_font_size = 30,   #alterando tamanho do título
                  #yaxis_title = 'N° de Casos',  #alterando o título do eixo y
                  xaxis_title_font_size = 25,   #alterando tamanho do título do eixo x
                  yaxis_title_font_size = 25,  #alterando tamanho do título do eixo y
                  #yaxis_dtick = 50000,   #alterando quanto varia o eixo y no gráfico
                  title_x = 0.5)   #colocando o título no meio

py.iplot(fig)

### Casos Novos Por Região

In [None]:
#mesmo dataframe para os casos novos
df_novos = pd.DataFrame(covid_geral_null.groupby(['regiao','data']).sum()['casosNovos']).unstack().T.droplevel(level=0)
df_novos

regiao,Brasil,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-02-25,0,0,0,0,0,0
2020-02-26,1,0,0,0,1,0
2020-02-27,0,0,0,0,0,0
2020-02-28,0,0,0,0,0,0
2020-02-29,1,0,0,0,1,0
...,...,...,...,...,...,...
2020-07-27,23284,6014,5743,1908,7165,2454
2020-07-28,40816,7246,15141,4943,6159,7327
2020-07-29,69074,7377,17105,5280,32405,6907
2020-07-30,57837,6717,15484,5047,22141,8448


In [None]:
#gráfico temporal de casos novos
plotly()

trace1 = go.Scatter(x = df_novos.index, y = df_novos['Centro-Oeste'],  #definindo variáveis para x e y
                    name = 'Centro-Oeste',  #dando um nome para a legenda
                    line = dict(color=colors1[0]),  #colorindo a linha
                    opacity = 0.8)  #alterando a opacidade para 0.8

trace2 = go.Scatter(x = df_novos.index, y = df_novos['Nordeste'],
                    name = 'Nordeste',
                    line = dict(color=colors1[1]),
                    opacity = 0.8)

trace3 = go.Scatter(x = df_novos.index, y = df_novos['Norte'],
                    name = 'Norte',
                    line = dict(color=colors1[2]),
                    opacity = 0.8)

trace4 = go.Scatter(x = df_novos.index, y = df_novos['Sudeste'],
                    name = 'Sudeste',
                    line = dict(color=colors1[3]),
                    opacity = 0.8)

trace5 = go.Scatter(x = df_novos.index, y = df_novos['Sul'],
                    name = 'Sul',
                    line = dict(color=colors1[4]),
                    opacity = 0.8)

fig = make_subplots(rows=3, cols=2, 
                    subplot_titles=['Centro-Oeste','Nordeste','Norte','Sudeste','Sul'],   #atribuindo um subtítulo
                    )

fig.add_trace(trace1, row=1, col=1)   #adicionando trace1 na linha1, coluna1
fig.add_trace(trace2, row=1, col=2)   
fig.add_trace(trace3, row=2, col=1)
fig.add_trace(trace4, row=2, col=2)
fig.add_trace(trace5, row=3, col=1)

fig.update_layout(title_text = 'Casos Novos ao Longo do Tempo Por Região',
                  title_font_size = 30,
                  title_x = 0.5)

py.iplot(fig)

> #### Nos gráficos de novos casos, apenas a região Norte aparenta estar mais controlada, diferente das regiões Sul e Centro-Oeste, que claramente estão aumentando o número de casos por dia.
> #### Aqui também é possível notar o maior número de casos registrados em 24 horas para cada região, sendo o maior deles 32.405 casos no dia 29/07 no Sudeste.

In [None]:
#gráfico temporal de casos novos e acumulados do Brasil todo
plotly()

trace1 = go.Bar(x = covid_regiao_brasil.data, y = covid_regiao_brasil.casosAcumulado, name = 'Brasil', marker = {'color' : '#ffff00'})

trace2 = go.Scatter(x = df_novos.index, y = df_novos['Brasil'], name = 'Brasil', line = dict(color='#ffff00'), opacity = 0.8)

fig = make_subplots(rows=1, cols=2,  subplot_titles=['Casos Acumulados','Casos por Dia'])

fig.add_trace(trace1, row=1, col=1)
fig.add_trace(trace2, row=1, col=2)

fig.update_xaxes(
    rangeslider_visible=True,   #cria um filtro de tempo
    rangeselector=dict(buttons=list([dict(count=1, label="1m", step="month", stepmode="backward"),   #cria botões de filtro de tempo
                                     dict(count=6, label="6m", step="month", stepmode="backward"),
                                     dict(count=1, label="YTD", step="year", stepmode="todate"),
                                     dict(count=1, label="1y", step="year", stepmode="backward"),
                                     dict(step="all")])),
    tickformatstops = [dict(dtickrange=[None, 1000], value="%H:%M:%S.%L ms"),   #conforme dá zoom, os nomes no eixo X fica do jeito que você quiser
                       dict(dtickrange=[1000, 60000], value="%H:%M:%S second"),
                       dict(dtickrange=[60000, 3600000], value="%H:%M minute"),
                       dict(dtickrange=[3600000, 86400000], value="%H:%M hour"),
                       dict(dtickrange=[86400000, 604800000], value="%e° %b day"),
                       dict(dtickrange=[604800000, "M1"], value="%e° %b week"),
                       dict(dtickrange=["M1", "M12"], value="%b %y"),
                       dict(dtickrange=["M12", None], value="%Y")])

fig.update_layout(title_text = 'Casos Acumulados e Novos do Brasil Todo',
                  title_font_size = 30, 
                  plot_bgcolor="#fff", 
                  #xaxis_gridcolor = "#eee",
                  #yaxis_gridcolor = "#eee",
                  showlegend = False,
                  title_x = 0.5)


py.iplot(fig)

#### Em âmbito nacional a curva das barras dos casos acumulados não apresenta achatamento, muito menos tendência de queda, chegando a marca de 2.662.485 casos registrados até 31/07.
#### Ademais, o gráfico de linhas representando os casos diários nos mostra uma tendência de alta, alcançando sua máxima recentemente no dia 29/07, com 69.074 casos registrados em 24 horas.

### Total de Casos Por Mês

In [None]:
#criando dataframes separados por mês
covid_geral_null.set_index('regiao', inplace = True)   #colocando a região como índice para facilitar a seleção
covid_geral_marco = covid_geral_null.loc[(covid_geral_null.data >= '2020-03-01')&(covid_geral_null.data <= '2020-03-31')]
covid_geral_abril = covid_geral_null.loc[(covid_geral_null.data >= '2020-04-01')&(covid_geral_null.data <= '2020-04-30')]
covid_geral_maio = covid_geral_null.loc[(covid_geral_null.data >= '2020-05-01')&(covid_geral_null.data <= '2020-05-31')]
covid_geral_junho = covid_geral_null.loc[(covid_geral_null.data >= '2020-06-01')&(covid_geral_null.data <= '2020-06-30')]
covid_geral_julho = covid_geral_null.loc[(covid_geral_null.data >= '2020-07-01')&(covid_geral_null.data <= '2020-07-31')]

In [None]:
#visulização de como ficou o dataframe
covid_geral_marco

Unnamed: 0_level_0,estado,municipio,codmun,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,interior/metropolitana
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Brasil,,,,2020-03-01,10,210147125,2,0,0,0,,
Brasil,,,,2020-03-02,10,210147125,2,0,0,0,,
Brasil,,,,2020-03-03,10,210147125,2,0,0,0,,
Brasil,,,,2020-03-04,10,210147125,3,1,0,0,,
Brasil,,,,2020-03-05,10,210147125,7,4,0,0,,
...,...,...,...,...,...,...,...,...,...,...,...,...
Centro-Oeste,DF,,,2020-03-27,13,3015268,230,30,0,0,,
Centro-Oeste,DF,,,2020-03-28,13,3015268,260,30,0,0,,
Centro-Oeste,DF,,,2020-03-29,14,3015268,289,29,1,1,,
Centro-Oeste,DF,,,2020-03-30,14,3015268,312,23,1,0,,


In [None]:
#teste para soma de casos em um mês dada uma região
covid_geral_marco.loc['Brasil','casosNovos'].sum()

5715

In [None]:
#somando todos os casos e colocando numa lista de listas com cada uma sendo todas as regiões em certo mês
regioes = ['Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste', 'Norte', 'Brasil']
meses = ['marco','abril','maio','junho','julho']
marco = []
abril = []
maio = []
junho = []
julho = []
casos_por_mes = [marco,abril,maio,junho,julho]
datasets2 = [covid_geral_marco,covid_geral_abril,covid_geral_maio,covid_geral_junho,covid_geral_julho]

for i in regioes:
  for j in range(len(meses)):
    casos_por_mes[j].append(datasets2[j].loc[i,'casosNovos'].sum())

casos_por_mes

[[875, 3404, 672, 470, 294, 5715],
 [23643, 39037, 4286, 2219, 10478, 79663],
 [154234, 144797, 18098, 14711, 96980, 428820],
 [301602, 298645, 53116, 79800, 154678, 887841],
 [378473, 432312, 150705, 153834, 145120, 1260444]]

In [None]:
#transpondo matriz para ter em cada lista só uma região e todos os meses
casos_por_mes2 = np.array(casos_por_mes).T.tolist()
casos_por_mes2

[[875, 23643, 154234, 301602, 378473],
 [3404, 39037, 144797, 298645, 432312],
 [672, 4286, 18098, 53116, 150705],
 [470, 2219, 14711, 79800, 153834],
 [294, 10478, 96980, 154678, 145120],
 [5715, 79663, 428820, 887841, 1260444]]

In [None]:
#gráfico de barras do número de casos por região e mês
plotly()

trace1 = go.Bar(x = meses, y = casos_por_mes2[0], name = 'Nordeste', marker = {'color': colors1[0]}, hoverinfo = 'y+name')
trace2 = go.Bar(x = meses, y = casos_por_mes2[1], name = 'Sudeste', marker = {'color': colors1[1]}, hoverinfo = 'y+name')  
trace3 = go.Bar(x = meses, y = casos_por_mes2[2], name = 'Sul', marker = {'color': colors1[2]}, hoverinfo = 'y+name')  
trace4 = go.Bar(x = meses, y = casos_por_mes2[3], name = 'Centro-Oeste', marker = {'color': colors1[3]}, hoverinfo = 'y+name')
trace5 = go.Bar(x = meses, y = casos_por_mes2[4], name = 'Norte', marker = {'color': colors1[4]}, hoverinfo = 'y+name')
trace6 = go.Bar(x = meses, y = casos_por_mes2[5], name = 'Brasil', marker = {'color': colors2[1]}, hoverinfo = 'y+name')


data = [trace1, trace2, trace3, trace4, trace5, trace6]

fig = go.Figure(data=data)

fig.update_layout(barmode='group', #alterando o layout para barras agrupadas com o método Layout, o que já é o padrão (então esse comando é desnecessário)
                  title = 'Total de Casos Por Região/Mês',
                  xaxis_title = 'Meses',
                  yaxis_title = 'N° de Casos',
                  font_size = 17,
                  title_font_size = 35,
                  xaxis_title_font_size = 25,
                  yaxis_title_font_size = 25,
                  title_x = 0.5,
                  plot_bgcolor="#fff", 
                  xaxis_gridcolor = "#eee",
                  yaxis_gridcolor = "#eee")

py.iplot(fig)

> #### Mais uma vez, é possível ver uma maior estabilidade na região Norte que que teve a menor diferença entre o número de casos resgistrados em meses consecutivos.
> #### A diferença entre as regiões Nordeste e Sudeste que sempre foi pouca aparenta estar crescendo, algo que só poderá ser confirmado com a análise dos próximos meses.
> #### Em todos as regiões houve um aumento no número de casos em relação ao mês anterior.
> #### De Março a Abril o número de casos no país aumentou em 1.293,9%, entre Abril e Maio 438,3%, entre Maio e Junho 107% e entre Junho e Julho 41.9%, o que pela primeira vez nos mostra que apesar do grande números, cada mês a taxa de crescimento é menor.

### Total de Óbitos por Mês

In [None]:
#mesma manipulação, mas para óbitos novos
regioes = ['Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste', 'Norte', 'Brasil']
marco2 = []
abril2 = []
maio2 = []
junho2 = []
julho2 = []
casos_por_mes3 = [marco2,abril2,maio2,junho2,julho2]
datasets2 = [covid_geral_marco,covid_geral_abril,covid_geral_maio,covid_geral_junho,covid_geral_julho]

for i in regioes:
  for j in range(len(meses)):
    casos_por_mes3[j].append(datasets2[j].loc[i,'obitosNovos'].sum())

casos_por_mes4 = np.array(casos_por_mes3).T.tolist()
casos_por_mes4

[[22, 1514, 7330, 10412, 9341],
 [161, 3233, 10440, 13622, 14332],
 [9, 171, 369, 1055, 3294],
 [5, 74, 296, 1355, 3590],
 [4, 708, 4978, 3836, 2324],
 [201, 5700, 23413, 30280, 32881]]

In [None]:
#gráfico de barras do número de obitos por região e mês
plotly()

trace1 = go.Bar(x = meses, y = casos_por_mes4[0], name = 'Nordeste', marker = {'color': colors1[0]}, hoverinfo = 'y+name')
trace2 = go.Bar(x = meses, y = casos_por_mes4[1], name = 'Sudeste', marker = {'color': colors1[1]}, hoverinfo = 'y+name')  
trace3 = go.Bar(x = meses, y = casos_por_mes4[2], name = 'Sul', marker = {'color': colors1[2]}, hoverinfo = 'y+name')  
trace4 = go.Bar(x = meses, y = casos_por_mes4[3], name = 'Centro-Oeste', marker = {'color': colors1[3]}, hoverinfo = 'y+name')
trace5 = go.Bar(x = meses, y = casos_por_mes4[4], name = 'Norte', marker = {'color': colors1[4]}, hoverinfo = 'y+name')
trace6 = go.Bar(x = meses, y = casos_por_mes4[5], name = 'Brasil', marker = {'color': colors2[1]}, hoverinfo = 'y+name')


data = [trace1, trace2, trace3, trace4, trace5, trace6]

fig = go.Figure(data=data)

fig.update_layout(barmode='group',
                  title = 'Total de Óbitos Por Região/Mês',
                  xaxis_title = 'Meses',
                  yaxis_title = 'N° de Óbitos',
                  font_size = 17,
                  title_font_size = 35,
                  xaxis_title_font_size = 25,
                  yaxis_title_font_size = 25,
                  title_x = 0.5,
                  plot_bgcolor="#fff", 
                  xaxis_gridcolor = "#eee",
                  yaxis_gridcolor = "#eee")

py.iplot(fig)

> #### Já para a comparação entre o número de óbitos em cada mês, os dados são mais positivos, apresentando uma diminuição em três meses consecutivos da região Norte, além da baixa do Nordeste entre os meses de Junho e Julho.
> #### Além disso, de Março a Abril o número de óbitos no país aumentou em 2.735,8%, entre Abril e Maio 310,7%, entre Maio e Junho 29,3% e entre Junho e Julho 8.5%, taxa que diminui a cada mês.
> #### Um fato que vale resaltar é que no mês de Março tinhamos 5715 casos e já no mês seguinte (Abril), o número de óbitos quase chegou nesse mesmo valor, 5700.

In [None]:
#selecionando o total de óbitos de cada estado
df_novos_obitos = pd.DataFrame(covid_geral_null.groupby(['estado','data']).sum()['obitosAcumulado']).unstack().T.droplevel(level=0)
df_max = df_novos_obitos.iloc[-1]
pd.DataFrame(df_max).T

estado,AC,AL,AM,AP,BA,CE,DF,ES,GO,MA,MG,MS,MT,PA,PB,PE,PI,PR,RJ,RN,RO,RR,RS,SC,SE,SP,TO
2020-07-31,531,1567,3268,565,3463,7668,1469,2545,1656,3013,2769,376,1819,5728,1811,6557,1329,1920,13477,1777,872,505,1876,1102,1434,22997,381


In [None]:
#encontrando os três maiores
import heapq
maiores_estados = df_max.tolist()
heapq.nlargest(3,maiores_estados)

[22997, 13477, 7668]

In [None]:
#recriando os datasets para colocar o estado como índice
covid_geral_null2 = covid_geral[(covid_geral.municipio.isnull())&(covid_geral.codmun.isnull())]
covid_geral_null2.set_index('estado', inplace = True)
covid_geral_marco2 = covid_geral_null2.loc[(covid_geral_null2.data >= '2020-03-01')&(covid_geral_null2.data <= '2020-03-31')]
covid_geral_abril2 = covid_geral_null2.loc[(covid_geral_null2.data >= '2020-04-01')&(covid_geral_null2.data <= '2020-04-30')]
covid_geral_maio2 = covid_geral_null2.loc[(covid_geral_null2.data >= '2020-05-01')&(covid_geral_null2.data <= '2020-05-31')]
covid_geral_junho2 = covid_geral_null2.loc[(covid_geral_null2.data >= '2020-06-01')&(covid_geral_null2.data <= '2020-06-30')]
covid_geral_julho2 = covid_geral_null2.loc[(covid_geral_null2.data >= '2020-07-01')&(covid_geral_null2.data <= '2020-07-27')]

In [None]:
#selecioando o total de casos por mês dos três estados com mais casos
estados_obitos = ['CE', 'RJ', 'SP']
marco3 = []
abril3 = []
maio3 = []
junho3 = []
julho3 = []
casos_por_mes5 = [marco3,abril3,maio3,junho3,julho3]
datasets3 = [covid_geral_marco2,covid_geral_abril2,covid_geral_maio2,covid_geral_junho2,covid_geral_julho2]

for i in estados_obitos:
  for j in range(len(meses)):
    casos_por_mes5[j].append(datasets3[j].loc[i,'obitosNovos'].sum())

casos_por_mes6 = np.array(casos_por_mes5).T.tolist()
casos_por_mes6

[[7, 475, 2528, 3136, 1363],
 [23, 831, 4490, 4736, 2796],
 [136, 2239, 5240, 7148, 6913]]

In [None]:
#soma de óbitos dos 3 estados
np.array(casos_por_mes6).sum()

42061

In [None]:
#soma de óbitos apenas de São Paulo e Rio de Janeiro
np.array(heapq.nlargest(2,maiores_estados)).sum()

36474

In [None]:
#gráfico de barras do número de obitos por região e mês
plotly()

trace1 = go.Bar(x = meses, y = casos_por_mes6[0], name = 'Ceará', marker = {'color': colors1[0]}, hoverinfo = 'y+name')
trace2 = go.Bar(x = meses, y = casos_por_mes6[1], name = 'Rio De Janeiro', marker = {'color': colors1[1]}, hoverinfo = 'y+name')  
trace3 = go.Bar(x = meses, y = casos_por_mes6[2], name = 'São Paulo', marker = {'color': colors1[2]}, hoverinfo = 'y+name')  



data = [trace1, trace2, trace3]

fig = go.Figure(data=data)

fig.update_layout(barmode='group',
                  title = 'Total de Óbitos Nos 3 Estados Mais Afetados Por Mês',
                  xaxis_title = 'Meses',
                  yaxis_title = 'N° de Óbitos',
                  font_size = 17,
                  title_font_size = 35,
                  xaxis_title_font_size = 25,
                  yaxis_title_font_size = 25,
                  title_x = 0.5,
                  plot_bgcolor="#fff", 
                  xaxis_gridcolor = "#eee",
                  yaxis_gridcolor = "#eee")

py.iplot(fig)

> #### Agora para os óbitos nos 3 estados com o maior número, é fácil notar, apesar do crescimento, uma diminuição consecutiva da taxa, até que no mês de julho todos os 3 estados obtiveram uma diminuição em relação ao mês anterior, com o Rio de Janeiro e o Ceará, com índices menores até que o mês de Maio.
> #### Rio de Janeiro e São Paulo detém 39,4% dos óbitos do país, porcentagem que em 07/04 era de quase 70%. 




### Estatísticas

In [None]:
#selecionando as populações de todos os estados do centro-oeste
pop_co = np.unique(covid_regiao_centro_oeste.populacaoTCU2019).astype('int32')
pop_co

array([2778986, 3015268, 3484466, 7018354], dtype=int32)

In [None]:
#somando esses valores para obter a população total do centro-oeste
pop_total_co = np.sum(pop_co)
pop_total_co

16297074

In [None]:
#obtendo a população total de cada região
pop_total_nordeste = np.unique(covid_regiao_nordeste.populacaoTCU2019).astype('int32').sum()
pop_total_norte = np.unique(covid_regiao_norte.populacaoTCU2019).astype('int32').sum()
pop_total_sudeste = np.unique(covid_regiao_sudeste.populacaoTCU2019).astype('int32').sum()
pop_total_sul = np.unique(covid_regiao_sul.populacaoTCU2019).astype('int32').sum()
pop_total_brasil = np.unique(covid_regiao_brasil.populacaoTCU2019).astype('int32').sum()
pop_regioes = [pop_total_nordeste,pop_total_sudeste,pop_total_sul,pop_total_co,pop_total_norte]

In [None]:
#verificando a lista de regiões para estar na mesma ordem da pop_regioes
regioes

['Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste', 'Norte', 'Brasil']

In [None]:
#população do Brasil
pop_regioes = np.array(pop_regioes)
pop_regioes.sum()

210147125

In [None]:
#transformando a lista de total de casos por região em array para poder dividir
total_de_casos = np.array(total_de_casos)
total_de_casos

array([858827, 918197, 226877, 251034, 407550])

In [None]:
#soma do total de casos
total_de_casos.sum()

2662485

In [None]:
#porcentagem de casos por região em relação a sua população
pct_de_casos = (total_de_casos/pop_regioes)*100
dict(zip(regioes[:-1],np.round(pct_de_casos,3)))

{'Centro-Oeste': 1.54,
 'Nordeste': 1.505,
 'Norte': 2.211,
 'Sudeste': 1.039,
 'Sul': 0.757}

In [None]:
#porcentagem do brasil que ja foi contaminada
print('Porcentagem de contaminados no Brasil: ' + str(np.round(total_de_casos.sum()/pop_regioes.sum(),4)*100) + '%')

Porcentagem de contaminados no Brasil: 1.27%


In [None]:
#obtendo o total de recuperados no Brasil
total_recuperados = covid_regiao_brasil.iloc[-1,11]
print('Total de Recuperados: ' + str(total_recuperados))

Total de Recuperados: 1844051.0


In [None]:
#obtendo a porcentagem de recuperados
pct_recuperados = np.round((total_recuperados/total_de_casos.sum())*100,3)
print('Recuperados: ' + str(pct_recuperados) + '%')

Recuperados: 69.261%


In [None]:
#número total de óbitos
total_obitos = np.array(total_de_obitos).sum()
print('Total de óbitos no Brasil: ' + str(total_obitos))

Total de óbitos no Brasil: 92475


In [None]:
#taxa de mortalidade do Brasil
pct_mortalidade = np.round((total_obitos/total_de_casos.sum())*100,3)
print('Taxa de Mortalidade: ' + str(pct_mortalidade) + '%')

Taxa de Mortalidade: 3.473%


> #### Atualmente o Brasil conta com aproximadamente 210.147.125 pessoas, com um total de 2.662.485 casos do novo Corova Vírus registrados, o que nos dá uma taxa de contaminação de 1,27%, sendo a região com maior percentual comparado a sua população a região Norte, com 2,211%, o que é bastante curioso, pois é a que apresenta menor quantidade de casos e aparenta estar mais controlada. Em seguida temos a região Centro-Oeste com 1,54%; 1,505% no Nordeste; 1,039% no Sudeste e 0,757% no Sul.
> #### Desses 2.662.485 contaminados, já temos 1.844.051 recuperados, ou seja quase 70% dessa população obteve sucesso no tratamento.
> #### Por fim, com 92.475 óbitos em todo o país, a nossa taxa de mortalidade é de 3,47%, taxa maior que a dos Estados Unidos, com 3,33%, porém menor que a taxa global que é de 3,83%.

### Bar Chart Race

In [None]:
#eliminando o Brasil do dataframe para sobrar só os estados
df_acumulado2 = df_acumulado.drop(columns='Brasil')
df_acumulado2

regiao,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-02-25,0,0,0,0,0
2020-02-26,0,0,0,1,0
2020-02-27,0,0,0,1,0
2020-02-28,0,0,0,1,0
2020-02-29,0,0,0,2,0
...,...,...,...,...,...
2020-07-27,223105,795639,388205,837243,198183
2020-07-28,230351,810780,393148,843402,205510
2020-07-29,237728,827885,398428,875807,212417
2020-07-30,244445,843369,403475,897948,220865


In [None]:
#instalando e importando bar_chart_race
!pip install -U bar_chart_race
import bar_chart_race as bcr

In [None]:
#criando bar chart race para os casos acumulados por região
bcr.bar_chart_race(df_acumulado2, title = 'Número de Casos Acumulados de COVID-19 por Região', 
                   period_length=300, period_fmt='%b %-d, %Y',perpendicular_bar_func='mean')

In [None]:
#criando bar chart race para os casos acumulados por estado
bcr.bar_chart_race(df_novos_obitos, title = 'Número de Óbitos Acumulados de COVID-19 por Estado', 
                   period_length=300, period_fmt='%b %-d, %Y',perpendicular_bar_func='mean', n_bars = 20)


Some of your columns never make an appearance in the animation. To reduce color repetition, set `filter_column_colors` to `True`

