# Análise dos dados da COVID-19 no ES
## Maiky Barreto da Silva

Pontos a serem abordados:
- Evolução da pandemia no Estado, com dados diários, semanais e médias móveis
- Evolução da pandemia na GV (Vitória, Vila Velha, Cariacica, Serra, Viana)
- Motivos que levam as pessoas a irem aos postos de saúde

In [1]:
# Pacotes básicos para a análise

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import datetime
import seaborn
seaborn.set()

In [2]:
# Pacotes de apresentação de dados

import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots

In [3]:
# Leitura dos dados

df = pd.read_csv('https://bi.static.es.gov.br/covid19/MICRODADOS.csv', sep = ';', encoding = 'iso8859_15')

In [4]:
df.head()

Unnamed: 0,DataNotificacao,DataCadastro,DataDiagnostico,DataColeta_RT_PCR,DataColetaTesteRapido,DataEncerramento,DataObito,Classificacao,Evolucao,CriterioConfirmacao,...,ComorbidadeRenal,ComorbidadeDiabetes,ComorbidadeTabagismo,ComorbidadeObesidade,FicouInternado,ViagemBrasil,ViagemInternacional,ProfissionalSaude,PossuiDeficiencia,MoradorDeRua
0,2020-09-05,2020-09-05,2020-09-03,,,,,Suspeito,-,-,...,Não,Não,Não,Sim,Não Informado,Não,Não Informado,Sim,Não,Não
1,2020-09-05,2020-09-05,2020-08-27,,2020-08-12,,,Suspeito,-,-,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Não
2,2020-09-05,2020-09-05,2020-08-27,,,,,Suspeito,-,-,...,Não,Não,Não,Não,Não Informado,Não,Não,Não,Não,Não
3,2020-09-05,2020-09-05,2020-09-03,2020-09-05,,,,Suspeito,-,Laboratorial,...,Não,Não,Não,Não,Não Informado,Não,Não,Não,Não,Não
4,2020-09-05,2020-09-05,2020-08-31,,2020-09-05,,,Suspeito,-,-,...,Não,Não,Não,Não,Não Informado,Não Informado,Não Informado,Ignorado,Não,Não


In [5]:
df.shape

(350494, 37)

In [6]:
df.DataNotificacao = df.DataNotificacao.astype(np.datetime64)
df.DataObito = df.DataObito.astype(np.datetime64)

Primeiro serão obtidos os gráficos de barras diário, semanal e média móvel de casos no ES. Idem para os óbitos.

In [42]:
df_conf = df.query("Classificacao == 'Confirmados'")
df_conf.head()

Unnamed: 0,DataNotificacao,DataCadastro,DataDiagnostico,DataColeta_RT_PCR,DataColetaTesteRapido,DataEncerramento,DataObito,Classificacao,Evolucao,CriterioConfirmacao,...,ComorbidadeRenal,ComorbidadeDiabetes,ComorbidadeTabagismo,ComorbidadeObesidade,FicouInternado,ViagemBrasil,ViagemInternacional,ProfissionalSaude,PossuiDeficiencia,MoradorDeRua
8,2020-09-05,2020-09-05,2020-08-31,,2020-09-04,,NaT,Confirmados,-,Laboratorial,...,Não,Não,Não,Não,Ignorado,Ignorado,Ignorado,Ignorado,Não,Não
29,2020-09-05,2020-09-05,2020-09-02,,2020-09-04,,NaT,Confirmados,-,Laboratorial,...,Não,Não,Não,Não,Não Informado,Não Informado,Não Informado,Sim,Não,Não
34,2020-09-05,2020-09-05,2020-09-04,2020-09-04,,,NaT,Confirmados,-,Laboratorial,...,Não,Não,Não,Não,Não Informado,Não Informado,Não Informado,Não,Não,Não
68,2020-09-05,2020-09-05,2020-09-02,2020-09-02,,,NaT,Confirmados,-,Laboratorial,...,Não,Não,Não,Não,Não Informado,Não Informado,Não Informado,Não,Não,Não
86,2020-09-05,2020-09-05,2020-08-28,,2020-09-05,,NaT,Confirmados,-,Laboratorial,...,Não,Não,Não,Não,Não Informado,Não Informado,Não Informado,Não,Não,Não


In [8]:
total_notif_ES = df_conf.groupby('DataNotificacao').count().DataCadastro
total_notif_ES

DataNotificacao
2020-02-29      1
2020-03-06      1
2020-03-13      4
2020-03-14      2
2020-03-15      3
             ... 
2020-09-01    551
2020-09-02    402
2020-09-03    374
2020-09-04    250
2020-09-05     38
Name: DataCadastro, Length: 179, dtype: int64

In [9]:
rm_notif_ES = total_notif_ES.rolling(14).mean()
rm_notif_ES

DataNotificacao
2020-02-29           NaN
2020-03-06           NaN
2020-03-13           NaN
2020-03-14           NaN
2020-03-15           NaN
                 ...    
2020-09-01    515.071429
2020-09-02    471.357143
2020-09-03    442.857143
2020-09-04    413.928571
2020-09-05    398.642857
Name: DataCadastro, Length: 179, dtype: float64

In [10]:
fig1 = go.Figure()
fig1.add_bar(x = total_notif_ES.index, y = total_notif_ES, name = 'Notificações diárias')
fig1.add_scatter(x = rm_notif_ES.index, y = rm_notif_ES, name = 'Média móvel 14d')
fig1.update_layout(title = 'Casos confirmados de COVID-19 no ES - Diário')
fig1.update_xaxes(title = 'Data de Notificação')
fig1.update_yaxes(title = 'Pacientes infectados')
fig1.update_traces(hovertemplate = 'Data: %{x}<br>Casos no dia: %{y}', selector={'name':'Notificações diárias'})
fig1.update_traces(hovertemplate = 'Data: %{x}<br>Média móvel: %{y}', selector={'name':'Média móvel 14d'})
fig1.update_layout(xaxis=dict(
        rangeselector=dict(
            buttons=list([
                dict(count=1,
                     label="1m",
                     step="month",
                     stepmode="backward"),
                     dict(count=3,
                     label="3m",
                     step="month",
                     stepmode="backward"),
                     dict(step="all")
                     ])),
        rangeslider=dict(
            visible=True
        ),type="date"))

In [11]:
px.bar(total_notif_ES.resample('W').sum(), title = 'Casos confirmados no ES - Semanal')

In [12]:
total_ob_ES = df_conf.groupby('DataObito').count().DataCadastro
total_ob_ES

DataObito
2020-03-13     1
2020-04-01     4
2020-04-02     3
2020-04-04     1
2020-04-10     2
              ..
2020-09-01    18
2020-09-02    13
2020-09-03    15
2020-09-04     8
2020-09-05     4
Name: DataCadastro, Length: 153, dtype: int64

In [13]:
rm_ob_ES = total_ob_ES.rolling(14).mean()
rm_ob_ES

DataObito
2020-03-13          NaN
2020-04-01          NaN
2020-04-02          NaN
2020-04-04          NaN
2020-04-10          NaN
                ...    
2020-09-01    16.928571
2020-09-02    16.571429
2020-09-03    16.142857
2020-09-04    15.714286
2020-09-05    14.785714
Name: DataCadastro, Length: 153, dtype: float64

In [14]:
fig2 = go.Figure()
fig2.add_bar(x = total_ob_ES.index, y = total_ob_ES, name = 'Óbitos diários')
fig2.add_scatter(x = rm_ob_ES.index, y = rm_ob_ES, name = 'Média móvel 14d')
fig2.update_layout(title = 'Mortes por COVID-19 no ES - Diário')
fig2.update_xaxes(title = 'Data de Notificação')
fig2.update_yaxes(title = 'Pacientes infectados')
fig2.update_traces(hovertemplate = 'Data: %{x}<br>Óbitos no dia: %{y}', selector={'name':'Óbitos diários'})
fig2.update_traces(hovertemplate = 'Data: %{x}<br>Média móvel: %{y}', selector={'name':'Média móvel 14d'})
fig2.update_layout(xaxis=dict(
        rangeselector=dict(
            buttons=list([
                dict(count=1,
                     label="1m",
                     step="month",
                     stepmode="backward"),
                     dict(count=3,
                     label="3m",
                     step="month",
                     stepmode="backward"),
                     dict(step="all")
                     ])),
        rangeslider=dict(
            visible=True
        ),type="date"))

In [15]:
px.bar(total_ob_ES.resample('W').sum(), title = 'Mortes por COVID-19 no ES - Semanal')

Isolando os dados a GV:

In [43]:
gv = ['VILA VELHA', 'VITÓRIA', 'CARIACICA', 'VIANA', 'SERRA']
df_conf_GV = df_conf.query("Municipio == @gv")
df_conf_GV.head()

Unnamed: 0,DataNotificacao,DataCadastro,DataDiagnostico,DataColeta_RT_PCR,DataColetaTesteRapido,DataEncerramento,DataObito,Classificacao,Evolucao,CriterioConfirmacao,...,ComorbidadeRenal,ComorbidadeDiabetes,ComorbidadeTabagismo,ComorbidadeObesidade,FicouInternado,ViagemBrasil,ViagemInternacional,ProfissionalSaude,PossuiDeficiencia,MoradorDeRua
8,2020-09-05,2020-09-05,2020-08-31,,2020-09-04,,NaT,Confirmados,-,Laboratorial,...,Não,Não,Não,Não,Ignorado,Ignorado,Ignorado,Ignorado,Não,Não
34,2020-09-05,2020-09-05,2020-09-04,2020-09-04,,,NaT,Confirmados,-,Laboratorial,...,Não,Não,Não,Não,Não Informado,Não Informado,Não Informado,Não,Não,Não
68,2020-09-05,2020-09-05,2020-09-02,2020-09-02,,,NaT,Confirmados,-,Laboratorial,...,Não,Não,Não,Não,Não Informado,Não Informado,Não Informado,Não,Não,Não
88,2020-09-05,2020-09-05,2020-09-03,,2020-09-03,,NaT,Confirmados,Ignorado,Laboratorial,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Não
300,2020-09-05,2020-09-05,2020-07-01,,2020-07-20,2020-09-05,NaT,Confirmados,Ignorado,Laboratorial,...,Não,Não,Não,Não,Não Informado,Não Informado,Não Informado,Sim,Não,Não


In [17]:
total_notif_GV = df_conf_GV.groupby('DataNotificacao').count().DataCadastro
total_notif_GV

DataNotificacao
2020-02-29      1
2020-03-06      1
2020-03-13      2
2020-03-14      1
2020-03-15      2
             ... 
2020-09-01    130
2020-09-02     97
2020-09-03     84
2020-09-04     45
2020-09-05     10
Name: DataCadastro, Length: 179, dtype: int64

In [18]:
rm_notif_GV = total_notif_GV.rolling(14).mean()
rm_notif_GV

DataNotificacao
2020-02-29           NaN
2020-03-06           NaN
2020-03-13           NaN
2020-03-14           NaN
2020-03-15           NaN
                 ...    
2020-09-01    125.928571
2020-09-02    111.428571
2020-09-03    102.214286
2020-09-04     94.000000
2020-09-05     87.285714
Name: DataCadastro, Length: 179, dtype: float64

In [19]:
fig3 = go.Figure()
fig3.add_bar(x = total_notif_GV.index, y = total_notif_GV, name = 'Notificações diárias')
fig3.add_scatter(x = rm_notif_GV.index, y = rm_notif_GV, name = 'Média móvel 14d')
fig3.update_layout(title = 'Casos confirmados de COVID-19 na GV - Diário')
fig3.update_xaxes(title = 'Data de Notificação')
fig3.update_yaxes(title = 'Pacientes infectados')
fig3.update_traces(hovertemplate = 'Data: %{x}<br>Casos no dia: %{y}', selector={'name':'Notificações diárias'})
fig3.update_traces(hovertemplate = 'Data: %{x}<br>Média móvel: %{y}', selector={'name':'Média móvel 14d'})
fig3.update_layout(xaxis=dict(
        rangeselector=dict(
            buttons=list([
                dict(count=1,
                     label="1m",
                     step="month",
                     stepmode="backward"),
                     dict(count=3,
                     label="3m",
                     step="month",
                     stepmode="backward"),
                     dict(step="all")
                     ])),
        rangeslider=dict(
            visible=True
        ),type="date"))

In [20]:
px.bar(total_notif_GV.resample('W').sum(), title = 'Casos confirmados na GV - Semanal')

In [21]:
total_ob_GV = df_conf_GV.groupby('DataObito').count().DataCadastro
total_ob_GV

DataObito
2020-03-13    1
2020-04-01    2
2020-04-02    2
2020-04-10    2
2020-04-11    1
             ..
2020-09-01    4
2020-09-02    2
2020-09-03    2
2020-09-04    4
2020-09-05    3
Name: DataCadastro, Length: 152, dtype: int64

In [22]:
rm_ob_GV = total_ob_GV.rolling(14).mean()
rm_ob_GV

DataObito
2020-03-13         NaN
2020-04-01         NaN
2020-04-02         NaN
2020-04-10         NaN
2020-04-11         NaN
                ...   
2020-09-01    4.928571
2020-09-02    4.571429
2020-09-03    4.357143
2020-09-04    4.357143
2020-09-05    4.000000
Name: DataCadastro, Length: 152, dtype: float64

In [23]:
fig2 = go.Figure()
fig2.add_bar(x = total_ob_GV.index, y = total_ob_GV, name = 'Óbitos diários')
fig2.add_scatter(x = rm_ob_GV.index, y = rm_ob_GV, name = 'Média móvel 14d')
fig2.update_layout(title = 'Mortes por COVID-19 na GV - Diário')
fig2.update_xaxes(title = 'Data de Notificação')
fig2.update_yaxes(title = 'Pacientes infectados')
fig2.update_traces(hovertemplate = 'Data: %{x}<br>Óbitos no dia: %{y}', selector={'name':'Óbitos diários'})
fig2.update_traces(hovertemplate = 'Data: %{x}<br>Média móvel: %{y}', selector={'name':'Média móvel 14d'})
fig2.update_layout(xaxis=dict(
        rangeselector=dict(
            buttons=list([
                dict(count=1,
                     label="1m",
                     step="month",
                     stepmode="backward"),
                     dict(count=3,
                     label="3m",
                     step="month",
                     stepmode="backward"),
                     dict(step="all")
                     ])),
        rangeslider=dict(
            visible=True
        ),type="date"))

In [24]:
px.bar(total_ob_GV.resample('W').sum(), title = 'Óbitos na GV - Semanal')

In [25]:
# Limpeza de memória

del rm_notif_ES, rm_notif_GV, total_notif_ES, total_notif_GV, total_ob_ES, total_ob_GV

Verificando as características das pessoas que procuraram os postos de saúde:

In [28]:
df.columns

Index(['DataNotificacao', 'DataCadastro', 'DataDiagnostico',
       'DataColeta_RT_PCR', 'DataColetaTesteRapido', 'DataEncerramento',
       'DataObito', 'Classificacao', 'Evolucao', 'CriterioConfirmacao',
       'StatusNotificacao', 'Municipio', 'Bairro', 'FaixaEtaria',
       'IdadeNaDataNotificacao', 'Sexo', 'RacaCor', 'Escolaridade', 'Febre',
       'DificuldadeRespiratoria', 'Tosse', 'Coriza', 'DorGarganta', 'Diarreia',
       'Cefaleia', 'ComorbidadePulmao', 'ComorbidadeCardio',
       'ComorbidadeRenal', 'ComorbidadeDiabetes', 'ComorbidadeTabagismo',
       'ComorbidadeObesidade', 'FicouInternado', 'ViagemBrasil',
       'ViagemInternacional', 'ProfissionalSaude', 'PossuiDeficiencia',
       'MoradorDeRua'],
      dtype='object')

In [34]:
df.shape[0]

350494

In [68]:
sintomas = ['Febre','DificuldadeRespiratoria', 'Tosse', 'Coriza', 'DorGarganta', 'Diarreia','Cefaleia']
motivos = df.groupby(sintomas).count().DataNotificacao/df.shape[0]*100
motivos.head()

Febre  DificuldadeRespiratoria  Tosse  Coriza  DorGarganta  Diarreia  Cefaleia
-      -                        -      -       -            -         -           0.363487
                                                                      Não         0.001427
                                                                      Sim         0.000285
                                                            Não       -           0.001427
                                               Não          -         -           0.001141
Name: DataNotificacao, dtype: float64

In [69]:
motivos.sort_values(ascending = False).head(15)

Febre  DificuldadeRespiratoria  Tosse  Coriza  DorGarganta  Diarreia  Cefaleia
Não    Não                      Não    Não     Não          Não       Não         21.967851
Sim    Não                      Sim    Não     Não          Não       Sim          2.937853
                                                                      Não          2.719875
Não    Não                      Sim    Não     Não          Não       Não          2.509030
Sim    Não                      Sim    Sim     Não          Não       Sim          2.471084
Não    Não                      Sim    Sim     Não          Não       Sim          2.384349
                                Não    Não     Não          Não       Sim          2.332993
Sim    Não                      Sim    Sim     Sim          Não       Sim          2.264233
Não    Não                      Sim    Não     Não          Não       Sim          2.214018
Sim    Não                      Não    Não     Não          Não       Sim          2.147540
N

Aproximadamente 21% das pessoas que pertencem a estatística não possuiam sintomas, enquanto 6% possuiam todos.<br>
Analisando os casos positivos:

In [70]:
motivos_conf = df_conf.groupby(sintomas).count().DataNotificacao/df_conf.shape[0]*100
motivos_conf.head()

Febre  DificuldadeRespiratoria  Tosse  Coriza  DorGarganta  Diarreia  Cefaleia
-      -                        -      -       -            -         -           0.876949
                                                                      Não         0.001737
                                                                      Sim         0.000868
                                                            Não       -           0.001737
                                               Não          -         -           0.002605
Name: DataNotificacao, dtype: float64

In [71]:
motivos_conf.sort_values(ascending = False).head(15)

Febre  DificuldadeRespiratoria  Tosse  Coriza  DorGarganta  Diarreia  Cefaleia
Não    Não                      Não    Não     Não          Não       Não         20.764596
Sim    Não                      Sim    Não     Não          Não       Sim          3.861182
                                                                      Não          3.746570
                                       Sim     Não          Não       Sim          2.874831
Não    Não                      Sim    Não     Não          Não       Não          2.589171
Sim    Não                      Não    Não     Não          Não       Sim          2.569201
Não    Não                      Não    Não     Não          Não       Sim          2.331296
                                Sim    Não     Não          Não       Sim          2.302643
Sim    Não                      Sim    Sim     Sim          Não       Sim          2.296565
                                       Não     Sim          Não       Sim          2.181954
N

21% dos casos confirmados não possuiam sintomas, ou seja, eram assintomáticos portadores do COVID, enquanto 3.7% possuiam febre e tosse.<br>
Realizando esta verificação para os casos de óbitos:

In [72]:
df_obitos = df_conf.query("DataObito > 2019")
df_obitos.head()

Unnamed: 0,DataNotificacao,DataCadastro,DataDiagnostico,DataColeta_RT_PCR,DataColetaTesteRapido,DataEncerramento,DataObito,Classificacao,Evolucao,CriterioConfirmacao,...,ComorbidadeRenal,ComorbidadeDiabetes,ComorbidadeTabagismo,ComorbidadeObesidade,FicouInternado,ViagemBrasil,ViagemInternacional,ProfissionalSaude,PossuiDeficiencia,MoradorDeRua
4493,2020-09-03,2020-09-03,2020-07-26,2020-08-04,,2020-09-03,2020-08-21,Confirmados,Óbito pelo COVID-19,Laboratorial,...,Não,Não,Não,Não,Ignorado,Não Informado,Não Informado,Não,Não,Não
5553,2020-09-03,2020-09-03,2020-08-05,,2020-08-15,2020-08-31,2020-08-31,Confirmados,Óbito pelo COVID-19,Laboratorial,...,Não,Não,Não,Não,Sim,Ignorado,Ignorado,Não,Não,Não
6178,2020-09-03,2020-09-03,2020-08-30,,2020-09-03,2020-09-04,2020-09-03,Confirmados,Óbito pelo COVID-19,Laboratorial,...,Não,Não,Não,Não,Não Informado,Não Informado,Não Informado,Não,Não,Não
6977,2020-09-02,2020-09-02,2020-08-26,2020-08-26,,2020-09-03,2020-09-03,Confirmados,Óbito pelo COVID-19,Laboratorial,...,Não,Não,Não,Sim,Sim,Não Informado,Não Informado,Não,Não,Não
7044,2020-09-02,2020-09-02,2020-08-15,2020-09-02,2020-09-01,2020-09-05,2020-09-04,Confirmados,Óbito pelo COVID-19,Laboratorial,...,Não,Não,Não,Não,Sim,Não,Não,Não,Não,Não


In [73]:
motivos_ob = df_obitos.groupby(sintomas).count().DataNotificacao/df_obitos.shape[0]*100
motivos_ob.head()

Febre  DificuldadeRespiratoria  Tosse  Coriza  DorGarganta  Diarreia  Cefaleia
-      -                        -      -       -            -         -           0.122287
                                                            Não       -           0.030572
                                       Sim     -            -         -           0.030572
       Sim                      -      -       -            -         -           0.152858
                                               Sim          -         -           0.030572
Name: DataNotificacao, dtype: float64

In [74]:
motivos_ob.sort_values(ascending = False).head(10)

Febre  DificuldadeRespiratoria  Tosse  Coriza  DorGarganta  Diarreia  Cefaleia
Sim    Sim                      Sim    Não     Não          Não       Não         12.014674
Não    Sim                      Não    Não     Não          Não       Não          9.324366
       Não                      Não    Não     Não          Não       Não          8.376643
       Sim                      Sim    Não     Não          Não       Não          7.918068
Sim    Não                      Sim    Não     Não          Não       Não          7.092632
       Sim                      Não    Não     Não          Não       Não          6.664629
Não    Não                      Sim    Não     Não          Não       Não          3.546316
Sim    Não                      Não    Não     Não          Não       Não          3.362886
       Sim                      Sim    Não     Não          Não       Sim          3.240599
       Não                      Sim    Não     Não          Não       Sim          2.323448
N

12% possuiam os sintomas clássicos enquanto 8.4% eram assintomáticos.<br>
Com relação as comorbidades, temos o seguinte:

In [105]:
comorbidades = ['ComorbidadePulmao', 'ComorbidadeCardio', 'ComorbidadeRenal', 'ComorbidadeDiabetes', 'ComorbidadeTabagismo', 'ComorbidadeObesidade']
comorb_ob = df_obitos.groupby(comorbidades).count().DataNotificacao/df_obitos.shape[0]*100
comorb_ob.head()

ComorbidadePulmao  ComorbidadeCardio  ComorbidadeRenal  ComorbidadeDiabetes  ComorbidadeTabagismo  ComorbidadeObesidade
-                  -                  -                 -                    -                     -                       0.489147
                                                                                                   Não                     0.030572
                                                                                                   Sim                     0.030572
                                                                             Não                   -                       0.030572
                                                                             Sim                   -                       0.030572
Name: DataNotificacao, dtype: float64

In [110]:
comorb_ob.sort_values(ascending = False).head(10)

ComorbidadePulmao  ComorbidadeCardio  ComorbidadeRenal  ComorbidadeDiabetes  ComorbidadeTabagismo  ComorbidadeObesidade
Não                Não                Não               Não                  Não                   Não                     29.685112
                   Sim                Não               Não                  Não                   Não                     21.400183
                                                        Sim                  Não                   Não                     17.395292
                   Não                Não               Sim                  Não                   Não                      4.371752
                   Sim                Não               Sim                  Não                   Sim                      2.843167
Sim                Sim                Não               Não                  Não                   Não                      2.537450
Não                Sim                Não               Não                  Não  

30% dos mortos não possuiam comorbidades.