# Inconsistências dos dados do Dashboard - PMJP
## Autor: Flávio Macaúbas Torres Filho - (Economista/Pesquisador do Labimec-UFPB)

O propósito do presente material é contribuir com a melhoria da divulgação dos dados pela PMJP. As principais vantagem dos dados da prefeitura estão relacionadas a possibilidade de estratificação de análise.

* Vantagens

 i) Acompanhamento dos óbitos e dos recuperados no decorrer do tempo;
 
 ii) Estratificação por zonas e bairros;
 
 iii) Resultados discriminados de testes;
 
 iv) Acompanhemento semanal disponível;
 
 v) Possibilidade de diferenciação de residentes e não residentes.
 
* Desvantagens
 
 i) Falta clareza na classificação dos campos;
 
 ii) Há informações incosistentes no que tange o aparente significado dos campos;
 
 iii) Erros de grafia podem ser pré-processados antes da divulgação.
 

Destacados estes pontos, ressalta-se que o monitoramento da prefeitura é extremamente detalhado e pioneiro no estado. Os levantamentos aqui apresentando são marginais e apenas melhorariam o já excelente trabalho desempenhado.

In [21]:
# Importnado bibliotecas e módulos necessários

import pandas as pd # Pandas para manipulação de dataframes
from dfply import * # Importação dos módulos necessário para trabalhar com pipe em Python
import numpy as np # Operações matemáticas
import matplotlib.dates # Datas
import math # Matemática

# Visualização dos dados
import seaborn as sns 
import matplotlib.pyplot as plt
# Evitar ficar usando plt.show()
%matplotlib inline

In [4]:
# Configurações globais
sns.set_style('darkgrid') # background
sns.set_context('paper', font_scale=1.5) # Formato artigo
sns.set_palette("deep")
plt.tight_layout()
# Parametros e rcParams vai setar configurações globais para os gráficos, ela serve também como mecanismo de controle
parametros = {'legend.fontsize': 15,
          'figure.figsize': (15,8)}
plt.rcParams.update(parametros)

<Figure size 432x288 with 0 Axes>

In [6]:
# Leitura da base de dados
df = pd.read_csv('http://tecgeobr.com.br/csv/joao_pessoa/Dados20082020.csv',encoding = "ISO-8859-1", sep = ';' )

# Características dos dados

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26057 entries, 0 to 26056
Data columns (total 14 columns):
DT_NOTIFIC            25982 non-null object
SE_NOTIF              26057 non-null int64
SG_SRAG               26057 non-null object
DT_SIN_PRI            26057 non-null object
SE_SINT               26057 non-null int64
CS_SEXO               26057 non-null object
DT_NASC               26022 non-null object
NU_IDADE_N            26057 non-null int64
NM_BAIRRO             24418 non-null object
ZONA_EPI              22332 non-null object
MUN_RES               26057 non-null object
RESULTADO             26018 non-null object
STATUS_DO_PACIENTE    16110 non-null object
DT_OBITO              1464 non-null object
dtypes: int64(3), object(11)
memory usage: 2.8+ MB


In [8]:
df.head()

Unnamed: 0,DT_NOTIFIC,SE_NOTIF,SG_SRAG,DT_SIN_PRI,SE_SINT,CS_SEXO,DT_NASC,NU_IDADE_N,NM_BAIRRO,ZONA_EPI,MUN_RES,RESULTADO,STATUS_DO_PACIENTE,DT_OBITO
0,02/06/2020,23,SG,11/05/2020,20,M,04/10/2017,2,JOAO PAULO II,SUDOESTE,JOAO PESSOA,CORONAVIRUS,RECUPERADO,
1,01/07/2020,27,SG,27/06/2020,26,M,07/06/1978,42,ALTO DO CEU,NOROESTE,JOAO PESSOA,CORONAVIRUS,,
2,01/06/2020,23,SRAG,28/05/2020,22,M,05/06/2006,14,BAIRRO DOS ESTADOS,NORDESTE,JOAO PESSOA,CORONAVIRUS,RECUPERADO,
3,04/05/2020,19,SRAG,25/04/2020,17,M,18/05/1969,51,VARADOURO,NOROESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,06/05/2020
4,12/06/2020,24,SG,12/06/2020,24,F,11/02/2002,18,SAO JOSE,NORDESTE,JOAO PESSOA,CORONAVIRUS,RECUPERADO,


# Ajuste das datas

In [10]:
df.DT_OBITO = pd.to_datetime(df.DT_OBITO, format= '%d/%m/%Y')
df.DT_NOTIFIC = pd.to_datetime(df.DT_NOTIFIC, format= '%d/%m/%Y')
df.DT_SIN_PRI = pd.to_datetime(df.DT_SIN_PRI, format= '%d/%m/%Y')

In [34]:
df.head()

Unnamed: 0,DT_NOTIFIC,SE_NOTIF,SG_SRAG,DT_SIN_PRI,SE_SINT,CS_SEXO,DT_NASC,NU_IDADE_N,NM_BAIRRO,ZONA_EPI,MUN_RES,RESULTADO,STATUS_DO_PACIENTE,DT_OBITO
0,2020-06-02,23,SG,2020-05-11,20,M,04/10/2017,2,JOAO PAULO II,SUDOESTE,JOAO PESSOA,CORONAVIRUS,RECUPERADO,NaT
1,2020-07-01,27,SG,2020-06-27,26,M,07/06/1978,42,ALTO DO CEU,NOROESTE,JOAO PESSOA,CORONAVIRUS,,NaT
2,2020-06-01,23,SRAG,2020-05-28,22,M,05/06/2006,14,BAIRRO DOS ESTADOS,NORDESTE,JOAO PESSOA,CORONAVIRUS,RECUPERADO,NaT
3,2020-05-04,19,SRAG,2020-04-25,17,M,18/05/1969,51,VARADOURO,NOROESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-05-06
4,2020-06-12,24,SG,2020-06-12,24,F,11/02/2002,18,SAO JOSE,NORDESTE,JOAO PESSOA,CORONAVIRUS,RECUPERADO,NaT


# Sugestões

Como já destacado, não está exatamente claro o que cada campo da base de dados representa. Para além deste detalhe, os valores também precisam ser melhor delimitados. A título de exemplo, podemos analisar os valores ausentes dos seguintes campos: **STATUS_DO_PACIENTE, ZONA_EPI, NM_BAIRRO**

## Status do Paciente

In [11]:
df.STATUS_DO_PACIENTE.unique()

array(['RECUPERADO', nan, 'OBITO CONFIRMADO', 'DESCARTADO',
       'OBITO DESCARTADO', 'OBITO EM INVESTIGACAO', 'EM INVESTIGACAO',
       'ISOLAMENTO DOMICILIAR', 'ISOLAMENTO HOSPITALAR', 'UTI'],
      dtype=object)

#### Questionamento

A presença de ''nan'' indica valores ausentes. A pergunta é: se não se enquadra em nenhum dos valores descritos, **o que significam status do pacientes ausentes?**

In [31]:
df.loc[df.STATUS_DO_PACIENTE.isnull()] >> head()

Unnamed: 0,DT_NOTIFIC,SE_NOTIF,SG_SRAG,DT_SIN_PRI,SE_SINT,CS_SEXO,DT_NASC,NU_IDADE_N,NM_BAIRRO,ZONA_EPI,MUN_RES,RESULTADO,STATUS_DO_PACIENTE,DT_OBITO
1,2020-07-01,27,SG,2020-06-27,26,M,07/06/1978,42,ALTO DO CEU,NOROESTE,JOAO PESSOA,CORONAVIRUS,,NaT
11,2020-07-10,28,SG,2020-07-10,28,M,13/10/1982,37,SAO JOSE,NORDESTE,JOAO PESSOA,CORONAVIRUS,,NaT
18,2020-07-24,30,SG,2020-06-24,26,M,02/04/1975,45,CIDADE DOS COLIBRIS,SUDESTE,JOAO PESSOA,CORONAVIRUS,,NaT
20,2020-07-01,27,SG,2020-06-30,27,F,09/07/1980,40,CRUZ DAS ARMAS,SUDOESTE,JOAO PESSOA,CORONAVIRUS,,NaT
28,2020-08-04,32,SG,2020-07-23,30,M,22/04/1964,56,BAIRRO DAS INDUSTRIAS,SUDOESTE,JOAO PESSOA,CORONAVIRUS,,NaT


In [32]:
df.loc[df.STATUS_DO_PACIENTE.isnull()] >> tail()

Unnamed: 0,DT_NOTIFIC,SE_NOTIF,SG_SRAG,DT_SIN_PRI,SE_SINT,CS_SEXO,DT_NASC,NU_IDADE_N,NM_BAIRRO,ZONA_EPI,MUN_RES,RESULTADO,STATUS_DO_PACIENTE,DT_OBITO
26046,2020-08-04,32,SG,2020-08-04,32,F,26/09/1996,23,MANAIRA,NORDESTE,JOAO PESSOA,CORONAVIRUS,,NaT
26047,2020-07-30,31,SG,2020-07-30,31,F,27/08/1962,57,BRISAMAR,NORDESTE,JOAO PESSOA,CORONAVIRUS,,NaT
26048,2020-08-04,32,SG,2020-08-04,32,F,28/07/2011,9,ALTIPLANO,NORDESTE,JOAO PESSOA,CORONAVIRUS,,NaT
26049,2020-08-07,32,SG,2020-08-02,32,M,26/02/1994,26,JOAO PAULO II,SUDOESTE,JOAO PESSOA,CORONAVIRUS,,NaT
26050,2020-08-11,33,SG,2020-08-02,32,F,31/01/2001,19,BAIRRO DOS ESTADOS,NORDESTE,JOAO PESSOA,CORONAVIRUS,,NaT


## ZONA_EPI

É possível perceber que zona_epi trata-se de algo muito específico. Aparentemente não são as regiões do bairro de João Pessoa, note os valores únicos do campo

In [33]:
df.ZONA_EPI.unique()

array(['SUDOESTE', 'NOROESTE', 'NORDESTE', 'SUDESTE', nan,
       'OUTRO MUNICIPIO'], dtype=object)

A classificação do IBGE é mais abragente do que apenas sudoeste, noroeste, nordeste e sudeste. **O que significa esse campo?**

## NM_BAIRRO

Para evitar uma análise densa, irei focar apenas em características estranhas dessa informação.

In [37]:
part_bairro = df >> group_by(X.NM_BAIRRO) >> summarize( qnt = n(X.NM_BAIRRO)) >> ungroup() >> arrange(X.qnt, ascending = False) >>  mutate(part = X.qnt*100/len(df['ZONA_EPI']))
part_bairro['part'] = part_bairro['part'].apply(lambda x: "{:.2f}%".format(x))
part_bairro.tail(20)

Unnamed: 0,NM_BAIRRO,qnt,part
25,Cabo Branco,3,0.01%
75,Torre,2,0.01%
20,COSTA DO SOL,2,0.01%
79,bessa,1,0.00%
81,miramar,1,0.00%
82,oiTIZEIRO,1,0.00%
83,oitizeiro,1,0.00%
80,mangabeira,1,0.00%
32,Ernesto Geisel,1,0.00%
6,BAIA DA TRAICAO,1,0.00%


É mais que evidente a presença de diversas grafias para 1 mesma palavra. Esse problema é **mínimo** porque não irá comprometer a análise em si, porém pode ser facilmente corrigido com alguns cuidado de pré-processamento textual. Apenas uma simples sugestão: 

In [41]:
df.NM_BAIRRO = df.NM_BAIRRO.apply(lambda X: str(X).upper())
part_bairro = df >> group_by(X.NM_BAIRRO) >> summarize( qnt = n(X.NM_BAIRRO)) >> ungroup() >> arrange(X.qnt, ascending = False) >>  mutate(part = X.qnt*100/len(df['ZONA_EPI']))
part_bairro['part'] = part_bairro['part'].apply(lambda x: "{:.2f}%".format(x))
part_bairro.tail(20)

Unnamed: 0,NM_BAIRRO,qnt,part
29,GROTAO,117,0.45%
52,PADRE ZE,114,0.44%
64,TAMBIA,101,0.39%
54,PEDRO GONDIM,94,0.36%
69,VARADOURO,92,0.35%
67,TRINCHEIRAS,79,0.30%
37,JOAO AGRIPINO,57,0.22%
23,DISTRITO INDUSTRIAL,44,0.17%
30,IGN,38,0.15%
5,ANATOLIA,29,0.11%


Os valores agora aparentam ser muito mais amigáveis. Isso pode ser generalizado a nível estado de arte. Sugiro técnicas de processamento de linguagem natural. Há também a possiblidade de validação cruzada dos nomes dos bairros. Note, qualquer palavra que não esteja contida nos bairros de João Pessoa, deve ser classificada como 'Outro município'. Esse é um caso de pós-processamento, mas é uma solução simples e viável.

# A questão mais delicada

Deixei esse ponto por último por se tratar de uma problemática relativamente séria. Como não há descrição dos dados, temos que fazer algumas suposições para realizar sua análise. As suposições feitas são:

* DATA_NOTIFIC: é o dia de notificação do caso;
* DATA_SIN_PRI: é o dia de início dos sintomas;
* DATA_OBITO: é o dia de falecimento do paciente;

Agora vamos a uma questão pragmática. **Como é possível algum óbito ser notificado antes de ocorrer?**

In [42]:
 df >> mask(X.STATUS_DO_PACIENTE == 'OBITO CONFIRMADO') >> tail(20)

Unnamed: 0,DT_NOTIFIC,SE_NOTIF,SG_SRAG,DT_SIN_PRI,SE_SINT,CS_SEXO,DT_NASC,NU_IDADE_N,NM_BAIRRO,ZONA_EPI,MUN_RES,RESULTADO,STATUS_DO_PACIENTE,DT_OBITO
25543,2020-07-05,28,SRAG,2020-05-23,21,M,05/05/1955,65,VARJAO,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-25
25544,2020-06-11,24,SRAG,2020-06-09,24,M,01/11/1933,86,CRISTO REDENTOR,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-26
25545,2020-08-04,32,SRAG,2020-05-05,19,F,15/05/1924,96,OUTRO MUNICIPIO,,CRUZ DO ESPIRITO SANTO,CORONAVIRUS,OBITO CONFIRMADO,2020-05-21
25547,2020-06-12,24,SRAG,2020-06-05,23,F,03/07/1935,85,JARDIM VENEZA,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-11
25548,2020-06-22,26,SRAG,2020-06-13,24,F,12/03/1940,80,CASTELO BRANCO,NORDESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-20
25549,2020-07-27,31,SRAG,2020-06-01,23,M,21/06/1962,58,OUTRO MUNICIPIO,,BAYEUX,CORONAVIRUS,OBITO CONFIRMADO,2020-06-25
25550,2020-07-20,30,SRAG,2020-07-13,29,F,30/10/1946,73,CRISTO REDENTOR,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-08-17
25651,2020-05-24,22,SRAG,2020-05-14,20,M,04/02/1960,60,CRISTO REDENTOR,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-11
25654,2020-08-09,33,SRAG,2020-08-01,31,F,21/12/1981,38,VALENTINA,SUDESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-08-09
25655,2020-08-18,34,SRAG,2020-08-01,31,F,03/06/1969,51,MANGABEIRA,SUDESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-08-17


#### Note, para a observação número 26056, o dia de notificação foi 01/06/2020, enquanto a data de óbito foi 05/06/2020. Vamos calcular a diferença em dias:

In [43]:
 df >> mask(X.STATUS_DO_PACIENTE == 'OBITO CONFIRMADO') >> mutate(diferenca_notificacao_obito = X.DT_NOTIFIC - X.DT_OBITO) >> tail(20)

Unnamed: 0,DT_NOTIFIC,SE_NOTIF,SG_SRAG,DT_SIN_PRI,SE_SINT,CS_SEXO,DT_NASC,NU_IDADE_N,NM_BAIRRO,ZONA_EPI,MUN_RES,RESULTADO,STATUS_DO_PACIENTE,DT_OBITO,diferenca_notificacao_obito
25543,2020-07-05,28,SRAG,2020-05-23,21,M,05/05/1955,65,VARJAO,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-25,10 days
25544,2020-06-11,24,SRAG,2020-06-09,24,M,01/11/1933,86,CRISTO REDENTOR,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-26,-15 days
25545,2020-08-04,32,SRAG,2020-05-05,19,F,15/05/1924,96,OUTRO MUNICIPIO,,CRUZ DO ESPIRITO SANTO,CORONAVIRUS,OBITO CONFIRMADO,2020-05-21,75 days
25547,2020-06-12,24,SRAG,2020-06-05,23,F,03/07/1935,85,JARDIM VENEZA,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-11,1 days
25548,2020-06-22,26,SRAG,2020-06-13,24,F,12/03/1940,80,CASTELO BRANCO,NORDESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-20,2 days
25549,2020-07-27,31,SRAG,2020-06-01,23,M,21/06/1962,58,OUTRO MUNICIPIO,,BAYEUX,CORONAVIRUS,OBITO CONFIRMADO,2020-06-25,32 days
25550,2020-07-20,30,SRAG,2020-07-13,29,F,30/10/1946,73,CRISTO REDENTOR,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-08-17,-28 days
25651,2020-05-24,22,SRAG,2020-05-14,20,M,04/02/1960,60,CRISTO REDENTOR,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-11,-18 days
25654,2020-08-09,33,SRAG,2020-08-01,31,F,21/12/1981,38,VALENTINA,SUDESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-08-09,0 days
25655,2020-08-18,34,SRAG,2020-08-01,31,F,03/06/1969,51,MANGABEIRA,SUDESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-08-17,1 days


#### Note que o campo diferenca_notificao_obito vai captar exatamente o quanto tempo demorou para a PMJP notificar um óbito após sua confirmação. Por definição, esse valor não pode ser negativo.

## E se invertermos a ordem da subtração?

In [44]:
 df >> mask(X.STATUS_DO_PACIENTE == 'OBITO CONFIRMADO') >> mutate(diferenca_notificacao_obito =  X.DT_OBITO - X.DT_NOTIFIC) >> tail(20)

Unnamed: 0,DT_NOTIFIC,SE_NOTIF,SG_SRAG,DT_SIN_PRI,SE_SINT,CS_SEXO,DT_NASC,NU_IDADE_N,NM_BAIRRO,ZONA_EPI,MUN_RES,RESULTADO,STATUS_DO_PACIENTE,DT_OBITO,diferenca_notificacao_obito
25543,2020-07-05,28,SRAG,2020-05-23,21,M,05/05/1955,65,VARJAO,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-25,-10 days
25544,2020-06-11,24,SRAG,2020-06-09,24,M,01/11/1933,86,CRISTO REDENTOR,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-26,15 days
25545,2020-08-04,32,SRAG,2020-05-05,19,F,15/05/1924,96,OUTRO MUNICIPIO,,CRUZ DO ESPIRITO SANTO,CORONAVIRUS,OBITO CONFIRMADO,2020-05-21,-75 days
25547,2020-06-12,24,SRAG,2020-06-05,23,F,03/07/1935,85,JARDIM VENEZA,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-11,-1 days
25548,2020-06-22,26,SRAG,2020-06-13,24,F,12/03/1940,80,CASTELO BRANCO,NORDESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-20,-2 days
25549,2020-07-27,31,SRAG,2020-06-01,23,M,21/06/1962,58,OUTRO MUNICIPIO,,BAYEUX,CORONAVIRUS,OBITO CONFIRMADO,2020-06-25,-32 days
25550,2020-07-20,30,SRAG,2020-07-13,29,F,30/10/1946,73,CRISTO REDENTOR,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-08-17,28 days
25651,2020-05-24,22,SRAG,2020-05-14,20,M,04/02/1960,60,CRISTO REDENTOR,SUDOESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-06-11,18 days
25654,2020-08-09,33,SRAG,2020-08-01,31,F,21/12/1981,38,VALENTINA,SUDESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-08-09,0 days
25655,2020-08-18,34,SRAG,2020-08-01,31,F,03/06/1969,51,MANGABEIRA,SUDESTE,JOAO PESSOA,CORONAVIRUS,OBITO CONFIRMADO,2020-08-17,-1 days


#### Continua inconsistente. Se esse valor for maior que zero, significa que a PMJP notificou o óbito antes que ele ocorresse? Esse é o ponto de maior confusão. É possível que essa conclusão seja em decorrência de uma má interpretação dos dados.