In [1]:
from sys import exit
import numpy as np
import pandas as pd
from os.path import dirname, join, isfile, isdir
from os import makedirs
from datetime import datetime, timedelta

from bulletin.data.notifica import Notifica
from bulletin.data.casos_confirmados import CasosConfirmados
from bulletin.commom.utils import Timer, get_better_notifica

pd.set_option('display.max_columns', None)

output = join("output","correcoes","notifica")

if not isdir(output):
    makedirs(output)

In [2]:
timer = Timer()
notifica = Notifica()
# notifica.update()
print(timer.stop())
notifica.shape()

4.935965538024902


(1709432, 755234, 7044, 945478, 1676)

In [3]:
timer.reset()
casos_confirmados = CasosConfirmados()
# casos_confirmados.update()
print(timer.stop())
casos_confirmados.shape()

0.7157773971557617


(374349, 7271)

In [4]:
casosn = notifica.get_casos()
casosc = casos_confirmados.get_casos()
casosc = casosc.loc[casosc['excluir']!='SIM']
casosn.groupby('classificacao_final')[['id']].count()

Unnamed: 0_level_0,id
classificacao_final,Unnamed: 1_level_1
CASO CONFIRMADO,368187
CASO DESCARTADO,565711
CASO SUSPEITO,767807
IGNORADO,700
SINDROME GRIPAL NAO ESPECIFICADA,7027


In [5]:
casos_duplicados = casosn.loc[(casosn['cpf'].notnull()) & (casosn.duplicated('cpf',keep=False))].sort_values('cpf')
print(f"Total de pacientes com mais de uma ocorrencia: {len(casos_duplicados)}")
print(f"{len(casos_duplicados.groupby('cpf'))} pacientes pelo CPF que estavam com mais de uma ocorrencia")

all_casos_duplicados = set()
all_duplicados_mantidos = set()
manter = []

for hash, group in casos_duplicados.groupby('cpf'):
    idx = get_better_notifica(group)
    manter.append(idx)


casos_duplicados = set(casos_duplicados.index.tolist())
casos_duplicados = casos_duplicados - set(manter)

all_duplicados_mantidos |= set(manter)
all_casos_duplicados |= casos_duplicados
casosn.loc[casos_duplicados].to_csv(join(output,'pacientes_duplicados_cpf.csv'), index=False)

casosn.loc[casos_duplicados].groupby('classificacao_final')[['id']].count()

Total de pacientes com mais de uma ocorrencia: 317579
130654 pacientes pelo CPF que estavam com mais de uma ocorrencia


Unnamed: 0_level_0,id
classificacao_final,Unnamed: 1_level_1
CASO CONFIRMADO,8431
CASO DESCARTADO,69079
CASO SUSPEITO,108326
IGNORADO,47
SINDROME GRIPAL NAO ESPECIFICADA,1042


In [6]:
casosn = casosn.drop(index=casos_duplicados)

In [7]:
casos_duplicados = casosn.loc[(casosn['nome_mae'].notnull()) & (casosn.duplicated('hash_mae',keep=False))].sort_values('nome_mae')
# casos_duplicados_nome_mae.loc[casos_duplicados_nome_mae['nome_mae']=='0']

print(f"Total de pacientes com mais de uma ocorrencia pelo nome+nome_mae: {len(casos_duplicados)}")
print(f"{len(casos_duplicados.groupby('nome_mae'))} pacientes pelo nome+nome_mae que estavam com mais de uma ocorrencia")

manter = []
for hash, group in casos_duplicados.groupby('nome_mae'):
    idx = get_better_notifica(group)
    manter.append(idx)


casos_duplicados = set(casos_duplicados.index.tolist())
casos_duplicados = casos_duplicados - set(manter)

all_duplicados_mantidos |= set(manter)
all_casos_duplicados |= casos_duplicados
casosn.loc[casos_duplicados].to_csv(join(output,'pacientes_duplicados_nome_mae.csv'), index=False)

casosn.loc[casos_duplicados].groupby('classificacao_final')[['id']].count()

Total de pacientes com mais de uma ocorrencia pelo nome+nome_mae: 54756
23651 pacientes pelo nome+nome_mae que estavam com mais de uma ocorrencia


Unnamed: 0_level_0,id
classificacao_final,Unnamed: 1_level_1
CASO CONFIRMADO,1911
CASO DESCARTADO,10782
CASO SUSPEITO,18245
IGNORADO,4
SINDROME GRIPAL NAO ESPECIFICADA,163


In [8]:
casosn = casosn.drop(index=casos_duplicados)

In [9]:
casos_duplicados = casosn.loc[(casosn['hash_idade_resid'].notnull()) & (casosn.duplicated('hash_idade_resid',keep=False))].sort_values('paciente')

print(f"Total de pacientes com mais de uma ocorrencia pelo hash_idade_resid: {len(casos_duplicados)}")
print(f"{len(casos_duplicados.groupby('hash_idade_resid'))} pacientes pelo hash_idade_resid que estavam com mais de uma ocorrencia")

manter = []
for hash, group in casos_duplicados.groupby('hash_idade_resid'):
    idx = get_better_notifica(group)
    manter.append(idx)


casos_duplicados = set(casos_duplicados.index.tolist())
casos_duplicados = casos_duplicados - set(manter)

all_duplicados_mantidos |= set(manter)
all_casos_duplicados |= casos_duplicados
casosn.loc[casos_duplicados].to_csv(join(output,'pacientes_duplicados_nome_idade_mun_resid.csv'), index=False)

casosn.loc[casos_duplicados].groupby('classificacao_final')[['id']].count()

Total de pacientes com mais de uma ocorrencia pelo hash_idade_resid: 13239
6527 pacientes pelo hash_idade_resid que estavam com mais de uma ocorrencia


Unnamed: 0_level_0,id
classificacao_final,Unnamed: 1_level_1
CASO CONFIRMADO,600
CASO DESCARTADO,1911
CASO SUSPEITO,4174
IGNORADO,3
SINDROME GRIPAL NAO ESPECIFICADA,24


In [10]:
casosn = casosn.drop(index=casos_duplicados)

In [11]:
casos_duplicados = casosn.loc[(casosn['hash_idade_atend'].notnull()) & (casosn.duplicated('hash_idade_atend',keep=False))].sort_values('paciente')
# casos_duplicados_nome_mae.loc[casos_duplicados_nome_mae['nome_mae']=='0']

print(f"Total de pacientes com mais de uma ocorrencia pelo hash_idade_atend: {len(casos_duplicados)}")
print(f"{len(casos_duplicados.groupby('hash_idade_atend'))} pacientes pelo hash_idade_atend que estavam com mais de uma ocorrencia")

manter = []
for hash, group in casos_duplicados.groupby('hash_idade_atend'):
    idx = get_better_notifica(group)
    manter.append(idx)


casos_duplicados = set(casos_duplicados.index.tolist())
casos_duplicados = casos_duplicados - set(manter)

all_duplicados_mantidos |= set(manter)
all_casos_duplicados |= casos_duplicados
casosn.loc[casos_duplicados].to_csv(join(output,'pacientes_duplicados_nome_idade_mun_atend.csv'), index=False)

casosn.loc[casos_duplicados].groupby('classificacao_final')[['id']].count()

Total de pacientes com mais de uma ocorrencia pelo hash_idade_atend: 799
399 pacientes pelo hash_idade_atend que estavam com mais de uma ocorrencia


Unnamed: 0_level_0,id
classificacao_final,Unnamed: 1_level_1
CASO CONFIRMADO,39
CASO DESCARTADO,93
CASO SUSPEITO,263
IGNORADO,4
SINDROME GRIPAL NAO ESPECIFICADA,1


In [12]:
casosn = casosn.drop(index=casos_duplicados)

In [13]:
print(f"Das {notifica.shape()[0]} notificações baixadas, {notifica.shape()[0] - casosn.shape[0]} ({len(all_casos_duplicados)}) foram excluidas por serem do mesmo paciente, sendo mantida a que melhor pontuou nos critérios. Sendo assim, o novo total de notificações existente é de {casosn.shape[0]}")
allcasosn = notifica.get_casos()
allcasosn.loc[all_casos_duplicados].to_csv(join(output,'all_casos_duplicados.csv'), index=False)
allcasosn.loc[all_duplicados_mantidos].to_csv(join(output,'all_duplicados_mantidos.csv'), index=False)

Das 1709432 notificações baixadas, 225142 (225142) foram excluidas por serem do mesmo paciente, sendo mantida a que melhor pontuou nos critérios. Sendo assim, o novo total de notificações existente é de 1484290


In [14]:
idx_casos_confirmados = casosc[casosc['hash'].isin(casosn['hash_idade_resid'])].index.tolist()
idx_casos_confirmados += casosc[casosc['hash_less'].isin(casosn['hash_idade_resid'])].index.tolist()
idx_casos_confirmados += casosc[casosc['hash_more'].isin(casosn['hash_idade_resid'])].index.tolist()
idx_casos_confirmados = set(idx_casos_confirmados)
casos_confirmados_nao_notifica = casosc.loc[ set(casosc.index.tolist()) - idx_casos_confirmados ].sort_values('ordem')
casos_confirmados_nao_notifica.to_excel(join(output,'casos_confirmados_nao_notifica.xlsx'),index=False)

In [15]:
idx_casos_notifica = casosn[casosn['hash_idade_resid'].isin(casosc['hash'])].index.tolist()
idx_casos_notifica += casosn[casosn['hash_idade_resid'].isin(casosc['hash_less'])].index.tolist()
idx_casos_notifica += casosn[casosn['hash_idade_resid'].isin(casosc['hash_more'])].index.tolist()
idx_casos_notifica = set(idx_casos_notifica)
casos_confirmados_notifica = casosn.loc[ idx_casos_notifica ].sort_values('id')
casos_confirmados_notifica.to_excel(join(output,'casos_confirmados_notifica.xlsx'),index=False)

In [17]:
notifica_nao_casos_confirmados = casosn.loc[set(casosn.index.tolist()) - set(idx_casos_notifica)]
idx_casos_notifica_idade = notifica_nao_casos_confirmados.loc[notifica_nao_casos_confirmados['hash_idade'].isin(casos_confirmados_nao_notifica['hash_idade'])].index.tolist()
idx_casos_notifica_idade += notifica_nao_casos_confirmados.loc[notifica_nao_casos_confirmados['hash_idade'].isin(casos_confirmados_nao_notifica['hash_idade_less'])].index.tolist()
idx_casos_notifica_idade += notifica_nao_casos_confirmados.loc[notifica_nao_casos_confirmados['hash_idade'].isin(casos_confirmados_nao_notifica['hash_idade_more'])].index.tolist()
print(len(idx_casos_notifica_idade))

KeyError: 'hash_idade_less'