In [31]:
import sys
from sys import exit
import glob
import numpy as np
import pandas as pd
from os.path import join, isfile
from datetime import date, datetime
from unidecode import unidecode

from xlsxwriter.worksheet import (
    Worksheet, cell_number_tuple, cell_string_tuple)
    
from time import time, sleep
from contextlib import contextmanager
import functools
import threading

from my_funcs import ftime_elapsed, normalize_number, normalize_text, normalize_hash, trim_overspace, isvaliddate, normalize_cpf, normalize_date, date_hash, get_better, get_better_2, fit_cols, compare_dates, get_casos_confirmados, get_vacinados, get_tb_vacinados


pd.set_option('display.max_columns', 0)
pd.options.display.float_format = lambda x: '{:,.0f}'.format(x).replace(',','.')

meses = ['Janeiro','Fevereiro','Março','Abril','Maio','Junho','Julho','Agosto','Setembro','Outubro','Novembro','Dezembro']
municipios = pd.read_csv('municipios.csv',converters={'ibge':str})
regionais = pd.read_csv('regionais.csv',converters={'ibge':str})

# faixa_etaria = [0,30,40,50,60,70,80,90,100]
# faixa_etaria_labels = ['err','0-29','30-39','40-49','50-59','60-69','70-79','80-89','90-99','>=100']
# faixa_etaria = [60,65,70,75,80,85,90]
# faixa_etaria_labels = ['0-59','60-64','65-69','70-74','75-79','80-84','85-89','>=90']
aixa_etaria = [60,65,70,75,80,85,90]
faixa_etaria_labels = ['0-59','60-64','65-69','70-74','75-79','80-84','85-89','>=90']

In [None]:
init_time = time()
vacinados = get_vacinados(load=False)
print(ftime_elapsed(init_time), 'vacinados shape:', vacinados.shape)
vacinados['mes_aplicacao'] = vacinados['data_aplicacao'].apply(lambda x: meses[x.month-1] if isinstance(x,date) else 'erro')
vacinados.groupby('mes_aplicacao')[['sexo']].count()

In [None]:
vacinados.columns

In [None]:
vacinados.groupby('dose')[['sexo']].count()

In [None]:
doses_header = ['cns','cpf','paciente','sexo','nome_mae','data_nascimento','ibge','data_aplicacao','fabricante','vacina_nome','hash_mae','hash_nasc'] #
primeira_dose = vacinados.loc[(vacinados['dose']=='1ª Dose')|(vacinados['dose']=='Única'),doses_header]
segunda_dose = vacinados.loc[vacinados['dose']=='2ª Dose',doses_header]

tb_vacinados = pd.merge(primeira_dose,segunda_dose, how='outer',on='cns',suffixes=['_1a_dose','_2a_dose'])

tb_vacinados['cpf'] = tb_vacinados.apply(lambda x: get_better(x['cpf_1a_dose'],x['cpf_2a_dose']), axis=1)
tb_vacinados['data_nascimento'] = tb_vacinados.apply(lambda x: get_better(x['data_nascimento_1a_dose'],x['data_nascimento_2a_dose'],datetime), axis=1)
tb_vacinados['nome_mae'] = tb_vacinados.apply(lambda x: get_better(x['nome_mae_1a_dose'],x['nome_mae_2a_dose']), axis=1)
tb_vacinados['paciente'] = tb_vacinados.apply(lambda x: get_better(x['paciente_1a_dose'],x['paciente_2a_dose']), axis=1)
tb_vacinados['fabricante'] = tb_vacinados.apply(lambda x: get_better(x['fabricante_1a_dose'],x['fabricante_2a_dose']), axis=1)
tb_vacinados['vacina_nome'] = tb_vacinados.apply(lambda x: get_better_2(x['vacina_nome_1a_dose'],x['vacina_nome_2a_dose']), axis=1)
tb_vacinados['hash_mae'] = tb_vacinados.apply(lambda x: get_better(x['hash_mae_1a_dose'],x['hash_mae_2a_dose']), axis=1)
tb_vacinados['hash_nasc'] = tb_vacinados.apply(lambda x: get_better(x['hash_nasc_1a_dose'],x['hash_nasc_2a_dose']), axis=1)
tb_vacinados['ibge'] = tb_vacinados.apply(lambda x: get_better(x['ibge_1a_dose'],x['ibge_2a_dose']), axis=1)
tb_vacinados['sexo'] = tb_vacinados.apply(lambda x: get_better(x['sexo_1a_dose'],x['sexo_2a_dose']), axis=1)

tb_vacinados = tb_vacinados.drop(columns=['cpf_1a_dose','cpf_2a_dose', 'data_nascimento_1a_dose', 'data_nascimento_2a_dose', 'paciente_1a_dose', 'paciente_2a_dose', 'fabricante_1a_dose', 'fabricante_2a_dose', 'vacina_nome_1a_dose', 'vacina_nome_2a_dose', 'nome_mae_1a_dose', 'nome_mae_2a_dose', 'hash_mae_1a_dose', 'hash_mae_2a_dose', 'hash_nasc_1a_dose', 'hash_nasc_2a_dose','ibge_1a_dose','ibge_2a_dose','sexo_2a_dose','sexo_1a_dose'])

tb_vacinados.loc[(tb_vacinados['data_aplicacao_1a_dose'].notnull()) & (tb_vacinados['data_aplicacao_2a_dose'].notnull()), 'dias_entre_doses'] = (
    tb_vacinados.loc[(tb_vacinados['data_aplicacao_1a_dose'].notnull()) & (tb_vacinados['data_aplicacao_2a_dose'].notnull()), 'data_aplicacao_2a_dose'] -
    tb_vacinados.loc[(tb_vacinados['data_aplicacao_1a_dose'].notnull()) & (tb_vacinados['data_aplicacao_2a_dose'].notnull()), 'data_aplicacao_1a_dose'])

tb_vacinados.loc[tb_vacinados['dias_entre_doses'].notnull(),'dias_entre_doses'] = tb_vacinados.loc[tb_vacinados['dias_entre_doses'].notnull(),'dias_entre_doses'].apply(lambda x: int(x.days))

tb_vacinados.loc[tb_vacinados['dias_entre_doses'].isnull(),'dias_entre_doses'] = 0

tb_vacinados['situacao'] = 'inconsistencia'

tb_vacinados.loc[(tb_vacinados['data_aplicacao_1a_dose'].notnull()) & (tb_vacinados['data_aplicacao_2a_dose'].isnull()), 'situacao'] = 'só primeira dose'

tb_vacinados.loc[(tb_vacinados['dias_entre_doses']>0), 'situacao'] = 'ambas doses aplicadas'

tb_vacinados['data_ultima_dose'] = tb_vacinados['data_aplicacao_1a_dose'].copy()
tb_vacinados.loc[tb_vacinados['data_aplicacao_2a_dose'].notna(),'data_ultima_dose'] = tb_vacinados.loc[tb_vacinados['data_aplicacao_2a_dose'].notna(),'data_aplicacao_2a_dose'].copy()

tb_vacinados['dias_apos_ultima_dose'] = tb_vacinados.apply(lambda x: (pd.to_datetime(date.today()) - x['data_ultima_dose']).days, axis=1)

vacinados['ibge'] = vacinados['ibge'].fillna('999999').apply(str)
regionais['ibge'] = regionais['ibge'].apply(str)

tb_vacinados = pd.merge(tb_vacinados,regionais[['ibge','nu_reg','nm_reg','nm_macro']],on='ibge',how='left')

tb_vacinados.loc[(tb_vacinados['data_nascimento'].notnull()) & (tb_vacinados['data_ultima_dose'].notnull()), 'idade'] = \
    tb_vacinados.loc[(tb_vacinados['data_nascimento'].notnull()) & (tb_vacinados['data_ultima_dose'].notnull())].apply(
            lambda row: row['data_ultima_dose'].year - row['data_nascimento'].year - (
                    (row['data_ultima_dose'].month, row['data_ultima_dose'].day) <
                    (row['data_nascimento'].month, row['data_nascimento'].day)
            ), axis=1
    )
tb_vacinados.loc[tb_vacinados['data_nascimento'].isna(), 'idade'] = -99
tb_vacinados['idade'] = tb_vacinados['idade'].apply(int)

tb_vacinados['faixa_etaria'] = [ faixa_etaria_labels[idx] for idx in np.digitize(tb_vacinados['idade'],faixa_etaria,right=False)]

print(len(tb_vacinados))
 
print(len(tb_vacinados.loc[tb_vacinados.duplicated("cns",keep="first")]))
tb_vacinados = tb_vacinados.drop_duplicates("cns", keep="first")

print(len(tb_vacinados.loc[tb_vacinados.duplicated("cpf",keep="first")]))
tb_vacinados = tb_vacinados.drop_duplicates("cpf", keep="first")

print(len(tb_vacinados.loc[tb_vacinados.duplicated("hash_mae",keep="first")]))
tb_vacinados = tb_vacinados.drop_duplicates("hash_mae", keep="first")

print(len(tb_vacinados.loc[tb_vacinados.duplicated("hash_nasc",keep="first")]))
tb_vacinados = tb_vacinados.drop_duplicates("hash_nasc", keep="first")

print(len(tb_vacinados))

tb_vacinados.groupby('faixa_etaria')[['cns']].count()

In [None]:
bins = [1,2,3,7,14,21,30,60,90]
bins_label = ['hoje','24 horas','48 horas', '72 horas', '7 dias', '14 dias', '21 dias', '30 dias', '60 dias', '90 dias']
tb_vacinados['periodo_ultima_dose'] = [ x for x in np.digitize(tb_vacinados['dias_apos_ultima_dose'],bins,right=False)]
dias_apos_ultima_dose = tb_vacinados.groupby(['situacao','periodo_ultima_dose'])[['cns']].count().unstack().fillna(0).astype(int).rename(columns={'cns':'qtde'}).droplevel(0,1)
dias_apos_ultima_dose['total'] = dias_apos_ultima_dose.sum(1)
dias_apos_ultima_dose = dias_apos_ultima_dose.append(pd.DataFrame(dias_apos_ultima_dose.sum().tolist(),index=dias_apos_ultima_dose.columns.tolist(),columns=['total']).T)
dias_apos_ultima_dose.columns = [ bins_label[bins] if isinstance(bins,int) else bins for bins in dias_apos_ultima_dose.columns ]
dias_apos_ultima_dose = dias_apos_ultima_dose.reset_index()
dias_apos_ultima_dose.index = [0,2,1,3]
dias_apos_ultima_dose = dias_apos_ultima_dose.sort_index().set_index('index')
dias_apos_ultima_dose.index.name = None
dias_apos_ultima_dose

In [None]:
tb_vacinados['periodo_ultima_dose'] = tb_vacinados['periodo_ultima_dose'].apply(lambda x: bins_label[x]).copy()
tb_vacinados = tb_vacinados[['ibge','nu_reg','nm_reg','nm_macro','cns', 'cpf', 'paciente', 'sexo', 'data_nascimento', 'idade', 'faixa_etaria', 'nome_mae', 'vacina_nome', 'fabricante', 'data_aplicacao_1a_dose', 'data_aplicacao_2a_dose', 'dias_entre_doses', 'situacao', 'dias_apos_ultima_dose', 'periodo_ultima_dose', 'data_ultima_dose', 'hash_mae', 'hash_nasc']]
# tb_vacinados

In [None]:
tb_vacinados = tb_vacinados.reset_index()
tb_vacinados.to_feather('tb_vacinados.feather')

# writer = pd.ExcelWriter(f"tb_vacinados.xlsx",
#                         engine='xlsxwriter',
#                         datetime_format='dd/mm/yyyy',
#                         date_format='dd/mm/yyyy')

# dias_apos_ultima_dose.to_excel(writer,'dias_apos_ultima_dose')
# fit_cols(writer,dias_apos_ultima_dose,'dias_apos_ultima_dose')

# tb_vacinados['mes_ultima_dose'] = tb_vacinados['data_ultima_dose'].apply(lambda x: meses[x.month])

# for mes, df in tb_vacinados.groupby('mes_ultima_dose'):
#     df.to_excel(writer,mes)
#     fit_cols(writer,df,mes)

# writer.save()

In [32]:
tb_vacinados = pd.read_feather('tb_vacinados.feather')
tb_vacinados = tb_vacinados.set_index('index')

casos_confirmados = get_casos_confirmados(load=True)
casos_confirmados['faixa_etaria'] = [ faixa_etaria_labels[idx] for idx in np.digitize(casos_confirmados['idade'],faixa_etaria,right=False)]
casos_confirmados.groupby('evolucao')[['id']].count()

Unnamed: 0_level_0,id
evolucao,Unnamed: 1_level_1
ATIVO,292942
CURA,613453
OBITO,22607


In [33]:
print('casos_confirmados shape:', casos_confirmados.shape)
casos_confirmados.groupby('faixa_etaria')[['id']].count()

casos_confirmados shape: (929002, 20)


Unnamed: 0_level_0,id
faixa_etaria,Unnamed: 1_level_1
0-59,796787
60-64,45317
65-69,33319
70-74,22683
75-79,14601
80-84,8904
85-89,4803
>=90,2588


In [34]:
obitos_confirmados = casos_confirmados.loc[(casos_confirmados['evolucao']=='OBITO')]
print('obitos_confirmados shape:', obitos_confirmados.shape)
obitos_confirmados.groupby('faixa_etaria')[['id']].count()

obitos_confirmados shape: (22607, 20)


Unnamed: 0_level_0,id
faixa_etaria,Unnamed: 1_level_1
0-59,6298
60-64,2632
65-69,3119
70-74,3075
75-79,2862
80-84,2204
85-89,1491
>=90,926


In [35]:
casos_vacinados = casos_confirmados.loc[
    (casos_confirmados['cns'].notnull() & casos_confirmados['cns'].isin(tb_vacinados['cns'])) |
    (casos_confirmados['cpf'].notnull() & casos_confirmados['cpf'].isin(tb_vacinados['cpf'])) |
    (casos_confirmados['hash_mae'].notnull() & casos_confirmados['hash_mae'].isin(tb_vacinados['hash_mae'])) |
    (casos_confirmados['hash_nasc'].notnull() & casos_confirmados['hash_nasc'].isin(tb_vacinados['hash_nasc']))
]

print(len(casos_vacinados))

112526


In [36]:
tb_vacinados_cols = ['situacao','data_ultima_dose','vacina_nome','fabricante','data_aplicacao_1a_dose','data_aplicacao_2a_dose']

casos_vacinados = pd.merge(casos_confirmados.loc[casos_confirmados['cns'].notna()],tb_vacinados.loc[tb_vacinados['cns'].notna(),['cns']+tb_vacinados_cols], on='cns', how='inner')
tb_vacinados = tb_vacinados.drop(index=tb_vacinados.loc[tb_vacinados['cns'].isin(casos_vacinados['cns'])].index)
print(len(casos_vacinados))
print(len(tb_vacinados))

93852
1336054


In [37]:
casos_vacinados = casos_vacinados.append(pd.merge(casos_confirmados.loc[casos_confirmados['cpf'].notna()],tb_vacinados.loc[tb_vacinados['cpf'].notna(),['cpf']+tb_vacinados_cols], on='cpf', how='inner'), ignore_index=True)
tb_vacinados = tb_vacinados.drop(index=tb_vacinados.loc[tb_vacinados['cpf'].isin(casos_vacinados['cpf'])].index)
print(len(casos_vacinados))
print(len(tb_vacinados))

105787
1324126


In [38]:
casos_vacinados = casos_vacinados.append(pd.merge(casos_confirmados.loc[casos_confirmados['hash_mae'].notna()],tb_vacinados.loc[tb_vacinados['hash_mae'].notna(),['hash_mae']+tb_vacinados_cols], on='hash_mae', how='inner'), ignore_index=True)
tb_vacinados = tb_vacinados.drop(index=tb_vacinados.loc[tb_vacinados['hash_mae'].isin(casos_vacinados['hash_mae'])].index)
print(len(casos_vacinados))
print(len(tb_vacinados))

108908
1321107


In [39]:
casos_vacinados = casos_vacinados.append(pd.merge(casos_confirmados.loc[casos_confirmados['hash_nasc'].notna()],tb_vacinados.loc[tb_vacinados['hash_nasc'].notna(),['hash_nasc']+tb_vacinados_cols], on='hash_nasc', how='inner'), ignore_index=True)
tb_vacinados = tb_vacinados.drop(index=tb_vacinados.loc[tb_vacinados['hash_nasc'].isin(casos_vacinados['hash_nasc'])].index)
print(len(casos_vacinados))
print(len(tb_vacinados))

110821
1319250


In [40]:
print(len(casos_vacinados.loc[casos_vacinados.duplicated('id',keep=False)]))
casos_vacinados = casos_vacinados.drop_duplicates('id',keep='first')
len(casos_vacinados)

18


110812

In [41]:
casos_vacinados['diferenca_vacina_diag'] = casos_vacinados['data_diagnostico'] - casos_vacinados['data_ultima_dose']
casos_vacinados['diferenca_vacina_diag'] = casos_vacinados['diferenca_vacina_diag'].apply(lambda x: x.days)

# bins = [0,1,2,3,7,14,21,30,60,90]
# bins_label = ['antes da vacinação','hoje','24 horas','48 horas', '72 horas', '7 dias', '14 dias', '21 dias', '30 dias', '60 dias', '90 dias']

# diferenca_vacina_diag = casos_vacinados.groupby(['situacao',np.digitize(casos_vacinados['diferenca_vacina_diag'],bins)])[['paciente']].count().rename(columns={'paciente':'qtde'}).unstack().fillna(0).astype(int).T.droplevel(0,0)
# diferenca_vacina_diag.index = [ bins_label[x] for x in diferenca_vacina_diag.index ]
# diferenca_vacina_diag.columns.name = 'diferenca entre data_diagnostico e dt_vacina (em dias)'


# diferenca_vacina_diag

In [42]:
casos = pd.merge(casos_confirmados,casos_vacinados[['id','diferenca_vacina_diag']+tb_vacinados_cols],how='left',on='id')
casos['vacinado'] = 'NAO'
casos.loc[(casos['situacao']=='ambas doses aplicadas')&(casos['diferenca_vacina_diag']>14),'vacinado'] = 'SIM'


casos['ano_caso'] = casos['data_diagnostico'].apply(lambda x: x.year if isinstance(x,date) else 'erro')
casos['mes_caso'] = casos['data_diagnostico'].apply(lambda x: x.month if isinstance(x,date) else 'erro')
grupo = casos.groupby(['ano_caso','mes_caso','faixa_etaria','vacinado'])[['id']].count().unstack(0).unstack(0).unstack(-1)
grupo = grupo.droplevel(0,1)
grupo = grupo.fillna(0).astype(float)
# grupo.to_excel('casos.xlsx')
grupo

ano_caso,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021
mes_caso,1,1,2,2,3,3,4,4,5,5,6,6,7,7,8,8,9,9,10,10,11,11,12,12,1,1,2,2,3,3,4,4,5,5,6,6,7,7,8,8,9,9,10,10,11,11,12,12
vacinado,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM
faixa_etaria,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3,Unnamed: 19_level_3,Unnamed: 20_level_3,Unnamed: 21_level_3,Unnamed: 22_level_3,Unnamed: 23_level_3,Unnamed: 24_level_3,Unnamed: 25_level_3,Unnamed: 26_level_3,Unnamed: 27_level_3,Unnamed: 28_level_3,Unnamed: 29_level_3,Unnamed: 30_level_3,Unnamed: 31_level_3,Unnamed: 32_level_3,Unnamed: 33_level_3,Unnamed: 34_level_3,Unnamed: 35_level_3,Unnamed: 36_level_3,Unnamed: 37_level_3,Unnamed: 38_level_3,Unnamed: 39_level_3,Unnamed: 40_level_3,Unnamed: 41_level_3,Unnamed: 42_level_3,Unnamed: 43_level_3,Unnamed: 44_level_3,Unnamed: 45_level_3,Unnamed: 46_level_3,Unnamed: 47_level_3,Unnamed: 48_level_3
0-59,0,0,0,0,295,0,1.299,0,4.536,0,27.796,0,50.853,0,48.265,0,39.265,0,30.136,0,92.751,0,106.608,0,93.927,0,89.544,5,128.61,941,70.438,863,10.52,135,0,0,0,0,0,0,0,0,0,0,0,0,0,0
60-64,0,0,0,0,21,0,61.0,0,225.0,0,1.312,0,2.606,0,2.571,0,2.093,0,1.582,0,4.783,0,6.118,0,5.498,0,5.49,0,7.965,25,4.311,40,614.0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0
65-69,0,0,0,0,8,0,51.0,0,168.0,0,953.0,0,1.887,0,1.819,0,1.524,0,1.176,0,3.379,0,4.594,0,4.197,0,3.955,0,5.973,28,3.214,21,371.0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
70-74,0,0,0,0,10,0,43.0,0,112.0,0,631.0,0,1.3,0,1.254,0,1.071,0,750.0,0,2.213,0,3.095,0,2.918,0,2.789,0,4.069,21,2.171,22,191.0,23,0,0,0,0,0,0,0,0,0,0,0,0,0,0
75-79,0,0,0,0,5,0,33.0,0,87.0,0,415.0,0,889.0,0,810.0,0,654.0,0,516.0,0,1.364,0,2.027,0,1.858,0,1.85,0,2.668,23,1.211,74,74.0,43,0,0,0,0,0,0,0,0,0,0,0,0,0,0
80-84,0,0,0,0,5,0,23.0,0,57.0,0,293.0,0,558.0,0,541.0,0,415.0,0,349.0,0,831.0,0,1.221,0,1.175,0,1.056,0,1.567,18,611.0,112,40.0,32,0,0,0,0,0,0,0,0,0,0,0,0,0,0
85-89,0,0,0,0,2,0,12.0,0,39.0,0,169.0,0,350.0,0,331.0,0,248.0,0,190.0,0,419.0,0,677.0,0,595.0,0,576.0,0,794.0,26,256.0,86,24.0,9,0,0,0,0,0,0,0,0,0,0,0,0,0,0
>=90,0,0,0,0,2,0,5.0,0,10.0,0,96.0,0,217.0,0,201.0,0,151.0,0,97.0,0,238.0,0,338.0,0,356.0,0,292.0,0,361.0,29,75.0,87,14.0,10,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [43]:
obitos_vacinados = casos_vacinados.loc[casos_vacinados['evolucao']=='OBITO'].copy()
obitos_vacinados['diferenca_vacina_obito'] = obitos_vacinados['data_cura_obito'] - obitos_vacinados['data_ultima_dose']
obitos_vacinados['diferenca_vacina_obito'] = obitos_vacinados['diferenca_vacina_obito'].apply(lambda x: x.days)

# bins = [0,1,2,3,7,14,21,30,60,90]
# bins_label = ['antes da vacinação','hoje','24 horas','48 horas', '72 horas', '7 dias', '14 dias', '21 dias', '30 dias', '60 dias', '90 dias']

# diferenca_vacina_obito = obitos_vacinados.groupby(['situacao',np.digitize(obitos_vacinados['diferenca_vacina_obito'],bins)])[['paciente']].count().rename(columns={'paciente':'qtde'}).unstack().fillna(0).astype(int).T.droplevel(0,0)
# diferenca_vacina_obito.index = [ bins_label[x] for x in diferenca_vacina_obito.index ]
# diferenca_vacina_obito.columns.name = 'diferenca entre dt_obito e dt_vacina (em dias)'


# print(len(obitos_vacinados))
# diferenca_vacina_obito

In [44]:
obitos = pd.merge(obitos_confirmados,obitos_vacinados[['id','diferenca_vacina_diag']+tb_vacinados_cols],how='left',on='id')
obitos['vacinado'] = 'NAO'
obitos.loc[(obitos['situacao']=='ambas doses aplicadas')&(obitos['diferenca_vacina_diag']>14),'vacinado'] = 'SIM'


# obitos = obitos.loc[(obitos['data_cura_obito'] > '2021-01-18')&(obitos['idade']>=60)]
obitos['ano_obito'] = obitos['data_cura_obito'].apply(lambda x: x.year if isinstance(x,date) else 'erro')
obitos['mes_obito'] = obitos['data_cura_obito'].apply(lambda x: x.month if isinstance(x,date) else 'erro')
grupo = obitos.groupby(['ano_obito','mes_obito','faixa_etaria','vacinado'])[['id']].count().unstack(0).unstack(0).unstack(-1)
# grupo = grupo.droplevel(0,1)
grupo = grupo.fillna(0).astype(float)
grupo.to_excel('obitos.xlsx')
grupo

Unnamed: 0_level_0,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id,id
ano_obito,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.020,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021,2.021
mes_obito,1,1,2,2,3,3,4,4,5,5,6,6,7,7,8,8,9,9,10,10,11,11,12,12,1,1,2,2,3,3,4,4,5,5,6,6,7,7,8,8,9,9,10,10,11,11,12,12
vacinado,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM,NAO,SIM
faixa_etaria,Unnamed: 1_level_4,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4,Unnamed: 9_level_4,Unnamed: 10_level_4,Unnamed: 11_level_4,Unnamed: 12_level_4,Unnamed: 13_level_4,Unnamed: 14_level_4,Unnamed: 15_level_4,Unnamed: 16_level_4,Unnamed: 17_level_4,Unnamed: 18_level_4,Unnamed: 19_level_4,Unnamed: 20_level_4,Unnamed: 21_level_4,Unnamed: 22_level_4,Unnamed: 23_level_4,Unnamed: 24_level_4,Unnamed: 25_level_4,Unnamed: 26_level_4,Unnamed: 27_level_4,Unnamed: 28_level_4,Unnamed: 29_level_4,Unnamed: 30_level_4,Unnamed: 31_level_4,Unnamed: 32_level_4,Unnamed: 33_level_4,Unnamed: 34_level_4,Unnamed: 35_level_4,Unnamed: 36_level_4,Unnamed: 37_level_4,Unnamed: 38_level_4,Unnamed: 39_level_4,Unnamed: 40_level_4,Unnamed: 41_level_4,Unnamed: 42_level_4,Unnamed: 43_level_4,Unnamed: 44_level_4,Unnamed: 45_level_4,Unnamed: 46_level_4,Unnamed: 47_level_4,Unnamed: 48_level_4
0-59,0,0,0,0,2,0,19,0,22,0,127,0,353,0,331,0,256,0,164,0,219,0,492,0,407,0,476,0,1.944,1,1.3,4,169,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
60-64,0,0,0,0,1,0,1,0,12,0,69,0,118,0,167,0,111,0,74,0,111,0,250,0,218,0,220,0,717.0,0,503.0,1,56,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
65-69,0,0,0,0,1,0,5,0,12,0,59,0,169,0,174,0,133,0,111,0,154,0,307,0,264,0,252,0,828.0,1,573.0,1,69,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
70-74,0,0,0,0,0,0,8,0,12,0,82,0,180,0,188,0,174,0,104,0,148,0,304,0,269,0,276,0,806.0,2,479.0,1,38,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
75-79,0,0,0,0,0,0,4,0,12,0,70,0,179,0,193,0,148,0,100,0,151,0,320,0,248,0,274,0,711.0,1,415.0,5,22,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
80-84,0,0,0,0,1,0,7,0,7,0,60,0,150,0,146,0,111,0,101,0,126,0,254,0,226,0,201,0,541.0,2,230.0,13,21,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0
85-89,0,0,0,0,0,0,6,0,9,0,62,0,107,0,120,0,88,0,60,0,94,0,176,0,147,0,136,0,337.0,3,113.0,18,11,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0
>=90,0,0,0,0,0,0,5,0,2,0,27,0,80,0,80,0,80,0,42,0,59,0,98,0,108,0,88,0,190.0,1,38.0,16,4,5,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [45]:
casos2020 = casos.loc[(casos['ano_caso']==2020)&(casos['mes_caso'].isin([9,10,11,12]))]
casos2020 = casos2020.groupby('faixa_etaria')[['id']].count()
total = pd.Series(casos2020.sum(),name='TOTAL')
casos2020 = casos2020.append(total)
casos2020['%**'] = casos2020.apply(lambda x: x['id']/total, axis=1)
casos2020.to_excel('casos2020.xlsx')
casos2020

Unnamed: 0_level_0,id,%**
faixa_etaria,Unnamed: 1_level_1,Unnamed: 2_level_1
0-59,268760,1
60-64,14576,0
65-69,10673,0
70-74,7129,0
75-79,4561,0
80-84,2816,0
85-89,1534,0
>=90,824,0
TOTAL,310873,1


In [46]:
casos2021 = casos.loc[(casos['ano_caso']==2021)&(casos['mes_caso'].isin([1,2,3,4]))]
casos2021 = casos2021.groupby(['faixa_etaria','vacinado'])[['id']].count().unstack()
total = pd.Series(casos2021.sum(),name='TOTAL')
casos2021 = casos2021.append(total)
casos2021['TOTAL'] = casos2021.sum(1)
casos2021[('TOTAL','%**')] = 0#casos2021['TOTAL'].apply(lambda x: x.iloc[0]/total, 1)
casos2021.to_excel('casos2021.xlsx')
casos2021

Unnamed: 0_level_0,id,id,TOTAL,TOTAL
vacinado,NAO,SIM,Unnamed: 3_level_1,%**
faixa_etaria,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0-59,382519,1809,384328,0
60-64,23264,65,23329,0
65-69,17339,49,17388,0
70-74,11947,43,11990,0
75-79,7587,97,7684,0
80-84,4409,130,4539,0
85-89,2221,112,2333,0
>=90,1084,116,1200,0
TOTAL,450370,2421,452791,0


In [47]:
exit()
casos_vacinados_cns = pd.merge(casos_confirmados,tb_vacinados[['cns','situacao','data_ultima_dose','vacina_nome','fabricante','data_aplicacao_1a_dose','data_aplicacao_2a_dose']],on='cns',how='inner')
casos_confirmados = casos_confirmados.drop(index=casos_confirmados.loc[casos_confirmados['cns'].isin(casos_vacinados_cns['cns'])].index)
tb_vacinados = tb_vacinados.rename(columns={'cns':'cns_vacinacao'})

casos_vacinados_cpf = pd.merge(casos_confirmados.loc[casos_confirmados['cpf'].notnull()],tb_vacinados[['cpf','situacao','data_ultima_dose','cns_vacinacao','vacina_nome','fabricante','data_aplicacao_1a_dose','data_aplicacao_2a_dose']],on='cpf',how='inner')
casos_confirmados = casos_confirmados.drop(index=casos_confirmados.loc[casos_confirmados['cpf'].isin(casos_vacinados_cpf['cpf'])].index)

casos_vacinados_hash_mae = pd.merge(casos_confirmados.loc[casos_confirmados['hash_mae'].notnull()],tb_vacinados[['hash_mae','situacao','data_ultima_dose','cns_vacinacao','vacina_nome','fabricante','data_aplicacao_1a_dose','data_aplicacao_2a_dose']],on='hash_mae',how='inner')
casos_confirmados = casos_confirmados.drop(index=casos_confirmados.loc[casos_confirmados['hash_mae'].isin(casos_vacinados_hash_mae['hash_mae'])].index)

casos_vacinados_hash_nasc = pd.merge(casos_confirmados.loc[casos_confirmados['hash_nasc'].notnull()],tb_vacinados[['hash_nasc','situacao','data_ultima_dose','cns_vacinacao','vacina_nome','fabricante','data_aplicacao_1a_dose','data_aplicacao_2a_dose']],on='hash_nasc',how='inner')
casos_confirmados = casos_confirmados.drop(index=casos_confirmados.loc[casos_confirmados['hash_nasc'].isin(casos_vacinados_hash_nasc['hash_nasc'])].index)

SystemExit: 

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


In [None]:
casos_vacinados = pd.concat([casos_vacinados_cns,casos_vacinados_cpf,casos_vacinados_hash_mae,casos_vacinados_hash_nasc], axis=0)

casos_vacinados = pd.merge(casos_vacinados,municipios[['ibge','municipio']],on='ibge',how='left')
casos_vacinados = pd.merge(casos_vacinados,regionais[['ibge','nu_reg']],on='ibge',how='left')

print('Shape casos vacinados', casos_vacinados.shape)

casos_vacinados_idx = list(casos_vacinados.loc[(casos_vacinados['hash_mae'].notna())  & (casos_vacinados.duplicated('hash_mae',keep='last'))].index)
casos_vacinados_idx += list(casos_vacinados.loc[(casos_vacinados['hash_nasc'].notna())  & (casos_vacinados.duplicated('hash_nasc',keep='last'))].index)
casos_vacinados_idx += list(casos_vacinados.loc[(casos_vacinados['cpf'].notna())  & (casos_vacinados.duplicated('cpf',keep='last'))].index)
casos_vacinados_idx += list(casos_vacinados.loc[(casos_vacinados['cns'].notna())  & (casos_vacinados.duplicated('cns',keep='last'))].index)


casos_vacinados = casos_vacinados.drop(index=set(casos_vacinados_idx))

casos_vacinados = casos_vacinados[['id','ibge','municipio','nu_reg','cns', 'cpf', 'paciente', 'idade', 'data_nascimento', 'nome_mae','data_diagnostico', 'evolucao', 'data_cura_obito','situacao','data_ultima_dose', 'vacina_nome', 'fabricante', 'data_aplicacao_1a_dose', 'data_aplicacao_2a_dose']].rename(columns={'data_aplicacao_1a_dose':'data_1a_dose','data_aplicacao_2a_dose':'data_2a_dose'})


print('Shape casos vacinados', casos_vacinados.shape)

In [None]:
casos_vacinados.loc[casos_vacinados['data_1a_dose'].isna(),'periodo_contaminacao'] = "sem data 1ª dose"
casos_vacinados.loc[casos_vacinados['data_diagnostico'] < casos_vacinados['data_1a_dose'],'periodo_contaminacao'] = "antes da vacinação"
casos_vacinados.loc[casos_vacinados['data_diagnostico'] > casos_vacinados['data_1a_dose'],'periodo_contaminacao'] = "depois da 1ª dose"
# casos_vacinados.loc[casos_vacinados['data_diagnostico'] < casos_vacinados['data_2a_dose'],'periodo_contaminacao'] = "antes da 2ª dose"
casos_vacinados.loc[casos_vacinados['data_diagnostico'] > casos_vacinados['data_2a_dose'],'periodo_contaminacao'] = "depois da 2ª dose"
casos_vacinados.loc[(casos_vacinados['data_diagnostico'] > casos_vacinados['data_1a_dose']) & (casos_vacinados['data_diagnostico'] < casos_vacinados['data_2a_dose']),'periodo_contaminacao'] = "entre as doses"
casos_vacinados.loc[(casos_vacinados['data_diagnostico'] == casos_vacinados['data_1a_dose']),'periodo_contaminacao'] = "no mesmo dia da 1ª dose"
casos_vacinados.loc[(casos_vacinados['data_diagnostico'] == casos_vacinados['data_2a_dose']),'periodo_contaminacao'] = "no mesmo dia da 2ª dose"

# casos_vacinados.loc[casos_vacinados['periodo_contaminacao'].isnull()]

totais_casos = casos_vacinados.groupby(['periodo_contaminacao'])[['paciente']].count()
totais_casos = totais_casos.append(pd.DataFrame([totais_casos.sum()], columns=totais_casos.columns, index=['total casos vacinados'])).reset_index().rename(columns={'index':'periodo_contaminacao'}).sort_values('periodo_contaminacao')
totais_casos['CASOS'] = totais_casos.sum(1)
totais_casos.index = [0,2,4,3,1,5,6,7]
totais_casos = totais_casos.sort_index().set_index('periodo_contaminacao')
totais_casos = totais_casos[['CASOS']]
totais_casos

In [None]:
casos_vacinados.groupby(['situacao','periodo_contaminacao'])[['paciente']].count().unstack(0).fillna(0).astype(int)

In [None]:
writer = pd.ExcelWriter(f"casos_vacinados.xlsx",
                        engine='xlsxwriter',
                        datetime_format='dd/mm/yyyy',
                        date_format='dd/mm/yyyy')

totais_casos.to_excel(writer,'totais')
fit_cols(writer,totais_casos,'totais')

for periodo_contaminacao, df in casos_vacinados.groupby('periodo_contaminacao'):
    df.to_excel(writer,sheet_name=periodo_contaminacao,index=None)
    fit_cols(writer,df,periodo_contaminacao)

writer.save()

In [None]:
obitos_vacinados = casos_vacinados.loc[casos_vacinados['evolucao']=='OBITO'].copy()
obitos_vacinados['diferenca_vacina_obito'] = '-99999'

obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].notna(),'diferenca_vacina_obito'] = obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].notna(),'data_cura_obito'] - obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].notna(),'data_1a_dose']

obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].isna(),'diferenca_vacina_obito'] = obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].isna(),'data_cura_obito'] - obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].isna(),'data_2a_dose']

obitos_vacinados['diferenca_vacina_obito'] = obitos_vacinados['diferenca_vacina_obito'].apply(lambda x: x.days)

bins = [0,1,2,3,10,20,30]
bins_label = ['antes da vacinação','mesmo dia','1 dia','2 dias', '3 dias', '10 dias', '20 dias', '30 dias']

diferenca_vacina_obito = obitos_vacinados.groupby(['situacao',np.digitize(obitos_vacinados['diferenca_vacina_obito'],bins)])[['paciente']].count().rename(columns={'paciente':'qtde'}).unstack().fillna(0).astype(int).T.droplevel(0,0)
diferenca_vacina_obito.index = bins_label
# diferenca_vacina_obito.columns.name = 'diferenca entre dt_obito e dt_vacina (em dias)'
# diferenca_vacina_obito.insert(loc=0,column='total', value=diferenca_vacina_obito.sum(1))


# diferenca_vacina_obito.groupby().sum()
diferenca_vacina_obito


In [None]:
# obitos_vacinados['diferenca_vacina_diagnostico'] = '-99999'

# obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].notna(),'diferenca_vacina_diagnostico'] = obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].notna(),'data_diagnostico'] - obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].notna(),'data_1a_dose']

# obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].isna(),'diferenca_vacina_diagnostico'] = obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].isna(),'data_diagnostico'] - obitos_vacinados.loc[obitos_vacinados['data_1a_dose'].isna(),'data_2a_dose']

# obitos_vacinados['diferenca_vacina_diagnostico'] = obitos_vacinados['diferenca_vacina_diagnostico'].apply(lambda x: x.days)

# diferenca_vacina_diagnostico = obitos_vacinados.groupby('diferenca_vacina_diagnostico')[['paciente']].count().rename(columns={'paciente':'qtde'})
# # diferenca_vacina_diagnostico.index.name = None
# # diferenca_vacina_diagnostico.columns.name = None
# diferenca_vacina_diagnostico