# Analisando Pacientes e Riscos

## imports

In [None]:
!pip install ipdb
!pip install tqdm
from tqdm import tqdm
import ipdb
import pandas as pd
from collections import ChainMap

Defaulting to user installation because normal site-packages is not writeable


In [181]:
import importlib
from src import bases_utils as bu
importlib.reload(bu)

<module 'src.bases_utils' from 'c:\\Users\\thiag\\OneDrive\\Documents\\UFRJ\\git\\projeto_lupus\\src\\bases_utils.py'>

## Leitura das Bases

### Procedimentos com Risco

In [2]:
df_risk = pd.read_csv('data/procedimentos/dev/procedimentos_encontrados_no_risco_cirurgico.csv')
set_risk = set(df_risk['cod_procedimento'])

### Com Lúpus

In [3]:
num_algoritmo = 2

df_lupus = pd.read_parquet(f'data/results/df_alg{num_algoritmo}.parquet')
df_lupus_bpai = pd.read_parquet(f'data/results/df_bpai_alg{num_algoritmo}.parquet')
df_lupus_aih = pd.read_parquet(f'data/results/df_aih_alg{num_algoritmo}.parquet')
df_lupus_apac = pd.read_parquet(f'data/results/df_apac_alg{num_algoritmo}.parquet')

### Sem Lúpus

In [4]:
df_bpai = pd.read_parquet(f'data/BPAI_Lupus_L93M32N08_todos_cids.parquet')
df_aih = pd.read_parquet(f'data/AIH_Lupus_L93M32N08_todos_cids.parquet')
df_apac = pd.read_parquet(f'data/APAC_Lupus_L93M32N08_todos_cids.parquet')

# Preciso ajustas as datas
df_aih['data'] = pd.to_datetime(df_aih['dt_internacao'], format='%d/%m/%Y', errors='coerce')
df_apac['data'] = pd.to_datetime(df_apac['data_inicio'], format='%d/%m/%Y', errors='coerce')

# Não achei data na bpai
# Só para conseguir unificar o bpai
df_bpai['data'] = '01/01/2058'
df_bpai['data'] = pd.to_datetime(df_bpai['data'], format='%d/%m/%Y', errors='coerce')

In [5]:
def get_cols_procedimentos(base_name):
      dict_col = {'BPAI':['co_procedimento_realizado'],
                  'AIH':['co_procedimento_principal'], # --> AIH nãm tem cod_procedimento_secundario
                  'APAC':['co_procedimento_principal', 'co_procedimento_secundario'],
                  'UNION':['co_procedimento_realizado', # BPAI
                           'co_procedimento_principal', # APAC
                           'co_procedimento_secundario', # APAC
                           'co_procedimento_aih']} # AIH
      return dict_col[base_name]

def get_risk(df, cols, set_risk):
    """ Calcula quantos pacientes possuem um procedimento de risco """
    if len(cols) > 1: # Se tiver mais de uma coluna de procedimentos
        cols_risk = []
        for idx, col in enumerate(cols): # Itera nas colunas
            col_name = f'risk_procedimento_{idx}'
            df[col_name] = df[col].isin(set_risk)
            cols_risk.append(col_name)

        df['risk_filter_col'] = df[cols_risk].sum(axis=1) # Conta quantas colnuas possuem True
        
        # Filtra as que tiveram pelo menos 1
        num_pacientes_risk = df[df['risk_filter_col'] > 0]['id_paciente'].nunique()

    else: # Se for só uma coluna, fica mais fácil
        num_pacientes_risk = df[df[cols[0]].isin(set_risk)]['id_paciente'].nunique()
    return num_pacientes_risk

def get_percent(numerador, denominador):
    return round(numerador*100/denominador, 2)

def analisa_riscos(df, df_lupus, base_name):
    cols_procedimento = get_cols_procedimentos(base_name)

    num_total_pacientes = df['id_paciente'].nunique()
    print(f' - Pacientes na {base_name}:', num_total_pacientes)
    
    num_pacientes_risk = get_risk(df, cols_procedimento, set_risk)
    print(f' - Pacientes na {base_name} com algum risco: '+
            f'{num_pacientes_risk} ' +
            f'({get_percent(num_pacientes_risk, num_total_pacientes)}%)')

    num_pacientes_lupus = df_lupus['id_paciente'].nunique()
    print(f' - Pacientes com Lúpus na {base_name}: {num_pacientes_lupus} '+
          f'({get_percent(num_pacientes_lupus, num_total_pacientes)})%')

    num_lupus_risk = get_risk(df_lupus, cols_procedimento, set_risk)

    print(f' - Pacientes com Lúpus e algum risco na {base_name}: {num_lupus_risk} ' +
            f'({get_percent(num_lupus_risk, num_pacientes_lupus)}% de Lúpus) e ' +
            f'({get_percent(num_lupus_risk, num_total_pacientes)}% da {base_name})')
    print()

analisa_riscos(df_bpai, df_lupus_bpai, 'BPAI')
analisa_riscos(df_aih, df_lupus_aih, 'AIH')
analisa_riscos(df_apac, df_lupus_apac, 'APAC')

 - Pacientes na BPAI: 46967
 - Pacientes na BPAI com algum risco: 33049 (70.37%)
 - Pacientes com Lúpus na BPAI: 13228 (28.16)%
 - Pacientes com Lúpus e algum risco na BPAI: 10522 (79.54% de Lúpus) e (22.4% da BPAI)

 - Pacientes na AIH: 48663
 - Pacientes na AIH com algum risco: 6906 (14.19%)
 - Pacientes com Lúpus na AIH: 22362 (45.95)%
 - Pacientes com Lúpus e algum risco na AIH: 2884 (12.9% de Lúpus) e (5.93% da AIH)

 - Pacientes na APAC: 31948
 - Pacientes na APAC com algum risco: 14418 (45.13%)
 - Pacientes com Lúpus na APAC: 13713 (42.92)%
 - Pacientes com Lúpus e algum risco na APAC: 3430 (25.01% de Lúpus) e (10.74% da APAC)



# Base Unificada
BPAI + AIH + APAC

In [7]:
df_alg = pd.read_parquet(f'data/results/df_alg{num_algoritmo}.parquet')

In [8]:
cols_union = ['id_paciente'
              #, 'sexo', 'idade', 'data'
              ]
df_aih.rename(columns={'co_procedimento_principal':'co_procedimento_aih'})
df_union = pd.concat([df_bpai[cols_union+get_cols_procedimentos('BPAI')],
                      df_apac[cols_union+get_cols_procedimentos('APAC')],
                      df_aih.rename(columns={'co_procedimento_principal':'co_procedimento_aih'})\
                      [cols_union+['co_procedimento_aih']]])

In [9]:
cols_union = ['id_paciente']
df_lupus_aih.rename(columns={'co_procedimento_principal':'co_procedimento_aih'})
df_lupus_union = pd.concat([df_lupus_bpai[cols_union+get_cols_procedimentos('BPAI')],
                      df_lupus_apac[cols_union+get_cols_procedimentos('APAC')],
                      df_lupus_aih.rename(columns={'co_procedimento_principal':'co_procedimento_aih'})\
                      [cols_union+['co_procedimento_aih']]])

In [10]:
analisa_riscos(df_union, df_lupus_union, 'UNION')

 - Pacientes na UNION: 71874
 - Pacientes na UNION com algum risco: 43032 (59.87%)
 - Pacientes com Lúpus na UNION: 22937 (31.91)%
 - Pacientes com Lúpus e algum risco na UNION: 12625 (55.04% de Lúpus) e (17.57% da UNION)



# Analise dos grupos

In [12]:
set_bpai = list(df_lupus_bpai['id_paciente'].unique())
set_aih = list(df_lupus_aih['id_paciente'].unique())
set_apac = list(df_lupus_apac['id_paciente'].unique())

df_lupus_bpai_full = df_bpai.set_index('id_paciente').loc[set_bpai].reset_index()
df_lupus_aih_full = df_aih.set_index('id_paciente').loc[set_aih].reset_index()
df_lupus_apac_full = df_apac.set_index('id_paciente').loc[set_apac].reset_index()

### Resultado Algoritmo

In [13]:
df_lupus = bu.junta_dfs(df_lupus_bpai_full, df_lupus_aih_full, df_lupus_apac_full)

In [38]:
df_lupus.columns

Index(['id_paciente', 'sexo', 'idade', 'uf_paciente', 'data',
       'co_procedimento_principal', 'regiao', 'idade_categoria'],
      dtype='object')

### Filtro Cirurgia

In [58]:
df_cirurgia = pd.read_csv('data/procedimentos/dev/procedimentos_cirúrgicos_para_o_baseline.csv')

In [14]:
# Ajustando o nome dos procedimentos
df_union.rename(columns={'co_procedimento_realizado':'co_procedimento_bpai'}, inplace=True)

cirurgias_apac_1 = set(df_union['co_procedimento_principal']).intersection(set(df_cirurgia['cod_procedimento']))
cirurgias_apac_2 = set(df_union['co_procedimento_secundario']).intersection(set(df_cirurgia['cod_procedimento']))
print(' - Cirurgias na APAC:', len(cirurgias_apac_1)+len(cirurgias_apac_2))

cirurgias_bpai = set(df_union['co_procedimento_bpai']).intersection(set(df_cirurgia['cod_procedimento']))
print(' - Cirurgias no BPAI:', len(cirurgias_bpai))

# Verifica quem fez cirurgia
cirurgias_aih = set(df_union['co_procedimento_aih']).intersection(set(df_cirurgia['cod_procedimento']))
print(' - Cirurgias no BPAI:', len(cirurgias_aih))

 - Cirurgias na APAC: 1
 - Cirurgias no BPAI: 27
 - Cirurgias no BPAI: 191


In [15]:
# Verificando os procedimentos de cirurgia
df_union['cirurgia_aih'] = df_union['co_procedimento_aih'].isin(cirurgias_aih)
df_union['cirurgia_bpai'] = df_union['co_procedimento_bpai'].isin(cirurgias_bpai)
df_union['cirurgia_apac'] = df_union['co_procedimento_secundario'].isin(cirurgias_apac_2)
df_union['cirurgia'] = df_union['cirurgia_aih'] | df_union['cirurgia_bpai'] | df_union['cirurgia_apac']

# Pacientes que passaram por algum dos procedimentos
# cirúrgicos espefificados (em qualquer uma das bases)
aux = df_union.groupby('id_paciente')['cirurgia'].sum()
pacientes_operados = set(aux[aux>0].index)

print(' - Pacientes operados na base toda:', len(pacientes_operados))
print(f' - Pacientes operados no algoritmo {num_algoritmo}:', len(pacientes_operados.intersection(set(df_lupus['id_paciente']))))
#print(' - Pacientes operados no algoritmo 2:', len(pacientes_operados.intersection(set(df_lupus_2['id_paciente']))))

 - Pacientes operados na base toda: 9127
 - Pacientes operados no algoritmo 2: 4743


### Analisando os Pacientes com Lúpus e operados

In [16]:
# Questão número 1:
# Tem pacientes com mais de 1 sexo e mais de 1 região:
# Será que tenho que pegar a data e a região da cirugia? :S
count_sexo = df_lupus.groupby('id_paciente')['sexo'].nunique().sort_values()
print(count_sexo.value_counts())

count_regiao = df_lupus.groupby('id_paciente')['regiao'].nunique().sort_values()
print(count_regiao.value_counts())

count_idade = df_lupus.groupby('id_paciente')['idade_categoria'].nunique().sort_values()
print(count_idade.value_counts())

sexo
1    21785
2     1152
Name: count, dtype: int64
regiao
1    21868
2     1041
3       28
Name: count, dtype: int64
idade_categoria
1    8724
2    8124
3    5559
4     489
5      32
6       8
7       1
Name: count, dtype: int64


### Tentando pegar os dados no dia da cirurgia
Alguns pacientes tem muitas cirurgias, mamma mia

In [60]:
df_lupus_cirurgia = df_lupus[df_lupus['co_procedimento_principal'].isin(df_cirurgia['cod_procedimento'])]
df_lupus_cirurgia.shape

(100879, 8)

In [67]:
set_lupus_cirurgia = df_lupus_cirurgia['id_paciente'].drop_duplicates()
df_lupus_cirurgia_idx = df_lupus_cirurgia.set_index('id_paciente')
infos_pacientes_lupus_cirurgia = set_lupus_cirurgia.apply(lambda row: bu.get_info_paciente(row, df_lupus_cirurgia_idx, df_cirurgia))
dict_aux = dict(ChainMap(*list(infos_pacientes_lupus_cirurgia)))
df_pacientes_lupus_cirugia = pd.DataFrame.from_dict(dict_aux).T
df_pacientes_lupus_cirugia['regiao'] = df_pacientes_lupus_cirugia['uf_paciente'].map(bu.get_regiao)
df_pacientes_lupus_cirugia['idade_categoria'] = df_pacientes_lupus_cirugia['idade'].map(bu.get_categoria_idade)
df_pacientes_lupus_cirugia.head()

Unnamed: 0,data,sexo,idade,uf_paciente,regiao,idade_categoria
34899773600,2018-09-23 00:00:00,FEMININO,16,AC,Norte,16-20
9560651700,2018-11-06 00:00:00,FEMININO,71,RS,Sul,55+
89426845001,2018-09-23 00:00:00,FEMININO,16,AC,Norte,16-20
6135801400,2018-11-28 00:00:00,FEMININO,78,PE,Nordeste,55+
24552062300,2018-07-23 00:00:00,FEMININO,63,RS,Sul,55+


In [20]:
print(' - Pacientes com lúpus que fizeram curigia abidominal:',
      df_lupus_cirurgia['id_paciente'].nunique(), 'de',
      df_lupus['id_paciente'].nunique())

 - Pacientes com lúpus que fizeram curigia abidominal: 4742 de 22937


### Agora sim analisando os pacientes com Lúpus que operaram

In [21]:
df_pacientes_lupus_cirugia['sexo'].value_counts(normalize=True)

sexo
FEMININO     0.8876
MASCULINO    0.1124
Name: proportion, dtype: float64

In [22]:
df_pacientes_lupus_cirugia['regiao'].value_counts(normalize=True)

regiao
Sudeste         0.465415
Nordeste        0.239983
Sul             0.158372
Centro-Oeste    0.079291
Norte           0.056938
Name: proportion, dtype: float64

In [23]:
df_pacientes_lupus_cirugia['idade_categoria'].value_counts(normalize=True)

idade_categoria
21-25             0.182412
26-30             0.168705
31-35             0.135597
16-20             0.134542
36-40             0.087516
55+               0.079081
41-45             0.063054
Idade inválida    0.061788
46-50             0.048503
51-55             0.038802
Name: proportion, dtype: float64

### Testando a base do Fernando

In [144]:
tc2 = pd.read_parquet('data/pendrive/caso_passo2_com_categorias_com_riscos.parquet')
pacientes_sem_lupus = tc2[~tc2['id_paciente'].isin(df_lupus['id_paciente'])]['id_paciente']
print(' - Total de Pacientes que não foram classificados com lúpus:', len(pacientes_sem_lupus))

 - Total de Pacientes que não foram classificados com lúpus: 401


In [173]:
# Junta os 3 dfs para poder olhar todos os procedimentos de forma simplificada
df_pacientes = bu.junta_dfs_e_procedimentos(df_bpai, df_aih, df_apac)
df_pacientes.loc[df_pacientes['id_paciente']==pacientes_sem_lupus.iloc[30],
    ['id_paciente', 'no_procedimento_principal', 'no_procedimento_secundario']]

Unnamed: 0,id_paciente,no_procedimento_principal,no_procedimento_secundario
271954,1059774700,HEMOGRAMA COMPLETO,BPAI
271995,1059774700,DOSAGEM DE COMPLEMENTO C3,BPAI
272434,1059774700,DOSAGEM DE COLESTEROL LDL,BPAI
272472,1059774700,DOSAGEM DE PROTEINAS (URINA DE 24 HORAS),BPAI
272803,1059774700,DOSAGEM DE TRANSAMINASE GLUTAMICO-OXALACETICA ...,BPAI
...,...,...,...
7089582,1059774700,HIDROXICLOROQUINA 400 MG (POR COMPRIMIDO),HIDROXICLOROQUINA 400 MG (POR COMPRIMIDO)
7107008,1059774700,HIDROXICLOROQUINA 400 MG (POR COMPRIMIDO),HIDROXICLOROQUINA 400 MG (POR COMPRIMIDO)
7146510,1059774700,HIDROXICLOROQUINA 400 MG (POR COMPRIMIDO),HIDROXICLOROQUINA 400 MG (POR COMPRIMIDO)
7155622,1059774700,HIDROXICLOROQUINA 400 MG (POR COMPRIMIDO),HIDROXICLOROQUINA 400 MG (POR COMPRIMIDO)


#### Verifica Cids

In [174]:
def verifica_cid(row):
    for cod in ['M32', 'L93', 'N08']:
        if (cod in row):
            return True    
    return False

df_pacientes['cid_principal'] = df_pacientes['co_cid_principal'].apply(verifica_cid)
df_pacientes['cid_secundario'] = df_pacientes['co_cid_secundario'].apply(verifica_cid)

In [183]:
df_pacientes.loc[:,'cid_principal':].mean()

cid_principal     0.089116
cid_secundario    0.135328
dtype: float64

#### Verifica Procedimentos

In [190]:
import importlib
from src import bases_utils as bu
importlib.reload(bu)

<module 'src.bases_utils' from 'c:\\Users\\thiag\\OneDrive\\Documents\\UFRJ\\git\\projeto_lupus\\src\\bases_utils.py'>

In [195]:
cols = ['id_paciente', 'co_procedimento_principal', 'no_procedimento_principal',
            'co_procedimento_secundario', 'no_procedimento_secundario', 'cid_principal', 'cid_secundario']

pac_dict = {}
for id in tqdm(pacientes_sem_lupus):
    dfp = df_pacientes.loc[df_pacientes['id_paciente']==id, cols]
    dfr = bu.verifica_procedimentos_paciente(dfp, ['no_procedimento_principal', 'no_procedimento_secundario'])
    #print(dfr.loc[:,'procedimento_p1':].sum())
    pac_dict[id] = dfr.loc[:,'procedimento_p1':].sum().to_dict()  

df_pacientes_sem_lupus = pd.DataFrame.from_dict(pac_dict).T  

100%|██████████| 401/401 [04:23<00:00,  1.52it/s]


In [196]:
dft = pd.DataFrame()
for col in df_pacientes_sem_lupus.columns:
    dft[col] = df_pacientes_sem_lupus[col]>0

In [197]:
dft.mean()

procedimento_p1     0.000000
procedimento_p2     0.291771
procedimento_p3     0.192020
procedimento_p4     0.942643
procedimento_cid    0.905237
dtype: float64

In [158]:
dft.loc[1059774700]

procedimento_p1    False
procedimento_p2     True
procedimento_p3     True
procedimento_p4     True
Name: 1059774700, dtype: bool