In [None]:
import pandas as pd

In [None]:
# documentos
coorte_rues_V3 = pd.read_excel('../data/coorte-rues-2022-2023-V3.xlsx')
exames_realizados = pd.read_excel('../data/exames_realizados.xlsx')
lista_cids = pd.read_excel('../data/ListaCIDs.xlsx', converters={'codigo': str, 'descricao': str})
creatinina_e_leucocitos = pd.read_excel('../data/exames-creatinina-leucocitos.xlsx')
todos_exames_realizados = exames_realizados.merge(creatinina_e_leucocitos, on='n_internacao', how='outer')

# extrações
anamnese_medica = pd.read_json('../scripts/anamnese_medica_extracted.json')
anamnese_enfermagem = pd.read_json('../scripts/anamnese_enfermagem_extracted.json')
evolucao_medica = pd.read_json('../scripts/evolucoes_medica_extracted.json')
evolucao_enfermagem = pd.read_json('../scripts/evolucoes_enfermagem_extracted.json')

# prontuarios
anamneses_medica_prontuario = pd.read_excel('../scripts/AnamnesesEvolucoes/anamneses-medica.xlsx')
anamneses_enfermagem_prontuario = pd.read_excel('../scripts/AnamnesesEvolucoes/anamneses-enfermagem.xlsx')
evolucoes_medica_prontuario = pd.read_excel('../scripts/AnamnesesEvolucoes/evolucoes-medica.xlsx')
evolucoes_enfermagem_prontuario = pd.read_excel('../scripts/AnamnesesEvolucoes/evolucoes-enfermagem.xlsx')

### Extração do CID

In [None]:
cids_raw = coorte_rues_V3[[
    'cid_primario_internacao', 
    'cid_secundario_internacao', 
    'diagnostico_principal_alta', 
    'diagnostico_secundario_alta', 
]]

In [None]:
for column in cids_raw.columns:
    cids_raw.loc[:, column] = cids_raw[column].replace(r'\.', '', regex=True)

In [None]:
def remove_duplicates_from_cell(cell):
    if isinstance(cell, str):
        items = cell.split(', ')
        unique_items = ', '.join(sorted(set(items), key=items.index))
        return unique_items
    return cell

cids_filtered = cids_raw.map(remove_duplicates_from_cell)

In [None]:
lista_cids_dict = pd.Series(lista_cids.descricao.values, index=lista_cids.codigo).to_dict()

def cid_translator(cell):
    translated_cell = []
    
    if isinstance(cell, str):
        items = cell.split(', ')  
        
        for item in items:
            translated_value = lista_cids_dict.get(item, '')  
            translated_cell.append(translated_value)

        translated_cell = ', '.join(translated_cell)
        
    return translated_cell

In [None]:
cids_filtered_and_translated = cids_filtered.map(cid_translator)

for column in cids_filtered_and_translated.columns:
    cids_filtered_and_translated[column] = cids_filtered_and_translated[column].str.replace(r'[\[\]]', '', regex=True)

In [None]:
coorte_rues_V3_cid_removed = coorte_rues_V3.drop(columns=cids_raw.columns)
coorte_rues_V3_cid_filtered = pd.concat([coorte_rues_V3_cid_removed, cids_filtered_and_translated], axis=1)

In [None]:
coorte_rues_V3_padronizada = coorte_rues_V3_cid_filtered.merge(todos_exames_realizados, on='n_internacao', how='left')

### Extração dos números de prontuário

In [None]:
n_internacao_AM = anamneses_medica_prontuario['n_internacao']
internacao_AM = pd.DataFrame(n_internacao_AM)

n_internacao_AE = anamneses_enfermagem_prontuario['n_internacao']
internacao_AE = pd.DataFrame(n_internacao_AE)

n_internacao_EE = evolucoes_enfermagem_prontuario['n_internacao']
internacao_EE = pd.DataFrame(n_internacao_EE)

n_internacao_EM = evolucoes_medica_prontuario['n_internacao']
internacao_EM = pd.DataFrame(n_internacao_EM)

#### - unindo a extração ao respectivo 'n_internacao'

In [None]:
anamnese_medica_extracao_final = pd.concat([internacao_AM, anamnese_medica], axis=1)
anamnese_enfermagem_extracao_final = pd.concat([internacao_AE, anamnese_enfermagem], axis=1)
evolucao_medica_extracao_final = pd.concat([internacao_EM, evolucao_medica], axis=1)
evolucao_enfermagem_extracao_final = pd.concat([internacao_EE, evolucao_enfermagem], axis=1)

#### - união do banco de dados com base no n_internacao (somente anamneses)

In [None]:
coorte_rues_V3_padronizada_extracoes = coorte_rues_V3_padronizada.merge(anamnese_medica_extracao_final, on='n_internacao', how='left', suffixes=('__anamnese_medica', '__anamnese_enfermagem')) \
               .merge(anamnese_enfermagem_extracao_final, on='n_internacao', how='left', suffixes=('__anamnese_medica', '__anamnese_enfermagem'))

coorte_rues_V3_padronizada_extracoes

In [None]:
coorte_rues_V3_padronizada_extracoes.isnull().sum()

In [None]:
coorte_rues_V3_padronizada_extracoes.to_excel('coorte_rues_V3_padronizada_com_extracoes.xlsx')