In [None]:
import pandas as pd 
import pickle

## Selected Variables

In [None]:
traducao = {
    'prontuario': 'medical_record_id',
    'n_internacao': 'admission_number',
    'data_internacao': 'admission_date',
    'data_saida': 'discharge_date',
    'tipo_alta': 'discharge_type',
    'tempo_permanencia': 'length_of_stay',
    'tempo_ultima_internacao_internacao_atual': 'time_since_last_admission',
    'internacoes_ultimos_365_dias': 'admissions_last_365_days',
    'internacoes_ultimos_30_dias': 'admissions_last_30_days',
    'internacoes_ultimos_7_dias': 'admissions_last_7_days',
    'internacoes_365_dias_depois_alta': 'readmissions_365_days_post_discharge',
    'internacoes_30_dias_depois_alta': 'readmissions_30_days_post_discharge',
    'internacoes_7_dias_depois_alta': 'readmissions_7_days_post_discharge',
    'total_diagnostico_principal_alta': 'primary_diagnosis_count_at_discharge',
    'total_diagnostico_secundario_alta': 'secondary_diagnosis_count_at_discharge',
    'lto_lto_id': 'bed_id',
    'unidade_internacao': 'admission_unit',
    'especialidade_internacao': 'admission_specialty',
    'data_nascimento': 'birth_date',
    'idade_internacao': 'age_at_admission',
    'sexo': 'sex',
    'raca_cor': 'race_color',
    'naturalidade': 'place_of_birth',
    'nacionalidade': 'nationality',
    'municipio_residencia': 'residence_city',
    'estado_civil': 'marital_status',
    'grau_instrucao': 'education_level',
    'transferencias_durante_a_internacao': 'transfers_during_admission',
    'unidades_que_passou': 'units_visited',
    'especialidades_que_passou': 'specialties_visited',
    'cid_primario_internacao': 'primary_diagnosis_at_admission',
    'cid_secundario_internacao': 'secondary_diagnosis_at_admission',
    'diagnostico_principal_alta': 'primary_diagnosis_at_discharge',
    'diagnostico_secundario_alta': 'secondary_diagnosis_at_discharge',
    'primeiro_albumina': 'first_albumin',
    'ultimo_albumina': 'last_albumin',
    'primeiro_c_reativa': 'first_c_reactive_protein',
    'ultimo_c_reativa': 'last_c_reactive_protein',
    'primeiro_sodio': 'first_sodium',
    'ultimo_sodio': 'last_sodium',
    'primeiro_ureia': 'first_urea',
    'ultimo_ureia': 'last_urea',
    'primeiro_hemoglobina': 'first_hemoglobin',
    'ultimo_hemoglobina': 'last_hemoglobin',
    'primeiro_creatinina': 'first_creatinine',
    'ultimo_creatinina': 'last_creatinine',
    'primeiro_leococitos_hemograma': 'first_white_blood_cell_count',
    'ultimo_leococitos_hemograma': 'last_white_blood_cell_count',
    
    # sinais vitais - anamnese médica
    'FC__anamnese_medica': 'heart_rate_medical',
    'FR__anamnese_medica': 'respiratory_rate_medical',
    'PA__anamnese_medica': 'blood_pressure_medical',
    'T__anamnese_medica': 'temperature_medical',
    'SpO2__anamnese_medica': 'oxygen_saturation_medical',
    'R__anamnese_medica': 'consciousness_level_medical',

    # sinais vitais - enfermagem
    'FC__anamnese_enfermagem': 'heart_rate_nursing',
    'FR__anamnese_enfermagem': 'respiratory_rate_nursing',
    'PA__anamnese_enfermagem': 'blood_pressure_nursing',
    'T__anamnese_enfermagem': 'temperature_nursing',
    'SpO2__anamnese_enfermagem': 'oxygen_saturation_nursing',
    'R__anamnese_enfermagem': 'consciousness_level_nursing'
}


In [None]:
obito = pd.read_csv('cols_selected_obito.csv').drop(columns='Unnamed: 0')
perm = pd.read_csv('cols_selected_permanencia.csv').drop(columns='Unnamed: 0')
reint = pd.read_csv('cols_selected_reinternacao.csv').drop(columns='Unnamed: 0')

### **Concatenating the columns together**

In [None]:
cols_selected = pd.concat([reint, perm, obito], axis=1)

In [None]:
print("Obito:", len(obito))
print("Permanencia:", len(perm))
print("Reinternacao:", len(reint))

In [None]:
cols_selected['reinternacao'].astype(str).str.contains('cid_secundario').sum()
#cols_selected['reinternacao']

In [None]:
def remove_vec(i):
    if isinstance(i, str) and "_vec" in i:
        return i.split("_vec")[0]
    return i  # manter valores que não mudam

df_processado = cols_selected.applymap(remove_vec)

In [None]:
df_unicos = pd.DataFrame({
    col: pd.Series(df_processado[col].dropna().unique())
    for col in df_processado.columns
})

In [None]:
cols = ['reinternacao', 'permanencia', 'obito']

df_unicos = df_unicos[cols].replace(traducao)

In [None]:
df_unicos

In [None]:
traducao_onehotencoder = {
    #reint e perm
    'FC__anamnese_medica_NORMOCARDICO': 'heart_rate_medical_NORMOCARDIA',
    'FC__anamnese_enfermagem_BRAQUICARDIA': 'heart_rate_nursing_BRADYCARDIA',	
    'FC__anamnese_enfermagem_NORMOCARDICO': 'heart_rate_nursing_NORMOCARDIA',
    'R__anamnese_enfermagem_DESORIENTADO': 'consciousness_level_nursing_DISORIENTED',
    'R__anamnese_enfermagem_LUCIDO E ORIENTADO': 'consciousness_level_nursing_LUCID_AND_ORIENTED',	
    'raca_cor_Branca': 'race_color_WHITE',
    'raca_cor_Preta': 'race_color_BLACK',
    
    #obito
    'FC__anamnese_enfermagem_TAQUICARDIA': 'heart_rate_medical_TACHYCARDIA'
}

In [None]:
df_unicos = df_unicos[cols].replace(traducao_onehotencoder)

In [None]:
df_unicos = df_unicos.rename(columns={'reinternacao':'Readmission', 'permanencia':'Length of Stay', 'obito':'Death'})

In [None]:
df_unicos.to_excel('variables_selected_by_boruta.xlsx')