## Hospital Event Logs

- <b>Processo</b>: Os dados retratam um processo de tratamento hospitalar que começa com o registro em um pronto-socorro ou departamento de família e avança pelas etapas de exame, diagnóstico e tratamento. Nomeadamente, os tratamentos mal sucedidos implicam frequentemente ciclos repetitivos de diagnóstico e tratamento, sublinhando a natureza iterativa da prestação de cuidados de saúde.

- <b> Atributos</b>: Os registros incorporam atributos do paciente, como idade, condição subjacente, cidadania, proficiência na língua alemã, sexo e seguro privado. Esses atributos, influenciando o processo de tratamento, podem revelar potencial discriminação. Fatores como a idade e a condição podem afetar a complexidade dos casos e o percurso do tratamento, enquanto a cidadania pode realçar disparidades no acesso aos cuidados de saúde. A proficiência em alemão pode impactar a comunicação prestador-paciente, afetando assim a qualidade do atendimento. O género poderia destacar potenciais disparidades na saúde, enquanto o estatuto do seguro poderia indicar influências socioeconómicas na qualidade ou oportunidade dos cuidados. Portanto, uma análise abrangente destes atributos relativamente ao processo de tratamento poderia lançar luz sobre potenciais preconceitos ou disparidades, promovendo a justiça na prestação de cuidados de saúde.

- <b>Três registros de eventos</b>: os três registos de eventos representam vários graus de discriminação, oferecendo aos investigadores uma oportunidade de explorar as nuances e complexidades que surgem em diversos cenários do mundo real.

| Base | Eventos | Cases | Variantes | Atividades |
| --- | --- | --- | --- | --- |
| hospital_log_high | 69528 | 10000 | 80 | 10 |
| hospital_log_low | 70037 | 10000 | 106 | 10 |
| hospital_log_medim | 70124 | 10000 | 77 | 10 |

- <b>Atributos sensíveis</b>:
    - Age
    - Citizenship
    - German Proficiency
    - Gender
    - Condição subjacente
    - Seguro privado- <b>Atributos sensíveis</b>:
    - Age
    - Citizenship
    - German Proficiency
    - Gender
    - Religion
    - Years of Education

### Importar bibliotecas

In [2]:
import pandas as pd
import numpy as np
import random
import os
import sys

import pm4py

import tensorflow.compat.v1 as tf

#Biblioteca implementada com funções customizadas
# Adicionar o caminho da pasta onde está a biblioteca ao sys.path
sys.path.append(os.path.abspath('C:\\Users\\micka\\OneDrive\\Documentos\\[EACH USP] Doutorado\\2. Pesquisa\\6. Experimento\\3. Predictive Process Monitoring'))
from _PythonProcessMining import TraceEncoding
from _PythonProcessMining import ResourceEncoding
from _PythonProcessMining import DataPrep
from _PythonProcessMining import TrainTestSplit
from _PythonProcessMining import MachineLearning
from _PythonProcessMining import Metrics
from _PythonProcessMining import MachineLearninExplanation
from _PythonProcessMining import AIF360

# Definir seeds para reprodutibilidade
tf.set_random_seed(42)
np.random.seed(42)
random.seed(42)

import warnings
warnings.filterwarnings("ignore")

  warn_deprecated('vmap', 'torch.vmap')



Instructions for updating:
non-resource variables are not supported in the long term



### Importar a base de dados

In [3]:
diretorio_log = "C:\\Users\\micka\\OneDrive\\Documentos\\[EACH USP] Doutorado\\2. Pesquisa\\6. Experimento\\0. Logs\\Hospital log\\"
diretorio = ".\\Hospital log\\"
name_prefix = 'hospital_log'

In [4]:
log_high = pm4py.read_xes(os.path.join(diretorio_log, f'{name_prefix}_high-xes.gz'))
log_medium = pm4py.read_xes(os.path.join(diretorio_log, f'{name_prefix}_medium-xes.gz'))
log_low = pm4py.read_xes(os.path.join(diretorio_log, f'{name_prefix}_low-xes.gz'))

print("Tamanho da base de dados - High:", log_high.shape)
print("Tamanho da base de dados - Medium:", log_medium.shape)
print("Tamanho da base de dados - Low:", log_low.shape)

parsing log, completed traces ::   0%|          | 0/10000 [00:00<?, ?it/s]

parsing log, completed traces ::   0%|          | 0/10000 [00:00<?, ?it/s]

parsing log, completed traces ::   0%|          | 0/10000 [00:00<?, ?it/s]

Tamanho da base de dados - High: (69528, 16)
Tamanho da base de dados - Medium: (70124, 16)
Tamanho da base de dados - Low: (70037, 16)


In [5]:
log_high.to_csv(f'{name_prefix}_high-csv.csv')
log_medium.to_csv(f'{name_prefix}_medium-csv.csv')
log_low.to_csv(f'{name_prefix}_low-csv.csv')

In [6]:
print("Tamanho da base de dados - High:", log_high.shape)
print("Tamanho da base de dados - Medium:", log_medium.shape)
print("Tamanho da base de dados - Low:", log_low.shape)

Tamanho da base de dados - High: (69528, 16)
Tamanho da base de dados - Medium: (70124, 16)
Tamanho da base de dados - Low: (70037, 16)


### Preparação da base

<b>Resultado do case</b>

In [7]:
def def_determine_result(df):
    """
    Marca o resultado de cada case com base nas atividades 'Treatment unsuccessful' e 'Treatment successful',
    e EXCLUI todas as atividades que ocorrem após a última dessas atividades.
    O resultado é definido pela última ocorrência dessas atividades ao iterar de trás para frente:
    - 'Treatment unsuccessful' -> Resultado negativo.
    - 'Treatment successful' -> Resultado positivo.
    - Nenhuma das atividades -> Resultado negativo. --- Se o resultado é indefinido, marcamos como item negativo.

    Parâmetros:
    - df (pd.DataFrame): DataFrame contendo os dados do log de eventos.

    Retorna:
    - pd.DataFrame: DataFrame processado e filtrado.
    """

    # Inicializar o dicionário para armazenar os resultados e índices de corte
    resultados = {}
    filtered_records = []

    # Ordenar o DataFrame pelo ID do caso e pelo timestamp
    df_sorted = df.sort_values(by=['case:concept:name', 'time:timestamp'])

    # Iterar sobre cada caso
    for case_id, grupo in df_sorted.groupby('case:concept:name'):
        # Inicializar o resultado como indefinido e o índice de corte
        resultado = 'Negative'
        last_occurrence_index = None

        # Iterar de trás para frente para encontrar a última ocorrência relevante
        for idx, row in grupo[::-1].iterrows():
            if row['concept:name'] == 'Treatment unsuccessful':
                resultado = 'Negative'
                last_occurrence_index = idx
                break
            elif row['concept:name'] == 'Treatment successful':
                resultado = 'Positive'
                last_occurrence_index = idx
                break

        # Marcar o resultado do case
        resultados[case_id] = resultado

        # Filtrar o grupo para incluir apenas as atividades até a última ocorrência identificada
        if last_occurrence_index is not None:
            grupo_filtrado = grupo.loc[:last_occurrence_index]
        else:
            grupo_filtrado = grupo  # Caso nenhuma atividade de interesse tenha sido encontrada, manter o grupo completo

        # Adicionar os registros filtrados à lista
        filtered_records.append(grupo_filtrado)

    # Combinar todos os grupos filtrados em um único DataFrame
    filtered_df = pd.concat(filtered_records)

    # Adicionar a coluna de resultados ao DataFrame filtrado
    filtered_df['Resultado'] = filtered_df['case:concept:name'].map(resultados)

    return filtered_df

In [8]:
df_log_high = def_determine_result(log_high)
df_log_medium = def_determine_result(log_medium)
df_log_low = def_determine_result(log_low)

In [9]:
print("Tamanho da base de dados - High:", df_log_high.shape)
print("Tamanho da base de dados - Medium:", df_log_medium.shape)
print("Tamanho da base de dados - Low:", df_log_low.shape)

Tamanho da base de dados - High: (60127, 17)
Tamanho da base de dados - Medium: (60363, 17)
Tamanho da base de dados - Low: (60131, 17)


In [10]:
print('High:', df_log_high['Resultado'].value_counts())
print('Medium:', df_log_medium['Resultado'].value_counts())
print('Low:', df_log_low['Resultado'].value_counts())

High: Resultado
Positive    54919
Negative     5208
Name: count, dtype: int64
Medium: Resultado
Positive    57888
Negative     2475
Name: count, dtype: int64
Low: Resultado
Positive    59368
Negative      763
Name: count, dtype: int64


In [11]:
print('High:', df_log_high['Resultado'].value_counts())
print('Medium:', df_log_medium['Resultado'].value_counts())
print('Low:', df_log_low['Resultado'].value_counts())

High: Resultado
Positive    54919
Negative     5208
Name: count, dtype: int64
Medium: Resultado
Positive    57888
Negative     2475
Name: count, dtype: int64
Low: Resultado
Positive    59368
Negative      763
Name: count, dtype: int64


In [12]:
def def_descriptive_results(df):
    # Parte 1: Eliminar duplicidade de caso
    df_unico = df.drop_duplicates(subset='case:concept:name', keep='first')
    
    # Parte 2: Calcular o % de registros com 'Resultado' igual a 1
    total_registros = len(df_unico)  # Total de registros após eliminar duplicidades
    registros_resultado = len(df_unico[df_unico['Resultado'] == 'Positive'])  # Registros com Resultado == 1
    percentual_resultado = (registros_resultado / total_registros) * 100  # Cálculo do percentual
    
    return percentual_resultado

In [13]:
print("Percentual de registros com 'Resultado' positivo - High: {:.2f}%".format(def_descriptive_results(df_log_high)))
print("Percentual de registros com 'Resultado' positivo - Medium: {:.2f}%".format(def_descriptive_results(df_log_medium)))
print("Percentual de registros com 'Resultado' positivo - Low: {:.2f}%".format(def_descriptive_results(df_log_low)))

Percentual de registros com 'Resultado' positivo - High: 90.05%
Percentual de registros com 'Resultado' positivo - Medium: 95.36%
Percentual de registros com 'Resultado' positivo - Low: 98.35%


In [19]:
def def_descriptive_protected(df):
    # Parte 1: Eliminar duplicidade de caso
    df_unico = df.drop_duplicates(subset='case:concept:name', keep='first')
    
    # Parte 2: Calcular o % de registros com 'Resultado' igual a 1
    total_registros = len(df_unico)  # Total de registros após eliminar duplicidades
    registros_resultado = len(df_unico[df_unico['protected'] == True])  # Registros com Resultado == 1
    percentual_resultado = (registros_resultado / total_registros) * 100  # Cálculo do percentual
    
    return percentual_resultado

In [20]:
print("Percentual de registros com 'Atribuito Protected' positivo - High: {:.2f}%".format(def_descriptive_protected(df_log_high)))
print("Percentual de registros com 'Atribuito Protected' positivo - Medium: {:.2f}%".format(def_descriptive_protected(df_log_medium)))
print("Percentual de registros com 'Atribuito Protected' positivo - Low: {:.2f}%".format(def_descriptive_protected(df_log_low)))

Percentual de registros com 'Atribuito Protected' positivo - High: 30.39%
Percentual de registros com 'Atribuito Protected' positivo - Medium: 21.28%
Percentual de registros com 'Atribuito Protected' positivo - Low: 10.49%


<b> Variável Target

In [13]:
# Criar a nova coluna 'Target' mapeando 'Negativo' para 0 e 'Positivo' para 1
df_log_high['Target'] = df_log_high['Resultado'].replace({'Negative': 0, 'Positive': 1})
df_log_medium['Target'] = df_log_medium['Resultado'].replace({'Negative': 0, 'Positive': 1})
df_log_low['Target'] = df_log_low['Resultado'].replace({'Negative': 0, 'Positive': 1})

In [14]:
print("Tamanho da base de dados - High:", df_log_high.shape)
print("Tamanho da base de dados - Medium:", df_log_medium.shape)
print("Tamanho da base de dados - Low:", df_log_low.shape)

Tamanho da base de dados - High: (60127, 18)
Tamanho da base de dados - Medium: (60363, 18)
Tamanho da base de dados - Low: (60131, 18)


In [15]:
protected_attribute = 'protected'
outcome_attribute = 'Target'
privileged_group = 0
unprivileged_group = 1


# Aplicar a função de resumo para cada base
summary_high = TrainTestSplit.Descriptive(df_log_high, "High", outcome_attribute, protected_attribute, privileged_group, unprivileged_group)
summary_medium = TrainTestSplit.Descriptive(df_log_medium, "Medium", outcome_attribute, protected_attribute, privileged_group, unprivileged_group)
summary_low = TrainTestSplit.Descriptive(df_log_low, "Low", outcome_attribute, protected_attribute, privileged_group, unprivileged_group)

# Combinar todas as tabelas de resumo em uma única tabela
df_summary_table = pd.concat([summary_high, summary_medium, summary_low], axis=1)
df_summary_table

Unnamed: 0,High,Medium,Low
% Protected = 1,30.39%,21.28%,10.49%
% Protected = 1 & Target = 1,20.44%,16.64%,8.84%
Demographic Parity,0.33,0.22,0.16
Disparate Impact,0.67,0.78,0.84
Total,10000,10000,10000
Total Target = 0,995,464,165
Total Target = 1,9005,9536,9835


<b> Data de início e data de fim do case

In [None]:
df_log_high = df_log_high.copy()
df_log_medium = df_log_medium.copy()
df_log_low = df_log_low.copy() 

In [None]:
def def_TimestampStartEnd(df):
    # Converter 'time:timestamp' para datetime
    df['time:timestamp'] = pd.to_datetime(df['time:timestamp'])

    # Calcular a data de início do case
    df['case_start_date'] = df.groupby('case:concept:name')['time:timestamp'].transform('min')

    # Calcular a data de fim do case
    df['case_end_date'] = df.groupby('case:concept:name')['time:timestamp'].transform('max')

    # Calcular o lead time em dias
    df['lead_time_days'] = (df['case_end_date'] - df['case_start_date']).dt.days

    return df

In [None]:
# Adicionar datas de início e fim do case
df_log_high = def_TimestampStartEnd(df_log_high)
df_log_medium = def_TimestampStartEnd(df_log_medium)
df_log_low = def_TimestampStartEnd(df_log_low)

<b>Atributos numéricos

In [None]:
#Idade
    #Infância (0-12 anos)
    #Adolescência (13-17 anos)
    #Juventude (18-24 anos)
    #Adulto jovem (25-34 anos)
    #Adulto de meia-idade (35-49 anos)
    #Pré-aposentadoria (50-64 anos)
    #Aposentado (65 anos ou mais)
    
# Categorizar idade
bins = [0, 12, 17, 24, 34, 49, 64, float('inf')]
labels = ['Childhood', 'Adolescence', 'Youth', 'Young Adult', 'Middle-Aged Adult', 'Pre-Retirement', 'Retired']

#Aplicar as bases de dados
df_log_high['age'] = pd.cut(df_log_high['case:age'], bins=bins, labels=labels, right=False)
df_log_medium['age'] = pd.cut(df_log_medium['case:age'], bins=bins, labels=labels, right=False)
df_log_low['age'] = pd.cut(df_log_low['case:age'], bins=bins, labels=labels, right=False)

In [None]:
#Gerar dummies das categorizações
df_log_high = pd.get_dummies(df_log_high, columns=['age'])
df_log_medium = pd.get_dummies(df_log_medium, columns=['age'])
df_log_low = pd.get_dummies(df_log_low, columns=['age'])

In [None]:
# Convertendo valores booleanos true/false para 1/0
bool_columns = ['age_Childhood', 'age_Adolescence', 'age_Youth', 'age_Young Adult', 'age_Middle-Aged Adult', 'age_Pre-Retirement', 'age_Retired',
               ]

df_log_high[bool_columns] = df_log_high[bool_columns].astype(int)
df_log_medium[bool_columns] = df_log_medium[bool_columns].astype(int)
df_log_low[bool_columns] = df_log_low[bool_columns].astype(int)

<b>Atributos categóricos

In [None]:
#Renomear atributo protegido
df_log_high = df_log_high.rename(columns={'protected': 'case:protected'})
df_log_medium = df_log_medium.rename(columns={'protected': 'case:protected'})
df_log_low = df_log_low.rename(columns={'protected': 'case:protected'})

In [None]:
# Convertendo valores booleanos true/false para 1/0
atributos_categoricos = ['case:protected', 'case:german speaking', 'case:gender', 'case:citizen', 'case:private_insurance', 'case:underlying_condition']

df_log_high[atributos_categoricos] = df_log_high[atributos_categoricos].astype(int)
df_log_medium[atributos_categoricos] = df_log_medium[atributos_categoricos].astype(int)
df_log_low[atributos_categoricos] = df_log_low[atributos_categoricos].astype(int)

In [None]:
#Extrair base tratada
df_log_high.to_csv(f'{name_prefix}_high-prep.csv')
df_log_medium.to_csv(f'{name_prefix}_medium-prep.csv')
df_log_low.to_csv(f'{name_prefix}_low-prep.csv')

<b> Trace encoding

In [None]:
log_high_transitions, log_high_all_transitions = TraceEncoding.ActivityTransitionsOneHotEncoding(df_log_high, var_id = 'case:case', var_activity = 'activity', var_timestamp = 'time:timestamp')
log_medium_transitions, log_medium_all_transitions = TraceEncoding.ActivityTransitionsOneHotEncoding(df_log_medium, var_id = 'case:case', var_activity = 'activity', var_timestamp = 'time:timestamp')
log_low_transitions, log_low_all_transitions = TraceEncoding.ActivityTransitionsOneHotEncoding(df_log_low, var_id = 'case:case', var_activity = 'activity', var_timestamp = 'time:timestamp')

In [None]:
#Trazer o encoding das transições para o dataframe
df_log_high = df_log_high.merge(log_high_transitions, on = 'case:case')
df_log_medium = df_log_medium.merge(log_medium_transitions, on = 'case:case')
df_log_low = df_log_low.merge(log_low_transitions, on = 'case:case')

<b> Resource encoding

In [None]:
log_high_resources, log_high_all_resources = ResourceEncoding.ResourceTransitionsOneHotEncoding(df_log_high, var_id = 'case:case', var_resource = 'resource', var_timestamp = 'time:timestamp')
log_medium_resources, log_medium_all_resources = ResourceEncoding.ResourceTransitionsOneHotEncoding(df_log_medium, var_id = 'case:case', var_resource = 'resource', var_timestamp = 'time:timestamp')
log_low_resources, log_low_all_resources = ResourceEncoding.ResourceTransitionsOneHotEncoding(df_log_low, var_id = 'case:case', var_resource = 'resource', var_timestamp = 'time:timestamp')

In [None]:
#Trazer o encoding das transições para o dataframe
df_log_high = df_log_high.merge(log_high_resources, on = 'case:case')
df_log_medium = df_log_medium.merge(log_medium_resources, on = 'case:case')
df_log_low = df_log_low.merge(log_low_resources, on = 'case:case')

In [None]:
#Mater apenas um registro por case
df_log_high = df_log_high.drop_duplicates(subset=['case:case']).drop(columns=['activity', 'resource', 'time', 'concept:name', 'time:timestamp', '@@index', 'case:concept:name', 'case:@@case_index'])
df_log_medium = df_log_medium.drop_duplicates(subset=['case:case']).drop(columns=['activity', 'resource', 'time', 'concept:name', 'time:timestamp', '@@index', 'case:concept:name', 'case:@@case_index'])
df_log_low = df_log_low.drop_duplicates(subset=['case:case']).drop(columns=['activity', 'resource', 'time', 'concept:name', 'time:timestamp', '@@index', 'case:concept:name', 'case:@@case_index'])

In [None]:
#Extrair base tratada
log_high.to_csv(f'{name_prefix}_high-tratada.csv')
log_medium.to_csv(f'{name_prefix}_medium-tratada.csv')
log_low.to_csv(f'{name_prefix}_low-tratada.csv')

<b>Eliminar Duplicidades/conflitos de casos

In [None]:
#Lista de variáveis que NÃO serão consideradas no modelo
exclude_variavel = [
             'case:case', 
             'case_start_date', 
             'case_end_date', 
             'lead_time_days', 
             'Resultado',
             #'Target', 
             #'case:protected',
             #'case:german speaking', 
             #'case:gender', 
             #'case:citizen', 
             #'case:private_insurance', 
             #'case:underlying_condition',
             'case:age', 
             'age_Childhood',
             'age_Adolescence', 
             'age_Youth', 
             #'age_Young Adult',
             #'age_Middle-Aged Adult', 
             #'age_Pre-Retirement', 
             #'age_Retired'
]

#Criar a lista 'variaveis', excluindo as atividades que contenha o resultado do case
todas_variaveis = set(df_log_high.columns) | set(df_log_medium.columns) | set(df_log_low.columns)
variaveis = [
    col for col in todas_variaveis  
    if col not in exclude_variavel
]

print(variaveis)

Identificar e eliminar registros conflitantes na base de dados

In [None]:
conflicting_groups_high, conflicting_cases_high, df_log_high_cleaned = DataPrep.KeepFirstConflictingCases(df_log_high, variaveis, var_timestamp = 'time:timestamp', var_target = 'Target', var_id = 'case:case', var_date = 'case_start_date')
conflicting_groups_medium, conflicting_cases_medium, df_log_medium_cleaned = DataPrep.KeepFirstConflictingCases(df_log_medium, variaveis, var_timestamp = 'time:timestamp', var_target = 'Target', var_id = 'case:case', var_date = 'case_start_date')
conflicting_groups_low, conflicting_cases_low, df_log_low_cleaned = DataPrep.KeepFirstConflictingCases(df_log_low, variaveis, var_timestamp = 'time:timestamp', var_target = 'Target', var_id = 'case:case', var_date = 'case_start_date')

In [None]:
df_log_high = df_log_high_cleaned.copy()
df_log_medium = df_log_medium_cleaned.copy()
df_log_low = df_log_low_cleaned.copy()

In [None]:
print("Tamanho da base de dados - High:", df_log_high.shape)
print("Tamanho da base de dados - Medium:", df_log_medium.shape)
print("Tamanho da base de dados - Low:", df_log_low.shape)

Identificar e eliminar duplicidades de registros na base de dados

In [None]:
# Encontrar casos duplicados
df_log_high_duplicates, df_log_high_merged, df_log_high_cleaned = DataPrep.KeepFirstDuplicateCases(df_log_high, variaveis, var_timestamp = 'time:timestamp', var_target = 'Target', var_id = 'case:case', var_date = 'case_start_date')
df_log_medium_duplicates, df_log_medium_merged, df_log_medium_cleaned = DataPrep.KeepFirstDuplicateCases(df_log_medium, variaveis, var_timestamp = 'time:timestamp', var_target = 'Target', var_id = 'case:case', var_date = 'case_start_date')
df_log_low_duplicates, df_log_low_merged, df_log_low_cleaned = DataPrep.KeepFirstDuplicateCases(df_log_low, variaveis, var_timestamp = 'time:timestamp', var_target = 'Target', var_id = 'case:case', var_date = 'case_start_date')

In [None]:
df_log_high = df_log_high_cleaned.copy()
df_log_medium = df_log_medium_cleaned.copy()
df_log_low = df_log_low_cleaned.copy()

In [None]:
print("Tamanho da base de dados - High:", df_log_high.shape)
print("Tamanho da base de dados - Medium:", df_log_medium.shape)
print("Tamanho da base de dados - Low:", df_log_low.shape)

In [None]:
#Extrair base tratada
df_log_high.to_csv(f'{name_prefix}_high-tratada-semdpl.csv')
df_log_medium.to_csv(f'{name_prefix}_medium-tratada-semdpl.csv')
df_log_low.to_csv(f'{name_prefix}_low-tratada-semdpl.csv')

In [None]:
protected_attribute = 'case:protected'
outcome_attribute = 'Target'
privileged_group = 0
unprivileged_group = 1


# Aplicar a função de resumo para cada base
summary_high = TrainTestSplit.Descriptive(df_log_high, "High", outcome_attribute, protected_attribute, privileged_group, unprivileged_group)
summary_medium = TrainTestSplit.Descriptive(df_log_medium, "Medium", outcome_attribute, protected_attribute, privileged_group, unprivileged_group)
summary_low = TrainTestSplit.Descriptive(df_log_low, "Low", outcome_attribute, protected_attribute, privileged_group, unprivileged_group)

# Combinar todas as tabelas de resumo em uma única tabela
df_summary_table = pd.concat([summary_high, summary_medium, summary_low], axis=1)
df_summary_table

<b> Divisão da base em treino/teste

In [None]:
# Aplicar a divisão entre treino e teste
  #Pela data de início do case
df_train_high, df_test_high = TrainTestSplit.SplitDataTemporal(df_log_high, test_size=0.3, var_date = 'case_start_date')
df_train_medium, df_test_medium = TrainTestSplit.SplitDataTemporal(df_log_medium, test_size=0.3, var_date = 'case_start_date')
df_train_low, df_test_low = TrainTestSplit.SplitDataTemporal(df_log_low, test_size=0.3, var_date = 'case_start_date')

In [None]:
#Copia dos dataframe para resolver problema de fragmentação
df_train_high = df_train_high.copy()
df_test_high = df_test_high.copy()
df_train_medium = df_train_medium.copy()
df_test_medium = df_test_medium.copy()
df_train_low = df_train_low.copy()
df_test_low = df_test_low.copy()

In [None]:
protected_attribute = 'case:protected'
outcome_attribute = 'Target'
privileged_group = 0
unprivileged_group = 1


# Aplicar a função de resumo para cada base
summary_high = TrainTestSplit.DescriptiveTrainTest(df_train_high, df_test_high, "High", outcome_attribute, protected_attribute, privileged_group, unprivileged_group)
summary_medium = TrainTestSplit.DescriptiveTrainTest(df_train_medium, df_test_medium, "Medium", outcome_attribute, protected_attribute, privileged_group, unprivileged_group)
summary_low = TrainTestSplit.DescriptiveTrainTest(df_train_low, df_test_low, "Low", outcome_attribute, protected_attribute, privileged_group, unprivileged_group)

# Combinar todas as tabelas de resumo em uma única tabela
df_summary_table = pd.concat([summary_high, summary_medium, summary_low], axis=1)
df_summary_table

<b> Definição das variáveis

In [None]:
# Remover 'Target' da lista de variáveis, caso esteja presente
variaveis = [var for var in variaveis if var != 'Target']

# Selecionando características e o alvo
variaveis_high = [var for var in variaveis if var in df_log_high.columns]
X_train_high, y_train_high = df_train_high[variaveis_high], df_train_high['Target']
X_test_high, y_test_high = df_test_high[variaveis_high], df_test_high['Target']

variaveis_medium = [var for var in variaveis if var in df_log_medium.columns]
X_train_medium, y_train_medium = df_train_medium[variaveis_medium], df_train_medium['Target']
X_test_medium, y_test_medium = df_test_medium[variaveis_medium], df_test_medium['Target']

variaveis_low = [var for var in variaveis if var in df_log_low.columns]
X_train_low, y_train_low = df_train_low[variaveis_low], df_train_low['Target']
X_test_low, y_test_low = df_test_low[variaveis_low], df_test_low['Target']

In [None]:
#Verificar a existência de colunas que NÃO estão no formato numérico
print("High:", X_train_high.select_dtypes(exclude=['number']).columns)
print("Medium:", X_train_medium.select_dtypes(exclude=['number']).columns)
print("Low:", X_train_low.select_dtypes(exclude=['number']).columns)

In [None]:
# Verificar a existência de colunas com valores ausentes (missing values)
print("High - Missing Values:", X_train_high.columns[X_train_high.isnull().any()])
print("Medium - Missing Values:", X_train_medium.columns[X_train_medium.isnull().any()])
print("Low - Missing Values:", X_train_low.columns[X_train_low.isnull().any()])

In [None]:
print("Dimensionalidade - High:", X_train_high.shape)
print("Dimensionalidad - Medium:", X_train_medium.shape)
print("Dimensionalidad - Low:", X_train_low.shape)

## Predictive Process Monitoring

### 1. Baseline model

<b> Random Florest Classifier

In [None]:
# Uso da função:
df_final_high, best_model_high, best_params_high, best_score_high, explanations_high = MachineLearning.RandomFlorestOptuna(X_train_high, y_train_high, X_test_high, y_test_high, df_train_high, df_test_high, num_trials=50)
df_final_medium, best_model_medium, best_params_medium, best_score_medium, explanations_medium = MachineLearning.RandomFlorestOptuna(X_train_medium, y_train_medium, X_test_medium, y_test_medium, df_train_medium, df_test_medium, num_trials=50)
df_final_low, best_model_low, best_params_low, best_score_low, explanations_low = MachineLearning.RandomFlorestOptuna(X_train_low, y_train_low, X_test_low, y_test_low, df_train_low, df_test_low, num_trials=50)

In [None]:
print('High - Parâmetros:', best_params_high)
print('Medium - Parâmetros:', best_params_medium)
print('Low - Parâmetros:', best_params_low)

Avaliação do modelo

In [None]:
#Métricas do modelo
df_metrics_high = Metrics.ModelMetrics(df_final_high, 'case:protected', 'High', 'Baseline', privileged_group, unprivileged_group)
df_metrics_medium = Metrics.ModelMetrics(df_final_medium, 'case:protected', 'Medium', 'Baseline', privileged_group, unprivileged_group)
df_metrics_low = Metrics.ModelMetrics(df_final_low, 'case:protected', 'Low', 'Baseline', privileged_group, unprivileged_group)

df_metrics = pd.concat([df_metrics_high, df_metrics_medium, df_metrics_low], ignore_index=True)
df_metrics.to_excel(f'{name_prefix}_metrics.xlsx', index = False)
#df_metrics[df_metrics['Metric'].isin(['Accuracy', 'F1-Score', 'Disparate Impact'])]

Explicação do modelo

In [None]:
def get_feature_importance(explanations, feature_names):
    """
    Calcula a importância média das variáveis a partir das explicações LIME.
    """
    feature_importances = np.zeros(len(feature_names))
    for explanation in explanations:
        for feature, importance in explanation.local_exp[1]:  # 1 é a classe alvo
            feature_importances[feature] += importance
    feature_importances /= len(explanations)
    return feature_importances

In [None]:
# Gerar tabelas de importância das variáveis
importance_high = get_feature_importance(explanations_high, X_train_high.columns)
importance_medium = get_feature_importance(explanations_medium, X_train_medium.columns)
importance_low = get_feature_importance(explanations_low, X_train_low.columns)

# Criar DataFrames com a importância das variáveis
importance_high_df = pd.DataFrame({'Feature': X_train_high.columns, 'Importance_High': importance_high})
importance_medium_df = pd.DataFrame({'Feature': X_train_medium.columns, 'Importance_Medium': importance_medium})
importance_low_df = pd.DataFrame({'Feature': X_train_low.columns, 'Importance_Low': importance_low})

# Realizar o merge dos DataFrames utilizando 'Feature' como chave e preenchendo valores faltantes com NaN
importance_df = importance_high_df.merge(importance_medium_df, on='Feature', how='outer').merge(importance_low_df, on='Feature', how='outer')

# Ordenar o DataFrame com base no módulo dos valores da coluna 'Importance_High'
importance_df['Importance_High_Abs'] = importance_df['Importance_High'].abs()
importance_df = importance_df.sort_values(by='Importance_High_Abs', ascending=False)
importance_df.drop(columns=['Importance_High_Abs'], inplace=True)

# Definir o índice como a coluna 'Feature'
importance_df.set_index('Feature', inplace=True)

# Salvar o DataFrame como CSV
importance_df.to_csv(f'{name_prefix}_baseline_model_lime.csv')

# Exibir o DataFrame
importance_df

### 2. Estratégia para Fairness

<b> 2.1 Reweighing

In [None]:
# Uso da função:
df_final_high, best_model_high, best_params_high, best_score_high, explanations_high = AIF360.PreReweighingRandomFlorestOptuna(X_train_high, y_train_high, X_test_high, y_test_high, df_train_high, df_test_high, protected_attribute, alpha = 0.1, num_trials=50)
df_final_medium, best_model_medium, best_params_medium, best_score_medium, explanations_medium = AIF360.PreReweighingRandomFlorestOptuna(X_train_medium, y_train_medium, X_test_medium, y_test_medium, df_train_medium, df_test_medium, protected_attribute, alpha = 0.1, num_trials=50)
df_final_low, best_model_low, best_params_low, best_score_low, explanations_low = AIF360.PreReweighingRandomFlorestOptuna(X_train_low, y_train_low, X_test_low, y_test_low, df_train_low, df_test_low, protected_attribute, alpha = 0.1, num_trials=50)

In [None]:
print('High - Parâmetros:', best_params_high)
print('Medium - Parâmetros:', best_params_medium)
print('Low - Parâmetros:', best_params_low)

Avaliação do modelo

In [None]:
#Métricas do modelo
df_metrics_high = Metrics.ModelMetrics(df_final_high, 'case:protected', 'High', 'Preprocessing: Reweighing', privileged_group, unprivileged_group)
df_metrics_medium = Metrics.ModelMetrics(df_final_medium, 'case:protected', 'Medium', 'Preprocessing: Reweighing', privileged_group, unprivileged_group)
df_metrics_low = Metrics.ModelMetrics(df_final_low, 'case:protected', 'Low', 'Preprocessing: Reweighing', privileged_group, unprivileged_group)

df_metrics_Rew = pd.concat([df_metrics_high, df_metrics_medium, df_metrics_low], ignore_index=True)
df_metrics = pd.concat([df_metrics, df_metrics_Rew], ignore_index=True)
df_metrics.to_excel(f'{name_prefix}_metrics.xlsx', index = False)
#df_metrics[df_metrics['Metric'].isin(['Accuracy', 'F1-Score', 'Disparate Impact'])]

Explicação do modelo

In [None]:
# Gerar tabelas de importância das variáveis
importance_high = get_feature_importance(explanations_high, X_train_high.columns)
importance_medium = get_feature_importance(explanations_medium, X_train_medium.columns)
importance_low = get_feature_importance(explanations_low, X_train_low.columns)

# Criar DataFrames com a importância das variáveis
importance_high_df = pd.DataFrame({'Feature': X_train_high.columns, 'Importance_High': importance_high})
importance_medium_df = pd.DataFrame({'Feature': X_train_medium.columns, 'Importance_Medium': importance_medium})
importance_low_df = pd.DataFrame({'Feature': X_train_low.columns, 'Importance_Low': importance_low})

# Realizar o merge dos DataFrames utilizando 'Feature' como chave e preenchendo valores faltantes com NaN
importance_df = importance_high_df.merge(importance_medium_df, on='Feature', how='outer').merge(importance_low_df, on='Feature', how='outer')

# Ordenar o DataFrame com base no módulo dos valores da coluna 'Importance_High'
importance_df['Importance_High_Abs'] = importance_df['Importance_High'].abs()
importance_df = importance_df.sort_values(by='Importance_High_Abs', ascending=False)
importance_df.drop(columns=['Importance_High_Abs'], inplace=True)

# Definir o índice como a coluna 'Feature'
importance_df.set_index('Feature', inplace=True)

# Salvar o DataFrame como CSV
importance_df.to_csv(f'{name_prefix}_pre_rew_model_lime.csv')

# Exibir o DataFrame
importance_df

<b> 2.2 Disparate Impact Remover

In [None]:
# Uso da função:
df_final_high, best_model_high, best_params_high, best_score_high, explanations_high = AIF360.PreDisparateImpactRemoverRandomFlorestOptuna(X_train_high, y_train_high, X_test_high, y_test_high, df_train_high, df_test_high, protected_attribute, alpha = 0.1, num_trials=50)
df_final_medium, best_model_medium, best_params_medium, best_score_medium, explanations_medium = AIF360.PreDisparateImpactRemoverRandomFlorestOptuna(X_train_medium, y_train_medium, X_test_medium, y_test_medium, df_train_medium, df_test_medium, protected_attribute, alpha = 0.1, num_trials=50)
df_final_low, best_model_low, best_params_low, best_score_low, explanations_low = AIF360.PreDisparateImpactRemoverRandomFlorestOptuna(X_train_low, y_train_low, X_test_low, y_test_low, df_train_low, df_test_low, protected_attribute, alpha = 0.1, num_trials=50)

In [None]:
print('High - Parâmetros:', best_params_high)
print('Medium - Parâmetros:', best_params_medium)
print('Low - Parâmetros:', best_params_low)

Avaliação do modelo

In [None]:
#Métricas do modelo
df_metrics_high = Metrics.ModelMetrics(df_final_high, 'case:protected', 'High', 'Preprocessing: Disparate Impact Remover', privileged_group, unprivileged_group)
df_metrics_medium = Metrics.ModelMetrics(df_final_medium, 'case:protected', 'Medium', 'Preprocessing: Disparate Impact Remover', privileged_group, unprivileged_group)
df_metrics_low = Metrics.ModelMetrics(df_final_low, 'case:protected', 'Low', 'Preprocessing: Disparate Impact Remover', privileged_group, unprivileged_group)

df_metrics_Dir = pd.concat([df_metrics_high, df_metrics_medium, df_metrics_low], ignore_index=True)
df_metrics = pd.concat([df_metrics, df_metrics_Dir], ignore_index=True)
df_metrics.to_excel(f'{name_prefix}_metrics.xlsx', index = False)
#df_metrics[df_metrics['Metric'].isin(['Accuracy', 'F1-Score', 'Disparate Impact'])]

Explicação do modelo

In [None]:
# Gerar tabelas de importância das variáveis
importance_high = get_feature_importance(explanations_high, X_train_high.columns)
importance_medium = get_feature_importance(explanations_medium, X_train_medium.columns)
importance_low = get_feature_importance(explanations_low, X_train_low.columns)

# Criar DataFrames com a importância das variáveis
importance_high_df = pd.DataFrame({'Feature': X_train_high.columns, 'Importance_High': importance_high})
importance_medium_df = pd.DataFrame({'Feature': X_train_medium.columns, 'Importance_Medium': importance_medium})
importance_low_df = pd.DataFrame({'Feature': X_train_low.columns, 'Importance_Low': importance_low})

# Realizar o merge dos DataFrames utilizando 'Feature' como chave e preenchendo valores faltantes com NaN
importance_df = importance_high_df.merge(importance_medium_df, on='Feature', how='outer').merge(importance_low_df, on='Feature', how='outer')

# Ordenar o DataFrame com base no módulo dos valores da coluna 'Importance_High'
importance_df['Importance_High_Abs'] = importance_df['Importance_High'].abs()
importance_df = importance_df.sort_values(by='Importance_High_Abs', ascending=False)
importance_df.drop(columns=['Importance_High_Abs'], inplace=True)

# Definir o índice como a coluna 'Feature'
importance_df.set_index('Feature', inplace=True)

# Salvar o DataFrame como CSV
importance_df.to_csv(f'{name_prefix}_pre_dir_model_lime.csv')

# Exibir o DataFrame
importance_df

<b> 2.3 Adversarial Debiasing

In [None]:
# Uso da função:
df_final_high, best_model_high, best_params_high, best_score_high, explanations_high = AIF360.InAdversarialDebiasingOptuna(X_train_high, y_train_high, X_test_high, y_test_high, df_train_high, df_test_high, protected_attribute, alpha = 0.1, num_trials=50)
df_final_medium, best_model_medium, best_params_medium, best_score_medium, explanations_medium = AIF360.InAdversarialDebiasingOptuna(X_train_medium, y_train_medium, X_test_medium, y_test_medium, df_train_medium, df_test_medium, protected_attribute, alpha = 0.1, num_trials=50)
df_final_low, best_model_low, best_params_low, best_score_low, explanations_low = AIF360.InAdversarialDebiasingOptuna(X_train_low, y_train_low, X_test_low, y_test_low, df_train_low, df_test_low, protected_attribute, alpha = 0.1, num_trials=50)

In [None]:
print('High - Parâmetros:', best_params_high)
print('Medium - Parâmetros:', best_params_medium)
print('Low - Parâmetros:', best_params_low)

Avaliação do modelo

In [None]:
#Métricas do modelo
df_metrics_high = Metrics.ModelMetrics(df_final_high, 'case:protected', 'High', 'Inprocessing: Adversarial Debiasing', privileged_group, unprivileged_group)
df_metrics_medium = Metrics.ModelMetrics(df_final_medium, 'case:protected', 'Medium', 'Inprocessing: Adversarial Debiasing', privileged_group, unprivileged_group)
df_metrics_low = Metrics.ModelMetrics(df_final_low, 'case:protected', 'Low', 'Inprocessing: Adversarial Debiasing', privileged_group, unprivileged_group)

df_metrics_Adv = pd.concat([df_metrics_high, df_metrics_medium, df_metrics_low], ignore_index=True)
df_metrics = pd.concat([df_metrics, df_metrics_Adv], ignore_index=True)
df_metrics.to_excel(f'{name_prefix}_metrics.xlsx', index = False)
#df_metrics[df_metrics['Metric'].isin(['Accuracy', 'F1-Score', 'Disparate Impact'])]

Explicação do modelo

In [None]:
# Gerar tabelas de importância das variáveis
importance_high = get_feature_importance(explanations_high, X_train_high.columns)
importance_medium = get_feature_importance(explanations_medium, X_train_medium.columns)
importance_low = get_feature_importance(explanations_low, X_train_low.columns)

# Criar DataFrames com a importância das variáveis
importance_high_df = pd.DataFrame({'Feature': X_train_high.columns, 'Importance_High': importance_high})
importance_medium_df = pd.DataFrame({'Feature': X_train_medium.columns, 'Importance_Medium': importance_medium})
importance_low_df = pd.DataFrame({'Feature': X_train_low.columns, 'Importance_Low': importance_low})

# Realizar o merge dos DataFrames utilizando 'Feature' como chave e preenchendo valores faltantes com NaN
importance_df = importance_high_df.merge(importance_medium_df, on='Feature', how='outer').merge(importance_low_df, on='Feature', how='outer')

# Ordenar o DataFrame com base no módulo dos valores da coluna 'Importance_High'
importance_df['Importance_High_Abs'] = importance_df['Importance_High'].abs()
importance_df = importance_df.sort_values(by='Importance_High_Abs', ascending=False)
importance_df.drop(columns=['Importance_High_Abs'], inplace=True)

# Definir o índice como a coluna 'Feature'
importance_df.set_index('Feature', inplace=True)

# Salvar o DataFrame como CSV
importance_df.to_csv(f'{name_prefix}_in_adv_model_lime.csv')

# Exibir o DataFrame
importance_df

<b> 2.4 Equalized Odds Postprocessing

In [None]:
# Uso da função:
#df_final_high, best_model_high, best_params_high, best_score_high, explanations_high = AIF360.PostEOddsPostprocessingRandomFlorestOptuna(X_train_high, y_train_high, X_test_high, y_test_high, df_train_high, df_test_high, protected_attribute, alpha = 0.1, num_trials=50)
#df_final_medium, best_model_medium, best_params_medium, best_score_medium, explanations_medium = AIF360.PostEOddsPostprocessingRandomFlorestOptuna(X_train_medium, y_train_medium, X_test_medium, y_test_medium, df_train_medium, df_test_medium, protected_attribute, alpha = 0.1, num_trials=50)
#df_final_low, best_model_low, best_params_low, best_score_low, explanations_low = AIF360.PostEOddsPostprocessingRandomFlorestOptuna(X_train_low, y_train_low, X_test_low, y_test_low, df_train_low, df_test_low, protected_attribute, alpha = 0.1, num_trials=50)

In [None]:
#Serão os parâmetros da Random Florest
#print('High - Parâmetros:', best_params_high)
#print('Medium - Parâmetros:', best_params_medium)
#print('Low - Parâmetros:', best_params_low)

Avaliação do modelo

In [None]:
#Métricas do modelo
#df_metrics_high = Metrics.ModelMetrics(df_final_high, 'case:protected', 'High', 'Postprocessing: Equalized Odds', privileged_group, unprivileged_group)
#df_metrics_medium = Metrics.ModelMetrics(df_final_medium, 'case:protected', 'Medium', 'Postprocessing: Equalized Odds', privileged_group, unprivileged_group)
#df_metrics_low = Metrics.ModelMetrics(df_final_low, 'case:protected', 'Low', 'Postprocessing: Equalized Odds', privileged_group, unprivileged_group)

#df_metrics_PostEOdds = pd.concat([df_metrics_high, df_metrics_medium, df_metrics_low], ignore_index=True)
#df_metrics = pd.concat([df_metrics, df_metrics_PostEOdds], ignore_index=True)
#df_metrics.to_excel(f'{name_prefix}_metrics.xlsx', index = False)
#df_metrics[df_metrics['Metric'].isin(['Accuracy', 'F1-Score', 'Disparate Impact'])]

Explicação do modelo

In [None]:
# Gerar tabelas de importância das variáveis
#importance_high = get_feature_importance(explanations_high, X_train_high.columns)
#importance_medium = get_feature_importance(explanations_medium, X_train_medium.columns)
#importance_low = get_feature_importance(explanations_low, X_train_low.columns)

# Criar DataFrames com a importância das variáveis
#importance_high_df = pd.DataFrame({'Feature': X_train_high.columns, 'Importance_High': importance_high})
#importance_medium_df = pd.DataFrame({'Feature': X_train_medium.columns, 'Importance_Medium': importance_medium})
#importance_low_df = pd.DataFrame({'Feature': X_train_low.columns, 'Importance_Low': importance_low})

# Realizar o merge dos DataFrames utilizando 'Feature' como chave e preenchendo valores faltantes com NaN
#importance_df = importance_high_df.merge(importance_medium_df, on='Feature', how='outer').merge(importance_low_df, on='Feature', how='outer')

# Ordenar o DataFrame com base no módulo dos valores da coluna 'Importance_High'
#importance_df['Importance_High_Abs'] = importance_df['Importance_High'].abs()
#importance_df = importance_df.sort_values(by='Importance_High_Abs', ascending=False)
#importance_df.drop(columns=['Importance_High_Abs'], inplace=True)

# Definir o índice como a coluna 'Feature'
#importance_df.set_index('Feature', inplace=True)

# Salvar o DataFrame como CSV
#importance_df.to_csv(f'{name_prefix}_post_eodds_model_lime.csv')

# Exibir o DataFrame
#importance_df

<b> 2.5 Calibrated EqOdds Postprocessing

In [None]:
# Uso da função:
df_final_high, best_model_high, best_params_high, best_score_high, explanations_high = AIF360.PostCalibratedEOddsRandomFlorestOptuna(X_train_high, y_train_high, X_test_high, y_test_high, df_train_high, df_test_high, protected_attribute, alpha = 0.1, num_trials=50)
df_final_medium, best_model_medium, best_params_medium, best_score_medium, explanations_medium = AIF360.PostCalibratedEOddsRandomFlorestOptuna(X_train_medium, y_train_medium, X_test_medium, y_test_medium, df_train_medium, df_test_medium, protected_attribute, alpha = 0.1, num_trials=50)
df_final_low, best_model_low, best_params_low, best_score_low, explanations_low = AIF360.PostCalibratedEOddsRandomFlorestOptuna(X_train_low, y_train_low, X_test_low, y_test_low, df_train_low, df_test_low, protected_attribute, alpha = 0.1, num_trials=50)

In [None]:
print('High - Parâmetros:', best_params_high)
print('Medium - Parâmetros:', best_params_medium)
print('Low - Parâmetros:', best_params_low)

Avaliação do modelo

In [None]:
#Métricas do modelo
df_metrics_high = Metrics.ModelMetrics(df_final_high, 'case:protected', 'High', 'Postprocessing: Calibrated EqOdds', privileged_group, unprivileged_group)
df_metrics_medium = Metrics.ModelMetrics(df_final_medium, 'case:protected', 'Medium', 'Postprocessing: Calibrated EqOdds', privileged_group, unprivileged_group)
df_metrics_low = Metrics.ModelMetrics(df_final_low, 'case:protected', 'Low', 'Postprocessing: Calibrated EqOdds', privileged_group, unprivileged_group)

df_metrics_PostCalibrated = pd.concat([df_metrics_high, df_metrics_medium, df_metrics_low], ignore_index=True)
df_metrics = pd.concat([df_metrics, df_metrics_PostCalibrated], ignore_index=True)
df_metrics.to_excel(f'{name_prefix}_metrics.xlsx', index = False)
#df_metrics[df_metrics['Metric'].isin(['Accuracy', 'F1-Score', 'Disparate Impact'])]

Explicação do modelo

In [None]:
# Gerar tabelas de importância das variáveis
importance_high = get_feature_importance(explanations_high, X_train_high.columns)
importance_medium = get_feature_importance(explanations_medium, X_train_medium.columns)
importance_low = get_feature_importance(explanations_low, X_train_low.columns)

# Criar DataFrames com a importância das variáveis
importance_high_df = pd.DataFrame({'Feature': X_train_high.columns, 'Importance_High': importance_high})
importance_medium_df = pd.DataFrame({'Feature': X_train_medium.columns, 'Importance_Medium': importance_medium})
importance_low_df = pd.DataFrame({'Feature': X_train_low.columns, 'Importance_Low': importance_low})

# Realizar o merge dos DataFrames utilizando 'Feature' como chave e preenchendo valores faltantes com NaN
importance_df = importance_high_df.merge(importance_medium_df, on='Feature', how='outer').merge(importance_low_df, on='Feature', how='outer')

# Ordenar o DataFrame com base no módulo dos valores da coluna 'Importance_High'
importance_df['Importance_High_Abs'] = importance_df['Importance_High'].abs()
importance_df = importance_df.sort_values(by='Importance_High_Abs', ascending=False)
importance_df.drop(columns=['Importance_High_Abs'], inplace=True)

# Definir o índice como a coluna 'Feature'
importance_df.set_index('Feature', inplace=True)

# Salvar o DataFrame como CSV
importance_df.to_csv(f'{name_prefix}_post_calibrated_model_lime.csv')

# Exibir o DataFrame
importance_df