# Previsão de Doença Hepática: Simplificando a Aplicação de Machine Learning com PyCaret

A complexidade de um projeto de machine learning vai muito além da simples implementação de um modelo; diversos aspectos são considerados para alcançar resultados eficazes. O processo é exaustivo, envolvendo desde a pré-tratamento das variáveis e o balanceamento de classes até a escolha do modelo e a otimização de seus parâmetros. Cada uma dessas etapas consome tempo e exige foco do cientista de dados para garantir a implementação de um modelo eficaz.

Para resolver esses desafios, surgiu o PyCaret. O PyCaret é uma biblioteca de machine learning em Python, de código aberto e com abordagem low-code. Esta biblioteca simplifica os fluxos de trabalho em projetos de machine learning, acelerando o ciclo de experimentação de modelos e aumentando a produtividade do cientista de dados.

Para exemplificar os benefícios de se usar o PyCaret vou utilizar um projeto da Kaggle de previsão de doenças hepáticas, segue o link da base de dados no site da Kaggle e vamos ao projeto.

Lembrando que o objetivo desse post é apresentar o PyCaret e suas principais ferramentas, não vamos se atentar aos problemas da base de dados

## Etapas do Projeto

- Entendimento do Problema
- Importação das Dependências e Carregamento do Dados
- Breve entendimento sobre a base de dados
- Treinamento e Avaliação do Modelo
- Testando o modelo
- Finalização do Projeto


## Entendimento do problema

Um hospital coletou registros de exames de 1.700 pacientes com o objetivo de diagnosticar doenças hepáticas.

Nosso objetivo é desenvolver um modelo capaz de prever, de forma eficaz, quais pacientes possuem problemas hepáticos e identificar as variáveis que têm maior impacto nesses diagnósticos.

## Importação das Dependencias e carregamento dos dados

In [19]:
import pandas as pd
from pycaret import classification
from pycaret.classification import *

df = pd.read_csv('archive\Liver_disease_data.csv')

Como nosso problema é de classificação vamos importar apenas o módulo classification do pycaret

## Breve entendimento sobre a base de dados

In [20]:
df.head()

Unnamed: 0,Age,Gender,BMI,AlcoholConsumption,Smoking,GeneticRisk,PhysicalActivity,Diabetes,Hypertension,LiverFunctionTest,Diagnosis
0,58,0,35.857584,17.272828,0,1,0.65894,0,0,42.73424,1
1,71,1,30.73247,2.201266,0,1,1.670557,1,0,67.309822,1
2,48,0,19.971407,18.500944,0,0,9.928308,0,0,63.738956,0
3,34,1,16.615417,12.63287,0,0,5.630129,0,0,64.555873,1
4,62,1,16.06583,1.087815,0,1,3.566218,1,0,77.868689,1


In [38]:
#Para que não ocorra nenhum erro de interpretação vou fazer uma tradução das colunas para o pt-br
df.columns = ['Idade', 'Gênero', 'IMC', 'Consumo de álcool', 'Tabagismo', 'Risco genético', 'Atividade física',
              'Diabetes', 'Hipertensão', 'Teste de função hepática', 'Diagnóstico']

In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1700 entries, 0 to 1699
Data columns (total 11 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Idade                     1700 non-null   int64  
 1   Gênero                    1700 non-null   int64  
 2   IMC                       1700 non-null   float64
 3   Consumo de álcool         1700 non-null   float64
 4   Tabagismo                 1700 non-null   int64  
 5   Risco genético            1700 non-null   int64  
 6   Atividade física          1700 non-null   float64
 7   Diabetes                  1700 non-null   int64  
 8   Hipertensão               1700 non-null   int64  
 9   Teste de função hepática  1700 non-null   float64
 10  Diagnóstico               1700 non-null   int64  
dtypes: float64(4), int64(7)
memory usage: 146.2 KB


A nossa variável alvo é o Diagnóstico

In [41]:
#Verificando se a base de dados esta desbalanceada
positivos = df[df['Diagnóstico'] == 1].shape[0]
negativos = df[df['Diagnóstico'] == 0].shape[0]

print(f"Quantidade de diagnósticos positivos: {positivos} "  )
print(f"Quantidade de diagnósticos negativos: {negativos} "  )

Quantidade de diagnósticos positivos: 936 
Quantidade de diagnósticos negativos: 764 


Sobre a base de dados, a nossa variável alvo está na coluna 'Diagnóstico', nossa base de dados está levemente balanceada, e os valores categóricos já estão em formto numérico.

# Treinamento e Avaliação do Modelo

Com as informações descritas na etapa anterior vamos ao modelo.

In [42]:
inicialização = setup(df, target='Diagnóstico', normalize=True, fix_imbalance=True)

Unnamed: 0,Description,Value
0,Session id,8104
1,Target,Diagnóstico
2,Target type,Binary
3,Original data shape,"(1700, 11)"
4,Transformed data shape,"(1820, 11)"
5,Transformed train set shape,"(1310, 11)"
6,Transformed test set shape,"(510, 11)"
7,Numeric features,10
8,Preprocess,True
9,Imputation type,simple


Primeiramente vamos falar sobre o comando 'setup', ele inicializa o ambiente de treinamento e cria o pipeline de trasnformação do modelo. Ele recebe de forma obrigatória os parâmetros correspondente a base de dados e o 'target' que se refere variável alvo.

O parâmetro 'normalize' é para normalizar a base dados, por padrão o pycaret utiliza o método zscore para normalizar e o parâmetro fix_imbalance para fazer o balanceamento da base de dados.

In [43]:
best_model = compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
gbc,Gradient Boosting Classifier,0.9059,0.9472,0.9206,0.9103,0.9151,0.8095,0.8102,0.046
ada,Ada Boost Classifier,0.9,0.9427,0.8991,0.918,0.9079,0.7985,0.7997,0.04
lightgbm,Light Gradient Boosting Machine,0.8924,0.9448,0.8947,0.9099,0.9015,0.783,0.7846,0.085
rf,Random Forest Classifier,0.8899,0.9451,0.8947,0.9056,0.8995,0.7778,0.7791,0.073
et,Extra Trees Classifier,0.8613,0.9317,0.8871,0.8666,0.8754,0.719,0.7225,0.053
lr,Logistic Regression,0.8286,0.9073,0.8336,0.854,0.8426,0.6543,0.6565,1.09
dt,Decision Tree Classifier,0.8277,0.8268,0.8351,0.8516,0.8422,0.6524,0.6544,0.012
ridge,Ridge Classifier,0.8261,0.9071,0.8214,0.8585,0.8383,0.6502,0.6531,0.011
lda,Linear Discriminant Analysis,0.8261,0.9074,0.8229,0.8575,0.8385,0.6501,0.653,0.012
qda,Quadratic Discriminant Analysis,0.8126,0.8892,0.8092,0.8445,0.8259,0.6232,0.6249,0.014


O comando 'compare_models' compara uma série de algoritmos de machine learning e compara as principais métricas de avaliação do modelo. Por padrão o PyCaret ordena do maior para o menor utilizando o accuracy, mas podemos passar para o modelo qual métrica odenar utilizando o parâmetro 'sort'.

Como o modelo gbc possui as melhores métricas do compare_models vamos escolher ele para continuar o nosso projeto.

Com o exemplo acima conseguir avaliar mais de 10 modelos de calssificação diferentes e escolher qual possui as melhores métricas. Imagina chegar a essa conclusão sem a utilização do PyCaret, seriam muitas linhas de código e dependendo do tamanho da base poderia demorar até dias para encontrar o melhor modelo.

Depois de encontrado o modelo que mais se adapta a nossa base vamos criar esse modelo e exibir as métricas de cada folds e o desvio padrão para cada métrica do modelo. Não vou me aprofundar muito sobre o que são cada métricas nem cada parâmetro, sugiro verificar a documentação.

In [44]:
model = create_model(best_model)

Unnamed: 0_level_0,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
Fold,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,0.8739,0.9277,0.9242,0.8592,0.8905,0.7425,0.7452
1,0.9244,0.9788,0.9242,0.9385,0.9313,0.8472,0.8473
2,0.9076,0.9531,0.9242,0.9104,0.9173,0.8125,0.8127
3,0.916,0.952,0.8939,0.9516,0.9219,0.8312,0.8331
4,0.9244,0.9577,0.9242,0.9385,0.9313,0.8472,0.8473
5,0.8908,0.9593,0.9385,0.8714,0.9037,0.7779,0.7807
6,0.8992,0.9182,0.9077,0.9077,0.9077,0.7966,0.7966
7,0.8824,0.9231,0.8769,0.9048,0.8906,0.7634,0.7639
8,0.916,0.9553,0.9077,0.9365,0.9219,0.831,0.8315
9,0.8992,0.9447,0.9077,0.9077,0.9077,0.7966,0.7966


# Testando o modelo

Após a seleção do melhor modelo vamos aos testes

In [46]:
predict_model(best_model, raw_score= True)

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
0,Gradient Boosting Classifier,0.9039,0.9412,0.9004,0.9234,0.9117,0.8064,0.8067


Unnamed: 0,Idade,Gênero,IMC,Consumo de álcool,Tabagismo,Risco genético,Atividade física,Diabetes,Hipertensão,Teste de função hepática,Diagnóstico,prediction_label,prediction_score_0,prediction_score_1
995,22,1,39.541332,3.895470,0,0,4.509073,0,0,71.249725,0,0,0.6696,0.3304
560,54,0,31.885506,16.057024,0,0,2.389047,0,0,90.500252,1,1,0.1020,0.8980
100,67,1,36.981716,15.611120,0,0,4.995492,0,1,81.079926,1,1,0.0147,0.9853
571,36,0,22.418192,2.822152,0,0,9.609041,0,0,71.608253,0,0,0.9803,0.0197
686,50,0,39.502724,16.745260,0,1,1.264803,0,0,59.380512,1,1,0.0946,0.9054
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1085,39,1,27.818007,16.630816,0,2,6.030038,0,0,35.051868,1,1,0.3584,0.6416
1072,74,1,19.447203,16.167898,0,0,5.626410,0,0,41.947792,0,0,0.6175,0.3825
352,67,0,19.150858,0.635570,1,0,5.314859,1,1,25.951654,0,0,0.8021,0.1979
1697,38,0,38.730019,6.324303,1,2,9.314222,0,1,56.053371,1,1,0.0546,0.9454


Aplicando o 'prdict_model' observamos que o modelo entrega boas métricas também para a base de teste. Com o parâmetro 'raw_score' temos uma informação muito interessante que são os scores de predição do modelo tanto para se a variável alvo assumir o valor 0 como assumir o valor 1.

Para avançarmos mais no entendimento do modelo podemos aplicar o comando 'evaluate_model'. Esse comando retorna uma forma dinâmica de apresentar as como o modelo foi construído e suas métricas

In [47]:
evaluate_model(best_model)

interactive(children=(ToggleButtons(description='Plot Type:', icons=('',), options=(('Pipeline Plot', 'pipelin…

Dentre as principais informações se destacam os seguintes:
 - Pipeline Plot
 - Curva AUC
 - Learning Curve
 - Feature Importance

Claro que essa obervação é puramente pessoal, cada aspecto de entendimento do modelo parte da necessidade do negócio e a configuração do modelo.   

# Finalização do Projeto

Depois de todas essas etapas para finalizar precisamos preparar o modelo para que o hospital possa utilizá-lo em seus diagnósticos

In [50]:
final_best = finalize_model(best_model)

In [51]:
save_model(final_best, 'Diagnóstico')

Transformation Pipeline and Model Successfully Saved


(Pipeline(memory=Memory(location=None),
          steps=[('numerical_imputer',
                  TransformerWrapper(exclude=None,
                                     include=['Idade', 'Gênero', 'IMC',
                                              'Consumo de álcool', 'Tabagismo',
                                              'Risco genético',
                                              'Atividade física', 'Diabetes',
                                              'Hipertensão',
                                              'Teste de função hepática'],
                                     transformer=SimpleImputer(add_indicator=False,
                                                               copy=True,
                                                               fill_value=None,
                                                               keep_empty_features=False,
                                                               missing_...
                                     

O comando 'finalize_model' vai fazer treinaer o modelo com toda a base de dados e por fim o 'save_model' vai salvar o modelo para que seja realizada o processo de deploy desse projeto

Que tal agora passarmos alguns dados para testar o funcionamento do modelo?

In [52]:
loaded_model = load_model('Diagnóstico')

Transformation Pipeline and Model Successfully Loaded


In [99]:
novos_dados = pd.DataFrame({
    'Idade': [27, 35],
    'Gênero': [1, 0],
    'IMC': [31, 28],
    'Consumo de álcool': [10, 20],
    'Tabagismo': [0, 1],
    'Risco genético': [1, 1],
    'Atividade física': [0, 1],
    'Diabetes': [0, 0],
    'Hipertensão': [1, 1],
    'Teste de função hepática': [42.734240, 68.58555],
})

In [100]:
predict_model(loaded_model, raw_score= True, data = novos_dados)

Unnamed: 0,Idade,Gênero,IMC,Consumo de álcool,Tabagismo,Risco genético,Atividade física,Diabetes,Hipertensão,Teste de função hepática,prediction_label,prediction_score_0,prediction_score_1
0,27,1,31,10,0,1,0,0,1,42.734241,0,0.6539,0.3461
1,35,0,28,20,1,1,1,0,1,68.585548,1,0.0091,0.9909


Teste realizado com sucesso!

# Considerações Finais

Conforme mensionado anteriormente esse post tem o objetivo de apresentar a biblioteca PyCaret e aplicá-la a um projeto de machine learning de previsão de doença hepática. 

A biblioteca PyCaret cumpre seu propósito estabelecido, proporcionando uma grande ajuda ao cientista de dados na construção de projetos de machine learning. É notável a rapidez com que conseguimos alcançar os melhores resultados, tornando o processo mais simples e eficiente.

Entretanto, é importante destacar que, para utilizar o PyCaret de forma eficaz, é necessário um entendimento profundo da biblioteca. O uso dos parâmetros padrão pode levar a uma certa "cegueira" do cientista de dados, que pode não compreender totalmente o que ocorre nos bastidores. Etapas como tratamento de valores faltantes, tratamento de variáveis categóricas, balanceamento da base de dados, normalização e padronização dos dados são todas fundamentais e podem ser realizadas pelo PyCaret. Esses processos impactam significativamente o desempenho do modelo e devem ser bem compreendidos e ajustados conforme necessário.

Outro fator importante é a vasta quantidade de ferramentas disponíveis nesta biblioteca. Podemos ajustar os modelos com o comando tune_model e trabalhar com diferentes tipos de problemas, como regressão e modelos não supervisionados. Além disso, é possível integrar com a biblioteca SHAP para melhorar o processo de análise interpretativa. O PyCaret também facilita o processo de deployment, permitindo a implementação de modelos tanto localmente quanto em provedores de nuvem como AWS, GCP e Azure.

Enfim, uma ótima opção para um cientista de dados