# Pycaret 

Pycaret é uma biblioteca do python relacionada a *machine learning* (aprendizado de máquina) que automatiza o fluxo de trabalho com poucas linhas de código. É uma ferramenta completa que permite todo o gerenciamento de machine learning, tornando o ciclo de trabalho mais produtivo. 

## Perspectivas
1. Regressão;
2. Classificação - foco do seminário;
3. Análise de cluster;
4. Séries temporais;
5. Detecção de anomalias.

## Documentação oficial

* https://pycaret.readthedocs.io/en/stable/api/classification.html
* https://www.pycaret.org/tutorials/html/CLF101.html

## Palestrante

### Henrique Santos

 * E-mail: santos.henrique624@gmail.com
 * LinkedIn: https://www.linkedin.com/in/henriquesantos2021/
 * GitHub: https://github.com/santoshenrique2021

## Propósito do seminário

Este seminário introduz o *pycaret* aplicado a problemas de classificação, ou seja, predizer uma variável qualitativa (chamada de **ALVO** ou **TARGET**) através de um conjunto de variáveis preditoras (variáveis explicativas). O **ALVO** é uma variável binária, apresenta duas possíveis categorias que são mutuamente exclusivas e coletivamente exaustivas - **abrange todo o espaço amostral**.

### Conceitos

* *ALVO*
    * Representa a variável resposta, ou seja, a variável que se deseja prever. Esta apresenta duas classes: 
      * **Sucesso** - representa quando o evento de interesse ocorre;
      * **Fracasso** - representa quando o evento de interesse não ocorre.
    
* *Variável preditora*
    * Variável que afeta a distribuição do ALVO. 

* *Exemplos* 
    * O cliente ao adquirir um empréstimo se tornará **adimplente** ou **inadimplente**;
    * O aluno ao cursar uma disciplina será **aprovado** ou **reprovado**;
    * O paciente ao realizar um exame para identificar um tipo de doença terá como diagnósitoco a **presença ou ausência da doença**.
    
* *Algoritmos de classificação*
    * Estimam uma probabilidade (*escore*) que definirá a classe da observação;
    * Principais métodos: **regressão logística** (mais conhecido), árvores de decisão, random forest, XG BOOST, suport vector machine, linear discriminant analysis (LDA) e KNN. 
    
### Palavras-chave

* Classificação, ALVO, Algoritmos, Pycaret.    

## Uilização acadêmica

* https://www.sciencedirect.com/science/article/pii/S0023643823006746 (2023)
* https://www.sciencedirect.com/science/article/abs/pii/S0030402623003698 (2023)
* https://www.sciencedirect.com/science/article/abs/pii/S0010482523005541 (2023)
* https://www.sciencedirect.com/science/article/pii/S0006497121039021 (2021)

## Aplicação 

> **Resumo**: Prever se o paciente apresenta uma doença cardíaca a partir de um conjunto de variáveis preditivas.

> **Banco de dados**: Informações sobre 303 pacientes submetidos à angiografia (exame cardíaco). Desta forma, foram coletadas diversas informações médicas dos enfermos - 13 variáveis explicativas e o ALVO.

* **Fonte dos dados** : *Heart Disease Cleveland*
    * https://pubmed.ncbi.nlm.nih.gov/2756873/
    * https://archive.ics.uci.edu/dataset/45/heart+disease
    * https://towardsdatascience.com/heart-disease-prediction-73468d630cfc

### Contextualização das variáveis

1. **ALVO**: Variável binária que diz se o paciente sofre ou não de alguma doença cardíaca:
    * 1 - Paciente apresenta alguma doença cardíaca; 
    * 0 - Paciente não apresenta doença cardíaca.
2. **Age**: Variável quantitativa que informa a idade do paciente, mensurada em anos;
3. **Sex**: Variável binária que informa o sexo do paciente:
4. **Chest_pain**: Variável categórica relacionada ao tipo de dor no peito sentida pelo paciente, segmentada em quatro categorias;
5. **Resting Blood Pressure**: Variável quantitativa que mede a pressão arterial do paciente em estado de repouso, mensurada em milímetros de mercúrio (mm Hg);
6. **Serum_cholestrol**: Variável quantitativa que mede o colesterol do paciente, mensurada em miligramas por decilitro (mg/dL);
7. **Fasting_blood_sugar**: Variável binária que compara o valor de açúcar no sangue do paciente em jejum: 
    * HIGH - Se a glicose for maior que  120mg/dl;
    * LOW - Se a glicose for menor que  120mg/dl.
8. **Resting ECG**: Variável categórica relacionada ao resultado do eletrocardiograma do paciente em estado de repouso. Ela foi segmentada em três categorias; 
9. **Max_heart_rate_achieved**: Variável quantitativa que mede a frequência máxima cardíaca atingida pelo paciente, mensurada em bpm - batimentos por minuto;
10. **Exercise_induced_angina**: Variável binária que informa se o paciente sente uma dor cardiáca relacionada a execução de um esforço físico ou estado de extresse:
    * PAIN - presença de dor;
    * NO_PAIN - ausência de dor.
11. **ST_depression**: Variável quantitativa que mede a depressão do segmento ST induzida por exercício em relação repouso;
12. **Peak_exercise_ST_segment**: Variável categórica que descrimina o tipo de segmento ST. Ela apresenta em três categorias;
13. **Number_of_major_vessels**: Variável quantitativa que mede o número de vasos principais (0–3) coloridos por fluoroscopia;
14. **Thal**: Variável categórica relacionada a um grupo de doenças no sangue relacionada a anomalias na produção de hemoglobina, segmentada em três categorias.

### Dinâmica de modelagem

A partir de um conjunto de dados, divide-se a amostra em treino e teste. O classificador é construído a partir das observações da base de treino e depois analisa-se sua performance na base de teste. Ao longo deste processo, diversos métodos de previsão serão testados, incluíndo suas métricas de avaliação.

In [2]:
#Bibliotecas
import pandas as pd #Análise de dados
import numpy as np #Análise de dados
from pycaret.classification import * #Modelagem

### Visão geral dos dados

**Estatística Descritiva**

In [3]:
#Importar os dados
df = pd.read_csv("dados_pycaret.csv", sep = ',')
#Visualizar as 4 primeiras linhas da base de dados
df.head(4) 

Unnamed: 0,Age,Sex,Chest_pain,Resting_blood_pressure,Serum_cholestrol,Fasting_blood_sugar,Resting_ECG,Max_heart_rate_achieved,Exercise_induced_angina,ST_depression,Peak_exercise_ST_segment,Number_of_major_vessels,Thal,ALVO
0,63,MALE,LEVEL_1,145,233,HIGH,LEVEL_2,150,NO_PAIN,2.3,LEVEL_3,0.0,LEVEL_6,0
1,67,MALE,LEVEL_4,160,286,LOW,LEVEL_2,108,PAIN,1.5,LEVEL_2,3.0,LEVEL_3,1
2,67,MALE,LEVEL_4,120,229,LOW,LEVEL_2,129,PAIN,2.6,LEVEL_2,2.0,LEVEL_7,1
3,37,MALE,LEVEL_3,130,250,LOW,LEVEL_0,187,NO_PAIN,3.5,LEVEL_3,0.0,LEVEL_3,0


**Nota**: Quando o ALVO apresenta o valor igual 1, pode-se afirmar que a observação apresenta a doença cardíaca (sucesso).

In [4]:
#Total de observações 
df.shape[0] #303

303

In [5]:
#Tipo das variáveis
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Age                       303 non-null    int64  
 1   Sex                       303 non-null    object 
 2   Chest_pain                303 non-null    object 
 3   Resting_blood_pressure    303 non-null    int64  
 4   Serum_cholestrol          303 non-null    int64  
 5   Fasting_blood_sugar       303 non-null    object 
 6   Resting_ECG               303 non-null    object 
 7   Max_heart_rate_achieved   303 non-null    int64  
 8   Exercise_induced_angina   303 non-null    object 
 9   ST_depression             303 non-null    float64
 10  Peak_exercise_ST_segment  303 non-null    object 
 11  Number_of_major_vessels   299 non-null    float64
 12  Thal                      301 non-null    object 
 13  ALVO                      303 non-null    int64  
dtypes: float64

In [6]:
#Percentual de missing de cada variável no data frame
((df.isnull() | df.isna()).sum() * 100 / df.index.size).round(2)

Age                         0.00
Sex                         0.00
Chest_pain                  0.00
Resting_blood_pressure      0.00
Serum_cholestrol            0.00
Fasting_blood_sugar         0.00
Resting_ECG                 0.00
Max_heart_rate_achieved     0.00
Exercise_induced_angina     0.00
ST_depression               0.00
Peak_exercise_ST_segment    0.00
Number_of_major_vessels     1.32
Thal                        0.66
ALVO                        0.00
dtype: float64

In [7]:
#Frequência relativa de ocorrência do ALVO
round(100*(df['ALVO'].value_counts())/df['ALVO'].shape[0],0) #46% dos pacientes apresentam alguma doença cardíaca

0    54.0
1    46.0
Name: ALVO, dtype: float64

In [8]:
#Sumário estatístico de uma variável quantitativa (inteira)
##Frequência máxima cardíaca
df['Max_heart_rate_achieved'].describe() 

count    303.000000
mean     149.607261
std       22.875003
min       71.000000
25%      133.500000
50%      153.000000
75%      166.000000
max      202.000000
Name: Max_heart_rate_achieved, dtype: float64

In [9]:
#Categorias de uma variável categórica
##Dor no peito
df['Chest_pain'].drop_duplicates() 

0    LEVEL_1
1    LEVEL_4
3    LEVEL_3
4    LEVEL_2
Name: Chest_pain, dtype: object

In [10]:
#Frequência absoluta de uma variável categórica
##Dor no peito
df['Chest_pain'].value_counts() #Dor no peito

LEVEL_4    144
LEVEL_3     86
LEVEL_2     50
LEVEL_1     23
Name: Chest_pain, dtype: int64

In [11]:
#Frequência relativa de uma variável categórica
##Dor no peito
round(100*(df['Chest_pain'].value_counts())/df['Chest_pain'].shape[0],0) #Dor no peito

LEVEL_4    48.0
LEVEL_3    28.0
LEVEL_2    17.0
LEVEL_1     8.0
Name: Chest_pain, dtype: float64

In [12]:
#Cruzar uma variável categótica com o ALVO
##Dor no peito vs ALVO
tx_alvo_vc = round(df.groupby(['Chest_pain'])['ALVO'].value_counts(normalize=True) * 100,0)
tx_alvo_vc.head(8)

Chest_pain  ALVO
LEVEL_1     0       70.0
            1       30.0
LEVEL_2     0       82.0
            1       18.0
LEVEL_3     0       79.0
            1       21.0
LEVEL_4     1       73.0
            0       27.0
Name: ALVO, dtype: float64

**Insight**: Quando a observação foi classificada em LEVEL_4 na variável dor no peito, em 73% dos casos, o ALVO foi classificado como enfermo (apresentou uma doença cardiáca).

## Pycaret

### 1. Setup

Cria todo o pipeline relacionado ao pré-processamento dos dados e apresenta dois parâmetros mandatórios:

* **data** - tabela de dados;
* **target** - target representa o ALVO.

In [None]:
#Detalhes de todos os parâmetros da função setup
setup??

In [16]:
exp = setup(data = df, target= "ALVO", normalize= True, experiment_name = "EXP_01_WANDA_2023", session_id= 1935, train_size = 0.65)

Unnamed: 0,Description,Value
0,Session id,1935
1,Target,ALVO
2,Target type,Binary
3,Original data shape,"(303, 14)"
4,Transformed data shape,"(303, 23)"
5,Transformed train set shape,"(196, 23)"
6,Transformed test set shape,"(107, 23)"
7,Ordinal features,3
8,Numeric features,6
9,Categorical features,7


#### Recomendações

* Recomenda-se que a variável categórica esteja no tipo object;
* Não colocar o nome das categorias da variável categórica como número.

#### Abordagem adotada
* Normalizar (normal-padrão) as variáveis numéricas - z = (x - u) /s;
* Base de treino: 65% das observações;
* Base de teste: 35% das observações.

#### Objetos criados

Configuração dos objetos criados após o pré-processamento.

In [37]:
#Base de treino
df_treino = get_config('train')
#Total de observações
df_treino.shape[0] #196 observações

196

In [38]:
#Visualização
df_treino.head(4)

Unnamed: 0,Age,Sex,Chest_pain,Resting_blood_pressure,Serum_cholestrol,Fasting_blood_sugar,Resting_ECG,Max_heart_rate_achieved,Exercise_induced_angina,ST_depression,Peak_exercise_ST_segment,Number_of_major_vessels,Thal,ALVO
0,49,MALE,LEVEL_3,120,188,LOW,LEVEL_0,139,NO_PAIN,2.0,LEVEL_2,3.0,LEVEL_7,1
1,39,FEMALE,LEVEL_3,138,220,LOW,LEVEL_0,152,NO_PAIN,0.0,LEVEL_2,0.0,LEVEL_3,0
2,52,MALE,LEVEL_4,125,212,LOW,LEVEL_0,168,NO_PAIN,1.0,LEVEL_1,2.0,LEVEL_7,1
3,41,MALE,LEVEL_4,110,172,LOW,LEVEL_2,158,NO_PAIN,0.0,LEVEL_1,0.0,LEVEL_7,1


In [39]:
#Base de teste
df_teste = get_config('test')
#Total de observações
df_teste.shape[0] #107 observações

107

In [41]:
#Visualização
df_teste.head(4)

Unnamed: 0,Age,Sex,Chest_pain,Resting_blood_pressure,Serum_cholestrol,Fasting_blood_sugar,Resting_ECG,Max_heart_rate_achieved,Exercise_induced_angina,ST_depression,Peak_exercise_ST_segment,Number_of_major_vessels,Thal,ALVO
196,68,MALE,LEVEL_3,118,277,LOW,LEVEL_0,151,NO_PAIN,1.0,LEVEL_1,1.0,LEVEL_7,0
197,62,FEMALE,LEVEL_4,140,394,LOW,LEVEL_2,157,NO_PAIN,1.2,LEVEL_2,0.0,LEVEL_3,0
198,61,FEMALE,LEVEL_4,130,330,LOW,LEVEL_2,169,NO_PAIN,0.0,LEVEL_1,0.0,LEVEL_3,1
199,38,MALE,LEVEL_3,138,175,LOW,LEVEL_0,173,NO_PAIN,0.0,LEVEL_1,,LEVEL_3,0


In [43]:
#Variáveis x da base de treino
x_treino = get_config('X_train')
x_treino.head(4)

Unnamed: 0,Age,Sex,Chest_pain,Resting_blood_pressure,Serum_cholestrol,Fasting_blood_sugar,Resting_ECG,Max_heart_rate_achieved,Exercise_induced_angina,ST_depression,Peak_exercise_ST_segment,Number_of_major_vessels,Thal
0,49,MALE,LEVEL_3,120,188,LOW,LEVEL_0,139,NO_PAIN,2.0,LEVEL_2,3.0,LEVEL_7
1,39,FEMALE,LEVEL_3,138,220,LOW,LEVEL_0,152,NO_PAIN,0.0,LEVEL_2,0.0,LEVEL_3
2,52,MALE,LEVEL_4,125,212,LOW,LEVEL_0,168,NO_PAIN,1.0,LEVEL_1,2.0,LEVEL_7
3,41,MALE,LEVEL_4,110,172,LOW,LEVEL_2,158,NO_PAIN,0.0,LEVEL_1,0.0,LEVEL_7


In [42]:
#Variáveis explicativas transformadas da base de treino
x_treino_transformada = get_config('X_train_transformed')
x_treino_transformada.head(4)

Unnamed: 0,Age,Sex,Chest_pain_LEVEL_3,Chest_pain_LEVEL_4,Chest_pain_LEVEL_1,Chest_pain_LEVEL_2,Resting_blood_pressure,Serum_cholestrol,Fasting_blood_sugar,Resting_ECG_LEVEL_0,...,Max_heart_rate_achieved,Exercise_induced_angina,ST_depression,Peak_exercise_ST_segment_LEVEL_2,Peak_exercise_ST_segment_LEVEL_1,Peak_exercise_ST_segment_LEVEL_3,Number_of_major_vessels,Thal_LEVEL_7,Thal_LEVEL_3,Thal_LEVEL_6
0,-0.631355,0.704403,1.621613,-0.94054,-0.298142,-0.458123,-0.643981,-1.071874,0.441726,1.052391,...,-0.422276,-0.728869,0.758256,1.031095,-0.902671,-0.26653,2.610225,1.256562,-1.119318,-0.243843
1,-1.804298,-1.419642,1.621613,-0.94054,-0.298142,-0.458123,0.383128,-0.477305,0.441726,1.052391,...,0.150652,-0.728869,-0.910673,1.031095,-0.902671,-0.26653,-0.735922,-0.795822,0.893401,-0.243843
2,-0.279472,0.704403,-0.61667,1.063219,-0.298142,-0.458123,-0.358673,-0.625947,0.441726,1.052391,...,0.855796,-0.728869,-0.076209,-0.969842,1.107823,-0.26653,1.494842,1.256562,-1.119318,-0.243843
3,-1.569709,0.704403,-0.61667,1.063219,-0.298142,-0.458123,-1.214598,-1.369159,0.441726,-0.950217,...,0.415081,-0.728869,-0.910673,-0.969842,1.107823,-0.26653,-0.735922,1.256562,-1.119318,-0.243843


#### Propoção do ALVO nas bases de treino e teste

In [45]:
#Frequência do ALVO - base de treino
round(100*(df_treino['ALVO'].value_counts())/df_treino['ALVO'].shape[0],0) #46%

0    54.0
1    46.0
Name: ALVO, dtype: float64

In [46]:
#Frequência do ALVO - base de teste
round(100*(df_teste['ALVO'].value_counts())/df_teste['ALVO'].shape[0],0) #46%

0    54.0
1    46.0
Name: ALVO, dtype: float64

### 2.Compare models

Avalia o desempenho de todos os algoritmos disponíveis através dos dados da base treino. Assim, para cada método de estimação serão mostradas as métricas avaliativas de desempenho.

In [47]:
compare_models() #15 modelos

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
rf,Random Forest Classifier,0.8268,0.9095,0.7444,0.8628,0.7942,0.6465,0.6579,0.36
xgboost,Extreme Gradient Boosting,0.8221,0.9171,0.8111,0.8075,0.8061,0.6411,0.6459,0.191
ridge,Ridge Classifier,0.8208,0.0,0.7444,0.8704,0.7903,0.6351,0.6521,0.196
lda,Linear Discriminant Analysis,0.8155,0.9015,0.7444,0.8638,0.7868,0.6249,0.6421,0.174
et,Extra Trees Classifier,0.8116,0.8862,0.7333,0.8456,0.7768,0.6156,0.6302,0.31
lightgbm,Light Gradient Boosting Machine,0.8116,0.8988,0.7889,0.809,0.7927,0.6198,0.6291,0.401
lr,Logistic Regression,0.8058,0.9027,0.7556,0.8247,0.78,0.6061,0.6168,0.904
knn,K Neighbors Classifier,0.805,0.8406,0.8,0.7911,0.7919,0.6077,0.6129,0.216
gbc,Gradient Boosting Classifier,0.7966,0.8962,0.7889,0.7747,0.7769,0.5895,0.5977,0.316
nb,Naive Bayes,0.7916,0.8601,0.7444,0.7955,0.7582,0.5766,0.5901,0.226


Processing:   0%|          | 0/65 [00:00<?, ?it/s]

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_samples_leaf=1,
                       min_samples_split=2, min_weight_fraction_leaf=0.0,
                       n_estimators=100, n_jobs=-1, oob_score=False,
                       random_state=1935, verbose=0, warm_start=False)

### 3.Create model

A partir dos resultados acima, vai-se criar o modelo de previsão

**Logistic Regression** (Regressão logística)

In [50]:
#Resultados da base de treino
model_1 = create_model('lr')

Unnamed: 0_level_0,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
Fold,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,0.75,0.899,0.6667,0.75,0.7059,0.4898,0.4924
1,0.7,0.697,0.4444,0.8,0.5714,0.3684,0.4062
2,0.8,0.9192,0.7778,0.7778,0.7778,0.596,0.596
3,0.85,0.9192,0.7778,0.875,0.8235,0.6939,0.6975
4,0.9,0.9697,0.8889,0.8889,0.8889,0.798,0.798
5,0.9,0.9899,0.7778,1.0,0.875,0.7938,0.8112
6,0.8947,0.9222,0.8889,0.8889,0.8889,0.7889,0.7889
7,0.6316,0.8222,0.6667,0.6,0.6316,0.2652,0.2667
8,0.7368,0.9333,0.8889,0.6667,0.7619,0.4809,0.506
9,0.8947,0.9556,0.7778,1.0,0.875,0.7865,0.8051


Processing:   0%|          | 0/4 [00:00<?, ?it/s]

In [57]:
#Resultados da base de teste
predict_model(model_1, data = df_teste);

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
0,Logistic Regression,0.8318,0.8934,0.7755,0.8444,0.8085,0.659,0.6609


**XG BOOST** 

In [58]:
model_2 = create_model('xgboost')

Unnamed: 0_level_0,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
Fold,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,0.7,0.8283,0.6667,0.6667,0.6667,0.3939,0.3939
1,0.75,0.7677,0.6667,0.75,0.7059,0.4898,0.4924
2,0.8,0.9192,0.7778,0.7778,0.7778,0.596,0.596
3,0.85,0.9293,0.7778,0.875,0.8235,0.6939,0.6975
4,0.85,0.9798,0.7778,0.875,0.8235,0.6939,0.6975
5,0.85,0.9798,0.7778,0.875,0.8235,0.6939,0.6975
6,0.8947,0.9,0.8889,0.8889,0.8889,0.7889,0.7889
7,0.7368,0.9111,0.8889,0.6667,0.7619,0.4809,0.506
8,0.8421,0.9556,0.8889,0.8,0.8421,0.6851,0.6889
9,0.9474,1.0,1.0,0.9,0.9474,0.895,0.9


Processing:   0%|          | 0/4 [00:00<?, ?it/s]

In [59]:
#Resultados da base de teste
predict_model(model_2, data = df_teste);

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
0,Extreme Gradient Boosting,0.7944,0.879,0.7551,0.7872,0.7708,0.5845,0.585


### Tune model

In [None]:
#Tunar a regressão logística
tune_model_1 = tune_model(model_1)

In [None]:
#Resultados da base de teste
predict_model(tune_model_1);

In [None]:
plot_model(tune_model_1, plot = 'ks')

In [None]:
plot_model(tune_model_1, plot = 'ks', use_train_data = False)

## Modeling

### Environment

### Compare models

### Create a model

In [None]:
lr = create_model('lr')

In [None]:
plot_model(lr)

In [None]:
v1