<a href="https://colab.research.google.com/github/Delta357/AutoML---Machine-learning/blob/main/AutoML_Heart.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#!pip install pycaret

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pycaret.classification import *

# Parâmetros de configuração dos gráficos
from matplotlib import rcParams

rcParams['figure.figsize'] = 12, 4
rcParams['lines.linewidth'] = 3
rcParams['xtick.labelsize'] = 'x-large'
rcParams['ytick.labelsize'] = 'x-large'

# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

# Versões dos pacotes usados neste jupyter notebook
#%reload_ext watermark
#%watermark -a "Verções bibliotecas" --iversions

import warnings
warnings.filterwarnings("ignore")

# **Base dados**

In [None]:
data = pd.read_csv("heart.csv")
data.head(35)

In [None]:
# Visualizando os 5 primeiros dados
data.head(5)

In [None]:
# Visualizando os 5 últimos dados
data.tail(5)

In [None]:
# Visualizando linhas e colunas
data.shape

In [None]:
# Informações dos dados
data.info()

In [None]:
# Tipo dados
data.dtypes

In [None]:
# Amostra simples 5 
data.sample(5)

# **Análise dados - 1**

In [None]:
# Variáveis categóricas e númericas
data.columns

In [None]:
# Colunas númericas
nub = ["age", 
       "sex", 
       "cp", 
       "trestbps", 
       "chol", 
       "fbs", 	
       "restecg", 
       "thalach", 
       "exang", 
       "oldpeak", 
       "slope",	
       "ca",	
       "thal"]

# Coluna target
target = ["target"]

In [None]:
# Total
data["trestbps"].value_counts()

In [None]:
# Variavel target
target = ["target"]

# **Explorando as variáveis númericas**

In [None]:
# Resumo variáveis numéricas
data[nub].describe()

Algumas observações:

1. As colunas `trestbps`, `chol` e `fbs` parecem ter uma distribuição bastante simétrica (média e mediana não são muito diferentes).

2. As colunas `restecg` e `exang` parecem estar inclinadas para a direita (Média maior do que a Mediana).

3. A coluna `cp` parece estar mais inclinada para a esquerda (Média menor do que a Mediana).

In [None]:
plt.figure(figsize=(10.5, 5))

sns.countplot(data["target"])

In [None]:
sns.histplot(data["age"])

In [None]:
fig , axes = plt.subplots(nrows=3,ncols=3 , figsize = (20, 22))

ax = sns.distplot(data["trestbps"] , ax=axes[0, 0])
ax = sns.distplot(data["chol"] ,  ax=axes[0, 1])
ax = sns.distplot(data["fbs"] , ax=axes[0, 2])
ax = sns.distplot(data["restecg"], ax=axes[1, 0] )
ax = sns.distplot(data["thalach"] , ax=axes[1, 1] )
ax = sns.distplot(data["exang"] , ax=axes[1, 2] )
ax = sns.distplot(data["oldpeak"] , ax=axes[2, 0])
ax = sns.distplot(data["slope"], ax=axes[2, 1])
ax = sns.distplot(data["thal"], ax=axes[2, 2])


plt.show()

In [None]:
fig,ax = plt.subplots(1,2,figsize=(13,5))
sns.boxplot(y=data['trestbps'],x=data['target'],ax=ax[0])
sns.boxplot(y=data['trestbps'],x=data['target'],ax=ax[1])
plt.tight_layout()

In [None]:
features = nub
plt.figure(figsize = (20, 10))
for i in range(0, len(nub)):
    plt.subplot(3, len(nub)/2, i+1)
    sns.histplot(x = data[features[i]], kde = True, color = 'blue')
    plt.xlabel(features[i])
    plt.tight_layout()

In [None]:
features = nub
plt.figure(figsize = (20, 10))
for i in range(0, len(nub)):
    plt.subplot(3, len(nub)/2, i+1)
    sns.boxplot(x = data[features[i]], color = 'blue')
    plt.xlabel(features[i])
    plt.tight_layout()

In [None]:
plt.figure(figsize=(20, 10))

sns.countplot(data = data, x=data["age"], hue = "target")

In [None]:
# Correlação das colunas númericas
data[nub].corr()

In [None]:
# Correlação
data_corr = data[nub].corr()
data_corr

In [None]:
# Gráfico
plt.figure(figsize = (10.8, 8))
sns.heatmap(data_corr, cmap = 'Blues', annot = True, fmt = '.2f')

In [None]:
plt.figure(figsize = (15, 15))
sns.pairplot(data[nub], diag_kind = 'kde')

# **AutoML Modelo**

In [None]:
# Nessa função ele cria o pipeline transformação modelo 
# Segunda parte setup deve ser chamada antes de executar para função.

# Model
# Raiz da base dados
model = setup(data = data,
      # Features target
      target = "target",

      # Os valores ausentes em recursos numéricos são imputados com o valor 'médio' do recurso no conjunto de dados de treinamento. 
      # A outra opção disponível é 'mediana' ou 'zero'.
      numeric_imputation = 'mean',

      # Controla a entrada de confirmação de tipos de dados quando setupé executado. 
      # Ao executar em modo totalmente automatizado ou em um kernel remoto, deve ser True.
      silent = True)

In [None]:
# Essa função treina e avalia o desempenho de todos os estimadores disponíveis na biblioteca de modelos usando validação cruzada. 
# A saída dessa função é uma grade de pontuação com pontuações médias de validação cruzada. 
# As métricas avaliadas durante o CV podem ser acessadas usando a função get_metrics. 
# As métricas personalizadas podem ser adicionadas ou removidas usando as funções add_metric e remove_metric.
compare_models()

In [None]:
Random_Forest = create_model('rf')

In [None]:
Tuned_Random_Forest = tune_model(Random_Forest)

In [None]:
plot_model(estimator = Tuned_Random_Forest, plot = 'learning')

In [None]:
plot_model(estimator = Tuned_Random_Forest, plot = 'auc')

In [None]:
plot_model(estimator = Tuned_Random_Forest, plot = 'confusion_matrix')

In [None]:
plot_model( estimator = Tuned_Random_Forest, plot = 'feature')

In [None]:
evaluate_model(Tuned_Random_Forest)

In [None]:
interpret_model( Tuned_Random_Forest )

# **Modelo 02 - AutoML**

In [None]:
model = setup(data, 
             target = "target",
             session_id = 123, 
             log_experiment = True, 
             numeric_imputation = 'mean',
             silent = True)

In [None]:
# Modelos melhores
model = compare_models()

In [None]:
# Modelo Logistic Regression 
lr = create_model('lr')

In [None]:
# Model decision tree
dt = create_model('dt')

In [None]:
# Model random forest classifier
rf = create_model('rf', fold = 10)

In [None]:
# Tuned dos modelos

model_tuned_lr = tune_model(lr)
model_tuned_rf = tune_model(rf)
model_bagged_dt = ensemble_model(dt)

In [None]:
# Previsão do modelo de regressão logistica
model_pred_lr = predict_model(lr)
model_pred_lr.head()

In [None]:
# Previsão do modelo decision tree
model_pred_dt = predict_model(dt)
model_pred_dt.head()

In [None]:
# Previsão do modelo random forest 
model_pred_rt = predict_model(rf)
model_pred_rt.head()

# Métricas do modelo

In [None]:
# Evaluate modelo random forest 
evaluate_model(rf)

In [None]:
# Evaluate modelo regressão logistica
evaluate_model(lr)

In [None]:
# Evaluate modelo decision tree
evaluate_model(dt)

# Curva roc do modelos

In [None]:
# Curva roc do modelo random forest 
plot_model(rf)

In [None]:
# Curva roc do modelo regressão logistica 
plot_model(lr)

In [None]:
# Curva roc do modelo decision tree 
plot_model(dt)

# Confusion matrix

In [None]:
plot_model(rf, plot = 'confusion_matrix')

In [None]:
plot_model(lr, plot = 'confusion_matrix')

In [None]:
plot_model(dt, plot = 'confusion_matrix')

# Class report dos modelos

In [None]:
plot_model(lr, plot = 'class_report')

In [None]:
plot_model(rf, plot = 'class_report')

In [None]:
plot_model(dt, plot = 'class_report')

# Salvando modelo

In [None]:
save_model(lr, model_name='best-model')

# Conclusão

**Nesse modelo de classificação utlizei 3 modelos machine learning são eles regressão logística, random forest, decision tree o melhores modelos foi o regressão logística, random forest, extra trees, K-NN, ridge classifier esse objetivo do modelo e classificar tumores de câncer de mama são classificado por benignos, malignos. O resultado da matriz de confusão do primeiro modelo de regressão logística teve 132 para maligno e 73 para benigno. O modelo teve resultado ótimos no recal acima de 95,9% teve acerto total ou seja o modelo aprendeu muito**

# Referência

- https://pycaret.org/
- https://github.com/pycaret/pycaret
- https://pycaret.readthedocs.io/en/latest/
- https://medium.com/ensina-ai/pycaret-a-biblioteca-de-aprendizagem-de-m%C3%A1quinas-para-quem-tem-prazo-1c5b09667763