# Seleção de Modelos de Aprendizado de Máquina

O objetivo deste notebook é exercitar os seguintes conceitos:

- Exercitar conceitos sobre medidas de desempenho para regressão.
- Modelar um problema como uma tarefa de regressão.
- Avaliar um modelo de regressão.
- Exercitar conceitos sobre medidas de desempenho para classificação.
- Modelar um problema como uma tarefa de classificação.
- Avaliar um modelo de classificação.
- Exercitar conceitos sobre medidas de desempenho para clusterização.
- Modelar um problema como uma tarefa de clusterização.
- Avaliar um modelo de clustering.


# Avaliando o modelo de Regressão
## Regressão Linear

### Importando as bibliotecas necessárias para a análise


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Carregando a base de dados "diabetes_numeric"

In [9]:
# Lendo os dados
df_diabetes = pd.read_csv("/content/diabetes_numeric.csv")

df_diabetes.head(6)

Unnamed: 0,age,deficit,c_peptide
0,5.2,-8.1,4.8
1,8.8,-16.1,4.1
2,10.5,-0.9,5.2
3,10.6,-7.8,5.5
4,10.4,-29.0,5.0
5,1.8,-19.2,3.4


In [10]:
# Número de amostrar/linhas e features/colunas
df_diabetes.shape

(43, 3)

### Pré-processamento dos dados

In [11]:
# Verificando se há alguma coluna vazia
df_diabetes.describe()

Unnamed: 0,age,deficit,c_peptide
count,43.0,43.0,43.0
mean,9.032558,-8.148837,4.746512
std,4.022539,7.12308,0.720565
min,0.9,-29.0,3.0
25%,5.5,-12.7,4.45
50%,10.4,-7.8,4.9
75%,11.85,-2.0,5.1
max,15.6,-0.2,6.6


In [12]:
# Armazenando os labels/saídas em um array
labels = np.array(df_diabetes["c_peptide"])

# Salvando a ordem das features/colunas
feature_list = list(df_diabetes.columns)

In [13]:
# Removendo a coluna de labels do DataFrame original
df_diabetes = df_diabetes.drop("c_peptide", axis=1)

In [14]:
# Verificando o DataFrame
df_diabetes.columns

Index(['age', 'deficit'], dtype='object')

In [15]:
# Convertendo o df para array
data_diabetes = np.array(df_diabetes)

In [17]:
# Separando o conjunto de dados entre conjunto de treino e teste

# Importar train_test_split do scikitlearn 
from sklearn.model_selection import train_test_split

# Aplicando a funcao train_test_split para separar os conjuntos de treino e 
# teste segundo uma porcentagem de separação definida. 
train_data, test_data, train_labels, test_labels = train_test_split(data_diabetes, labels, test_size = 0.4, random_state = 562)

### Regressão Linear

In [18]:
# Importando o modelo a ser usado
from sklearn.linear_model import LinearRegression

# Instanciando o modelo
regression = LinearRegression()
# Treinando o modelo no conjunto de dados de treino
regression.fit(train_data, train_labels);

In [19]:
# Fazendo a previsão do modelo
prediction_diabetes = regression.predict(test_data)

# Exibindo os valores de previsão e real
p_diabetes = pd.DataFrame({"Real": test_labels, "Previsto": prediction_diabetes})
p_diabetes.head(10)

Unnamed: 0,Real,Previsto
0,5.1,4.695158
1,4.4,4.672497
2,5.5,4.902871
3,3.9,4.588618
4,5.1,5.195691
5,5.6,4.896023
6,4.9,5.020235
7,3.4,4.075317
8,3.9,4.725938
9,4.6,5.187362


In [20]:
# Importando as métricas de avaliação
from sklearn import metrics

# Calculando as medidas de erro
print('R2 - Coeficiente de determinação:', metrics.r2_score(test_labels, prediction_diabetes)) 
print("MAE - Mean Absolute Error:", metrics.mean_absolute_error(test_labels, prediction_diabetes))
print('MSE - Mean Square Error:', metrics.mean_squared_error(test_labels, prediction_diabetes))  

R2 - Coeficiente de determinação: 0.29316806464899836
MAE - Mean Absolute Error: 0.48052237411988585
MSE - Mean Square Error: 0.3706068184488523


# Avaliando o modelo de Classificação
## SVM

### Carregando a base de dados "bloodtransf"



In [21]:
# Dados para a análise
df_bloodtransf = pd.read_csv("/content/bloodtransf.csv")

# Lendo os dados
df_bloodtransf.head(6)

Unnamed: 0,V1,V2,V3,V4,Class
0,2,50,12500,98,2
1,0,13,3250,28,2
2,1,16,4000,35,2
3,2,20,5000,45,2
4,1,24,6000,77,1
5,4,4,1000,4,1


In [22]:
# Número de amostras e features
df_bloodtransf.shape

(748, 5)

In [28]:
# Valores das classes
df_bloodtransf.Class.value_counts()

1    570
2    178
Name: Class, dtype: int64

### Pré-processamento dos dados

In [29]:
# Criando um dicionário de mapeamento das classes
name_to_class = {
    1:0,
    2:1
}

# Substituindo os valores pelo mapeamento
df_bloodtransf["Class"] = df_bloodtransf["Class"].map(name_to_class)

# Verificando a transformação
df_bloodtransf.head(6)

Unnamed: 0,V1,V2,V3,V4,Class
0,2,50,12500,98,1
1,0,13,3250,28,1
2,1,16,4000,35,1
3,2,20,5000,45,1
4,1,24,6000,77,0
5,4,4,1000,4,0


In [30]:
df_bloodtransf.Class.value_counts()

0    570
1    178
Name: Class, dtype: int64

In [31]:
# Visão geral dos dados
df_bloodtransf.describe()

Unnamed: 0,V1,V2,V3,V4,Class
count,748.0,748.0,748.0,748.0,748.0
mean,9.506684,5.514706,1378.676471,34.282086,0.237968
std,8.095396,5.839307,1459.826781,24.376714,0.426124
min,0.0,1.0,250.0,2.0,0.0
25%,2.75,2.0,500.0,16.0,0.0
50%,7.0,4.0,1000.0,28.0,0.0
75%,14.0,7.0,1750.0,50.0,0.0
max,74.0,50.0,12500.0,98.0,1.0


In [32]:
# Armazenando os labels num array
labels2 = np.array(df_bloodtransf["Class"])

# Salvando a ordem das features
feature_list2 = list(df_bloodtransf.columns)

In [33]:
# Removendo a coluna de labels 
df_bloodtransf = df_bloodtransf.drop("Class", axis=1)

In [34]:
# Verificando 
df_bloodtransf.columns

Index(['V1', 'V2', 'V3', 'V4'], dtype='object')

In [35]:
# Convertendo o DataFrame para um array
data2 = np.array(df_bloodtransf)

In [36]:
# Separando o conjunto de dados entre treino e teste

# Importar train_test_split do scikitlearn 
from sklearn.model_selection import train_test_split

# Aplicando a funcao train_test_split para separar os conjuntos de treino e 
# teste segundo uma porcentagem de separação definida. 
train_data2, test_data2, train_labels2, test_labels2 = train_test_split(data2, labels2, test_size = 0.4, random_state = 562)

### Baseline 

In [37]:
# Criando a baseline
baseline = np.random.choice([0,1], size=len(test_labels2))

print(baseline)

[1 1 0 0 0 1 1 1 1 1 0 0 0 0 1 1 1 0 0 0 1 1 1 0 1 1 1 1 1 0 0 1 0 1 0 0 1
 0 1 0 0 0 0 0 1 0 0 1 0 0 0 1 1 1 0 0 1 0 1 1 0 0 0 0 1 1 0 1 1 1 0 0 0 0
 1 0 1 0 1 0 1 1 0 1 1 1 1 0 1 1 1 0 0 0 1 1 1 1 1 0 0 0 0 1 1 1 1 1 0 0 0
 0 1 0 1 0 0 1 1 1 0 1 1 0 0 0 0 1 1 1 1 1 1 0 0 0 0 1 1 1 0 0 0 0 1 1 1 1
 0 0 1 0 1 0 1 0 0 1 0 1 1 1 0 0 1 1 0 0 1 1 1 1 0 0 0 0 1 0 0 0 0 0 0 1 0
 1 1 1 1 0 1 0 0 0 0 1 1 1 1 0 0 1 0 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 1 1 0
 1 1 0 0 0 1 0 0 1 0 1 0 0 0 0 1 0 0 1 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 1 1 0
 0 1 1 0 0 1 1 1 1 1 1 0 1 0 1 0 1 1 0 1 0 0 0 1 1 0 1 0 1 0 1 1 1 0 0 0 1
 0 1 0 0]


In [39]:
# Importando as métricas de avaliação para Classificação
from sklearn import metrics  

# Calculando medidas de erro
# Essas medidas são calculadas a partir da comparação com o valor real do nosso conjunto de teste
print("MÉTRICAS CALCULADAS SOBRE O MODELO BASELINE\n")

print('Matriz de Confusão\n', metrics.confusion_matrix(test_labels2, baseline)) 
print('\nAcurácia\n', metrics.accuracy_score(test_labels2, baseline)) 
print('\nAcurácia Balanceada por classe\n', metrics.balanced_accuracy_score(test_labels2, baseline)) 
print('\nPrecision\n', metrics.precision_score(test_labels2, baseline)) 
print('\nRecall\n', metrics.recall_score(test_labels2, baseline)) 
print('\nF1\n', metrics.f1_score(test_labels2, baseline)) 

print('\nAUCROC\n', metrics.roc_auc_score(test_labels2, baseline))

MÉTRICAS CALCULADAS SOBRE O MODELO BASELINE

Matriz de Confusão
 [[110 121]
 [ 37  32]]

Acurácia
 0.47333333333333333

Acurácia Balanceada por classe
 0.46997929606625255

Precision
 0.20915032679738563

Recall
 0.463768115942029

F1
 0.2882882882882883

AUCROC
 0.46997929606625255


In [41]:
# Podemos usar também o Classification Report do sklearn
print('\nClassification Report\n', metrics.classification_report(test_labels2, baseline)) 


Classification Report
               precision    recall  f1-score   support

           0       0.75      0.48      0.58       231
           1       0.21      0.46      0.29        69

    accuracy                           0.47       300
   macro avg       0.48      0.47      0.44       300
weighted avg       0.62      0.47      0.51       300



### Support Vector Machine - SVM

In [42]:
# Importando o modelo SVM
from sklearn.svm import SVC

# Instanciando o modelo e determinando os hiperparâmetros: tipo de kernel
classifier = SVC(kernel="rbf")

# Treinando o modelo
classifier.fit(train_data2, train_labels2);

In [43]:
# Previsão do modelo
prediction_svm = classifier.predict(test_data2)

# Exibindo dataframe com valores 10 reais e suas respectivas previsões
p_svm = pd.DataFrame({'Real': test_labels2, 'Previsto': prediction_svm})  
p_svm.head(10)

Unnamed: 0,Real,Previsto
0,1,0
1,0,0
2,1,0
3,1,0
4,0,0
5,0,0
6,0,0
7,0,0
8,0,0
9,0,0


In [44]:
# Avaliando as métricas do modelo
print("MÉTRICAS CALCULADAS SOBRE O MODELO SVM/SVC\n")

print('Matriz de Confusão\n', metrics.confusion_matrix(test_labels2, prediction_svm)) 
print('\nAcurácia\n', metrics.accuracy_score(test_labels2, prediction_svm)) 
print('\nAcurácia Balanceada por classe\n', metrics.balanced_accuracy_score(test_labels2, prediction_svm)) 
print('\nPrecision\n', metrics.precision_score(test_labels2, prediction_svm)) 
print('\nRecall\n', metrics.recall_score(test_labels2, prediction_svm)) 
print('\nF1\n', metrics.f1_score(test_labels2, prediction_svm)) 

print('\nAUCROC\n', metrics.roc_auc_score(test_labels2, prediction_svm))

MÉTRICAS CALCULADAS SOBRE O MODELO SVM/SVC

Matriz de Confusão
 [[231   0]
 [ 69   0]]

Acurácia
 0.77

Acurácia Balanceada por classe
 0.5

Precision
 0.0

Recall
 0.0

F1
 0.0

AUCROC
 0.5


  _warn_prf(average, modifier, msg_start, len(result))


In [46]:
# Usando o classificador padrão
print('\nClassification Report\n', metrics.classification_report(test_labels2, prediction_svm)) 


Classification Report
               precision    recall  f1-score   support

           0       0.77      1.00      0.87       231
           1       0.00      0.00      0.00        69

    accuracy                           0.77       300
   macro avg       0.39      0.50      0.44       300
weighted avg       0.59      0.77      0.67       300



  _warn_prf(average, modifier, msg_start, len(result))


# Avaliando o modelo de Clusterização
## K-Means

### Importando a base de dados "wine"

In [47]:
# Base de dados
df_wine = pd.read_csv("/content/wine.csv")

# Lendo a base de dados
df_wine.head(6)

Unnamed: 0,class,Alcohol,Malic_acid,Ash,Alcalinity_of_ash,Magnesium,Total_phenols,Flavanoids,Nonflavanoid_phenols,Proanthocyanins,Color_intensity,Hue,OD280%2FOD315_of_diluted_wines,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735
5,1,14.2,1.76,2.45,15.2,112,3.27,3.39,0.34,1.97,6.75,1.05,2.85,1450


### Pré-processamento dos dados

In [48]:
# Verificando se há valores nulos
df_wine.describe()

Unnamed: 0,class,Alcohol,Malic_acid,Ash,Alcalinity_of_ash,Magnesium,Total_phenols,Flavanoids,Nonflavanoid_phenols,Proanthocyanins,Color_intensity,Hue,OD280%2FOD315_of_diluted_wines,Proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,1.938202,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258
std,0.775035,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474
min,1.0,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,1.0,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5
50%,2.0,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5
75%,3.0,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0
max,3.0,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


In [68]:
# Número de instâncias e atributos
df_wine.shape

(178, 13)

In [49]:
# Verificando os valores de classes
df_wine["class"].value_counts()

2    71
1    59
3    48
Name: class, dtype: int64

In [50]:
# Mapeando as classes para os valores 0, 1 e 2
map_classes = {
    1:0,
    2:1,
    3:2
}

# Aplicando a transformação
df_wine["class"] = df_wine["class"].map(map_classes)

In [51]:
# Verificando 
df_wine["class"].value_counts()

1    71
0    59
2    48
Name: class, dtype: int64

In [52]:
# Armazenando os labels em um array
labels3 = np.array(df_wine["class"])

# Salvando a ordem das features
feature_list3 = list(df_wine.columns)

In [53]:
# Removendo a coluna de labels
df_wine = df_wine.drop("class", axis=1)

In [54]:
# Verificando
df_wine.columns

Index(['Alcohol', 'Malic_acid', 'Ash', 'Alcalinity_of_ash', 'Magnesium',
       'Total_phenols', 'Flavanoids', 'Nonflavanoid_phenols',
       'Proanthocyanins', 'Color_intensity', 'Hue',
       'OD280%2FOD315_of_diluted_wines', 'Proline'],
      dtype='object')

In [55]:
# Tomando nossos dados de entrada
data3 = np.array(df_wine)

In [56]:
# Separando o conjunto de dados em treino e teste
# Importando a função train_test_split do scikitlearn 
from sklearn.model_selection import train_test_split

# Aplicando a funcao train_test_split para separar os conjuntos de treino e 
# teste segundo uma porcentagem de separação definida. 
train_data3, test_data3, train_labels3, test_labels3 = train_test_split(data3, labels3, test_size = 0.4, random_state = 562)

### Baseline para Clusterização

In [57]:
# Criando a baseline
baseline_preds = np.random.choice([0,1,2], size=len(test_labels3))

In [58]:
print(baseline_preds)

[0 2 0 1 2 1 1 2 0 2 2 0 1 1 0 0 1 1 2 0 1 1 2 2 0 2 2 2 1 0 1 2 2 1 2 1 1
 1 2 0 2 0 2 1 1 2 1 0 1 0 0 1 2 2 1 0 0 2 2 1 2 0 1 0 2 0 0 1 0 0 2 2]


In [59]:
# Importando as bibliotecas para calculo de métricas de Clusterização
from sklearn import metrics  
from sklearn.metrics import cluster

# Avaliando o baseline!
# Essas medidas são calculadas a partir da comparação com o valor real do nosso conjunto de teste
print("MÉTRICAS AVALIADAS SOBRE A BASELINE\n")

print('Coeficiente de Silhueta\n', metrics.silhouette_score(test_data3, baseline_preds)) 
print('\nDavies-Bouldin Score\n', metrics.davies_bouldin_score(test_data3, baseline_preds)) 

print('\nMatriz de Contingência\n', metrics.cluster.contingency_matrix(test_labels3, baseline_preds)) 
print('\nMutual information\n', metrics.mutual_info_score(test_labels3, baseline_preds)) 

MÉTRICAS AVALIADAS SOBRE A BASELINE

Coeficiente de Silhueta
 -0.0881868769212062

Davies-Bouldin Score
 7.4307445347426215

Matriz de Contingência
 [[11  6 10]
 [ 6  9 11]
 [ 5  9  5]]

Mutual information
 0.030775844196669982


### K-Means

In [61]:
# Importando o modelo K-Means
from sklearn.cluster import KMeans

# Instanciando o modelo
clustering = KMeans(n_clusters = 3, random_state=562)

# Treinando o modelo
clustering.fit(train_data3);

In [62]:
# Fazendo a previsão do modelo em todo o conjunto de teste
predictions_kmeans = clustering.predict(test_data3)

# Exibindo dataframe com valores 10 reais e suas respectivas previsões
p_kmeans = pd.DataFrame({'Real': test_labels3, 'Previsto': predictions_kmeans})  
p_kmeans.head(10)

Unnamed: 0,Real,Previsto
0,0,2
1,2,2
2,2,2
3,0,1
4,0,1
5,1,0
6,0,1
7,2,2
8,0,1
9,1,2


In [66]:
# Avaliando o modelo K-Means
print("MÉTRICAS AVALIADAS SOBRE O MODELO K-MEANS\n")

print('Coeficiente de Silhueta\n', metrics.silhouette_score(test_data3, predictions_kmeans)) 
print('\nDavies-Bouldin Score\n', metrics.davies_bouldin_score(test_data3, predictions_kmeans)) 

print('\nMatriz de Contingência\n', metrics.cluster.contingency_matrix(test_labels3, predictions_kmeans)) 
print('\nMutual information\n', metrics.mutual_info_score(test_labels3, predictions_kmeans)) 

MÉTRICAS AVALIADAS SOBRE O MODELO K-MEANS

Coeficiente de Silhueta
 0.5419181347387795

Davies-Bouldin Score
 0.5667156238311658

Matriz de Contingência
 [[ 0 21  6]
 [18  1  7]
 [ 7  0 12]]

Mutual information
 0.45978654042981626
