Neste exemplo treinamos e avaliamos um modelo preditivo usando **T-fold-CrossValidation**, ou Valida√ß√£o Cruzada com T Pastas

- t√©cnica de aprendizagem usada: KNN (K-nearest Neighbors)
- tarefa supervisionada: classifica√ß√£o de d√≠gitos manuscritos
- m√©tricas de avalia√ß√£o: taxa de acerto, precis√£o, revoca√ß√£o, f1 e matriz de confus√£o

Importando os recursos necess√°rios:
- numpy: biblioteca num√©rica
- sklearn: biblioteca de machine learning, em especial o KNN, as m√©tricas de avalia√ß√£o e o model_selection que nos permite executar valida√ß√£o cruzada

In [11]:
# Importa bibliotecas necess√°rias 
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn import model_selection
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score
from sklearn.datasets import load_digits

Carregando a base de dados do problema, representada aqui por X e y, onde:
- X: array contendo N inst√¢ncias com M atributos (atributos de entrada do problema)
- y: array contendo o r√≥tulo (atributo alvo) de cada inst√¢ncia em X


In [12]:
# Neste exemplo a base de dados digits √© composto por 1.797 inst√¢ncias (N=1.797), imagens de tamanho 8x8
# e cada inst√¢ncia √© representada por um vetor de 64 atributos (M=64), sendo que cada atributo pode ter um valor entre 0 e 16 (valor do pixel)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sys
import os
import warnings
from  lib_classificador import UtilClassificadores
from dataset_manager import DatasetManager
dataset_manager = DatasetManager('svm')
datasets = dataset_manager.carregar_dataset('../datasets/svm_integracao_teste.pkl')
dataset_manager.imprimir_informacoes()


X = datasets['X_train']
y = datasets['y_train']
print("Formato de X: ", X.shape)
print("Formato de y: ", y.shape)



‚úÖ Dataset carregado de ../datasets/svm_integracao_teste.pkl

üìä Informa√ß√µes do Dataset: svm_integracao_teste
Nome do dataset: svm_integracao_teste
X_train.shape: (32259, 48)
X_val.shape: (24195, 48)
X_test.shape: (24194, 48)
y_train length: 32259
y_val length: 24195
y_test length: 24194
X_train_scaled.shape: (32259, 48)
X_val_scaled.shape: (24195, 48)
X_test_scaled.shape: (24194, 48)
Features count: 48
Scaler type: PowerTransformer
Classes mapping: {'interf': 0, 'normal': 1}
Formato de X:  (32259, 48)
Formato de y:  (32259,)


In [13]:
# Usando o GridSearch para buscar os melhores par√¢metros para nosso modelo
from sklearn.model_selection import train_test_split, GridSearchCV

# Separando da base original uma base de valida√ß√£o
X, X_val, y, y_val = train_test_split(X,y, test_size=0.2, random_state=42, stratify=y)

X = datasets['X_train']
y = datasets['y_train']
X_val = datasets['X_test']
y_val = datasets['y_test']

# Definindo a t√©cnica a ser utilizada
clf = KNeighborsClassifier()

# par√¢metros que o Gridsearch utilizar√° em sua busca
parameters = [{'n_neighbors':[1,3,5,7,9,11], 'weights': ['uniform', 'distance'], 'p': [1,2]}]

# Execu√ß√£o do Gridsearch 
gs=GridSearchCV(clf, parameters, scoring='accuracy', cv=5, n_jobs=-1)
gs.fit(X_val, y_val)

# Mostrando a tabela de resultados do GridSearch (opcional)
from tabulate import tabulate
import pandas as pd
df=gs.cv_results_
print(tabulate(df, headers='keys', tablefmt='psql'))
print("Melhores par√¢metros encontrados: ", gs.best_params_)

# Recuperando os melhores resultados
clf=gs.best_estimator_


+-----------------+----------------+-------------------+------------------+---------------------+-----------+-----------------+----------------------------------------------------+---------------------+---------------------+---------------------+---------------------+---------------------+-------------------+------------------+-------------------+
|   mean_fit_time |   std_fit_time |   mean_score_time |   std_score_time |   param_n_neighbors |   param_p | param_weights   | params                                             |   split0_test_score |   split1_test_score |   split2_test_score |   split3_test_score |   split4_test_score |   mean_test_score |   std_test_score |   rank_test_score |
|-----------------+----------------+-------------------+------------------+---------------------+-----------+-----------------+----------------------------------------------------+---------------------+---------------------+---------------------+---------------------+---------------------+----------

        nan 0.61312722        nan 0.63565338        nan 0.61618569
        nan 0.63941474        nan 0.61907915        nan 0.63941467
        nan 0.62168318        nan 0.64007593        nan 0.62329504]


Neste ponto definimos a t√©cnica de Machine Learning a ser utilizada e treinamos o modelo usando Valida√ß√£o Cruzada. No exemplo, um classificador KNN onde K=3. Importante destacar que h√° no sklearn outros par√¢metros do KNN que podemos explorar na busca por um modelo robusto. 

Observer que, diferente do HOLDOUT, n√£o usamos a fun√ß√£o *fit()* e sim *model_selection.cross_val_score()*. Esta fun√ß√£o ir√° treinar T modelos. A cada itera√ß√£o treina usando T-1 pastas e testa com uma delas. Troca a pasta de teste a cada itera√ß√£o. Ao final fornece como resultado acur√°cia m√©dia + desvio padr√£o.

OBS: protocolo muito mais robusto que o HOLDOUT, pois cada inst√¢ncia do problema ser√° teste em alguma itera√ß√£o.

In [14]:

# Usando a valida√ß√£o cruzada com 5 folds neste exemplo.
T=5 # n√∫mero de pastas ou folds
result = model_selection.cross_val_score(clf, X, y, cv=T)


Avalia√ß√£o do modelo abaixo:

- A vari√°vel *result* que criamos anteriormente j√° tem a taxa de acerto m√©dia e desvio padr√£o calculadas pela fun√ß√£o *model_selection.cross_val_score()*.

- A fun√ß√£o *model_selection.cross_val_predict()* retorna a classe para cada exemplo de teste.

- A fun√ß√£o *model_selection.cross_val_predict()* com par√¢metro '*method=predict_proba*' retorna a probabilidade de cada classe para cada exemplo de teste.

Considerando tp=true positivive, tn=true negative, fp=false positive, fn=false negative.

- A fun√ß√£o *precision_score()*: calcula tp / (tp + fp)

- A fun√ß√£o *recall_score()* calcula: tp / (tp + fn)

- A fun√ß√£o *f1_score()* calcula a m√©dia harm√¥nica entre *precision* e *recall*.

- A fun√ß√£o *confusion_matrix()* recebe como entrada os r√≥tulos do teste (y_test) e a predi√ß√£o do modelo (y_pred). Ela retorna uma matriz CxC onde C √© a quandidade de classes. No exemplo C=10, logo uma matriz 10x10 onde na diagonal temos os acertos e nas demais posi√ß√µes as confus√µes entre as classes do problema. A matriz de confus√£o √© usada para avaliar classificador apenas e muito importante para analisarmos os erros do nosso modelo (ou hip√≥tese de solu√ß√£o para o problema).  


In [15]:

# Mostrando a acur√°cia m√©dia e desvio padr√£o.
print("\nCross Validation Results %d folds:" % T)
print("Mean Accuracy: %.5f" % result.mean())
print("Mean Std: %.5f" % result.std())

# Calculando a predi√ß√£o para cada exemplo de teste
y_pred = model_selection.cross_val_predict(clf, X, y, cv=T)

# Calculando para cada inst√¢ncia de teste a probabilidade de cada classe
predicted_proba=model_selection.cross_val_predict(clf, X, y, cv=T, method='predict_proba')

# Calculando a precis√£o na base de teste
precision=precision_score(y, y_pred, average='weighted')
print("Precision = %.3f " % precision)

# Calculando a revoca√ß√£o na base de teste
recall=recall_score(y, y_pred, average='weighted')
print("Recall = %.3f " % recall)

# Calculando f1 na base de teste
f1=f1_score(y, y_pred, average='weighted')
print("F1 = %.3f " % f1)

# Exemplo mostrando o resultado previsto para a primeira inst√¢ncia de teste
print("Primeira inst√¢ncia na base de teste foi considerada como da classe: %d" % y_pred[0])

# Exemplo abaixo mostrando para a primeira inst√¢ncia de teste a probabilidade de cada classe
print("Probabilidade de cada classe para a primeira inst√¢ncia: ", predicted_proba[0])

# Calculando a matriz de confus√£o
print("Matriz de Confus√£o:")
matrix = confusion_matrix(y, y_pred)
print(matrix)

# salvando o modelo 
from joblib import dump, load
with open("KNN.mod", 'wb') as fo:  
    dump(clf, fo)


Cross Validation Results 5 folds:
Mean Accuracy: 0.65228
Mean Std: 0.00619
Precision = 0.651 
Recall = 0.652 
F1 = 0.651 
Primeira inst√¢ncia na base de teste foi considerada como da classe: 0
Probabilidade de cada classe para a primeira inst√¢ncia:  [0.65562452 0.34437548]
Matriz de Confus√£o:
[[12905  5359]
 [ 5858  8137]]
