Neste exemplo treinamos e avaliamos um modelo preditivo usando **HOLDOUT**
- técnica de aprendizagem usada: KNN (K-nearest Neighbors)
- tarefa supervisionada: classificação de dígitos manuscritos
- métricas de avaliação: taxa de acerto, precisão, revocação, f1 e matriz de confusão

Importando os recursos necessários:
- numpy: biblioteca numérica
- sklearn: biblioteca de machine learning, em especial o KNN e as métricas de avaliação

In [1]:
# Importa bibliotecas necessárias 
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score
from sklearn.datasets import load_digits


Carregando a base de dados do problema, representada aqui por X e y, onde:
- X: array contendo N instâncias com M atributos (atributos de entrada do problema)
- y: array contendo o rótulo (atributo alvo) de cada instância de X


In [2]:
# Neste exemplo a base de dados digits é composto por 1.797 instâncias (N=1.797), imagens de tamanho 8x8
# e cada instância é representada por um vetor de 64 atributos (M=64), sendo que cada atributo pode ter um valor entre 0 e 16 (valor do pixel)

X, y = load_digits(return_X_y=True)
print("Formato de X: ", X.shape)
print("Formato de y: ", y.shape)



Formato de X:  (1797, 64)
Formato de y:  (1797,)


Neste ponto definimos como faremos nosso HOLDOUT. Divide-se a base em uma porção para teste e o restante para treinamento. Neste exemplo, usamos 70/30, ou seja 70% para treinamento e 30% para teste.

A função train_test_split faz isto de forma randômica e estratificada (respeitando a distribuição das classes), criando os seguintes arrays:

- X_train e y_train: representam a base de treinamento
- X_test e y_test: representam a base de teste

Obs: 
- random_state é usado para garantir repetitibilidade dos experimentos
- stratify é usada para que a divisão de treino e teste respeite a distribuição dos rótulos em y


In [3]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

print("Formato de X_train: ", X_train.shape)
print("Formato de y_train: ", y_train.shape)
print("Formato de X_test: ", X_test.shape)
print("Formato de y_test: ", y_test.shape)



Formato de X_train:  (1257, 64)
Formato de y_train:  (1257,)
Formato de X_test:  (540, 64)
Formato de y_test:  (540,)


Neste ponto definimos a técnica de Machine Learning a ser utilizada e treinamos o modelo. No exemplo, um classificador KNN onde K=3. Importante destacar que há no sklearn outros parâmetros do KNN que podemos explorar na busca por um modelo robusto. 

In [4]:
# Definindo a técnica a ser utilizada
clf = KNeighborsClassifier(n_neighbors=5,weights='distance')

# Treinando o modelo
clf.fit(X_train, y_train)


ValueError: weights not recognized: should be 'uniform', 'distance', or a callable function

A avaliação do modelo é realizada abaixo. 

- A função *predict()* retorna a classe para cada exemplo de teste.

- A função *predict_proba()* retorna a probabilidade de cada classe para cada exemplo de teste.

- A função *score()* retorna a taxa de acerto (acurácia) do classificador criado, observe que ela recebe como entrada a base de teste. A métrica taxa de acerto deve ser usada para bases balanceadas, no caso do problema apresentar diferença significativa na quantidade de exemplos por classe, deve-se usar *f1_score()* que é a média harmônica entre precisão e revocação.

Considerando tp=true positivive, fp=false positive e fn=false negative.

- A função *precision_score()*: calcula tp / (tp + fp)

- A função *recall_score()* calcula: tp / (tp + fn)

- A função *f1_score()* calcula a média harmônica entre precision e recall.

- A função *confusion_matrix()* recebe como entrada os rótulos do teste (y_test) e a predição do modelo (y_pred). Ela retorna uma matriz CxC onde C é a quandidade de classes. No exemplo C=10, logo uma matriz 10x10 onde na diagonal temos os acertos e nas demais posições as confusões entre as classes do problema. Usada para avaliar classificador apenas e muito importante para analisarmos os erros do nosso modelo (ou hipótese de solução para o problema).  


In [None]:

# Retorna a classe predita para cada exemplo de teste
y_pred=clf.predict(X_test)

# Retorna para cada instância de teste a probabilidade de cada classe
predicted_proba=clf.predict_proba(X_test)

# Calculando a acurácia (taxa de acerto) na base de teste (usando em bases balanceadas)
score=clf.score(X_test, y_test)
print("Accuracy = %.3f " % (score*100))

# Calculando a precisão na base de teste
precision=precision_score(y_test, y_pred, average='weighted')
print("Precision = %.3f " % precision)

# Calculando a revocação na base de teste
recall=recall_score(y_test, y_pred, average='weighted')
print("Recall = %.3f " % recall)

# Calculando a f1 na base de teste
f1=f1_score(y_test, y_pred, average='weighted')
print("F1 = %.3f " % f1)

# Exemplo mostrando o resultado previsto para a primeira instância de teste
print("Primeira instância na base de teste foi considerada como da classe: %d" % y_pred[0])

# Exemplo abaixo mostrando para a primeira instância de teste a probabilidade de cada classe
print("Probabilidade de cada classe para a primeira instância: ", predicted_proba[0])

# Calculando a matriz de confusão
print("Matriz de Confusão:")
matrix = confusion_matrix(y_test, y_pred)
print(matrix)

# salvando o modelo 
from joblib import dump, load
with open("KNN.mod", 'wb') as fo:  
    dump(clf, fo)