# Avaliação de modelos
## Métricas de avaliação de aprendizado supervisionado
### Introdução

Hoje vamos explorar o mundo do aprendizado supervisionado com um foco especial nas métricas de desempenho. Utilizaremos para isso o algoritmo K-Nearest Neighbors, mais conhecido como KNN, junto ao dataset de vinhos disponível no scikit-learn. O objetivo é entender como diferentes métricas podem ser usadas para avaliar a precisão dos nossos modelos de classificação.

### Preparação dos dados e modelo
Primeiramente, precisamos importar algumas bibliotecas essenciais para a análise. Vamos abrir o Jupyter notebook ou qualquer IDE Python de sua preferência e importar o necessário.


In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_wine
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

Com essas importações, temos tudo o que precisamos para carregar o dataset, treinar o modelo KNN e, finalmente, avaliar o desempenho usando várias métricas.

Agora vamos carregar o dataset de vinhos, que contém informações químicas de diferentes tipos. O objetivo é construir um modelo que possa prever o tipo de vinho com base nessas informações.

In [2]:
wine = load_wine()
X = wine.data
y = wine.target

Com os dados carregados, é possível prosseguir para dividir o dataset em conjuntos de treinamento e teste e realizar o treinamento. Isso é crucial para avaliar o desempenho real do nosso modelo.

Vamos agora dividir o dataset e treinar o modelo KNN. A divisão de dados nos ajuda a evitar o sobreajuste e garante que o modelo seja capaz de generalizar bem para novos dados.

Essa divisão é feita com o comando

In [3]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Para o treinamento, primeiramente inicializamos o modelo

In [4]:
knn = KNeighborsClassifier(n_neighbors=3)

Depois, treinamos o modelo com o fit

In [5]:
knn.fit(X_train, y_train)

E fazemos as previsões utilizando o conjunto de teste.

Com o modelo treinado e as previsões feitas, vamos agora explorar as métricas de desempenho.

In [6]:
y_pred = knn.predict(X_test)

### Métricas

No aprendizado supervisionado, é crucial avaliar corretamente o desempenho do modelo. Focaremos hoje em três métricas principais: acurácia, matriz de confusão e relatório de classificação, que inclui precisão, recall e pontuação F1. Vamos começar calculando a acurácia do modelo, que é calculada comparando o y teste e o y pred.

A acurácia nos dá uma visão geral de quantas previsões o modelo acertou, ou seja, 74%

In [7]:
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy:.2f}")

Acurácia do modelo: 0.74


Para entender melhor como o modelo está performando, especialmente em datasets desbalanceados ou quando estamos mais interessados em certas classes, precisamos, no entanto, olhar além da acurácia. Vamos examinar a matriz de confusão.

Ela nos mostra os acertos e os erros do modelo, de forma que podemos ver como ele está performando para cada classe.

Esse resultado nos dá, por exemplo, que, para a classe 0 de vinhos, ele acertou 17. Além disso, classificou um vinho que era da classe 0 como da classe 1, e um vinho que era da classe 0 como da classe 2. Já para a classe 1, foram quinze classificados corretamente, sendo que os outros cinco foram classificados como da classe 2. Já para a classe 2, foram oito classificados corretamente, dois da classe 2 foram classificados como da classe 0, e cinco, como da classe 1.


In [8]:
conf_matrix = confusion_matrix(y_test, y_pred)
print("Matriz de Confusão:")
print(conf_matrix)

Matriz de Confusão:
[[17  0  2]
 [ 1 15  5]
 [ 1  5  8]]


Agora vamos olhar para o relatório de classificação, que nos dá uma visão mais detalhada.

Esse relatório é gerado com o comando classification report.

O relatório inclui várias métricas importantes, como precisão, recall e a pontuação F1 para cada classe. Essas métricas nos ajudam a entender não só quando o modelo está correto, mas também como ele está errando.

Para cada classe, a precisão nos diz a proporção de identificações positivas que realmente eram corretas. Em outras palavras, quando o modelo prevê que uma amostra pertence a uma determinada classe de vinho, a precisão nos informa quão frequente essa previsão está correta. A precisão para a classe 0 foi de 89%, para a classe 1 foi de 75% e, para a classe 2, foi de 53%.

O recall, ou sensibilidade, diz qual proporção das amostras reais de uma classe foi identificada corretamente pelo modelo. Para os vinhos, isso significa quantos de uma classe específica foram corretamente classificados como pertencentes a ela. Um recall baixo para uma classe indica que o modelo está deixando passar muitos vinhos dessa categoria, confundindo-os com outras. O recall para a classe 0 foi de 89%, para a classe 1 foi de 71% e, para a classe 2, foi de 57%

A pontuação F1 ajuda a equilibrar a precisão e o recall em um único número, utilizando a média harmônica entre essas duas métricas. É especialmente útil quando precisamos de um equilíbrio entre precisão e recall, e não queremos otimizar uma às custas da outra. No nosso caso, com o dataset de vinhos, a pontuação F1 pode mostrar quão bem o modelo está performando de maneira geral para cada classe, considerando tanto a precisão como o recall. A pontuação F1 foi, dessa forma, 89% para a classe 0, 73% para a classe 1 e 55% para a classe 2.

In [9]:
class_report = classification_report(y_test, y_pred, target_names=wine.target_names)
print("Relatório de Classificação:")
print(class_report)

Relatório de Classificação:
              precision    recall  f1-score   support

     class_0       0.89      0.89      0.89        19
     class_1       0.75      0.71      0.73        21
     class_2       0.53      0.57      0.55        14

    accuracy                           0.74        54
   macro avg       0.73      0.73      0.73        54
weighted avg       0.74      0.74      0.74        54



### Considerações finais
E assim concluímos nossa jornada prática de hoje, explorando o fascinante mundo das métricas de avaliação no aprendizado supervisionado, através do algoritmo K-Nearest Neighbors, com o dataset de vinhos.

Aprendemos que, além da acurácia, métricas como a matriz de confusão, precisão, recall e a pontuação F1 nos fornecem insights valiosos sobre o desempenho do modelo, em diferentes aspectos, ajudando-nos a identificar áreas para melhoria e garantindo que os modelos sejam tão robustos quanto possível.