📊 Métricas de Avaliação de Modelos de Classificação
Acurácia, precisão, sensibilidade, especificidade e F1-score são métricas fundamentais para avaliar o desempenho de modelos de classificação. Elas medem diferentes aspectos dos acertos e erros das previsões, ajudando a entender se o modelo está funcionando como esperado.

🧩 Conceitos Iniciais: Matriz de Confusão
Antes de entender as métricas, é essencial compreender os elementos da matriz de confusão:

Termo	Definição
VP (Verdadeiro Positivo)	O modelo previu positivo corretamente
VN (Verdadeiro Negativo)	O modelo previu negativo corretamente
FP (Falso Positivo)	O modelo previu positivo, mas era negativo
FN (Falso Negativo)	O modelo previu negativo, mas era positivo

🔗 Entenda a Matriz de Confusão - scikit-learn

✅ Acurácia
Definição: Proporção de acertos (VP + VN) sobre o total de previsões.

Acur
a
ˊ
cia
=
𝑉
𝑃
+
𝑉
𝑁
𝑉
𝑃
+
𝑉
𝑁
+
𝐹
𝑃
+
𝐹
𝑁
Acur
a
ˊ
 cia=
VP+VN+FP+FN
VP+VN
​

📌 Útil em problemas com classes balanceadas, mas pode ser enganosa com dados desbalanceados.

🔗 Accuracy Score - Scikit-learn

🎯 Precisão (Precision)
Definição: Entre as previsões positivas feitas, quantas são realmente positivas?

Precis
a
˜
o
=
𝑉
𝑃
𝑉
𝑃
+
𝐹
𝑃
Precis
a
˜
 o=
VP+FP
VP
​

📌 Ideal quando falsos positivos são mais custosos (ex: alarmes falsos em diagnósticos médicos).

🔗 Precision Score - Scikit-learn

🔍 Sensibilidade / Recall
Definição: Entre as amostras realmente positivas, quantas foram corretamente identificadas?

Recall
=
𝑉
𝑃
𝑉
𝑃
+
𝐹
𝑁
Recall=
VP+FN
VP
​

📌 Essencial quando falsos negativos são críticos (ex: detecção de doenças).

🔗 Recall Score - Scikit-learn

❌ Especificidade
Definição: Mede a proporção de verdadeiros negativos corretamente classificados.

Especificidade
=
𝑉
𝑁
𝑉
𝑁
+
𝐹
𝑃
Especificidade=
VN+FP
VN
​

📌 Importante para avaliar a capacidade do modelo de reconhecer a classe negativa.

⚖️ F1-Score
Definição: Média harmônica entre precisão e sensibilidade (recall).

F1
=
2
⋅
Precis
a
˜
o
⋅
Recall
Precis
a
˜
o
+
Recall
F1=2⋅
Precis
a
˜
 o+Recall
Precis
a
˜
 o⋅Recall
​

📌 Útil quando se busca equilíbrio entre precisão e recall, principalmente com dados desbalanceados.

🔗 F1 Score - Scikit-learn

🎯 Quando usar cada métrica?
Métrica	Quando usar
Acurácia	Quando os dados são balanceados
Precisão	Quando falsos positivos são mais graves
Sensibilidade (Recall)	Quando falsos negativos são mais graves
Especificidade	Para avaliar o acerto da classe negativa
F1-Score	Quando há desequilíbrio entre as classes e se busca equilíbrio entre FP e FN

🖼️ Visual
Para complementar, uma imagem útil:
🔗 Matriz de Confusão e Métricas – Imagem Interativa no ML Cheatsheet

📚 Leituras e Referências
Scikit-learn: Métricas de Classificação

Machine Learning Metrics - Towards Data Science

Google Developers: Precision, Recall and F1


## 📦 Importação de Bibliotecas

In [1]:
from tensorflow.keras import datasets, layers, models
from tensorflow import math, argmax
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import pandas as pd

## 📊 Carregamento do TensorBoard e Dataset MNIST

In [None]:
%load_ext tensorboard
logdir = 'log'
(train_images, train_labels), (test_images, test_labels) = datasets.mnist.load_data()

## 🧼 Pré-processamento das Imagens

In [None]:
train_images = train_images.reshape((60000, 28, 28, 1))
test_images = test_images.reshape((10000, 28, 28, 1))
train_images, test_images = train_images / 255.0, test_images / 255.0
classes = [0,1,2,3,4,5,6,7,8,9]

## 🧠 Construção do Modelo CNN

In [None]:
model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)))
model.add(layers.MaxPool2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPool2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))

## ⚙️ Compilação e Treinamento do Modelo

In [None]:
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(train_images, train_labels, epochs=5, validation_data=(test_images, test_labels))

## 🔮 Predição nos Dados de Teste

In [None]:
y_true = test_labels
y_pred = model.predict(test_images)

## 📏 Matriz de Confusão

In [None]:
predicted_labels = argmax(y_pred, axis=1)
con_mat = math.confusion_matrix(labels=y_true, predictions=predicted_labels).numpy()
con_mat_norm = np.around(con_mat.astype('float') / con_mat.sum(axis=1)[:, np.newaxis], decimals=4)

con_mat_df = pd.DataFrame(con_mat_norm, index=classes, columns=classes)

figure = plt.figure(figsize=(8, 8))
sns.heatmap(con_mat_df, annot=True, cmap=plt.cm.Blues)
plt.tight_layout()
plt.ylabel('True label')
plt.xlabel('Predicted label')
plt.show()

## 📈 Cálculo das Métricas por Classe

In [None]:
tp_total = 0
fp_total = 0
fn_total = 0
tn_total = 0

for number_class in con_mat_df.index:
  tp = con_mat_df.loc[number_class, number_class]
  fp = con_mat_df.loc[:, number_class].sum() - tp
  fn = con_mat_df.loc[number_class, :].sum() - tp
  tn = con_mat_df.values.sum() - (tp + fp + fn)

  tp_total += tp
  fp_total += fp
  fn_total += fn
  tn_total += tn
  accuracy = (tn+tp)/(tp+tn+fp+fn)
  precision = tp/(tp+fp)
  sensitivity = tp/(tp+fn)
  f1_score = 2 * precision * sensitivity/(precision + sensitivity)
  print(f"Class {number_class}:")
  print(f"  True Positives  (TP): {tp:.4f}")
  print(f"  False Positives (FP): {fp:.4f}")
  print(f"  False Negatives (FN): {fn:.4f}")
  print(f"  True Negatives  (TN): {tn:.4f}\n")
  print(f"  Accuracy: {accuracy:.4f}")
  print(f"  Precision: {precision:.4f}")
  print(f"  Sensitivity: {sensitivity:.4f}")
  print(f"  F1 Score: {f1_score:.4f}\n")

## 📊 Métricas Totais (Macro Média)

In [None]:
print(f"Total:")
print(f"  True Positives  (TP): {tp_total:.4f}")
print(f"  False Positives (FP): {fp_total:.4f}")
print(f"  False Negatives (FN): {fn_total:.4f}")
print(f"  True Negatives  (TN): {tn_total:.4f}\n")
print(f"  Accuracy: {((tn_total+tp_total)/(tp_total+tn_total+fp_total+fn_total)):4f}")
print(f"  Precision: {(tp_total/(tp_total+fp_total)):4f}")
print(f"  Sensitivity: {(tp_total/(tp_total+fn_total)):4f}")
print(f"  F1 Score: {(2 * tp_total/(2*tp_total+fp_total+fn_total)):4f}")