El siguiente notebook tiene la intención de especificar en que conciste la matriz de confusión, y como se calcula precisión, exactitud y sensibilidad



Una matriz de confusión se trata de un recuento del número de resultados que fueron clasificados en una categorica considerando la categoria original. Por lo que es evidente que se debe realizar sobre un conjunto de datos de testeo, pues además de la predicción se debe contar con la etiqueta original

In [1]:
# Cargamos los datos

from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', as_frame=False)

In [2]:
X, y = mnist.data, mnist.target
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
y_train_5 = (y_train == '5')
y_test_5 = (y_test == '5')

In [4]:
from sklearn.linear_model import SGDClassifier

sgd_clf = SGDClassifier(random_state=42)
sgd_clf.fit(X_train, y_train_5)
some_digit = X[0]
sgd_clf.predict([some_digit])

array([ True])

In [5]:
from sklearn.model_selection import cross_val_predict

y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)

# Inputs Clasificador lineal | Conjunto de entrenamiento (input) | Output de entrenamiento | 

In [10]:
""" Esto es lo importante, utilizar confusion_matrix"""


from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_train_5, y_train_pred)
cm

array([[53892,   687],
       [ 1891,  3530]])

In [11]:
y_train_perfect_predictions = y_train_5  # Setear para ver como se vería un rendimiento perfecto
confusion_matrix(y_train_5, y_train_perfect_predictions)

array([[54579,     0],
       [    0,  5421]])

Scikit-Learn proporciona varias funciones para calcular métricas de clasificador, incluida la precisión y la recuperación:

In [12]:
from sklearn.metrics import precision_score, recall_score
precision_score(y_train_5, y_train_pred)  # == 3530 / (687 + 3530)


0.8370879772350012

In [13]:
recall_score(y_train_5, y_train_pred)  # == 3530 / (1891 + 3530)

0.6511713705958311

Ahora nuestro detector de 5 no se ve tan brillante como cuando analizamos su precisión. Cuando afirma que una imagen representa un 5, es correcto sólo el 83,7% de las veces. Además, sólo detecta el 65,1% de los 5.

A menudo resulta conveniente combinar precisión y recuperación en una única métrica llamada puntuación F1, especialmente cuando se necesita una única métrica para comparar dos clasificadores. La puntuación F1 es la media armónica de precisión y recuperación (Ecuación 3-3). Mientras que la media regular trata todos los valores por igual, la media armónica da mucho más peso a los valores bajos. Como resultado, el clasificador sólo obtendrá una puntuación F1 alta si tanto la recuperación como la precisión son altas.

In [15]:
from sklearn.metrics import f1_score
f1_score(y_train_5, y_train_pred)

0.7325171197343847