# Métricas de Evaluación de Modelos
Brian Vergara - MLOps

In [1]:
# Importación de librerías necesarias
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, roc_auc_score, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_digits
from sklearn.preprocessing import label_binarize

In [2]:
# Cargar el conjunto de datos "Digits"
digits = load_digits()
X = digits.data
y = digits.target

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

In [3]:
# Como hay múltiples clases, necesitamos binarizar las etiquetas para calcular el ROC AUC
y_test_binarized = label_binarize(y_test, classes=np.arange(10))
y_pred_binarized = label_binarize(y_pred, classes=np.arange(10))

In [4]:
# Calcular métricas para cada clase y luego promediarlas
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred, average='macro')
precision = precision_score(y_test, y_pred, average='macro')
f1 = f1_score(y_test, y_pred, average='macro')
roc_auc = roc_auc_score(y_test_binarized, y_pred_binarized, average='macro', multi_class='ovr')

In [5]:
print(f"Accuracy: {accuracy:.2f}")
print(f"Recall: {recall:.2f}")
print(f"Precision: {precision:.2f}")
print(f"F1 Score: {f1:.2f}")
print(f"ROC AUC Score: {roc_auc:.2f}")

Accuracy: 0.97
Recall: 0.97
Precision: 0.97
F1 Score: 0.97
ROC AUC Score: 0.98


# Interpretación de resultados

Accuracy (Exactitud): El modelo clasificó correctamente el 97% de las instancias en el conjunto de prueba. Esto indica que el modelo es muy preciso en general para distinguir entre las diferentes clases de dígitos.

Recall (Sensibilidad): De todas las instancias positivas (verdaderas) en cada clase, el modelo identificó correctamente el 97%. Esto muestra que el modelo es muy efectivo para detectar las instancias de cada clase.

Precision (Precisión): De todas las instancias que el modelo predijo como positivas para cada clase, el 97% fueron realmente positivas. Esto indica que el modelo tiene una alta precisión y no está haciendo muchas predicciones incorrectas para cada clase.

F1 Score: El F1 Score es la media armónica de la precisión y el recall. Un valor de 0.97 indica que el modelo tiene un buen equilibrio entre precisión y recall. Es un buen indicador del rendimiento general del modelo.

ROC AUC Score: El Área Bajo la Curva de la Característica Operativa del Receptor (ROC AUC) es de 0.98. Esto significa que hay un 98% de probabilidad de que el modelo clasifique correctamente una instancia positiva al azar más alto que una instancia negativa al azar. Un valor cercano a 1 indica un excelente rendimiento del modelo en términos de discriminación entre clases.

# Conclusión

Los resultados de las métricas muestran que el modelo de Random Forest tiene un rendimiento excelente en el dataset de dígitos. La alta precisión, recall, F1 Score y ROC AUC Score indican que el modelo es robusto y efectivo para clasificar correctamente las instancias.