##### Métricas

El accuracy (vamos a traducirlo como exactitud) no siempre es una buena métrica para evaluar el rendimiento de un modelo de clasificación, especialmente en situaciones en las que los datos están desequilibrados o cuando los errores de diferentes clases tienen un impacto desigual.

Veamos estos casos más a detalle

1.Datos desequilibrados: Cuando las clases en el conjunto de datos están desequilibradas, es decir, una o varias clases tienen muchos más ejemplos que otras, el accuracy puede ser alto incluso si el modelo es deficiente en la predicción de la clase minoritaria. Esto se debe a que el modelo tiende a inclinarse hacia la clase mayoritaria y puede pasar por alto la clase minoritaria.

2.Costos desiguales de errores: En algunas aplicaciones, los errores de predicción en ciertas clases pueden ser más costosos que en otras. Por ejemplo, en un sistema de detección de fraudes, es más grave clasificar un caso de fraude como legítimo (falso negativo) que clasificar un caso legítimo como fraude (falso positivo).

3.Sesgo en las predicciones: En algunos casos, el modelo puede tener un sesgo sistemático hacia ciertas clases y realizar predicciones incorrectas con mayor frecuencia para esas clases. El accuracy no capturará este sesgo y puede dar una impresión falsa de un buen rendimiento general.

Para realizar un análisis de resultados más detallado se pueden utilizar varias otras métricas, en este caso vamos a estudiar la matriz de confusión y el F1 score.


##### Matriz de confusión

La matriz de confusión es una herramienta útil para evaluar el rendimiento de un modelo de clasificación al mostrar la distribución de las predicciones en relación con las clases reales.

Tiene una estructura cuadrada donde las filas representan las clases reales y las columnas representan las clases predichas.

Para el caso específico de un problema de clasificación binaria tiene cuatro elementos:

Verdaderos positivos (True Positives, TP): el número de muestras que se clasificaron correctamente como positivas.

Falsos positivos (False Positives, FP): el número de muestras que se clasificaron incorrectamente como positivas.

Falsos negativos (False Negatives, FN): el número de muestras que se clasificaron incorrectamente como negativas.

Verdaderos negativos (True Negatives, TN): el número de muestras que se clasificaron correctamente como negativas.

A partir de estos elementos, se pueden calcular varias métricas adicionales, como precisión, exhaustividad y F1 score.

In [None]:
from sklearn.metrics import confusion_matrix

# Entrenando el Random Forest
rf = RandomForestClassifier(n_estimators=10, random_state=42)
rf.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = rf.predict(X_test)

# Calcular la matriz de confusión
confusion_mat = confusion_matrix(y_test, y_pred)

print("Matriz de confusión:")
print(confusion_mat)

Matriz de confusión:
[[ 8  0  0]
 [ 0 11  0]
 [ 0  2  9]]


Recordando el mapa de índices numéricos a categorías

setosa: 0
versicolon: 1
virginica: 2

En este ejemplo, el Random Forest realizó 8 predicciones correctas para la clase 0, 11 predicciones correctas para la clase 1 y 9 predicciones correctas para la clase 2, sin embargo clasificó erroneamente 2 ejemplos de la clase 2 como la clase 1.

F1 Score

Para comprender el F1 score, primero debemos ver las métricas Precision y Recall.

Sea una matriz de confusión binaria:

Clase positiva	Clase negativa
Predicho	TP	FP
No predicho	FN	TN
Dónde:

�
�
TP: True positives (Verdaderos positivos)
�
�
FP: False positives (Falsos positivos)
�
�
FN: False negatives (Falsos negativos)
�
�
TN: True negatives (Verdaderos negativos)
Precision (Precisión): La precisión es una métrica que mide la proporción de muestras clasificadas correctamente como positivas (verdaderos positivos) con respecto a todas las muestras clasificadas como positivas (tanto verdaderos positivos como falsos positivos). En otras palabras, la precisión es una medida de la exactitud de las predicciones positivas.

La fórmula para calcular la precisión es:

Precision
=
�
�
�
�
+
�
�
Precision= 
TP+FP
TP
​
 
Recall (Exhaustividad): El recall, también conocido como exhaustividad o sensibilidad, es una métrica que mide la proporción de muestras clasificadas correctamente como positivas (verdaderos positivos) con respecto a todas las muestras reales que son positivas (tanto verdaderos positivos como falsos negativos). El recall es una medida de la capacidad del modelo para identificar correctamente todas las muestras positivas.

La fórmula para calcular el recall es:

Recall
=
�
�
�
�
+
�
�
Recall= 
TP+FN
TP
​
 
F1-score: El F1-score es una métrica que combina la precisión y el recall en un solo valor. Es la media armónica de la precisión y el recall, y proporciona un equilibrio entre ambas métricas. El F1-score es útil cuando hay un desequilibrio entre las clases o cuando se desea tener en cuenta tanto la precisión como el recall.

La fórmula para calcular el F1-score es:

�
1
score
=
2
⋅
Precision
⋅
Recall
Precision
+
Recall
F1 
score
​
 = 
Precision+Recall
2⋅Precision⋅Recall
​
 
Veamos un ejemplo

Clase positiva	Clase negativa
Predicho	90	10
No predicho	20	80
Podemos calcular las métricas de la siguiente manera:

Precision
=
�
�
�
�
+
�
�
=
90
90
+
10
=
0.9
Recall
=
�
�
�
�
+
�
�
=
90
90
+
20
=
0.818
�
1
score
=
2
⋅
Precision
⋅
Recall
Precision
+
Recall
=
2
⋅
0.9
⋅
0.818
0.9
+
0.818
=
0.857
Precision
Recall
F1 
score
​
 
​
  
= 
TP+FP
TP
​
 = 
90+10
90
​
 =0.9
= 
TP+FN
TP
​
 = 
90+20
90
​
 =0.818
= 
Precision+Recall
2⋅Precision⋅Recall
​
 = 
0.9+0.818
2⋅0.9⋅0.818
​
 =0.857
​
 
En este ejemplo, la precisión es 0.9, lo que significa que el 90% de las predicciones positivas son correctas. El recall es 0.818, lo que indica que el modelo identifica correctamente el 81.8% de todas las muestras positivas. El F1-score es 0.857

Estas métricas son útiles para evaluar el rendimiento de un modelo de clasificación binaria y proporcionan información sobre la calidad de las predicciones positivas y la capacidad del modelo para identificar correctamente todas las muestras positivas.

Sklearn permite extender esta métrica de diferentes formas usando el parámetro average

In [None]:
from sklearn.metrics import f1_score

# Calculando f1_score para cada clase
scores = f1_score(y_test, y_pred, average=None)

print("F1 scores:", scores)

""" F1 scores: [1.         0.91666667 0.9       ]
El vector scores contiene los f1-scores para cada clase. """