# Métricas de Clasificación

In [1]:
import numpy as np
"""
Estas métricas se usan para saber la precisión de los modelos 
entrenados (no hace referencia a la IA, se basa en predicción)
todo ello a nivel estádistico, buscando una baja dispersión y 
un bajo sesgo, es decir, que el modelo no sea demasiado simple
ni que haya demasiada varianza en las predicciones
"""

# Esta métrica muestra la precisión de los datos, es decir, el rango que se acertó con las predicciones
from sklearn.metrics import accuracy_score
# Esta métrica muestra la matriz de los datos acertados entre positivos(1) y negativos(0) en cantidades
from sklearn.metrics import confusion_matrix
# Muestra un reporte completo de cuántos datos había, qué porcentaje se acertó, y una vista globalizada
from sklearn.metrics import classification_report

### Accuracy (Precisión)

In [2]:
# Ejemplo de datos PLANOS
y_true = [1, 0, 1, 1, 0]
# Ejemplo de datos predecidos
y_pred = [1, 0, 1, 0, 0]

accuracy_score(y_true, y_pred)  # Muestra porcentaje de predicción


0.8

### Matriz de Confusión Binaria

Se organiza en:


<table border="1" cellpadding="8" cellspacing="0">
  <thead>
    <tr>
      <th></th>
      <th colspan="2">Predicho</th>
    </tr>
    <tr>
      <th>Real</th>
      <th>0</th>
      <th>1</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>Verdadero negativo</td>
      <td>Falso positivo</td>
    </tr>
    <tr>
      <th>1</th>
      <td>Falso negativo</td>
      <td>Verdadero positivo</td>
    </tr>
  </tbody>
</table>


In [3]:
# En este caso es una clásificación binaria (0, 1)
tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()        # Ravel le quita una dimensión al array
print(f"Verdadero negativo: {tn}\nFalso positivo: {fp}\nFalso negativo: {fn}\nVerdadero positivo: {tp}")

Verdadero negativo: 2
Falso positivo: 0
Falso negativo: 1
Verdadero positivo: 2


In [4]:
# También se puede correr como un array
confusion_matrix(y_true, y_pred)

array([[2, 0],
       [1, 2]])

### Matriz de Confusión Multiclase

Esta matriz crea una fila y una columna que corresponde a <strong>un valor dentro de los datos</strong> que tiene, no importa cuántas veces se repita ese valor dentro de los datos, él toma un único valor y los compara con los demás según la posición que ocupe dentro de la matriz

Dicho de otra manera, va a comparar <strong>cuántas veces</strong> un valor es predicho como ese mismo valor o como cualquiera que esté en el array

In [20]:
# Ejemplo de datos PLANOS
x_true = [1, 0, "h", 1, 2, 2, 2]
# Ejemplo de datos predecidos
x_pred = [1, 0, "h", 0, "h", "h", 2]

# Clasificación multiclase
confusion_matrix(x_true, x_pred)

array([[1, 0, 0, 0],
       [1, 1, 0, 0],
       [0, 0, 1, 2],
       [0, 0, 0, 1]])

### Reporte de Clasificación

In [None]:
print(classification_report(x_true, x_pred))
"""
precision: marca todas las veces que se llamo una clase vs cuántas se acertó a nivel estadístico

recall: mide si las veces que se llamó la clase cumple con las veces que existe en los datos (no importa si sobrepasa el número de veces siempre que cumpla con la cantidad)

f1-score: compara precision vs recall a nivel estadístico

support: conteo de veces que existe la clase en los datos
"""

              precision    recall  f1-score   support

           0       0.50      1.00      0.67         1
           1       1.00      0.50      0.67         2
           2       1.00      0.33      0.50         3
           h       0.33      1.00      0.50         1

    accuracy                           0.57         7
   macro avg       0.71      0.71      0.58         7
weighted avg       0.83      0.57      0.57         7

