Métricas básicas de clasificación --- 13:54 min
===

* 13:54 min | Ultima modificación: Septiembre 30, 2021 | [YouTube](https://youtu.be/VFL9OKif3-c)

Componentes de la matriz de confusión
---

             | Pronóstico
             |  PP    PN
    ---------|------------
          P  |  TP    FN 
    Real     |
          N  |  FP    TN                        
    
    
     P - Positive                 TP - Verdadero positivo (correcto)
     N - Negative                 TN - Verdadero negativo (correcto)
    PP - Predicted Positive       FN - Falso negativo (mal clasificado)
    PN - Predicted Negative       FP - Falso positivo (mal clasificado)    

In [1]:
import pandas as pd
from sklearn.metrics import confusion_matrix

pd.set_option("display.notebook_repr_html", False)


y_true = [0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0]
y_pred = [0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

pd.DataFrame(
    confusion_matrix(
        y_true=y_true,
        y_pred=y_pred,
        labels=[1, 0],
        normalize=None,
    ),
    columns=[
        "PP={}".format(sum(y_pred)),
        "PN={}".format(len(y_pred) - sum(y_pred)),
    ],
    index=[
        "P={}".format(sum(y_true)),
        "N={}".format(len(y_true) - sum(y_true)),
    ],
)

      PP=2  PN=13
P=4      1      3
N=11     1     10

Accuracy Classification Score
---

Cómputa la cantidad o porcentaje de predicciones correctas.

             | Pronóstico
             |  PP    PN
    ---------|------------
          P  |  TP    FN 
    Real     |
          N  |  FP    TN 

$$
\text{accuracy}
=\frac{\text{TP} +\text{TN}}{\text{P} + \text{N}}
=\frac{\text{TP}+\text{TN}}{\text{TP}+\text{TN}+\text{FP}+\text{FN}}
$$

In [2]:
from sklearn.metrics import accuracy_score

accuracy_score(
    # -------------------------------------------------------------------------
    # Ground truth (correct) labels.
    y_true=y_true,
    # -------------------------------------------------------------------------
    # Predicted labels, as returned by a classifier.
    y_pred=y_pred,
    # -------------------------------------------------------------------------
    # If False, return the number of correctly classified samples. Otherwise,
    # return the fraction of correctly classified samples.
    normalize=True,
)

0.7333333333333333

In [3]:
accuracy_score(
    y_true=y_true,
    y_pred=y_pred,
    normalize=False,
)

11

True Positive Rate / recall_score
---

Es el porcentaje de casos pronosticados como positivos del total de casos realmente positivos. También se interpreta como la habilidad del clasificador para encontrar todos los casos relevantes.


             | Pronóstico
             |  PP    PN
    ---------|------------
          P  |  TP    FN 
    Real     |
          N  |  FP    TN 

$$
\text{recall_score} =
\text{TPR}=\frac{\text{TP}}{\text{P}}=\frac{\text{TP}}{\text{TP}+\text{FN}}
$$

In [4]:
from sklearn.metrics import recall_score

#
#    15 | PP=2  PF=13
# ------|-------------
#  P=4  |    1      3
#  N=11 |    1     10
#

recall_score(y_true, y_pred)

0.25

## True Negative Rate

Es el porcentaje de casos pronósticados como negativos del total de casos realmente negativos.

             | Pronóstico
             |  PP    PN
    ---------|------------
          P  |  TP    FN 
    Real     |
          N  |  FP    TN 

$$
\text{TNR}=\frac{\text{TN}}{\text{N}}=\frac{\text{TN}}{\text{TN}+\text{FP}}
$$

Precision Score
---

Es la habilidad que tiene el clasificador de no predecir como positiva una muestra que es negativa.

             | Pronóstico
             |  PP    PN
    ---------|------------
          P  |  TP    FN 
    Real     |
          N  |  FP    TN 

$$
\text{precision_score}
=\frac{\text{TP}}{\text{PP}}
=\frac{\text{TP}}{\text{TP} +\text{FP}}
$$

In [5]:
from sklearn.metrics import precision_score

#
#    15 | PP=2  PF=13
# ------|-------------
#  P=4  |    1      3
#  N=11 |    1     10
#

precision_score(y_true, y_pred)

0.5

Balanced Accuracy Score
---

Esta medida es facilmente interpretada a partir de la matriz de confusión:

             | Pronóstico
             |  PP    PN
    ---------|------------
          P  |  TP    FN 
    Real     |
          N  |  FP    TN 

$$
\text{balanced_accuracy} = 
\frac{1}{2} 
\left(
\frac{\text{TP}}{\text{P}} 
+
\frac{\text{TN}}{\text{N}}
\right)
=
\frac{1}{2}
\left(
\frac{\text{TP}}{\text{TP}+\text{FN}}
+
\frac{\text{TN}}{\text{TN}+\text{FP}}
\right)
=
\frac{1}{2}
\left(
\text{TPR} + \text{TNR}
\right)
$$

* Esta métrica permite corregir cómputos erroneos sobre la precisón de un clasifidor cuando las clases están imbalanceadas.

* Cuando la muestra está balanceada equivale a la métrica `accuracy`.

In [6]:
from sklearn.metrics import balanced_accuracy_score

#
#    15 | PP=2  PF=13
# ------|-------------
#  P=4  |    1      3
#  F=11 |    1     10
#

display(
    accuracy_score(
        y_true=y_true,
        y_pred=y_pred,
        normalize=True,
    ),
    balanced_accuracy_score(
        y_true,
        y_pred,
    ),
)

0.7333333333333333

0.5795454545454546

F1 Score
---

Es el promedio ponderado entre la precisión (precision_score) y la sensibilidad (recall):

$$
F_1 = 2 * \frac{\text{precision_score} \times \text{recall_score}}
{\text{precision_score} + \text{recall_score}}
$$

             | Pronóstico
             |  PP    PN
    ---------|------------
          P  |  TP    FN 
    Real     |
          N  |  FP    TN 

$$
\text{precision_score}
=\frac{\text{TP}}{\text{PP}}
=\frac{\text{TP}}{\text{TP} +\text{FP}}
$$

$$
\text{recall_score} =
\text{TPR}=\frac{\text{TP}}{\text{P}}=\frac{\text{TP}}{\text{TP}+\text{FN}}
$$


        15 | PP=2  PF=13                    1                    1
     ------|-------------    precision = ------- ;   recall = -------
      P=4  |    1      3                  1 + 1                1 + 3
      F=11 |    1     10


                     0.5 * 0.25         0.125     0.25  
     f1_score = 2 * ------------ = 2 * ------- = ------ 
                     0.5 + 0.25         0.75      0.75  

In [7]:
from sklearn.metrics import f1_score

f1_score(y_true, y_pred, "binary")

0.3333333333333333

F-beta Score
---

Es la media armónica ponderada entre la precisión y la sensibilidad, la cual toma valores entre 0 (peor) y 1 (mejor). Para $\beta$ < 1 favorece la precisión, mientras que para $\beta$ > 1 favorece la sensibilidad.

$$
F_\beta = (1 + \beta^2) 
\frac{\text{precision} \times \text{recall}}
{\beta^2 \text{precision} + \text{recall}}
$$

             | Pronóstico
             |  PP    PN
    ---------|------------
          P  |  TP    FN 
    Real     |
          N  |  FP    TN 

$$
\text{precision_score}
=\frac{\text{TP}}{\text{PP}}
=\frac{\text{TP}}{\text{TP} +\text{FP}}
$$

$$
\text{recall_score} =
\text{TPR}=\frac{\text{TP}}{\text{P}}=\frac{\text{TP}}{\text{TP}+\text{FN}}
$$


        15 | PP=2  PF=13                    1                    1
     ------|-------------    precision = ------- ;   recall = -------
      P=4  |    1      3                  1 + 1                1 + 3
      F=11 |    1     10
      
                                  0.5 * 0.25            (1+beta^2) * 0.125
      f_beta = (1+beta^2) ------------------------- = ---------------------
                           (1+beta^2) * 0.5 + 0.25       0.5 beta^2 + 0.75

In [8]:
from sklearn.metrics import fbeta_score

display(
    fbeta_score(y_true, y_pred, beta=0.5),
    fbeta_score(y_true, y_pred, beta=1.2),
)

0.4166666666666667

0.31443298969072164

Classification report
---

In [9]:
from sklearn.metrics import classification_report

print(classification_report(y_true, y_pred))

              precision    recall  f1-score   support

           0       0.77      0.91      0.83        11
           1       0.50      0.25      0.33         4

    accuracy                           0.73        15
   macro avg       0.63      0.58      0.58        15
weighted avg       0.70      0.73      0.70        15

