# Entrenamiento y Evaluación
Actividad Lección 2 || Fundamentos de IA y Machine Learning

Objetivos:
* Aplicar conceptos teóricos vistos en clase

Datos del alumno:
* Víctor Luque Martín
* Máster Avanzado en Programación en Python para Hacking, BigData y Machine Learning

Fecha: 21/10/2022

# Tabla de contenidos:
1. [Métricas de regresión](#m-regresion)
    1. [Error absoluto medio](#m-regresion-mae)
    2. [Error cuadrático medio](#m-regresion-mse)
    3. [Raíz cuadrada del error cuadrático medio](#m-regresion-rmse)
    4. [Coeficiente de determinación](#m-regresion-r2)
    5. [Comparación de modelos](#m-regresion-comparacion)
2. [Métricas de clasificación binaria](#m-clasificacion-b)
    1. [Matriz de confusión](#m-clasificacion-b-mc)
    2. [Precision Global (CCR)](#m-clasificacion-b-pg)
    3. [Sensibilidad (TPR)](#m-clasificacion-b-s)
    4. [False Positive Rate (FPR)](#m-clasificacion-b-fpr)
    5. [Especificidad (TNR)](#m-clasificacion-b-e)
    6. [Precision (PPV)](#m-clasificacion-b-p)
    7. [F1 Score](#m-clasificacion-b-f1)
    8. [Kappa](#m-clasificacion-b-k)
    9. [Comparación de modelos](#m-clasificacion-b-cm)
3. [Métricas de clasificación multiclase](#m-clasificacion-m)
    1. [Matriz de confusión para cada clase](#m-clasificacion-m-mc)
    2. [Precision Global (CCR)](#m-clasificacion-m-pg)
    3. [Sensibilidad (TPR)](#m-clasificacion-m-s)
    4. [False Positive Rate (FPR)](#m-clasificacion-m-fpr)
    5. [Especificidad (TNR)](#m-clasificacion-m-e)
    6. [Precision (PPV)](#m-clasificacion-m-p)
    7. [F1 Score](#m-clasificacion-m-f1)
    8. [Kappa](#m-clasificacion-m-k)
    9. [Valoración del modelo](#m-clasificacion-m-vm)

Haremos uso de la librería de Pandas para poder trabajar con los datos de forma más cómoda.
No obstante las operaciones se harán de manera manual aplicando las fórmulas vistas en clase, sin utilizar librerías adicionales.

In [3]:
import pandas as pd

# 1. Métricas de regresión <a class="anchor" id="m-regresion"></a>
Dado un conjunto de 30 datos de test, con la variable objetivo real y la salida proporcionada por dos modelos, se pide:
* Calcular las métricas de regresión para cada modelo
* En función de los resultados, decidir qué modelo es mejor.

Utilizaremos el siguiente set de datos:

In [4]:
df_regresion = pd.read_csv("l2p1.csv")
df_regresion

Unnamed: 0,Y objetivo,Predicciones M1,Predicciones M2
0,2.5,3.0,2.0
1,3.0,2.9,2.0
2,1.6,2.0,2.0
3,8.0,8.1,7.0
4,4.56,4.0,5.0
5,5.25,5.0,5.0
6,7.0,7.8,8.0
7,5.25,6.0,5.0
8,6.5,6.0,7.0
9,10.5,10.0,11.0


## 1.1. Error absoluto medio <a class="anchor" id="m-regresion-mae"></a>
El **error absoluto medio (Mean Absolute Error, MAE)** es la media de las diferencias absolutas entre el valor predicho y el real. Da una idea de cómo de erróneas fueron las predicciones, y de la magnitud de error pero no de su dirección. Un inconveniente es que no penaliza los grandes errores. Así, siendo 𝑛𝑛 el número de patrones del conjunto, el MAE se define como:

$$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$$

**Formula de MAE en Python:**

In [5]:
def error_absoluto_medio(y_objetivo, prediccion):
    # Declaramos la variable del sumatorio
    sumatorio = 0
    # Utilizamos zip() para recorrer las dos columnas a la vez
    for y, m in zip(y_objetivo, prediccion):
        # Calculamos el valor absoluto de la resta y lo sumamos al sumatorio
        sumatorio += abs(y - m)

    # Calculamos el error absoluto medio
    return sumatorio / len(y_objetivo)

In [6]:
mae_m1 = error_absoluto_medio(df_regresion["Y objetivo"], df_regresion["Predicciones M1"])
mae_m2 = error_absoluto_medio(df_regresion["Y objetivo"], df_regresion["Predicciones M2"])
print("Error absoluto medio del modelo 1: ", mae_m1)
print("Error absoluto medio del modelo 2: ", mae_m2)

Error absoluto medio del modelo 1:  1.0396666666666665
Error absoluto medio del modelo 2:  0.6113333333333333


## 1.2. Error cuadrático medio <a class="anchor" id="m-regresion-mse"></a>
El **error cuadrático medio (Mean Squared Error, MSE)** es la media de las diferencias de los errores al cuadrado. Es muy utilizado ya que es derivable y además, penaliza los errores más grandes. El MSE se define de la siguiente forma:

$$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$

**Función de MSE en Python**

In [7]:
def error_cuadratico_medio(y_objetivo, prediccion):
    # Declaramos la variable del sumatorio
    sumatorio = 0
    # Utilizamos zip() para recorrer las dos columnas a la vez
    for y, m in zip(y_objetivo, prediccion):
        # Calculamos el cuadrado de la resta y lo sumamos al sumatorio
        sumatorio += (y - m) ** 2

    # Calculamos el error absoluto medio
    return sumatorio / len(y_objetivo)

In [8]:
mse_m1 = error_cuadratico_medio(df_regresion["Y objetivo"], df_regresion["Predicciones M1"])
mse_m2 = error_cuadratico_medio(df_regresion["Y objetivo"], df_regresion["Predicciones M2"])
print("Error cuadrático medio del modelo 1: ", mse_m1)
print("Error cuadrático medio del modelo 2: ", mse_m2)

Error cuadrático medio del modelo 1:  7.98305
Error cuadrático medio del modelo 2:  0.5219533333333334


## 1.3. Raíz cuadrada del error cuadrático medio <a class="anchor" id="m-regresion-rmse"></a>
La **raíz cuadrada del error cuadrático medio (Root Mean Squared Error, RMSE)** es la raíz cuadrada del MSE. Es una medida de error muy utilizada ya que es interpretable en las mismas unidades que la variable objetivo. El RMSE se define como:

$$\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}$$

**Función RMSE en Python**

In [9]:
def raiz_cuadrada_error_cuadratico_medio(y_objetivo, prediccion):
    # Obtenemos el error cuadrático medio
    mse = error_cuadratico_medio(y_objetivo, prediccion)
    # Devolvemos la raíz cuadrada del error cuadrático medio
    return mse ** 0.5

In [10]:
rmse_m1 = raiz_cuadrada_error_cuadratico_medio(df_regresion["Y objetivo"], df_regresion["Predicciones M1"])
rmse_m2 = raiz_cuadrada_error_cuadratico_medio(df_regresion["Y objetivo"], df_regresion["Predicciones M2"])
print("Raíz cuadrada del error cuadrático medio del modelo 1: ", rmse_m1)
print("Raíz cuadrada del error cuadrático medio del modelo 2: ", rmse_m2)

Raíz cuadrada del error cuadrático medio del modelo 1:  2.825429170940231
Raíz cuadrada del error cuadrático medio del modelo 2:  0.7224633785413164


## 1.4. Coeficiente de determinación <a class="anchor" id="m-regresion-r2"></a>
El **coeficiente de determinación (R2)** nos proporciona una medida de calidad del modelo para predecir los resultados. Está acotado entre 0 y 1, según no se ajuste o se ajuste a los datos, respectivamente. Se calcula de la siguiente forma:

$$R^2= \frac{\sigma_{y,\hat{y}}^2}{\sigma_{y}^2\sigma_{\hat{y}}^2} = \frac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$$

**Función R2 en Python**

In [11]:
def coeficiente_de_determinacion(y_objetivo, prediccion):
    # Calculamos la media de y_objetivo
    media_y = sum(y_objetivo) / len(y_objetivo)
    numerador = 0
    denominador = 0

    for y, m in zip(y_objetivo, prediccion):
        # Calculamos el numerador
        numerador += (m - media_y) ** 2
        # Calculamos el denominador
        denominador += (y - media_y) ** 2

    # Calculamos el coeficiente de determinación
    return numerador / denominador

In [12]:
r2_m1 = coeficiente_de_determinacion(df_regresion["Y objetivo"], df_regresion["Predicciones M1"])
r2_m2 = coeficiente_de_determinacion(df_regresion["Y objetivo"], df_regresion["Predicciones M2"])

print("Coeficiente de determinación (R^2) del modelo 1: ", r2_m1)
print("Coeficiente de determinación (R^2) del modelo 2: ", r2_m2)

Coeficiente de determinación (R^2) del modelo 1:  0.4313000476245028
Coeficiente de determinación (R^2) del modelo 2:  0.9498102406115213


## 1.5. Comparación de modelos <a class="anchor" id="m-regresion-comparacion"></a>
En función de los resultados obtenidos, podemos concluir que el modelo 1 es mejor que el modelo 2 porque al calcular los errores MAE, MSE y RMSE, el modelo 2 tiene resultados más cercanos a 0 y el coeficiente de determinación en el modelo 2 es mucho más cercano a 1 que en el modelo 1. 

A continuación, se muestran los resultados obtenidos:

In [13]:
data = [
    {"MAE": mae_m1, "MSE": mse_m1, "RMSE": rmse_m1, "R^2": r2_m1},
    {"MAE": mae_m2, "MSE": mse_m2, "RMSE": rmse_m2, "R^2": r2_m2}, 
]
df_metricas_regresion = pd.DataFrame(data, index=["Modelo 1", "Modelo 2"])
df_metricas_regresion

Unnamed: 0,MAE,MSE,RMSE,R^2
Modelo 1,1.039667,7.98305,2.825429,0.4313
Modelo 2,0.611333,0.521953,0.722463,0.94981


# 2. Métricas de clasificación binaria <a class="anchor" id="m-clasificacion-b"></a>
Dado un problema de clasificación binaria (sólo existen dos clases), tenemos la salida de cada uno de 30 patrones en test para dos modelos distintos.
* Montar la matriz de confusión de cada modelo.
* Calcular las métricas de clasificación, excepto el AUC.
* Determinar qué modelo es mejor.

Utilizaremos el siguiente set de datos:

In [14]:
df_clasificacion_binaria = pd.read_csv("l2p2.csv")
df_clasificacion_binaria

Unnamed: 0,Clase Objetivo,Predicciones M1,Predicciones M2
0,0,1,0
1,0,0,0
2,0,0,0
3,1,1,1
4,1,1,1
5,1,1,1
6,0,0,0
7,0,0,1
8,1,0,1
9,1,0,1


## 2.1. Matriz de confusión <a class="anchor" id="m-clasificacion-b-mc"></a>
La **matriz de confusión** es una tabla que muestra el número de predicciones correctas e incorrectas para cada clase. Se utiliza para evaluar la calidad de un modelo de clasificación.

Viene definida de la siguiente forma:

<table><thead><tr><th></th><th></th><th colspan="2">Clase Predicha</th></tr></thead><tbody><tr><td></td><td></td><td>Clase Positiva</td><td>Clase Negativa</td></tr><tr><td rowspan="2"><br>Clase<br><br>Real</td><td>Clase<br>Positiva</td><td>TP</td><td>FN</td></tr><tr><td>Clase<br>Negativa</td><td>FP</td><td>TN</td></tr></tbody></table>

**Función para crear la tabla de la Matríz de confusion**<br>

In [15]:
def matriz_confusion(y_objetivo, prediccion):
    # Declaramos los campos TN, FP, FN y TP
    tn, fp, fn, tp = 0,0,0,0
    # Calculamos para cada par y, m si se trata de un TN, FP, FN o TP
    # Siendo y, el valor de la columan y_objetivo
    # Siendo m el valor de la columna de predicción (modelo)
    for y, m in zip(y_objetivo, prediccion):
        # Si el par es 0, 0 => TN
        if y == 0 and m == 0:
            tn += 1
        # Si el par es 0, 1 => FP
        elif y == 0 and m == 1:
            fp += 1
        # Si el par es 1, 0 => FN
        elif y == 1 and m == 0:
            fn += 1
        # Si el par es 1, 1 => TP
        elif y == 1 and m == 1:
            tp += 1
    # Construcción de la matriz de confusión
    matriz = pd.DataFrame([[tp, fp], [fn, tn]], index=["Positivo", "Negativo"], columns=["Positivo", "Negativo"])
    return matriz

In [16]:
matriz_m1 = matriz_confusion(df_clasificacion_binaria["Clase Objetivo"], df_clasificacion_binaria["Predicciones M1"])
matriz_m1

Unnamed: 0,Positivo,Negativo
Positivo,6,1
Negativo,4,19


In [17]:
matriz_m2 = matriz_confusion(df_clasificacion_binaria["Clase Objetivo"], df_clasificacion_binaria["Predicciones M2"])
matriz_m2

Unnamed: 0,Positivo,Negativo
Positivo,9,8
Negativo,1,12


## 2.2. Precisión Global (CCR) <a class="anchor" id="m-clasificacion-b-pg"></a>
La precisión global es el porcentaje de patrones correctamente clasificados. También se conoce por Accuracy o CCR por sus siglas en inglés.

$$\text{CCR} = \frac{\text{Suma Diagonal Principal}}{\text{Suma Elementos Matriz}} = \frac{\sum_{i=1}^n a_{ii}}{\sum_{i=1}^n\sum_{j=1}^n a_{ij}}$$

En un problema multiclase, la precisión global se calcula como la suma de los elementos de la diagonal principal (instancias bien clasificadas) entre la suma de todos los elementos de la matriz de confusión (número total de patrones).

Es una métrica muy útil cuando la base de datos está balanceada. Sin embargo, en problemas no balanceados tiene la siguiente limitación. Supongamos un problema con dos clases, donde hay 9990 patrones de la clase 1 y sólo 10 patrones de la clase 2. Si el modelo siempre dice que los ejemplos son de la clase 1, su precisión global es del 99.9%. En este caso, la métrica es totalmente engañosa ya que nunca se detectará ningún patrón de la clase 2, que posiblemente sea la más interesante de clasificar.

**Función para calcular la precisión global**

In [18]:
def precision_global(matriz):
    confusion = matriz.copy()
    columnas = confusion.columns
    filas = confusion.index
    suma_matriz = confusion.sum().sum()
    numerador = 0
    for c, f in zip(columnas, filas):
        # Si la posición de la columna es igual a la posición de la fila
        # Sumamos el valor de la posición a numerador
        if columnas.get_loc(c) == filas.get_loc(f):
            numerador += confusion[c][f]
    # Finalmente divimos entre la suma de todos los valores de la matriz
    return numerador / suma_matriz

In [19]:
ccr_m1 = precision_global(matriz_m1)
ccr_m2 = precision_global(matriz_m2)
print("CCR del modelo 1: ", ccr_m1)
print("CCR del modelo 2: ", ccr_m2)

CCR del modelo 1:  0.8333333333333334
CCR del modelo 2:  0.7


## 2.3. Sensibilidad (TPR) <a class="anchor" id="m-clasificacion-b-s"></a>
La **sensibilidad** es el porcentaje de patrones de la clase positiva que son correctamente clasificados.<br>
También se conoce por Recall o TPR por sus siglas en inglés.<br>

$$\text{TPR} = \frac{\text{TP}}{\text{TP} + \text{FN}}$$

**Función para calcular la sensibilidad**

In [20]:
def sensibilidad(confusion):
    # TP / (TP + FN)
    return confusion["Positivo"]["Positivo"] / \
           (confusion["Positivo"]["Positivo"] + confusion["Negativo"]["Positivo"])

In [21]:
tpr_m1 = sensibilidad(matriz_m1)
tpr_m2 = sensibilidad(matriz_m2)
print("Sensibilidad (TPR) del modelo 1: ", tpr_m1)
print("Sensibilidad (TPR) del modelo 2: ", tpr_m2)

Sensibilidad (TPR) del modelo 1:  0.8571428571428571
Sensibilidad (TPR) del modelo 2:  0.5294117647058824


## 2.4. False Positive Rate (FPR) <a class="anchor" id="m-clasificacion-b-fpr"></a>
El **False Positive Rate** es el porcentaje de patrones de la clase negativa que son clasificados como positivos.<br>
También se conoce por FPR por sus siglas en inglés.<br>

$$\text{FPR} = \frac{\text{FP}}{\text{TN} + \text{FP}}$$

**Función para calcular el False Positive Rate**

In [22]:
def false_positive_rate(confusion):
    # FP / (FP + TN)
    return confusion["Positivo"]["Negativo"] / \
           (confusion["Negativo"]["Negativo"] + confusion["Positivo"]["Negativo"])

In [23]:
fpr_m1 = false_positive_rate(matriz_m1)
fpr_m2 = false_positive_rate(matriz_m2)
print("False Positive Rate (FPR) del modelo 1: ", fpr_m1)
print("False Positive Rate (FPR) del modelo 2: ", fpr_m2)

False Positive Rate (FPR) del modelo 1:  0.17391304347826086
False Positive Rate (FPR) del modelo 2:  0.07692307692307693


## 2.5. Especificidad (TNR) <a class="anchor" id="m-clasificacion-b-e"></a>
La **especificidad** es el porcentaje de patrones de la clase negativa que son correctamente clasificados.<br>
También se conoce por TNR (Tasa Negativa Verdadera).<br>

$$\text{TNR} = \frac{\text{TN}}{\text{TN} + \text{FP}}$$

**Función para calcular la especificidad**

In [24]:
def especificidad(confusion):
    # TN / (TN + FP)
    return confusion["Negativo"]["Negativo"] / \
           (confusion["Negativo"]["Negativo"] + confusion["Positivo"]["Negativo"])

In [25]:
tnr_m1 = especificidad(matriz_m1)
tnr_m2 = especificidad(matriz_m2)
print("Especificidad (TNR) del modelo 1: ", tnr_m1)
print("Especificidad (TNR) del modelo 2: ", tnr_m2)

Especificidad (TNR) del modelo 1:  0.8260869565217391
Especificidad (TNR) del modelo 2:  0.9230769230769231


## 2.6. Precisión (PPV) <a class="anchor" id="m-clasificacion-b-p"></a>
La **precisión** es el porcentaje de patrones clasificados como positivos que son de la clase positiva.<br>
También se conoce por PPV (Positive Predictive Value).<br>

$$\text{PPV} = \frac{\text{TP}}{\text{TP} + \text{FP}}$$

**Función para calcular la precisión**

In [26]:
def precision(confusion):
    # TP / (TP + FP)
    return confusion["Positivo"]["Positivo"] / \
           (confusion["Positivo"]["Positivo"] + confusion["Positivo"]["Negativo"])

In [27]:
ppv_m1 = precision(matriz_m1)
ppv_m2 = precision(matriz_m2)
print("Precision (PPV) del modelo 1: ", ppv_m1)
print("Precision (PPV) del modelo 2: ", ppv_m2)

Precision (PPV) del modelo 1:  0.6
Precision (PPV) del modelo 2:  0.9


## 2.7. F1 Score <a class="anchor" id="m-clasificacion-b-f1"></a>
El **F1 Score** es una medida que combina las métricas de Sensibilidad y Precisión. Es útil para comparar los distintos modelos. Al utilizar la media armónica, se penaliza los valores extremos, es decir, para una precisión de 1 y una sensibilidad de 0 está métrica nos diría que el clasificador es muy malo.<br>

$$\text{F1} = \frac{2 \cdot \text{Sensibilidad} \cdot \text{Precisión}}{\text{Sensibilidad} + \text{Precisión}} = \frac{\text{2TP}}{\text{2TP} + \text{FP} + \text{FN}}$$

**Función para calcular el F1 Score**

In [28]:
def f1_score(confusion):
    return 2 * (precision(confusion) * sensibilidad(confusion)) / \
           (precision(confusion) + sensibilidad(confusion))

In [29]:
f1_score_m1 = f1_score(matriz_m1)
f1_score_m2 = f1_score(matriz_m2)
print("F1 Score del modelo 1: ", f1_score_m1)
print("F1 Score del modelo 2: ", f1_score_m2)

F1 Score del modelo 1:  0.7058823529411764
F1 Score del modelo 2:  0.6666666666666667


## 2.8. Kappa <a class="anchor" id="m-clasificacion-b-k"></a>
La métrica mide el acuerdo o la relación entre los valores reales y los predichos. Se dice que es una medida más robusta que la precisión global. Puede tomar valores en el rango [-1,1], donde:
* 1 es igual a acuerdo perfecto, es decir, clasificación perfecta.
* 0 no existe relación.
* -1 es a igual a un completo desacuerdo.

Se calcula de la misma manera para problemas binarios y multiclase.

$$\text{Kappa} = \frac{p_o - p_e}{1 - p_e}$$

Siendo:

$$p_o = \text{CCR} = \frac{1}{n}\sum_{i=1}^{n}a_{ii}$$

y:

$$p_e = \frac{1}{n^2}\sum_{j=1}^{n}n_j n_j$$

**Función para calcular el Kappa**

In [30]:
def kappa(matriz):
    confusion = matriz.copy()
    p0 = precision_global(confusion)
    confusion.loc["Total"] = confusion.sum()
    confusion["Total"] = confusion.sum(axis=1)
    total_col = confusion["Total"]
    total_row = confusion.loc["Total"]
    total = confusion.loc["Total", "Total"]
    # remove total from total_row and total_col
    total_row = total_row.drop("Total")
    total_col = total_col.drop("Total")
    pe = 0
    for c, f in zip(total_col.index, total_row.index):
        pe += (total_col[c] * total_row[f])/(total*total)
    k = (p0 - pe) / (1 - pe)
    return k

In [31]:
kappa_m1 = kappa(matriz_m1)
kappa_m2 = kappa(matriz_m2)
print("Kappa del modelo 1: ", kappa_m1)
print("Kappa del modelo 2: ", kappa_m2)

Kappa del modelo 1:  0.5945945945945947
Kappa del modelo 2:  0.42553191489361697


## 2.9. Comparación de modelos <a class="anchor" id="m-clasificacion-b-cm"></a>
Finalmente, tras obtener las métricas para ambos modelos, podemos concluir que el modelo 1 mejor que el modelo 2 por las siguientes razones:
- El CCR del modelo 1 es mayor que el del modelo 2
- La Sensibilidad del modelo 1 permite determinar con mayor fiabilidad casos positivos como realmente positivos
- El F1 Score es ligeramente mayor en el modelo 1 que en el modelo 2
- El Kappa en ambos casos es moderado, no obstante el Kappa del modelo 1 es mayor que el del modelo 2
- Pese a que la precisión y el ratio de falsos positivos del modelo 2 es mejor que en el modelo 1, el resto de métricas indican que el modelo 2 puede dar mejores resultados que el modelo 1.

In [32]:
data = [
    {
        "Precisión Global": ccr_m1, "Sensibilidad": tpr_m1, 
        "False Positive Rate": fpr_m1, 
        "Especificidad": tnr_m1, "Precision": ppv_m1, 
        "F1 Score": f1_score_m1, "Kappa": kappa_m1
    },
    {
        "Precisión Global": ccr_m2, "Sensibilidad": tpr_m2, 
        "False Positive Rate": fpr_m2, 
        "Especificidad": tnr_m2, "Precision": ppv_m2, 
        "F1 Score": f1_score_m2, "Kappa": kappa_m2
    }
]

df_metricas = pd.DataFrame(data, index=["Modelo 1", "Modelo 2"])
df_metricas

Unnamed: 0,Precisión Global,Sensibilidad,False Positive Rate,Especificidad,Precision,F1 Score,Kappa
Modelo 1,0.833333,0.857143,0.173913,0.826087,0.6,0.705882,0.594595
Modelo 2,0.7,0.529412,0.076923,0.923077,0.9,0.666667,0.425532


# 3. Métricas de clasificación multiclase <a class="anchor" id="m-clasificacion-m"></a>
Dada la siguiente matriz de confusión para un problema multiclase, se pide hallar todas las métricas de clasificación para cada clase, excepto el AUC. Recuerde que, para calcular las métricas de una clase, se considera dicha clase como positiva y el resto como la negativa.

Utilizaremos el siguiente set de datos de ejemplo:

In [33]:
data = [
    [20, 10, 5], [5, 30, 0], [5, 5, 25]
]
df_clasificacion_multiple = pd.DataFrame(data, index=["Gato", "Perro", "Loro"], columns=["Gato", "Perro", "Loro"])
df_clasificacion_multiple

Unnamed: 0,Gato,Perro,Loro
Gato,20,10,5
Perro,5,30,0
Loro,5,5,25


## 3.1. Matriz de confusión para cada clase <a class="anchor" id="m-clasificacion-m-mc"></a>

**Crearemos una función que permita crear la matriz de confusión para cada clase**

In [34]:
def crear_sub_matriz(matriz, clase):
    matriz = matriz.copy()
    matriz["Negativo"] = matriz.sum(axis=1) - matriz[clase]
    matriz["Positivo"] = matriz[clase]
    matriz = matriz[["Positivo", "Negativo"]]
    # La fila Positivo es la clase que se está evaluando
    matriz = matriz.rename(index={clase: "Positivo"})
    # Agrupar las filas de las clases que no son la clase que se está evaluando en una fila llamada Negativo
    matriz.loc["Negativo"] = matriz.sum(axis=0) - matriz.loc["Positivo"]
    # Eliminar las filas que no son Positivo ni Negativo
    matriz = matriz.drop(matriz.index.difference(["Positivo", "Negativo"]))
    return matriz

**La matriz de confusión para la clase Gato es:**

In [35]:
matriz_gato = crear_sub_matriz(df_clasificacion_multiple, "Gato")
matriz_gato

Unnamed: 0,Positivo,Negativo
Positivo,20,15
Negativo,10,60


**La matriz de confusión para la clase Perro es:**

In [36]:
matriz_perro = crear_sub_matriz(df_clasificacion_multiple, "Perro")
matriz_perro

Unnamed: 0,Positivo,Negativo
Positivo,30,5
Negativo,15,55


**La matriz de confusión para la clase Loro es:**

In [37]:
matriz_loro = crear_sub_matriz(df_clasificacion_multiple, "Loro")
matriz_loro

Unnamed: 0,Positivo,Negativo
Positivo,25,10
Negativo,5,65


**Comprobamos que la suma de los elementos de cada matriz de confusión es igual a la suma de todos los elementos de la matriz de confusión original**

In [38]:
suma_original = df_clasificacion_multiple.sum().sum()
suma_gato = matriz_gato.sum().sum()
suma_perro = matriz_perro.sum().sum()
suma_loro = matriz_loro.sum().sum()
print("Suma original: ", suma_original)
print("Suma gato: ", suma_gato)
print("Suma perro: ", suma_perro)
print("Suma loro: ", suma_loro)

Suma original:  105
Suma gato:  105
Suma perro:  105
Suma loro:  105


## 3.2. Precisión global (CCR) <a class="anchor" id="m-clasificacion-m-pg"></a>
Reutilizaremos la función que calcula la [precisión global](#m-clasificacion-b-pg) ya que puede ser utilizada en problemas de clasificación binario o multi-clase.

In [39]:
ccr_multiclase = precision_global(df_clasificacion_multiple)
print("CCR multiclase: ", ccr_multiclase)

CCR multiclase:  0.7142857142857143


## 3.3. Sensibilidad (TPR)<a class="anchor" id="m-clasificacion-m-s"></a>
Reutilizaremos la función que calcula la [sensibilidad](#m-clasificacion-b-s) para problemas binarios y la aplicaremos para cada matriz de confusión generada para tratar problemas multi-clase.

In [40]:
tpr_gato = sensibilidad(matriz_gato)
tpr_perro = sensibilidad(matriz_perro)
tpr_loro = sensibilidad(matriz_loro)
print("Sensibilidad matriz gato: ", tpr_gato)
print("Sensibilidad matriz perro: ", tpr_perro)
print("Sensibilidad matriz loro: ", tpr_loro)

Sensibilidad matriz gato:  0.5714285714285714
Sensibilidad matriz perro:  0.8571428571428571
Sensibilidad matriz loro:  0.7142857142857143


## 3.4. False Positive Rate (FPR)<a class="anchor" id="m-clasificacion-m-fpr"></a>
Reutilizaremos la función que calcula el [False Positive Rate](#m-clasificacion-b-fpr) para problemas binarios y la aplicaremos para cada matriz de confusión generada para tratar problemas multi-clase.

In [41]:
fpr_gato = false_positive_rate(matriz_gato)
fpr_perro = false_positive_rate(matriz_perro)
fpr_loro = false_positive_rate(matriz_loro)
print("False Positive Rate matriz gato: ", fpr_gato)
print("False Positive Rate matriz perro: ", fpr_perro)
print("False Positive Rate matriz loro: ", fpr_loro)

False Positive Rate matriz gato:  0.14285714285714285
False Positive Rate matriz perro:  0.21428571428571427
False Positive Rate matriz loro:  0.07142857142857142


## 3.5. Especificidad (TNR) <a class="anchor" id="m-clasificacion-m-e"></a>
Reutilizaremos la función que calcula la [especificidad](#m-clasificacion-b-e) para problemas binarios y la aplicaremos para cada matriz de confusión generada para tratar problemas multi-clase.

In [42]:
tnr_gato = especificidad(matriz_gato)
tnr_perro = especificidad(matriz_perro)
tnr_loro = especificidad(matriz_loro)
print("Especificidad matriz gato: ", tnr_gato)
print("Especificidad matriz perro: ", tnr_perro)
print("Especificidad matriz loro: ", tnr_loro)

Especificidad matriz gato:  0.8571428571428571
Especificidad matriz perro:  0.7857142857142857
Especificidad matriz loro:  0.9285714285714286


## 3.6. Precisión (PPV) <a class="anchor" id="m-clasificacion-m-p"></a>
Reutilizaremos la función que calcula la [precisión](#m-clasificacion-b-p) para problemas binarios y la aplicaremos para cada matriz de confusión generada para tratar problemas multi-clase.

In [43]:
ppv_gato = precision(matriz_gato)
ppv_perro = precision(matriz_perro)
ppv_loro = precision(matriz_loro)
print("Precision matriz gato: ", ppv_gato)
print("Precision matriz perro: ", ppv_perro)
print("Precision matriz loro: ", ppv_loro)

Precision matriz gato:  0.6666666666666666
Precision matriz perro:  0.6666666666666666
Precision matriz loro:  0.8333333333333334


## 3.7. F1 Score <a class="anchor" id="m-clasificacion-m-f1"></a>
Reutilizaremos la función que calcula el [F1 Score](#m-clasificacion-b-f1) para problemas binarios y la aplicaremos para cada matriz de confusión generada para tratar problemas multi-clase.

In [44]:
f1_score_gato = f1_score(matriz_gato)
f1_score_perro = f1_score(matriz_perro)
f1_score_loro = f1_score(matriz_loro)
print("F1 Score matriz gato: ", f1_score_gato)
print("F1 Score matriz perro: ", f1_score_perro)
print("F1 Score matriz loro: ", f1_score_loro)

F1 Score matriz gato:  0.6153846153846153
F1 Score matriz perro:  0.75
F1 Score matriz loro:  0.7692307692307692


## 3.8. Kappa <a class="anchor" id="m-clasificacion-m-k"></a>
Reutilizaremos la función que calcula el [Kappa](#m-clasificacion-b-k) ya que puede ser utilizada en problemas de clasificación binario o multi-clase.

In [45]:
kappa_multiclase = kappa(df_clasificacion_multiple)
print("Kappa multiclase: ", kappa_multiclase)

Kappa multiclase:  0.5714285714285714


## 3.9. Valoración del modelo <a class="anchor" id="m-clasificacion-m-vm"></a>
Para valorar el modelo empleado en un problema de clasificación multi-clase, se debe calcular la media de cada métrica, exceptuando el CCR y el Kappa. La formula sería la siguiente.

$$\text{Modelo} = \text{CCR}, \bar{\text{TPR}}, \bar{\text{FPR}}, \bar{\text{TNR}}, \bar{\text{PPV}}, \bar{\text{F1}}, \text{Kappa}$$

In [46]:
media_tpr = (tpr_gato + tpr_perro + tpr_loro) / 3
media_fpr = (fpr_gato + fpr_perro + fpr_loro) / 3
media_tnr = (tnr_gato + tnr_perro + tnr_loro) / 3
media_ppv = (ppv_gato + ppv_perro + ppv_loro) / 3
media_f1_score = (f1_score_gato + f1_score_perro + f1_score_loro) / 3
data = [
    {
        "Preción Global": None, "Sensibilidad": tpr_gato, 
        "False Positive Rate": fpr_gato, 
        "Especificidad": tnr_gato, "Precision": ppv_gato, 
        "F1 Score": f1_score_gato, "Kappa": None
    },
    {
        "Preción Global": None, "Sensibilidad": tpr_perro, 
        "False Positive Rate": fpr_perro, 
        "Especificidad": tnr_perro, "Precision": ppv_perro, 
        "F1 Score": f1_score_perro, "Kappa": None
    },
    {
        "Preción Global": None, "Sensibilidad": tpr_loro, 
        "False Positive Rate": fpr_loro, 
        "Especificidad": tnr_loro, "Precision": ppv_loro, 
        "F1 Score": f1_score_loro, "Kappa": None
    },
    {
        "Preción Global": ccr_multiclase, "Sensibilidad": media_tpr, 
        "False Positive Rate": media_fpr, 
        "Especificidad": media_tnr, "Precision": media_ppv, 
        "F1 Score": media_f1_score, "Kappa": kappa_multiclase
    }
]
df_metricas_multiclase = pd.DataFrame(data, index=["Matriz Gato", "Matriz Perro", "Matriz Loro", "Modelo"])
df_clasificacion_multiple = df_metricas_multiclase.style.apply(lambda x: ["background: yellow" if x.name == "Modelo" else "" for i in x], axis=1)
df_clasificacion_multiple

Unnamed: 0,Preción Global,Sensibilidad,False Positive Rate,Especificidad,Precision,F1 Score,Kappa
Matriz Gato,,0.571429,0.142857,0.857143,0.666667,0.615385,
Matriz Perro,,0.857143,0.214286,0.785714,0.666667,0.75,
Matriz Loro,,0.714286,0.071429,0.928571,0.833333,0.769231,
Modelo,0.714286,0.714286,0.142857,0.857143,0.722222,0.711538,0.571429
