<a href="https://colab.research.google.com/github/DanielDialektico/dialektico-machine-learning-practices/blob/main/notebooks/Machine%20Learning/Aprendizaje%20Supervisado/M%C3%A9tricas_Modelos_Regresi%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://dialektico.com/wp-content/uploads/2023/03/MiniLogoW4.png" alt="Dialéktico Logo" />

# **Evaluación de modelos de regresión 📑**
---

# **Introducción**

En una [práctica anterior](https://colab.research.google.com/github/DanielDialektico/dialektico-machine-learning-practices/blob/main/notebooks/Machine%20Learning/Aprendizaje%20Supervisado/Regresi%C3%B3n_Lineal_Simple.ipynb), ya hemos entrenado un modelo de **regresión lineal**, y como recordarás, utilizamos al final un par de métricas para evaluar su desempeño. Esta vez lo haremos de forma más organizada y consciente, basándonos en lo que hemos revisado en nuestra travesía sobre [métricas para evaluación de modelos de regresión](https://dialektico.com/metricas-de-evaluacion-de-modelos-de-regresion/).

<br>
<center><img src="https://dialektico.com/wp-content/uploads/2024/11/MEMR_colab.png" width="300" /></center>

<br>

#**Objetivo**

El objetivo de esta práctica es obtener valores de **métricas** de evaluación del modelo de regresión que hemos entrenado anteriormente.

Utilizaremos las siguientes mediciones:

*   Error Cuadrático Medio (MSE).
*   Error Absoluto Medio (MAE).
*   Coeficiente de Determinación (R2).
*   Coeficiente de Correlación de Pearson.

Con estos valores determinaremos qué tan bueno es el modelo para realizar predicciones sobre el conjunto de datos de prueba.

<br>
<center><img src="https://dialektico.com/wp-content/uploads/2024/11/MEAR_colab_obj_2.jpg" width="400" /></center>

<br>

#Preparación de datos y librerías

Dado que utilizaremos conjuntos de datos de exploraciones pasadas, nos traeremos el conjunto de datos preprocesado de precios de automóviles y de puntajes de estudiantes.

Primero instalaremos e importaremos las librerías que utilizaremos, además de establecer otras configuraciones.

***Nota*:** *Las instalaciones se realizan a pesar de que algunas librerías ya están integradas de forma nativa en Colab, esto para asegurar que el Notebook no presente problemas de ejecución si se dan cambios en la sintaxis entre versiones de librerías.*

In [None]:
# Se instalan las librerías.
!pip install mlektic
!pip install pandas==2.2.2
!pip install matplotlib==3.10.0

In [None]:
# Se importan las librerías.
from mlektic.linear_reg import LinearRegressionArcht
from mlektic import preprocessing
import pandas as pd
import matplotlib.pyplot as plt
import warnings

# Se filtran las advertencias.
warnings.filterwarnings('ignore')

# Se define el estilo de las gráficas.
plt.style.use('seaborn-v0_8-whitegrid')

# Se define el despliegue de flotantes en dataframes.
pd.options.display.float_format = '{:.2f}'.format

Una de las librerías instaladas y que utilizaremos para **entrenar** y **evaluar** los modelos resultantes, es una **librería** llamada [mlektic](https://github.com/DanielDialektico/mlektic) que he desarrollado personalmente para este curso, y que estaremos utilizando en lo sucesivo para aprender conceptos clave de **machine learning**.

Ahora cargamos el conjunto de datos de precios de automóviles:

In [None]:
dataset = pd.read_csv('https://github.com/DanielDialektico/dialektico-machine-learning-practices/raw/refs/heads/main/data/automovil_preprocessed.csv', encoding='latin1')
dataset

Recordemos cómo luce la relación entre estas variables utilizando una gráfica de Matplotlib:

In [None]:
# Se definen los puntos a graficar, y se imprimen.
inputs = dataset['Poder_máximo_BHP']
outputs = dataset['Precio']

# Se grafica el conjunto de datos preprocesado.
plt.figure(figsize=(6, 6))
plt.plot(inputs, outputs, 'o', markersize = 6)
plt.title("PRECIO RESPECTO A PODER MÁXIMO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 16}, pad = 15)
plt.suptitle("Fig. 1 Conjunto de datos de precios de automóviles preprocesado.", fontproperties = {'family': 'DejaVu Sans','size': 12}, y=-0.001)
plt.xlabel("POTENCIA MÁXIMA DE FRENADO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.ylabel("PRECIO (USD)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.show()

<br>

# **Modelo de regresión**

Ya que tenemos los **datos** cargados, utilizaremos una **regresión lineal** para modelar la relación entre ambas variables. Para esto utilizaremos mlektic, la cual permite definir regresiones lineales con diferentes configuraciones de una manera sencilla. En este caso, nos limitaremos a entrenar el modelo utilizando la minimización del error cuadrático, como hemos hecho hasta ahora:

In [None]:
# Se generan los conjuntos de entrenamiento y prueba para las entradas (x) y salidas (y), con una proporción 80-20.
train_set, test_set = preprocessing.pd_dataset(dataset, input_columns=['Poder_máximo_BHP'], output_column='Precio', train_fraction = 0.8)

# Se crea el objeto para realizar la regresión lineal.
lin_reg = LinearRegressionArcht()

# Se entrena el modelo.
lin_reg.train(train_set)

In [None]:
# Se grafica la línea recta obtenida.

plt.figure(figsize=(6, 6))
plt.plot(inputs, outputs, 'o', markersize = 6)
plt.plot(inputs, lin_reg.predict(inputs), color="#9E0505", linewidth=3, label='Recta de regresión')
plt.title("PRECIO RESPECTO A PODER MÁXIMO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 16}, pad = 15)
plt.xlabel("POTENCIA MÁXIMA DE FRENADO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.ylabel("PRECIO (USD)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.suptitle("Fig. 2 Visualización del conjunto de datos y la recta ajustada generada por la ecuación resultante de la regresión lineal.", fontproperties = {'family': 'DejaVu Sans', 'size': 12}, y=-0.001)
plt.legend(loc='upper left', prop = {'family': 'DejaVu Sans', 'weight': 'bold', 'size': 14}, frameon = True, framealpha = 1, facecolor  = '#dddddd', shadow = True)
plt.show()

<br>

# **Evaluando el modelo**

Ya es momento de evaluar los resultados obtenidos. Tenemos un **modelo** que permite estimar precios de automóviles respecto a su potencia máxima de frenado, ¿qué tan preciso es?

Para esto utilizaremos las **métricas** antes mencionadas, y lo haremos con poco código:

In [None]:
# Se calculan las métricas de evaluación.
mse = lin_reg.eval(test_set, 'mse')
mae = lin_reg.eval(test_set, 'mae')
r2 = lin_reg.eval(test_set, 'r2')
corr = lin_reg.eval(test_set, 'corr')

# Se crea un DataFrame con las métricas y sus valores para visualizarlas en una
# tabla.
data = {
    'Métrica': ['MSE', 'MAE', 'R2', 'Correlación'],
    'Valor': [mse, mae, r2, corr]
}

df_metrics = pd.DataFrame(data)
df_metrics

Con esto hemos obtenido las **mediciones** del **desempeño** del modelo. Podrás notar que en la primera columna se muestran las métricas utilizadas, mientras que en la segunda yacen sus respectivos valores.

<center><img src="https://dialektico.com/wp-content/uploads/2024/11/MEAR_L2.jpg" width="400" /></center>

Es relativamente sencillo utilizando herramientas como **Python**, lo importante es interpretarlo correctamente.

<br>

## **Interpretación de resultados**

Recuerda que cada **métrica** tiene su **interpretación** única. Es hora de que utilices tus dotes como **analista de datos** y realices **inferencias** sobre la información que tienes a la mano. Para esto, consideraremos también algunas estadísticas del conjunto de datos utilizado:

In [None]:
dataset.describe()

Analicemos, entonces, lo que obtuvimos.

<br>

### **MSE (Error Cuadrático Medio)**

El valor de MSE obtenido fue:

$\text{MSE}=8,832,140$


**Interpretación:**

Como ya hemos definido, el **MSE** indica un error promedio al cuadrado de los errores, que en este caso de aproximadamente 8,832,140 unidades monetarias, lo que parece muy grande en comparación con el rango de precios en el conjunto de datos, donde el valor máximo es de 31,056. Pero esto no es directamente comparable, ya los valores de los **errores** están **elevados al cuadrado**. Para ello, podríamos utilizar el valor de la **varianza**, la cual cuantifica las diferencias entre los valores y su promedio en la **escala** original de los datos. Por el momento no la tenemos a la mano, y no nos preocuparemos por ello. Para una definición más concreta utilizando otra función de pérdida, voltearemos a ver el valor del **MAE**, ya que este no eleva al cuadrado las diferencias. Sin embargo, sí podemos notar que, dado que el MSE penaliza los errores grandes al potenciarlos al cuadrado, este valor alto podría ser influenciado por valores de precios muy alejados de la media o algunos puntos que el modelo no logra ajustar correctamente (estos puntos alejados de la recta pueden ser verificables al observar la gráfica de la Figura 2).

<br>

### **MAE (Error Absoluto Medio)**

El valor de MAE obtenido fue:

$\text{MSE}=1,974.06$

**Interpretación**:

El **MAE** representa un error promedio de aproximadamente 1,974 unidades monetarias. Este valor afortunadamente sí se encuentra en la escala original, por lo que podemos realizar comparaciones más directas. Respecto al valor promedio de precios de 15,243.81, este error equivale a una desviación del precio promedio de alrededor del 13%. Este nivel de error puede considerarse significativo, pero no es tan alto en comparación con el rango completo de precios, que va desde 5,952 a 31,056. Aun así, muestra que el modelo tiene una precisión moderada, pero podría mejorar.

<br>

### **R² (Coeficiente de Determinación)**

El valor de R² obtenido fue:

$\text{R}^2=0.84$

**Interpretación**:

Un R² de 0.84 significa que el 84% de la variabilidad en los precios de los coches se puede explicar en función de la potencia de frenado, por lo que parece haber una **relación significativa** entre la potencia y el precio, sugiriendo que los coches con mayor potencia de frenado suelen tener precios más altos. Sin embargo, el 16% de la **variabilidad** en el precio no es explicada por esta variable, lo cual es razonable porque el precio de un coche suele depender de otros **factores** que no se están modelando aquí.

<br>

### **Coeficiente de Correlación de Pearson**

El valor del coeficiente de Pearson obtenido fue:

$\rho=0.92$

**Interpretación**:

Una correlación de Pearson de 0.92 indica una fuerte **relación lineal positiva** entre la potencia de frenado y el precio. Esto sugiere que a medida que aumenta la potencia de frenado, el precio del coche también tiende a aumentar (lo cual es observable en la gráfica de la Figura 2). Esta correlación alta, respaldada por el valor de R², confirma que la potencia de frenado es un predictor importante del precio en este conjunto de datos. Sin embargo, la relación, aunque fuerte, no es perfecta, y esto deja margen para variables adicionales que influyan en el precio.

<br>

## **Conclusión de evaluaciones**

¿Qué puedes decirme sobre los análisis realizados?, resumamos lo visto.
Estos resultados indican que la potencia de frenado es una característica significativa para predecir el precio, pero no es suficiente para capturar toda la variabilidad de los precios de los coches en este conjunto de datos. El **MSE** y **MAE** muestran que el modelo comete errores considerables en unidades monetarias, posiblemente debido a variaciones en el precio que la potencia de frenado no logra explicar completamente. Además, el precio tiene una dispersión considerable en torno a su **media**, y otros factores no considerados en el modelo podrían explicar esta **variabilidad** **residual**.

¿Qué podríamos hacer al respecto? Una opción muy típica es incorporar otras variables relacionadas con el precio, lo cual podría ayudar a mejorar la precisión del modelo y reducir los errores, dado que el precio, en la práctica, depende de múltiples factores además de la potencia de frenado.

<center><img src="https://dialektico.com/wp-content/uploads/2024/11/MEAR_A3.jpg" width="400" /></center>

Exacto, o usar otros algoritmos de aprendizaje supervisado, que veremos más adelante.

<br>

# **Ejercicio**

Hasta aquí concluimos con esta práctica, pero aún puedes poner a prueba tus conocimientos realizando mediciones sobre el desempeño de un modelo ajustado a otro conjunto de datos.

Volvamos al caso de los puntajes de alumnos:

In [None]:
# Se visualiza el conjunto de datos:
students_dataset = pd.read_csv('https://raw.githubusercontent.com/DanielDialektico/Machine-Learning/main/Conjuntos%20de%20datos/Estudiantes_puntaje.csv', encoding='latin-1')
students_dataset

Puedes utilizar mlektic justo como hicimos antes, pero con este conjunto de datos. Debajo te dejaré comentarios como una guía de los pasos que debes considerar:

In [None]:
# Se generan los conjuntos de entrenamiento y prueba para las entradas (x) y salidas (y), con una proporción 80-20.


# Se crea el objeto para realizar la regresión lineal.


# Se entrena el modelo.


# Se calculan las métricas de evaluación.


# Se crea un DataFrame con las métricas y sus valores para visualizarlas en una
# tabla.



<br>

Hemos concluido por hoy. Has evaluado y analizado el desempeño de dos modelos de regresión, demostrándote la importancia del uso de este tipo de métricas, cómo implementarlas, y cómo interpretarlas.

▶ [Regresar a la lección](https://dialektico.com/metricas-de-evaluacion-de-modelos-de-regresion/) 🧙

In [None]:
# Dialektico Machine learning practices © 2024 by Daniel Antonio García Escobar
# is licensed under CC BY-NC 4.0. To view a copy of this license,
# visit https://creativecommons.org/licenses/by-nc/4.0/

# Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
# Public License