<a href="https://colab.research.google.com/github/DanielDialektico/dialektico-machine-learning-practices/blob/main/notebooks/Machine%20Learning/Aprendizaje%20Supervisado/M%C3%A9tricas_Modelos_Regresi%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://dialektico.com/wp-content/uploads/2023/03/MiniLogoW4.png" alt="Dial√©ktico Logo" />

# **Evaluaci√≥n de modelos de regresi√≥n üìë**
---

# **Introducci√≥n**

En una [pr√°ctica anterior](https://colab.research.google.com/github/DanielDialektico/dialektico-machine-learning-practices/blob/main/notebooks/Machine%20Learning/Aprendizaje%20Supervisado/Regresi%C3%B3n_Lineal_Simple.ipynb), ya hemos entrenado un modelo de **regresi√≥n lineal**, y como recordar√°s, utilizamos al final un par de m√©tricas para evaluar su desempe√±o. Esta vez lo haremos de forma m√°s organizada y consciente, bas√°ndonos en lo que hemos revisado en nuestra traves√≠a sobre [m√©tricas para evaluaci√≥n de modelos de regresi√≥n](https://dialektico.com/metricas-de-evaluacion-de-modelos-de-regresion/).

<br>
<center><img src="https://dialektico.com/wp-content/uploads/2024/11/MEMR_colab.png" width="300" /></center>

<br>

#**Objetivo**

El objetivo de esta pr√°ctica es obtener valores de **m√©tricas** de evaluaci√≥n del modelo de regresi√≥n que hemos entrenado anteriormente.

Utilizaremos las siguientes mediciones:

*   Error Cuadr√°tico Medio (MSE).
*   Error Absoluto Medio (MAE).
*   Coeficiente de Determinaci√≥n (R2).
*   Coeficiente de Correlaci√≥n de Pearson.

Con estos valores determinaremos qu√© tan bueno es el modelo para realizar predicciones sobre el conjunto de datos de prueba.

<br>
<center><img src="https://dialektico.com/wp-content/uploads/2024/11/MEAR_colab_obj_2.jpg" width="400" /></center>

<br>

#Preparaci√≥n de datos y librer√≠as

Dado que utilizaremos conjuntos de datos de exploraciones pasadas, nos traeremos el conjunto de datos preprocesado de precios de autom√≥viles y de puntajes de estudiantes.

Primero instalaremos e importaremos las librer√≠as que utilizaremos, adem√°s de establecer otras configuraciones.

***Nota*:** *Las instalaciones se realizan a pesar de que algunas librer√≠as ya est√°n integradas de forma nativa en Colab, esto para asegurar que el Notebook no presente problemas de ejecuci√≥n si se dan cambios en la sintaxis entre versiones de librer√≠as.*

In [None]:
# Se instalan las librer√≠as.
!pip install mlektic
!pip install pandas==2.2.2
!pip install matplotlib==3.10.0

In [None]:
# Se importan las librer√≠as.
from mlektic.linear_reg import LinearRegressionArcht
from mlektic import preprocessing
import pandas as pd
import matplotlib.pyplot as plt
import warnings

# Se filtran las advertencias.
warnings.filterwarnings('ignore')

# Se define el estilo de las gr√°ficas.
plt.style.use('seaborn-v0_8-whitegrid')

# Se define el despliegue de flotantes en dataframes.
pd.options.display.float_format = '{:.2f}'.format

Una de las librer√≠as instaladas y que utilizaremos para **entrenar** y **evaluar** los modelos resultantes, es una **librer√≠a** llamada [mlektic](https://github.com/DanielDialektico/mlektic) que he desarrollado personalmente para este curso, y que estaremos utilizando en lo sucesivo para aprender conceptos clave de **machine learning**.

Ahora cargamos el conjunto de datos de precios de autom√≥viles:

In [None]:
dataset = pd.read_csv('https://github.com/DanielDialektico/dialektico-machine-learning-practices/raw/refs/heads/main/data/automovil_preprocessed.csv', encoding='latin1')
dataset

Recordemos c√≥mo luce la relaci√≥n entre estas variables utilizando una gr√°fica de Matplotlib:

In [None]:
# Se definen los puntos a graficar, y se imprimen.
inputs = dataset['Poder_m√°ximo_BHP']
outputs = dataset['Precio']

# Se grafica el conjunto de datos preprocesado.
plt.figure(figsize=(6, 6))
plt.plot(inputs, outputs, 'o', markersize = 6)
plt.title("PRECIO RESPECTO A PODER M√ÅXIMO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 16}, pad = 15)
plt.suptitle("Fig. 1 Conjunto de datos de precios de autom√≥viles preprocesado.", fontproperties = {'family': 'DejaVu Sans','size': 12}, y=-0.001)
plt.xlabel("POTENCIA M√ÅXIMA DE FRENADO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.ylabel("PRECIO (USD)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.show()

<br>

# **Modelo de regresi√≥n**

Ya que tenemos los **datos** cargados, utilizaremos una **regresi√≥n lineal** para modelar la relaci√≥n entre ambas variables. Para esto utilizaremos mlektic, la cual permite definir regresiones lineales con diferentes configuraciones de una manera sencilla. En este caso, nos limitaremos a entrenar el modelo utilizando la minimizaci√≥n del error cuadr√°tico, como hemos hecho hasta ahora:

In [None]:
# Se generan los conjuntos de entrenamiento y prueba para las entradas (x) y salidas (y), con una proporci√≥n 80-20.
train_set, test_set = preprocessing.pd_dataset(dataset, input_columns=['Poder_m√°ximo_BHP'], output_column='Precio', train_fraction = 0.8)

# Se crea el objeto para realizar la regresi√≥n lineal.
lin_reg = LinearRegressionArcht()

# Se entrena el modelo.
lin_reg.train(train_set)

In [None]:
# Se grafica la l√≠nea recta obtenida.

plt.figure(figsize=(6, 6))
plt.plot(inputs, outputs, 'o', markersize = 6)
plt.plot(inputs, lin_reg.predict(inputs), color="#9E0505", linewidth=3, label='Recta de regresi√≥n')
plt.title("PRECIO RESPECTO A PODER M√ÅXIMO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 16}, pad = 15)
plt.xlabel("POTENCIA M√ÅXIMA DE FRENADO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.ylabel("PRECIO (USD)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.suptitle("Fig. 2 Visualizaci√≥n del conjunto de datos y la recta ajustada generada por la ecuaci√≥n resultante de la regresi√≥n lineal.", fontproperties = {'family': 'DejaVu Sans', 'size': 12}, y=-0.001)
plt.legend(loc='upper left', prop = {'family': 'DejaVu Sans', 'weight': 'bold', 'size': 14}, frameon = True, framealpha = 1, facecolor  = '#dddddd', shadow = True)
plt.show()

<br>

# **Evaluando el modelo**

Ya es momento de evaluar los resultados obtenidos. Tenemos un **modelo** que permite estimar precios de autom√≥viles respecto a su potencia m√°xima de frenado, ¬øqu√© tan preciso es?

Para esto utilizaremos las **m√©tricas** antes mencionadas, y lo haremos con poco c√≥digo:

In [None]:
# Se calculan las m√©tricas de evaluaci√≥n.
mse = lin_reg.eval(test_set, 'mse')
mae = lin_reg.eval(test_set, 'mae')
r2 = lin_reg.eval(test_set, 'r2')
corr = lin_reg.eval(test_set, 'corr')

# Se crea un DataFrame con las m√©tricas y sus valores para visualizarlas en una
# tabla.
data = {
    'M√©trica': ['MSE', 'MAE', 'R2', 'Correlaci√≥n'],
    'Valor': [mse, mae, r2, corr]
}

df_metrics = pd.DataFrame(data)
df_metrics

Con esto hemos obtenido las **mediciones** del **desempe√±o** del modelo. Podr√°s notar que en la primera columna se muestran las m√©tricas utilizadas, mientras que en la segunda yacen sus respectivos valores.

<center><img src="https://dialektico.com/wp-content/uploads/2024/11/MEAR_L2.jpg" width="400" /></center>

Es relativamente sencillo utilizando herramientas como **Python**, lo importante es interpretarlo correctamente.

<br>

## **Interpretaci√≥n de resultados**

Recuerda que cada **m√©trica** tiene su **interpretaci√≥n** √∫nica. Es hora de que utilices tus dotes como **analista de datos** y realices **inferencias** sobre la informaci√≥n que tienes a la mano. Para esto, consideraremos tambi√©n algunas estad√≠sticas del conjunto de datos utilizado:

In [None]:
dataset.describe()

Analicemos, entonces, lo que obtuvimos.

<br>

### **MSE (Error Cuadr√°tico Medio)**

El valor de MSE obtenido fue:

$\text{MSE}=8,832,140$


**Interpretaci√≥n:**

Como ya hemos definido, el **MSE** indica un error promedio al cuadrado de los errores, que en este caso de aproximadamente 8,832,140 unidades monetarias, lo que parece muy grande en comparaci√≥n con el rango de precios en el conjunto de datos, donde el valor m√°ximo es de 31,056. Pero esto no es directamente comparable, ya los valores de los **errores** est√°n **elevados al cuadrado**. Para ello, podr√≠amos utilizar el valor de la **varianza**, la cual cuantifica las diferencias entre los valores y su promedio en la **escala** original de los datos. Por el momento no la tenemos a la mano, y no nos preocuparemos por ello. Para una definici√≥n m√°s concreta utilizando otra funci√≥n de p√©rdida, voltearemos a ver el valor del **MAE**, ya que este no eleva al cuadrado las diferencias. Sin embargo, s√≠ podemos notar que, dado que el MSE penaliza los errores grandes al potenciarlos al cuadrado, este valor alto podr√≠a ser influenciado por valores de precios muy alejados de la media o algunos puntos que el modelo no logra ajustar correctamente (estos puntos alejados de la recta pueden ser verificables al observar la gr√°fica de la Figura 2).

<br>

### **MAE (Error Absoluto Medio)**

El valor de MAE obtenido fue:

$\text{MSE}=1,974.06$

**Interpretaci√≥n**:

El **MAE** representa un error promedio de aproximadamente 1,974 unidades monetarias. Este valor afortunadamente s√≠ se encuentra en la escala original, por lo que podemos realizar comparaciones m√°s directas. Respecto al valor promedio de precios de 15,243.81, este error equivale a una desviaci√≥n del precio promedio de alrededor del 13%. Este nivel de error puede considerarse significativo, pero no es tan alto en comparaci√≥n con el rango completo de precios, que va desde 5,952 a 31,056. Aun as√≠, muestra que el modelo tiene una precisi√≥n moderada, pero podr√≠a mejorar.

<br>

### **R¬≤ (Coeficiente de Determinaci√≥n)**

El valor de R¬≤ obtenido fue:

$\text{R}^2=0.84$

**Interpretaci√≥n**:

Un R¬≤ de 0.84 significa que el 84% de la variabilidad en los precios de los coches se puede explicar en funci√≥n de la potencia de frenado, por lo que parece haber una **relaci√≥n significativa** entre la potencia y el precio, sugiriendo que los coches con mayor potencia de frenado suelen tener precios m√°s altos. Sin embargo, el 16% de la **variabilidad** en el precio no es explicada por esta variable, lo cual es razonable porque el precio de un coche suele depender de otros **factores** que no se est√°n modelando aqu√≠.

<br>

### **Coeficiente de Correlaci√≥n de Pearson**

El valor del coeficiente de Pearson obtenido fue:

$\rho=0.92$

**Interpretaci√≥n**:

Una correlaci√≥n de Pearson de 0.92 indica una fuerte **relaci√≥n lineal positiva** entre la potencia de frenado y el precio. Esto sugiere que a medida que aumenta la potencia de frenado, el precio del coche tambi√©n tiende a aumentar (lo cual es observable en la gr√°fica de la Figura 2). Esta correlaci√≥n alta, respaldada por el valor de R¬≤, confirma que la potencia de frenado es un predictor importante del precio en este conjunto de datos. Sin embargo, la relaci√≥n, aunque fuerte, no es perfecta, y esto deja margen para variables adicionales que influyan en el precio.

<br>

## **Conclusi√≥n de evaluaciones**

¬øQu√© puedes decirme sobre los an√°lisis realizados?, resumamos lo visto.
Estos resultados indican que la potencia de frenado es una caracter√≠stica significativa para predecir el precio, pero no es suficiente para capturar toda la variabilidad de los precios de los coches en este conjunto de datos. El **MSE** y **MAE** muestran que el modelo comete errores considerables en unidades monetarias, posiblemente debido a variaciones en el precio que la potencia de frenado no logra explicar completamente. Adem√°s, el precio tiene una dispersi√≥n considerable en torno a su **media**, y otros factores no considerados en el modelo podr√≠an explicar esta **variabilidad** **residual**.

¬øQu√© podr√≠amos hacer al respecto? Una opci√≥n muy t√≠pica es incorporar otras variables relacionadas con el precio, lo cual podr√≠a ayudar a mejorar la precisi√≥n del modelo y reducir los errores, dado que el precio, en la pr√°ctica, depende de m√∫ltiples factores adem√°s de la potencia de frenado.

<center><img src="https://dialektico.com/wp-content/uploads/2024/11/MEAR_A3.jpg" width="400" /></center>

Exacto, o usar otros algoritmos de aprendizaje supervisado, que veremos m√°s adelante.

<br>

# **Ejercicio**

Hasta aqu√≠ concluimos con esta pr√°ctica, pero a√∫n puedes poner a prueba tus conocimientos realizando mediciones sobre el desempe√±o de un modelo ajustado a otro conjunto de datos.

Volvamos al caso de los puntajes de alumnos:

In [None]:
# Se visualiza el conjunto de datos:
students_dataset = pd.read_csv('https://raw.githubusercontent.com/DanielDialektico/Machine-Learning/main/Conjuntos%20de%20datos/Estudiantes_puntaje.csv', encoding='latin-1')
students_dataset

Puedes utilizar mlektic justo como hicimos antes, pero con este conjunto de datos. Debajo te dejar√© comentarios como una gu√≠a de los pasos que debes considerar:

In [None]:
# Se generan los conjuntos de entrenamiento y prueba para las entradas (x) y salidas (y), con una proporci√≥n 80-20.


# Se crea el objeto para realizar la regresi√≥n lineal.


# Se entrena el modelo.


# Se calculan las m√©tricas de evaluaci√≥n.


# Se crea un DataFrame con las m√©tricas y sus valores para visualizarlas en una
# tabla.



<br>

Hemos concluido por hoy. Has evaluado y analizado el desempe√±o de dos modelos de regresi√≥n, demostr√°ndote la importancia del uso de este tipo de m√©tricas, c√≥mo implementarlas, y c√≥mo interpretarlas.

‚ñ∂ [Regresar a la lecci√≥n](https://dialektico.com/metricas-de-evaluacion-de-modelos-de-regresion/) üßô

In [None]:
# Dialektico Machine learning practices ¬© 2024 by Daniel Antonio Garc√≠a Escobar
# is licensed under CC BY-NC 4.0. To view a copy of this license,
# visit https://creativecommons.org/licenses/by-nc/4.0/

# Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
# Public License