<a href="https://colab.research.google.com/github/jserrataylor/cursoAI/blob/main/Metricas_para_Modelos_de_Regresion_Lineal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Métricas para Regresión Lineal**

Un modelo de regresión es un enfoque estadístico y de aprendizaje automático empleado para predecir o estimar la relación entre una variable dependiente (o variable objetivo) y una o más variables independientes (o predictores). El objetivo principal de un modelo de regresión es comprender cómo los valores de las variables independientes están asociados con los valores de la variable dependiente, permitiendo así realizar predicciones o inferencias sobre esta última.

Los modelos de regresión son herramientas poderosas en diversos campos, como la economía, la ingeniería, las ciencias biológicas y las ciencias sociales, facilitando la explicación de fenómenos y la realización de predicciones basadas en datos históricos. La elección del modelo de regresión adecuado depende de varios factores, incluyendo la naturaleza de los datos y el objetivo específico del análisis.

Existen varios tipos de modelos de regresión, los cuales varían según la naturaleza de la relación entre las variables y el tipo de datos. Dentro de los más comunes se encuentran la **Regresión Lineal** y la **Regresión Logística**.

La **Regresión Lineal** es el tipo más básico y comúnmente utilizado de regresión. Modela la relación de manera lineal entre la variable dependiente y una o más variables independientes. En la regresión lineal simple, se busca ajustar una línea recta a los datos, mientras que en la regresión lineal múltiple se utilizan múltiples variables independientes.

Las **métricas para modelos de regresión lineal** se utilizan para evaluar y cuantificar el rendimiento y la precisión de estos modelos. Estas métricas brindan información sobre qué tan bien el modelo se ajusta a los datos y su capacidad para predecir valores futuros. Entre las métricas más comunes se encuentran:

1. **Error Absoluto Máximo**: Es el máximo de los errores absolutos entre los valores reales y los predichos, proporcionando una indicación del peor caso de error en las predicciones del modelo.

2. **Error Absoluto Medio (MAE)**: Es el promedio de los errores absolutos entre los valores reales y los predichos. A diferencia del MSE y el RMSE, no penaliza tanto los errores grandes, haciéndolo menos sensible a los outliers.

3. **Error Cuadrático Medio (MSE)**: Representa el promedio de los cuadrados de los errores entre los valores reales y los predichos. Penaliza más significativamente los errores grandes, ya que los errores se elevan al cuadrado antes de ser promediados.

4. **Raíz del Error Cuadrático Medio (RMSE)**: Corresponde a la raíz cuadrada del MSE. Está en la misma escala que los datos originales, facilitando así su interpretación.

5. **Suma de los Cuadrados de los Residuos (RSS)**: Es la suma de los cuadrados de las diferencias entre los valores reales y los predichos, representando la variabilidad total no explicada por el modelo.

6. **Coeficiente de Determinación $(R^2)$**: Mide la proporción de la variabilidad en la variable dependiente que es explicada por el modelo. Un \($R^2$\) cercano a 1 indica que el modelo explica una gran parte de la variabilidad.

**Referencias**:

Gutiérrez-García, J.O. (2022, 3 de Enero). Las Mejores Métricas para Evaluar Modelos de Regresión con Scikit-Learn: R2, MSE, RMSE, MAE y otras. Código Máquina. https://www.youtube.com/watch?v=9IZ6OPQWtpw


Spiess, A. N., & Neumeyer, N. (2010). An evaluation of R2as an inadequate measure for nonlinear models in pharmacological and biochemical research: A Monte Carlo approach. BMC Pharmacology, 10, 1–11. https://doi.org/10.1186/1471-2210-10-6

## **Error Absoluto Máximo (M)**

El Error Absoluto Máximo (a menudo abreviado como "M") en estadística y análisis de datos, especialmente en el contexto de la regresión, es una métrica que mide el mayor error absoluto entre un conjunto de valores predichos y los valores reales correspondientes.

Se define como el máximo de las diferencias absolutas entre los valores predichos y los valores reales. Matemáticamente, se expresa como:

$\text{M} = \max(|y_i - \hat{y}_i|)$

donde:
- \( y_i \) son los valores reales.
- \($̂{y}$) son los valores predichos por el modelo.
- \($ \max \$) denota la operación de tomar el valor máximo entre todos los valores absolutos de las diferencias.

Esta métrica es útil para identificar el peor caso de error en las predicciones de un modelo. A diferencia de otras métricas como el MSE o el MAE, que proporcionan un promedio del error, el Error Absoluto Máximo se centra específicamente en el error más grande. Es particularmente relevante en situaciones donde los errores grandes son más críticos que los errores más pequeños y frecuentes.



In [None]:
# Importando la función para calcular el Error Absoluto Máximo (M)
from sklearn.metrics import max_error

# Valores verdaderos y predichos
y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, 7]

# Calculando Error Absoluto Máximo (M)
max_error(y_verdadero, y_predicho)

2

## **Error Absoluto Medio (MAE)**

El Error Absoluto Medio (MAE, por sus siglas en inglés Mean Absolute Error) es una métrica utilizada en estadística y aprendizaje automático para medir la precisión de un modelo en tareas de regresión. El MAE calcula el promedio de los errores absolutos entre las predicciones del modelo y los valores reales, proporcionando así una medida de la magnitud del error sin tener en cuenta su dirección.

El MAE se calcula con la siguiente fórmula:

$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$

donde:
- \($ y_i $\) son los valores reales.
- \($\hat{y}$) son los valores predichos por el modelo.
- \($n$) es el número total de observaciones.

A diferencia del Error Cuadrático Medio (MSE), el MAE no eleva los errores al cuadrado, por lo que no da un peso adicional a los errores grandes. Esto lo hace útil en situaciones donde los errores grandes no necesariamente deben ser penalizados más fuertemente que los errores pequeños. El MAE es una métrica fácil de interpretar, ya que está en la misma escala que los datos originales. Un valor más bajo de MAE indica un mejor rendimiento del modelo.

In [None]:
# Importando la función para calcular el MAE
from sklearn.metrics import mean_absolute_error

# Valores verdaderos y predichos
y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, 7]

# Calculando MAE
mean_absolute_error(y_verdadero, y_predicho)

0.4

## **Error Cuadrático Medio (MSE)**

El Error Cuadrático Medio (MSE, por sus siglas en inglés, Mean Squared Error) es una métrica utilizada en estadística y aprendizaje automático para medir el promedio de los cuadrados de los errores o desviaciones. Es decir, el MSE mide cuánto se desvían las predicciones de un modelo de regresión de los valores reales.

El MSE se calcula utilizando la siguiente fórmula:

$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

donde:
- \( y_i \) son los valores reales.
- \($ \hat{y}_i \$) son los valores predichos por el modelo.
- \( n \) es el número total de observaciones.

El MSE es una medida del promedio de los errores al cuadrado, lo que significa que da más peso a errores más grandes (debido al cuadrado del error). Esto lo hace particularmente útil en situaciones donde los errores grandes son especialmente indeseables.

Un MSE más bajo indica un mejor rendimiento del modelo. Un MSE de 0 significaría que el modelo predice perfectamente todos los valores, lo cual es raro en la práctica.

El MSE tiene la ventaja de estar en una escala que es fácil de entender e interpretar, especialmente en comparación con la variable dependiente del modelo. Sin embargo, debido a que los errores se elevan al cuadrado antes de promediar, el MSE puede ser más sensible a outliers y puede no representar adecuadamente la variabilidad en los datos si los errores no se distribuyen normalmente.

In [None]:
# Importando la función para calcular el MSE
from sklearn.metrics import mean_squared_error

# Valores verdaderos y predichos
y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, 7]

# Calculando MSE
mean_squared_error(y_verdadero, y_predicho)

0.8

## **Suma de los Cuadrados de los Residuos (RSS)**

La Suma de los Cuadrados de los Residuos (RSS, por sus siglas en inglés) es una métrica utilizada en la regresión estadística para medir la cantidad de variabilidad en los datos que no es explicada por el modelo de regresión. En otras palabras, es una medida de la discrepancia entre los datos observados y los datos modelados.

El RSS se calcula sumando los cuadrados de los residuos (errores) de cada punto de datos. Un residuo es la diferencia entre un valor observado y el valor predicho por el modelo. Matemáticamente, el RSS se expresa como:

$\text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

donde:
- \( y_i \) son los valores reales observados.
- \($\hat{y}$ ) son los valores predichos por el modelo.
- \( n \) es el número total de observaciones.

El RSS es un componente importante en el cálculo de otras métricas estadísticas, como el Error Cuadrático Medio (MSE) y el Coeficiente de Determinación $\(R^2\$). Un RSS más bajo indica que el modelo tiene un mejor ajuste a los datos. Sin embargo, es importante tener en cuenta que el RSS por sí solo no proporciona una medida completa del rendimiento del modelo, especialmente cuando se compara entre conjuntos de datos de diferente tamaño o se compara entre modelos con diferente número de parámetros.


In [None]:
# Importando la función para calcular el RSS
from sklearn.metrics import mean_squared_error

# Valores verdaderos y predichos
y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, 7]

# Calculando RSS
mean_squared_error(y_verdadero, y_predicho)*len(y_predicho)

4.0

# **Root Mean Squared Error, o Raiz del Error Cuadrático Medio**
El RMSE (Root Mean Squared Error, o Raíz del Error Cuadrático Medio) es una métrica comúnmente utilizada para evaluar el rendimiento de los modelos de regresión. Proporciona una medida de la magnitud del error del modelo en sus predicciones.

El RMSE se calcula con la siguiente fórmula:

$\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}$

donde:
- \( $y_i $\) son los valores reales.
- \( $\hat{y}_i $\) son los valores predichos por el modelo.
- \( n \) es el número total de observaciones.

El RMSE es la raíz cuadrada del Error Cuadrático Medio (MSE). Al igual que el MSE, el RMSE penaliza más los errores grandes, ya que estos errores se elevan al cuadrado. Sin embargo, a diferencia del MSE, el RMSE está en la misma escala que los datos originales, lo que facilita su interpretación. Un RMSE más bajo indica un mejor rendimiento del modelo, con 0 siendo el valor ideal, lo que significaría que no hay error entre las predicciones y los valores reales.

El RMSE es particularmente útil porque da una idea de cuán grandes son los errores del modelo en promedio. Es especialmente valioso en contextos donde los grandes errores son particularmente indeseables.


In [None]:
# Importando la función para calcular el RMSE
from sklearn.metrics import mean_squared_error

# Valores verdaderos y predichos
y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, 7]

# Calculando el RMSE
rmse = mean_squared_error(y_verdadero, y_predicho, squared=False)
rmse

0.8944271909999159


## **R² (Coeficiente de determinación)**

El R², también conocido como coeficiente de determinación, es una métrica utilizada en el análisis de regresión para evaluar la bondad de ajuste de un modelo. Proporciona una medida de cuánta variabilidad en la variable dependiente puede ser explicada por el modelo de regresión.

El R² se calcula con la siguiente fórmula:

$R^2 = 1 - \frac{\text{Suma de los cuadrados de los residuos (RSS)}}{\text{Suma total de cuadrados (TSS)}}$

donde:

- **RSS (Residual Sum of Squares)** es la suma de los cuadrados de los residuos, es decir, la suma de los cuadrados de las diferencias entre los valores observados y los valores predichos por el modelo.
- **TSS (Total Sum of Squares)** es la suma total de cuadrados de las diferencias entre los valores observados y la media de los valores observados.

En términos más sencillos, el R² mide qué proporción de la variabilidad total de la variable dependiente es capturada por el modelo. Los valores de R² varían entre 0 y 1:

- Un R² de 0 indica que el modelo no explica nada de la variabilidad de los datos.
- Un R² de 1 indica que el modelo explica toda la variabilidad de los datos.

Un R² más alto generalmente indica un mejor ajuste del modelo a los datos, aunque hay que tener cuidado con su interpretación, especialmente en situaciones con datos no lineales o con modelos sobreajustados. Además, R² puede ser engañoso en situaciones donde el número de predictores es muy grande en comparación con el tamaño de la muestra. En tales casos, ajustes adicionales al R², como el R² ajustado, pueden proporcionar una medida más precisa de la bondad de ajuste del modelo.

In [None]:
# Importando la función para calcular el R2
from sklearn.metrics import r2_score

# Valores verdaderos y predichos
y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, 7]

# Calculando R^2
r2_score(y_verdadero, y_predicho)

0.6

## $ R^2 $ Ajustado

Para calcular el \($ R^2 $\) ajustado a partir de un conjunto de datos y predicciones, necesitarás más información que solo el \($ R^2 $\) obtenido del modelo. A diferencia del \($ R^2 $\) estándar, el \($ R^2 $\) ajustado tiene en cuenta el número de predictores en el modelo y ajusta el estadístico en consecuencia para penalizar la complejidad adicional.

El \($ R^2 $\) ajustado se calcula con la siguiente fórmula:

$R^2_{\text{ajustado}} = 1 - (1 - R^2) \times \frac{n - 1}{n - p - 1}$

donde:
- \($ R^2 $\) es el coeficiente de determinación.
- \( n \) es el número total de observaciones.
- \( p \) es el número de predictores independientes en el modelo (sin contar la constante/intercepto).

En tu caso, para calcular el \($ R^2 $\) ajustado, necesitas conocer el número de predictores \( p \) utilizados en tu modelo. Por ejemplo, si solo estás utilizando una variable independiente (como en una regresión lineal simple), \( p \) sería 1. Si estás utilizando más variables, necesitarás ajustar este número en consecuencia.

In [None]:
# Importando la función para calcular el R2
from sklearn.metrics import r2_score

# Valores verdaderos y predichos
y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, 7]

# Calculando R^2
r2 = r2_score(y_verdadero, y_predicho)

# Número total de observaciones (n) y número de predictores (p)
n = len(y_verdadero)
p = 1  # Asumiendo una regresión lineal simple

# Calculando R^2 ajustado
r2_ajustado = 1 - (1 - r2) * (n - 1) / (n - p - 1)
r2_ajustado


0.4666666666666667

<BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR>