# Error Cuadrático Medio (MSE)

Este notebook explora el concepto de **Error Cuadrático Medio (MSE)** como métrica fundamental para evaluar modelos de regresión. Utilizamos datos de años de escolaridad contra ingresos mensuales estimados para demostrar cómo el MSE nos ayuda a cuantificar qué tan bien se ajusta una línea a nuestros datos.

## 1. Importación de Librerías y Datos de Entrada

Comenzamos importando las librerías necesarias y definiendo nuestro conjunto de datos: años de escolaridad y su correspondiente ingreso mensual estimado en pesos mexicanos. Estos datos representan la relación típica entre educación e ingreso en el mercado laboral.

In [None]:
import numpy as np
import pandas as pd

In [None]:
anios_escolaridad = np.array([0, 3, 6, 9, 12, 16, 18])
ingreso_mensual_estimado_mx = np.array([12621, 15723, 19587, 24401, 30398, 40747, 47176])

## 2. Visualización Inicial de los Datos

Antes de modelar, es fundamental visualizar los datos para entender su distribución y tendencia. Un scatter plot nos permite observar si existe una relación lineal entre las variables.

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.scatter(anios_escolaridad, ingreso_mensual_estimado_mx, color='blue', s=100)
plt.title('Relación entre Años de Escolaridad e Ingreso Mensual', fontsize=14)
plt.xlabel('Años de Escolaridad', fontsize=12)
plt.ylabel('Ingreso Mensual Estimado (MXN)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.show()

## 3. Aproximación Lineal Básica

Una primera aproximación para modelar los datos consiste en trazar una recta que pase por el primer y último punto. Utilizamos las fórmulas clásicas de la ecuación de la recta:

$$ m = \frac{y_{2} - y_{1}}{x_{2} - x_{1}} $$

$$ b = y_{1} - m \cdot x_{1} $$

Donde:
- **m** es la pendiente de la recta
- **b** es la ordenada al origen (intercepto)

Esta es una aproximación muy simple que nos servirá como punto de partida para entender el MSE.

In [None]:
x1 = anios_escolaridad[0]
y1 = ingreso_mensual_estimado_mx[0]
x2 = anios_escolaridad[-1]
y2 = ingreso_mensual_estimado_mx[-1]

m = (y2 - y1) / (x2 - x1)
b = y1 - m * x1

print(f"La ecuación de la recta es: y = {m:.2f}x + {b:.2f}")

In [None]:
# Calcular los valores y de la recta utilizando m y b
linea_ingreso_estimado = m * anios_escolaridad + b

plt.figure(figsize=(10, 6))
plt.scatter(anios_escolaridad, ingreso_mensual_estimado_mx, color='blue', s=100, label='Datos Observados', zorder=5)
plt.plot(anios_escolaridad, linea_ingreso_estimado, color='red', linewidth=2, linestyle='--',
         label=f'Recta Básica (y = {m:.2f}x + {b:.2f})')
plt.title('Ajuste Lineal con Dos Puntos', fontsize=14)
plt.xlabel('Años de Escolaridad', fontsize=12)
plt.ylabel('Ingreso Mensual Estimado (MXN)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.legend()
plt.show()

## 4. Conceptos Fundamentales del MSE

El **Error Cuadrático Medio (MSE - Mean Squared Error)** es una de las métricas más utilizadas para evaluar la calidad de un modelo de regresión. Veamos los conceptos clave:

**Valores predichos (ŷ o y_pred):** Son los valores que nuestro modelo estima para cada punto de entrada. Se calculan sustituyendo x en la ecuación de la recta.

**Errores (residuales):** La diferencia entre el valor real y el predicho: `error = y - ŷ`
- Error positivo: el modelo subestimó el valor real
- Error negativo: el modelo sobreestimó el valor real

**Errores al cuadrado:** Elevamos cada error al cuadrado por dos razones:
- Eliminar el signo (evita que errores positivos y negativos se cancelen)
- Penalizar más fuertemente los errores grandes

**Suma de errores cuadrados:** La suma total de todos los errores al cuadrado. Nos da una medida de la 'distancia' de nuestros puntos a la línea.

**MSE (Error Cuadrático Medio):** Es el promedio de los errores al cuadrado. Un MSE más bajo indica que el modelo se ajusta mejor a los datos.

### Fórmula del MSE (Error Cuadrático Medio)

Del inglés *Mean Squared Error*:

$$ MSE = \frac{\sum_{i=1}^{n}(Y_{i} - \hat{Y_{i}})^{2}}{n} $$

Donde:
- $MSE$ = error cuadrático medio
- $n$ = número de datos
- $Y_{i}$ = valores observados (reales)
- $\hat{Y_{i}}$ = valores predichos por el modelo

In [None]:
# Paso 1: Calcular los valores predichos (y_pred) usando la ecuación de la recta
y_pred = m * anios_escolaridad + b
y_pred

In [None]:
# Paso 2: Calcular los errores (residuales): la diferencia entre los valores reales y los predichos
errores = ingreso_mensual_estimado_mx - y_pred
errores

In [None]:
# Paso 3: Elevar al cuadrado cada error
errores_cuadrados = errores ** 2
errores_cuadrados

In [None]:
# Paso 4: Sumar los errores cuadrados
suma_errores_cuadrados = np.sum(errores_cuadrados)
suma_errores_cuadrados

In [None]:
# Paso 5: Dividir la suma de los errores cuadrados por el número de puntos para obtener el MSE
mse = suma_errores_cuadrados / len(anios_escolaridad)
print(f"El MSE de nuestra aproximación básica es: {mse:,.2f}")

El Error Cuadrático Medio (MSE) obtenido es de aproximadamente **13,196,667.31**. Este número nos da una idea del rendimiento general de la recta que trazamos, mostrando la magnitud promedio de los errores al cuadrado entre los valores observados y los valores predichos por la línea.

## 5. Comparación con Regresión Lineal de sklearn

Ahora comparemos el MSE de nuestra aproximación básica con una **regresión lineal optimizada** usando scikit-learn.

La regresión lineal por mínimos cuadrados encuentra la recta que **minimiza** el MSE. Por ahora no es importante el detalle de cómo lo hace, lo importante es comparar los resultados.

In [None]:
from sklearn.linear_model import LinearRegression
import numpy as np

In [None]:
# Cambiar la forma de anios_escolaridad a 2D array como es requerido por sklearn
X = anios_escolaridad.reshape(-1, 1)
y = ingreso_mensual_estimado_mx

X

In [None]:
# Crear y ajustar el modelo de regresión lineal
modelo_regresion = LinearRegression()
modelo_regresion.fit(X, y)

# Obtener los coeficientes (m) e intercepto (b) del nuevo modelo
m_sklearn = modelo_regresion.coef_[0]
b_sklearn = modelo_regresion.intercept_

print(f"Coeficiente (m) de sklearn: {m_sklearn:.2f}")
print(f"Intercepto (b) de sklearn: {b_sklearn:.2f}")

El nuevo modelo de recta obtenido con regresión lineal es:

$$ y = 1914.55 \cdot x + 9731.66 $$

In [None]:
# Calcular predicciones y MSE con sklearn
y_pred_sklearn = modelo_regresion.predict(X)
errores_sklearn = y - y_pred_sklearn
errores_cuadrados_sklearn = errores_sklearn ** 2
mse_sklearn = np.mean(errores_cuadrados_sklearn)

print(f"MSE de la regresión optimizada (sklearn): {mse_sklearn:,.2f}")
print(f"MSE de nuestra aproximación básica: {mse:,.2f}")
print(f"Mejora: {((mse-mse_sklearn)/mse*100):.2f}%")

In [None]:
# Visualización comparativa
plt.figure(figsize=(12, 6))
plt.scatter(anios_escolaridad, ingreso_mensual_estimado_mx, color='blue', s=100, label='Datos Observados', zorder=5)
plt.plot(anios_escolaridad, linea_ingreso_estimado, color='red', linewidth=2, linestyle='--',
         label=f'Recta Básica (MSE={mse:,.0f})')
plt.plot(anios_escolaridad, y_pred_sklearn, color='green', linewidth=2,
         label=f'Regresión sklearn (MSE={mse_sklearn:,.0f})')
plt.title('Comparación de Modelos de Regresión', fontsize=14)
plt.xlabel('Años de Escolaridad', fontsize=12)
plt.ylabel('Ingreso Mensual Estimado (MXN)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.legend()
plt.show()

## 6. Ejercicios

1. Grafica la línea del modelo de regresión lineal de sklearn junto con los datos originales.
2. Calcula el MSE de esta regresión lineal y compara con el resultado anterior.
3. ¿Cuál recta tiene menos error con respecto a los datos originales?

In [None]:
# 1. Grafica la línea del modelo de regresión lineal de sklearn junto con los datos originales.
plt.figure(figsize=(10, 6))
plt.scatter(anios_escolaridad, ingreso_mensual_estimado_mx, color='blue', s=100, label='Datos Observados')
plt.plot(anios_escolaridad, modelo_regresion.predict(X), color='green', linewidth=2, label='Regresión Lineal (sklearn)')
plt.title('Regresión Lineal con sklearn', fontsize=14)
plt.xlabel('Años de Escolaridad')
plt.ylabel('Ingreso Mensual')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# 2. Calcula el MSE de esta regresión lineal y compara con el resultado anterior.
print(f"MSE Modelo Básico: {mse:,.2f}")
print(f"MSE Sklearn: {mse_sklearn:,.2f}")
difference = mse - mse_sklearn
print(f"Diferencia: {difference:,.2f}")

**3. ¿Cuál recta tiene menos error con respecto a los datos originales?**

La recta generada con **sklearn** tiene menos error (MSE más bajo) respecto a los datos originales, ya que el algoritmo de Mínimos Cuadrados optimiza matemáticamente los parámetros $m$ y $b$ para minimizar precisamente esta métrica.

## 7. Otras Métricas de Evaluación

Además del MSE (Error Cuadrático Medio), existen varios indicadores clave para evaluar modelos de regresión, cada uno con un enfoque distinto sobre el rendimiento del modelo:

- **RMSE** (Raíz del Error Cuadrático Medio): Es la raíz cuadrada del MSE. A diferencia del MSE, el RMSE expresa el error en las mismas unidades que la variable objetivo, lo que facilita su interpretación. Es útil para penalizar errores grandes, similar al MSE.

- **MAE** (Error Absoluto Medio): Calcula el promedio de las diferencias absolutas entre las predicciones y los valores reales. Es más robusto ante valores atípicos (outliers) que el MSE, ya que no eleva al cuadrado los errores grandes.

- **R²** (Coeficiente de Determinación): Indica qué proporción de la variación de la variable dependiente es explicada por el modelo. Va de 0 a 1; un valor más cercano a 1 indica un mejor ajuste.

- **R² Ajustado**: Similar al R², pero ajusta el valor según el número de predictores (variables independientes) en el modelo. Es más preciso que el R² cuando se añaden variables innecesarias, ya que penaliza la complejidad excesiva.

- **MAPE** (Error Porcentual Absoluto Medio): Mide el error en términos porcentuales, lo que facilita entender la precisión relativa del modelo (ej. "el modelo se equivoca en un 5% en promedio").

In [None]:
# Calculemos las métricas adicionales para la regresión de sklearn

# RMSE
rmse_sklearn = np.sqrt(mse_sklearn)
print(f"RMSE: {rmse_sklearn:,.2f} pesos")

# MAE
mae_sklearn = np.mean(np.abs(errores_sklearn))
print(f"MAE: {mae_sklearn:,.2f} pesos")

# R²
ss_res = np.sum(errores_cuadrados_sklearn)  # Suma de residuos al cuadrado
ss_tot = np.sum((y - np.mean(y)) ** 2)       # Suma total de cuadrados
r2_sklearn = 1 - (ss_res / ss_tot)
print(f"R²: {r2_sklearn:.4f} ({r2_sklearn*100:.2f}% de varianza explicada)")

# MAPE
mape_sklearn = np.mean(np.abs(errores_sklearn) / y) * 100
print(f"MAPE: {mape_sklearn:.2f}%")

## 8. Más Ejercicios

4. Escribe utilizando el Markdown de Colab las fórmulas de cada uno de los indicadores mencionados arriba.
5. Calcula los indicadores para la regresión lineal.

**4. Fórmulas de los Indicadores:**

*   **RMSE (Root Mean Squared Error):**
    $$ RMSE = \sqrt{\frac{\sum(y_i - \hat{y}_i)^2}{n}} $$

*   **MAE (Mean Absolute Error):**
    $$ MAE = \frac{\sum |y_i - \hat{y}_i|}{n} $$

*   **R² (Coeficiente de Determinación):**
    $$ R^2 = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2} $$

*   **MAPE (Mean Absolute Percentage Error):**
    $$ MAPE = \frac{1}{n} \sum \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100 $$

In [None]:
# 5. Calcular indicadores para la regresión lineal
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Recalculamos predicciones por si acaso
y_pred = modelo_regresion.predict(X)

# RMSE
rmse = np.sqrt(mean_squared_error(y, y_pred))
# MAE
mae = mean_absolute_error(y, y_pred)
# R2
r2 = r2_score(y, y_pred)
# MAPE
mape = np.mean(np.abs((y - y_pred) / y)) * 100

print(f"RMSE: {rmse:,.2f}")
print(f"MAE: {mae:,.2f}")
print(f"R²: {r2:.4f}")
print(f"MAPE: {mape:.2f}%")

## 9. Resumen de Uso de Métricas

| Objetivo | Métrica Recomendada |
|----------|--------------------|
| Precisión general y sensibilidad a outliers | MAE |
| Penalizar errores grandes | RMSE o MSE |
| Explicación del modelo | R² o R² Ajustado |
| Interpretación porcentual | MAPE |