# Regresión Lineal Múltiple

La **regresión lineal múltiple** es una técnica estadística que se utiliza para modelar la relación entre una **variable dependiente continua** (la que queremos predecir) y **dos o más variables independientes** (las que usamos para predecir). Es una extensión de la regresión lineal simple, que nos permite considerar el efecto combinado de múltiples factores en el resultado que estamos estudiando.

---

## Ecuación del Modelo

El modelo de regresión lineal múltiple se expresa matemáticamente de la siguiente manera:

$$y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \epsilon_i$$

Donde:
* $y_i$: Es el valor de la **variable dependiente** para la observación $i$.
* $\beta_0$: Es el **intercepto** (o término constante), el valor esperado de $y$ cuando todas las variables predictoras son cero.
* $\beta_1, \beta_2, \dots, \beta_p$: Son los **coeficientes de regresión** para cada una de las $p$ variables independientes. Cada $\beta_j$ representa el cambio promedio en $y$ por cada unidad de cambio en $x_j$, **manteniendo constantes todas las demás variables predictoras**.
* $x_{i1}, x_{i2}, \dots, x_{ip}$: Son los valores de las $p$ **variables independientes** para la observación $i$.
* $\epsilon_i$: Es el **término de error** (o residuo) para la observación $i$. Representa la variación en $y$ no explicada por el modelo y se asume que sigue una distribución normal con media cero y varianza constante.

---

## Supuestos Clásicos del Modelo (MCO)

Para obtener estimaciones fiables y poder realizar inferencias estadísticas válidas, el modelo de regresión lineal múltiple, cuando se estima por Mínimos Cuadrados Ordinarios (MCO), se basa en varios supuestos clave:

1.  **Linealidad**: La relación entre la variable dependiente y las variables independientes es lineal.
    * Matemáticamente: $y_i = \beta_0 + \sum_{j=1}^{p} \beta_j x_{ij} + \epsilon_i$
2.  **Independencia de los Errores**: Los términos de error ($\epsilon_i$) son independientes entre sí.
    * Matemáticamente: $Cov(\epsilon_i, \epsilon_j) = 0$ para $i \neq j$
3.  **Homoscedasticidad**: La varianza de los errores es constante para todos los niveles de las variables predictoras.
    * Matemáticamente: $Var(\epsilon_i) = \sigma^2$ (constante)
4.  **Normalidad de los Errores**: Los términos de error ($\epsilon_i$) siguen una distribución normal con media cero.
    * Matemáticamente: $\epsilon_i \sim N(0, \sigma^2)$
5.  **No Multicolinealidad Perfecta**: No existe una relación lineal perfecta entre dos o más variables independientes.
6.  **Media Cero de los Errores**: La media de los términos de error es cero.
    * Matemáticamente: $E(\epsilon_i) = 0$

---

## Estimación de los Coeficientes (MCO)

Los coeficientes de regresión ($\beta_j$) se estiman utilizando el método de **Mínimos Cuadrados Ordinarios (MCO)**. Este método busca minimizar la suma de los cuadrados de los residuos, que es la diferencia entre los valores observados de $y$ y los valores predichos por el modelo.

La **función a minimizar** es:

$$SSR = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_{i1} + \dots + \hat{\beta}_p x_{ip}))^2$$

En **forma matricial**, las **estimaciones de los coeficientes MCO** se obtienen por la fórmula:

$$\hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$$

---

## Interpretación de los Coeficientes

* $\hat{\beta}_0$: Representa el **valor esperado de $y$ cuando todas las variables predictoras son cero**.
* $\hat{\beta}_j$: Representa el **cambio promedio en la variable dependiente $y$ por cada aumento de una unidad en la variable predictora $x_j$**, **manteniendo constantes todas las demás variables predictoras** en el modelo.

---

## Medidas de Bondad de Ajuste

Para evaluar qué tan bien el modelo se ajusta a los datos, se utilizan:

### 1. Coeficiente de Determinación ($R^2$)

Mide la **proporción de la varianza total de la variable dependiente que es explicada por el modelo**. Varía entre 0 y 1.

$$R^2 = 1 - \frac{SSR_{residual}}{SSR_{total}}$$

### 2. Coeficiente de Determinación Ajustado ($R^2_{adj}$)

Penaliza la inclusión de variables predictoras innecesarias y es más útil para comparar modelos con un número diferente de variables.

$$R^2_{adj} = 1 - (1 - R^2) \frac{n - 1}{n - p - 1}$$

### 3. Error Estándar de la Regresión (SER o $s_e$)

Mide la **desviación estándar de los residuos** y representa la precisión de las predicciones del modelo en las unidades de la variable dependiente.

$$s_e = \sqrt{\frac{SSR_{residual}}{n - p - 1}}$$

---

## Pruebas de Hipótesis

### 1. Prueba F Global (ANOVA)

Evalúa la **significancia estadística global del modelo**.
* **Hipótesis Nula ($H_0$)**: $\beta_1 = \beta_2 = \dots = \beta_p = 0$ (ninguna variable predictora tiene un efecto significativo).
* **Hipótesis Alternativa ($H_1$)**: Al menos un $\beta_j \neq 0$ (el modelo es globalmente significativo).

El **estadístico F** se calcula como:

$$F = \frac{SSR_{modelo} / p}{SSR_{residual} / (n - p - 1)}$$

### 2. Pruebas t para Coeficientes Individuales

Evalúan la **significancia estadística de cada coeficiente de regresión individual**.
* **Hipótesis Nula ($H_0$)**: $\beta_j = 0$ (la variable $x_j$ no tiene un efecto significativo).
* **Hipótesis Alternativa ($H_1$)**: $\beta_j \neq 0$ (la variable $x_j$ tiene un efecto significativo).

El **estadístico t** para cada coeficiente $\hat{\beta}_j$ se calcula como:

$$t_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}$$

---

## Limitaciones y Consideraciones

* **Sensibilidad a Outliers**: El modelo MCO es sensible a valores atípicos.
* **Multicolinealidad**: La alta correlación entre variables predictoras puede afectar la estabilidad de los coeficientes.
* **Causalidad vs. Correlación**: La regresión lineal establece correlaciones, no necesariamente causalidad.
* **Extrapolación**: Las predicciones fuera del rango de los datos de entrenamiento pueden ser poco fiables.

---


