# Anexo 2: Estimación y Regresión Lineal

Este anexo complementa el notebook de **Estimación**, ofreciendo un panorama más formal e intuitivo de la regresión lineal, el método de **Mínimos Cuadrados Ordinarios (OLS)** y las principales métricas de evaluación. El propósito es servir de guía introductoria para estudiantes monitores y apoyar el tránsito hacia textos más completos como Greene, Montgomery & Runger, o Hastie et al.

## 1. Panorama general

La **estimación estadística** busca inferir relaciones entre variables a partir de datos observados. En particular, la **regresión lineal** intenta responder a preguntas como:

- ¿Cómo se relaciona una variable respuesta \(y\) con factores explicativos \(x\)?
- ¿Qué tanto de la variabilidad en \(y\) puede explicarse por un modelo lineal?
- ¿Qué tan confiable es la predicción fuera de la muestra?

En su forma más simple, una regresión lineal ajusta:

$$
y_i \approx \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} + \epsilon_i
$$

donde \(\epsilon_i\) es el error no explicado por el modelo.

## 2. El método de Mínimos Cuadrados Ordinarios (OLS)

La idea fundamental de OLS es elegir los parámetros \(\beta\) que **minimizan la suma de cuadrados de los errores**:

$$
\min_\beta \sum_{i=1}^n (y_i - \hat{y}_i)^2
$$

Esta formulación se inspira en la geometría: se busca la “recta” (o hiperplano) que más cerca pase de todos los puntos en promedio.  

- En **Geometría Lineal** (Montgomery & Runger), el ajuste equivale a proyectar el vector de respuestas \(y\) sobre el subespacio generado por las variables \(X\).  
- En **Econometría** (Greene), se resalta que OLS es un **estimador insesgado** y consistente bajo supuestos clásicos.  

## 3. Supuestos clásicos de OLS

Aunque muchas veces se aplican sin verificarlos, es útil reconocerlos:

1. **Linealidad en parámetros**: el modelo es lineal respecto a \(\beta\).  
2. **Exogeneidad**: \(E[\epsilon|X] = 0\).  
3. **Varianza constante de errores (homocedasticidad)**.  
4. **No colinealidad perfecta** entre los regresores.  
5. **Distribución normal de los errores** (útil para inferencia).  

Estos supuestos permiten derivar propiedades óptimas del estimador y justificación de pruebas de hipótesis.

## 4. Métricas de evaluación

Un modelo no solo debe ajustarse, sino evaluarse:

- **R² (Coeficiente de determinación):** mide proporción de variabilidad explicada.  
- **Error Cuadrático Medio (MSE / RMSE):** magnitud típica del error en unidades de \(y\).  
- **Error Absoluto Medio (MAE):** magnitud media sin penalizar cuadráticamente.  
- **Validación cruzada:** divide los datos en entrenamiento/prueba, fundamental para evitar sobreajuste.  

*(Ver Hastie, Tibshirani & Friedman, Cap. 3, para una visión moderna de validación y métricas).*

## 5. Más allá de OLS

- En aplicaciones modernas, OLS es la base de técnicas más avanzadas (regresión ridge, lasso, modelos no lineales).  
- El entendimiento profundo de sus supuestos y métricas es clave para interpretar correctamente cualquier resultado predictivo.

### Referencias clave

- Greene, W. H. (2012). *Econometric Analysis*. Pearson. (Cap. 2, fundamentos de OLS).  
- Montgomery, D. C., & Runger, G. C. (2014). *Applied Statistics and Probability for Engineers*. Wiley. (Cap. 11, regresión simple y múltiple).  
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). *The Elements of Statistical Learning*. Springer. (Cap. 3, regresión y predicción).  