# Introducción - Repaso

## Modelo de Regresión Lineal Múltiple

El Modelo de Regresión Lineal Múltiple (MRLM) se puede expresar, a través de la formulación **escalar**, a partir de la siguiente ecuación:

\begin{equation}\boxed{
  y_i \;=\; \beta_0 \;+\; \sum_{k=1}^{K} \beta_k\,x_{ki} \;+\; \varepsilon_i,
  \qquad  i = 1,\dots,n }
\end{equation}

donde $y_i$ es la variable dependiente (explicada), $x_{k}$ las \(K\)  variables independientes (explicativas) y $\varepsilon_i$ el término de error (residuo) de predicción para cada observación $i$.

En términos generales, a pesar de que la formulación escalar es intuitivamente más sencilla de interpretar, por simplicidad en las derivaciones matemáticas, se suele expresar el MRLM de **forma matricial**, como se exhibe en la ecuación debajo:

\begin{equation}\boxed{
  \mathbf{y} \;=\; \mathbf{X}\boldsymbol{\beta} \;+\; \boldsymbol{\varepsilon},
  \qquad
  \mathbf{y}\in\mathbb{R}^{n\times 1},\;
  \mathbf{X}\in\mathbb{R}^{n\times (K+1)},\;
  \boldsymbol{\beta}\in\mathbb{R}^{(K+1)\times 1}.}
\end{equation}

---

### Hipótesis Básicas sobre los Residuos

1. **Esperanza nula**

   $$
   \mathbb{E}({\boldsymbol\varepsilon})=0
   $$

2. **Varianza constante (homocedasticidad)**

   $$
   \operatorname{Var}({\boldsymbol\varepsilon})=\sigma^{2}
   $$

3. **Distribución normal**

   $$
   {\boldsymbol\varepsilon} \sim \mathcal{N}\bigl(0,\sigma^{2}\bigr)
   $$

4. **Independencia entre perturbaciones**

   $$
   \mathbb{E}(\varepsilon_i,\varepsilon_j)=0,\quad i\neq j
   $$

---



## Método de Estimación (Máxima Verosimilitud)

#### ¿Qué es y para qué sirve la **Máxima Verosimilitud** (MLE)?

**Idea básica**  
La verosimilitud mide cuán plausible es un conjunto de parámetros dado lo que observamos.  
Formalmente, para un vector de parámetros $\boldsymbol\theta$ y datos $\mathbf{y}$:

$$\boxed{
L(\boldsymbol\theta \mid \mathbf{y}) \;=\; f_{\mathbf{Y}}(\mathbf{y}; \boldsymbol\theta)},
$$

donde $L(\boldsymbol\theta \mid \mathbf{y})$ es la **función de verosimilitud**, dada por $f_{\mathbf{Y}}$ que es la función de densidad conjunta del vector aleatorio $Y$ evaluada en la realización $y$ y parametrizada en $\boldsymbol\theta$.  

El **estimador de Máxima Verosimilitud (MLE)** es

$$
\boxed{\hat{\boldsymbol\theta}_{\text{MLE}}
\;=\;
\arg\max_{\boldsymbol\theta}\; L(\boldsymbol\theta \mid \mathbf{y})}.
$$

En palabras: «elige el valor de $\boldsymbol\theta$ que hace que los datos observados  
sean lo más “probables” posible».

#### MLE para la **Regresión Lineal Múltiple**

Bajo el supuesto de errores normales, el log‑verosímil es

$$\boxed{
\ell(\boldsymbol\beta, \sigma^{2})
= -\frac{n}{2}\log(2\pi)\;
  -\frac{n}{2}\log(\sigma^{2})
  -\frac{1}{2\sigma^{2}}
    (\mathbf{y}-\mathbf{X}\boldsymbol\beta)^{\!\top}
    (\mathbf{y}-\mathbf{X}\boldsymbol\beta)\,}.
$$

* **Maximizar** $\ell$ respecto a $\boldsymbol\beta$ **equivale**
  a **minimizar la suma de cuadrados de los residuos**:
  $$\text{SCR}=(\mathbf{y}-\mathbf{X}\boldsymbol\beta)^{\top}(\mathbf{y}-\mathbf{X}\boldsymbol\beta)$$.  
  Por eso el MLE de $\boldsymbol\beta$ coincide con el estimador de
  **Mínimos Cuadrados Ordinarios (MCO)**.

* El MLE de $\sigma^{2}$ es la **media** del residuo cuadrado
  $(\text{SCR}/n)$; si queremos insesgadez usamos $\text{SCR}/(n-k)$.

En suma, **MCO es MLE** a la luz de errores normales y homocedásticos.


---


## Método de Estimación (Mínimos Cuadrados Ordinarios)

La suma de cuadrados de los residuos (SCR) se define como

\begin{equation}
  \text{SCR}(\boldsymbol{\beta})
  \;=\;
  \bigl(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\bigr)^{\!\top}
  \bigl(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\bigr).
\end{equation}

Derivamos respecto de $\boldsymbol{\beta}$ e igualamos a cero:

\begin{equation}
  \frac{\partial\,\text{SCR}}{\partial\boldsymbol{\beta}}
  \;=\;
  -2\,\mathbf{X}^{\top}\bigl(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\bigr)
  \;=\; \mathbf{0}.
\end{equation}

Esto conduce a las **ecuaciones normales**:

\begin{equation}
  \mathbf{X}^{\top}\mathbf{X}\,\hat{\boldsymbol{\beta}}
  \;=\;
  \mathbf{X}^{\top}\mathbf{y}.
\end{equation}

Si $\mathbf{X}^{\top}\mathbf{X}$ es invertible, el estimador de MCO es
\begin{equation}
  \boxed{\;
    \hat{\boldsymbol{\beta}}
    \;=\;
    \bigl(\mathbf{X}^{\top}\mathbf{X}\bigr)^{-1}\mathbf{X}^{\top}\mathbf{y}
  \;}
\end{equation}

---

In [None]:
# Cargo Paquetes
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.tools.eval_measures import rmse

# Datos
datos = pd.read_csv("Advertising.csv")
print(datos.head())

### Ejemplo Regresión Lineal Simple
mod_simple = smf.ols("sales ~ TV", data=datos).fit()
datos["y_hat"] = mod_simple.fittedvalues
datos["resid"] = mod_simple.resid

## Gráfico
plt.figure(figsize=(6,4))
plt.scatter(datos["TV"], datos["sales"], label="Datos", alpha=0.7)
plt.plot(datos["TV"], datos["y_hat"], color="navy", label="Recta OLS")
for _, row in datos.iterrows():
    plt.plot([row["TV"], row["TV"]], [row["sales"], row["y_hat"]], color="gray", lw=0.6)
plt.xlabel("Inversión en TV (k$)")
plt.ylabel("Ventas")
plt.title("Regresión Lineal Simple")
plt.legend()
plt.tight_layout()
plt.show()

# Ejemplo Regresión Lineal Múltiple (dos variables explicativas)
from mpl_toolkits.mplot3d import Axes3D

mod_multi = smf.ols("sales ~ TV + radio", data=datos).fit()

## Gráfico
# Grid
tv_grid, radio_grid = np.meshgrid(
        np.linspace(datos.TV.min(), datos.TV.max(), 30),
        np.linspace(datos.radio.min(), datos.radio.max(), 30)
)
grid_df = pd.DataFrame({"TV": tv_grid.ravel(), "radio": radio_grid.ravel()})
sales_pred_grid = mod_multi.predict(grid_df).values.reshape(tv_grid.shape)

# Visualización
fig = plt.figure(figsize=(7,5))
ax = fig.add_subplot(111, projection="3d")
ax.scatter(datos["TV"], datos["radio"], datos["sales"], c="r", label="Datos")     # puntos
ax.plot_surface(tv_grid, radio_grid, sales_pred_grid, alpha=0.4, color="steelblue")  # plano OLS

ax.set_xlabel("TV (k$)")
ax.set_ylabel("Radio (k$)")
ax.set_zlabel("Ventas")
ax.set_title("Regresión Lineal Múltiple")
plt.legend()
plt.tight_layout()
plt.show()

# Métricas de Bondad de Ajuste

## Descomposición de la varianza  

En un modelo de regresión lineal se obtienen tres sumas de cuadrados que se relacionan vía la siguiente ecuación:

$$
\boxed{\;
\text{SCT}
\;=\;
\text{SCE}
\;+\;
\text{SCR}
\;}
$$

| Sigla | Fórmula | ¿Qué captura? |
|-------|---------|---------------|
| **SCT** (Suma de Cuadrados Totales) | $\scriptsize\displaystyle\sum_{i=1}^{n}(y_i-\bar y)^2$ | Variabilidad total de la variable dependiente. |
| **SCE** (Suma de Cuadrados *Explicada*) | $\scriptsize\displaystyle\sum_{i=1}^{n}(\hat y_i-\bar y)^2$ | Parte de la variabilidad explicada por el modelo. |
| **SCR** (Suma de Cuadrados *Residual*) | $\scriptsize\displaystyle\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$ | Variabilidad que **queda sin explicar** (errores).<br>Es la que minimiza MCO/MLE. |

---

### Coeficiente de determinación $R^{2}$

$$
R^{2}
\;=\;
1-\frac{\text{SCR}}{\text{SCT}}
\;=\;
\frac{\text{SCE}}{\text{SCT}}.
$$

* **Intuición**: fracción de la variabilidad de \(y\) explicada por los regresores.  
* **Rango**: $0 \le R^{2} \le 1$  
  * $R^{2}=1$: ajuste perfecto (SCR = 0).  
  * $R^{2}=0$: el modelo no mejora la media ($\hat y_i = \bar y$).  
* **Objetivo**: indicar **qué tan bien** el modelo «encaja» a los datos.
* **Advertencia**: 1) **No mide causalidad ni validez externa**,
2) Siempre crece al añadir regresores; para penalizar parámetros extra se usa el $R^{2}$ **ajustado**.

$$
R^{2}_{\text{ajustado}}
\,=\;
1 \;-\; (1 - R^{2})\,\frac{n - 1}{\,n - p - 1\,},
$$

donde  
\(n\) es el número total de observaciones y  
\(p\) es el número de predictores (sin contar el intercepto).

---

### Error Cuadrático Medio (ECM) / Raíz del ECM

$$
\text{ECM}
\;=\;
\frac{\text{SCR}}{n-k}
.
$$

* **Intuición**: promedio del **cuadrado** de los residuos.  
* **Unidades**: cuadradas (p. ej. pesos², grados²).  
* **Objetivo**: medir la **pérdida** del modelo; útil para comparar dos modelos sobre los mismos datos.  
* **Raíz cuadrada** ➜ **RMSE** (mismo orden de magnitud que \(y\)).

---


In [None]:
### Modelo de Regresión Lineal
mod = smf.ols("sales ~ TV + radio + newspaper", data=datos).fit()
print(mod.summary())

### Métricas de Bondad de Ajuste
# R2 Ajustado
print("R2 Ajustado: ", mod.rsquared_adj)
# ECM
print("ECM: ", mod.mse_resid)
# RMSE
print("RMSE: ", rmse(mod.fittedvalues, datos.sales))

# Separación de la Muestra

## Precisión vs Complejidad

A pesar de que **un modelo cada vez más complejo suele reducir el error de predicción sobre los datos con los que se entrena**, la capacidad de **generalizar** —es decir, de predecir correctamente en datos nunca vistos— puede deteriorarse cuando el modelo se ajusta “demasiado” a la muestra disponible.  
En pocas palabras, **una altísima precisión sobre la información conocida puede traducirse en un esquema lo suficientemente rígido como para no trasladarse a información desconocida**.  
Para “vigilar” ese problema separamos los datos en al menos dos partes:

<p align="center">
  <img src="https://raw.githubusercontent.com/rmosteiro/AnalisisdeRegresion/main/Imagenes/TrainTest.png"
       alt="Curva sesgo–varianza"
       width="480">
  <br>
  <em style="font-size:85%;">
    Fuente: https://kitchell.github.io/DeepLearningTutorial/1introtodeeplearning.html</i>.
  </em>
</p>


| Conjunto | ¿Para qué sirve? |
|----------|------------------|
| **Training** | *Estimar* los parámetros (coeficientes, pesos, reglas). |
| **Testing**  | Medir la **generalización** real.  |

---

La relación entre **Precisión y Complejidad** en las muestras de entrenamiento y testeo se puede representar a partir del siguiente gráfico:

<p align="center">
  <img src="https://raw.githubusercontent.com/rmosteiro/AnalisisdeRegresion/main/Imagenes/Bias-Variance.png"
       alt="Curva sesgo–varianza"
       width="480">
  <br>
  <em style="font-size:85%;">
    Fuente: Hastie, Tibshirani &amp; Friedman, <i>The Elements of Statistical Learning</i>.
  </em>
</p>

- **Curva celeste (entrenamiento)**: el error siempre baja al añadir complejidad.  
- **Curva roja (test)**: primero baja (captura la señal) y luego sube (captura el **ruido**).  
- El **valle mínimo** de la curva roja indica la complejidad que mejor **equilibra precisión y complejidad**.
- Separar la muestra permite **detectar ese punto óptimo** y quedarnos con el modelo que realmente aprende patrones útiles.

---

### Subajuste vs Sobreajuste  

| Concepto | Síntomas típicos | Diagnóstico (train / test) |
|----------|------------------|------------------------------------|
| **Subajuste**<br>(_underfitting_) | • Predicciones pobres en **todos** los conjuntos.<br>• Error alto y estable al añadir datos.<br>• Gráficos de residuos muestran patrones claros. | `ECM/MSE_train` **alto** /`ECM/MSE_test` **alto** |
| **Sobreajuste**<br>(_overfitting_) | • Error **muy bajo** en train, **alto** en test.<br>• Predicciones inestables ante pequeñas perturbaciones de datos.<br>• Parámetros con varianzas enormes. | `ECM/MSE_train` **bajo** /`ECM/MSE_test` **alto**|

#### ¿Cómo se ve en la curva de la sección anterior?

* **Subajuste**: parte izquierda de la curva → error alto en train **y** test.  
  El modelo no logra capturar la forma real de los datos.  
* **Punto óptimo**: valle de la curva roja → mínimo error de generalización.  
  Balance entre precisión y complejidad.
* **Sobreajuste**: parte derecha → el error en train sigue bajando,  
  pero el de test sube; el modelo “memoriza” ruido.







In [None]:
# Separación de la Muestra (Train/Test)
from sklearn.model_selection import train_test_split

train_df, test_df = train_test_split(
        datos,
        test_size=0.30,
        random_state=12345)

### Modelo de Regresión Lineal (Train)
mod_train = smf.ols("sales ~ TV + radio + newspaper", data=train_df).fit()
print(mod_train.summary())

## Métricas de Bondad de Ajuste - TRAIN
r2_adj_train = mod_train.rsquared_adj
ecm_train    = mod_train.mse_resid
rmse_train   = rmse(mod_train.fittedvalues, train_df.sales)

## Métricas de Bondad de Ajuste - TEST
# Observado/Predicho
y_test      = test_df["sales"]
y_hat_test  = mod.predict(test_df)

# R² (no ajustado) en TEST
sce = ((y_test - y_hat_test)**2).sum()
sct = ((y_test - y_test.mean())**2).sum()
r2_test = 1 - sce/sct

# R² Ajustado en TEST  (n_test = observaciones de test, p = predictores)
sce = ((y_test - y_hat_test)**2).sum()
sct = ((y_test - y_test.mean())**2).sum()
r2_test = 1 - sce/sct
n_test = len(test_df)
p = len(mod.params) - 1
r2_adj_test = 1 - (1 - r2_test)*(n_test - 1)/(n_test-p-1)

# ECM y RMSE en TEST
ecm_test  = sce/(n_test)
rmse_test = np.sqrt(ecm_test)

### Resumen
resumen = pd.DataFrame({
    "Conjunto":      ["TRAIN", "TEST"],
    "R2 Ajustado":   [r2_adj_train, r2_adj_test],
    "ECM":           [ecm_train, ecm_test],
    "RMSE":          [rmse_train, rmse_test]
}).set_index("Conjunto")
print(resumen)

# Descomposición Sesgo - Varianza

## Derivación
En términos generales, un modelo se puede distinguir por su parte Sistemática y Aleatoria, tal que   $Y = f(X) + \varepsilon$,  donde $\mathbb{E}[\varepsilon] = 0$ y   $\operatorname{Var}(\varepsilon) = \sigma_{\varepsilon}^{2}$. Sea el ajuste de regresión $\hat f(X)$ en un punto de entrada $X = x_{0}$, la idea clave es separar el **error de predicción esperado** en tres componentes:

$$
\operatorname{Err}(x_0)
\;=\;
\mathbb{E}\!\bigl[(Y-\hat f(x_0))^2 \,\big|\, X=x_0 \bigr]
\;=\;
\underbrace{\sigma_\varepsilon^{2}}_{\text{Error irreducible}}
\;+\;
\underbrace{\bigl(\mathbb{E}[\hat f(x_0)]-f(x_0)\bigr)^{2}}_{\text{Sesgo}^2}
\;+\;
\underbrace{\operatorname{Var}\!\bigl(\hat f(x_0)\bigr)}_{\text{Varianza}}.
$$

* **Error irreducible** $(\sigma_\varepsilon^{2})$  
  La varianza del término aleatorio $\varepsilon$; no depende del modelo.
* **Sesgo**  
  Distancia al cuadrado entre la predicción promedio $\mathbb{E}[\hat f(x_0)]$ y lo observado $f(x_0)$.
* **Varianza**  
  Variabilidad de $\hat f(x_0)$.



