# 1.1.4.2: Proyecciones y M√≠nimos Cuadrados Ordinarios (OLS)

## Objetivos de Aprendizaje

Al completar este notebook, ser√°s capaz de:

- **Interpretar** geom√©tricamente la soluci√≥n de m√≠nimos cuadrados como la **proyecci√≥n ortogonal** de un vector sobre un subespacio.
- **Derivar y entender** las **Ecuaciones Normales**: $X^T X \hat{\beta} = X^T \vec{y}$, la base del OLS.
- **Verificar** la condici√≥n fundamental de ortogonalidad del vector de error ($X^T \vec{e} = \vec{0}$).
- **Construir** y resolver un modelo de regresi√≥n lineal 'desde cero' usando este m√©todo, en lugar de funciones de alto nivel.

In [None]:
# --- Celda de Configuraci√≥n (Oculta) ---
%display latex
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme(style="whitegrid")

--- 
## ‚öôÔ∏è El Arsenal de Datasets: Nuestra Fuente de Ejercicios

Para este notebook, que se sumerge en la mec√°nica interna de OLS, usaremos datasets que nos permitan visualizar claramente la geometr√≠a de las proyecciones y verificar las propiedades matem√°ticas de la soluci√≥n.

In [None]:
# === CONFIGURACI√ìN DE DATASETS ===
from src.data_generation.create_student_performance import create_student_performance_data
from src.data_generation.create_business_data import create_business_data
from src.data_generation.create_geometric_shapes import create_geometric_shapes

# Configuraci√≥n centralizada de aleatoriedad para REPRODUCIBILIDAD
rng = np.random.default_rng(seed=42)

# === Generaci√≥n de Datasets y Matrices para este Notebook ===

# üí° CONTEXTO PEDAG√ìGICO: Hilo Conductor (Regresi√≥n OLS)
# Usaremos el dataset de estudiantes para implementar la soluci√≥n de OLS a trav√©s de las
# Ecuaciones Normales, verificando que obtenemos el mismo resultado que con `lstsq`.
datos_estudiantes = create_student_performance_data(rng, simplified=True, n_samples=100)

# üí° CONTEXTO PEDAG√ìGICO: Geometr√≠a de la Proyecci√≥n
# Para visualizar la idea de proyectar un vector sobre un plano, crearemos un ejemplo
# simple y de baja dimensi√≥n donde podamos graficar todos los elementos: el espacio, el vector y su proyecci√≥n.
X_plano = create_geometric_shapes(rng, 'line', n_samples=10).values # Generamos una base para un plano
X_plano = np.c_[X_plano, X_plano[:, 0] - X_plano[:, 1]] # Creamos un plano en R^3

# üí° CONTEXTO PEDAG√ìGICO: Regresi√≥n M√∫ltiple con Ecuaciones Normales
# Demostraremos que la belleza de las Ecuaciones Normales es que funcionan igual de bien
# para la regresi√≥n m√∫ltiple, usando el dataset de negocio.
datos_negocio = create_business_data(rng, n_samples=150)

print("Datasets generados y listos para usar.")

## 1. La Geometr√≠a de la "Mejor Soluci√≥n"

En el notebook anterior, aceptamos que `np.linalg.lstsq` nos daba la "mejor soluci√≥n" a un sistema inconsistente $X\vec{\beta} = \vec{y}$. Pero, ¬øqu√© significa "mejor" geom√©tricamente?

1.  **El Problema:** El vector de nuestros datos reales, $\vec{y}$ (las calificaciones), no se encuentra en el subespacio generado por las columnas de $X$, que llamamos **Espacio Columna** de $X$, o $\text{Col}(X)$. $\text{Col}(X)$ representa el universo de todas las posibles predicciones lineales que podemos hacer.

2.  **La Soluci√≥n:** Si no podemos alcanzar $\vec{y}$ exactamente, la "mejor soluci√≥n" es el vector $\hat{y}$ (o $\vec{p}$) *dentro* de $\text{Col}(X)$ que est√° **m√°s cerca** de $\vec{y}$. Este punto es la **proyecci√≥n ortogonal** de $\vec{y}$ sobre el subespacio $\text{Col}(X)$.

**La Gran Intuici√≥n:** La distancia m√°s corta de un punto (la punta de $\vec{y}$) a un plano ($\	ext{Col}(X)$) se logra con una l√≠nea perpendicular. Esto significa que el **vector de error**, $\vec{e} = \vec{y} - \hat{y}$, debe ser **ortogonal** a *todo* el espacio columna de $X$.

### Ejemplo Demostrativo 1: Visualizando la Proyecci√≥n Ortogonal

In [None]:
# 1. DATOS: Creamos un "plano" (espacio columna de X) y un vector "y" que no est√° en el plano.
X = np.array([[1, 0, 1], [0, 1, 1], [1, 1, 2], [1, -1, 0]]) # X es 4x3 pero tiene rango 2
y = np.array([4, 5, 10, 2])

# 2. APLICACI√ìN: Encontramos la proyecci√≥n de y sobre el espacio columna de X usando lstsq.
beta_hat, _, _, _ = np.linalg.lstsq(X, y, rcond=None)
y_hat = X @ beta_hat # Esta es la proyecci√≥n 'p'
error_vec = y - y_hat

# 3. INTERPRETACI√ìN Y VERIFICACI√ìN
print(f"Vector y (original): {y}")
print(f"Vector ≈∑ (proyecci√≥n): {np.round(y_hat, 2)}")
print(f"Vector de error (e): {np.round(error_vec, 2)}")

# Verificamos que el error es ortogonal a las columnas de X
orto_check = X.T @ error_vec
print(f"\nVerificaci√≥n de Ortogonalidad (X.T @ e): {np.round(orto_check, 9)}")
print("Los valores son pr√°cticamente cero, confirmando la ortogonalidad.")

# (La visualizaci√≥n 3D/4D es compleja, pero el principio num√©rico se mantiene)

## 2. La Soluci√≥n Algebraica: Las Ecuaciones Normales

La condici√≥n geom√©trica de que el error $\vec{e}$ es ortogonal al espacio columna de $X$ nos lleva directamente a una soluci√≥n algebraica elegante.

#### Derivaci√≥n Detallada
1.  La condici√≥n de ortogonalidad significa que el producto punto de $\vec{e}$ con **cada columna** de $X$ es cero. 
2.  Podemos escribir esto de forma compacta como: $ X^T \vec{e} = \vec{0} $.
3.  Sustituimos la definici√≥n del error, $\vec{e} = \vec{y} - \hat{y}$. Y como $\hat{y} = X\hat{\beta}$, tenemos $\vec{e} = \vec{y} - X\hat{\beta}$.
    $$ X^T (\vec{y} - X\hat{\beta}) = \vec{0} $$
4.  Finalmente, distribuimos $X^T$ y reordenamos para obtener las **Ecuaciones Normales**:
    $$ X^T X \hat{\beta} = X^T \vec{y} $$

¬°Este es un sistema **cuadrado y sim√©trico** que podemos resolver para $\hat{\beta}$! La matriz $X^T X$ a veces se llama la "matriz de Gram". Si las columnas de $X$ son linealmente independientes, $X^T X$ es invertible.

### Ejemplo Demostrativo 2: Resolviendo OLS con las Ecuaciones Normales

In [None]:
# 1. DATOS: Usamos nuestro Hilo Conductor.
X_feature = datos_estudiantes[['horas_estudio']].values
X = np.c_[np.ones(X_feature.shape[0]), X_feature]
y = datos_estudiantes['calificacion_examen'].values

# 2. CONSTRUIR LAS ECUACIONES NORMALES
# Lado izquierdo de la ecuaci√≥n
XTX = X.T @ X
# Lado derecho de la ecuaci√≥n
XTy = X.T @ y

print(f"Matriz X·µÄX (2x2):")
print(np.round(XTX, 2))
print(f"\nVector X·µÄy (2x1):")
print(np.round(XTy, 2))

# 3. RESOLVER EL SISTEMA CUADRADO: (X·µÄX)Œ≤ = (X·µÄy)
# Como X·µÄX es cuadrada, ahora podemos usar np.linalg.solve()
beta_hat = np.linalg.solve(XTX, XTy)

# 4. INTERPRETACI√ìN
print(f"\nCoeficientes Œ≤_hat resueltos: {np.round(beta_hat, 2)}")

# Comparamos con el resultado de lstsq del notebook anterior
beta_lstsq, _, _, _ = np.linalg.lstsq(X, y, rcond=None)
print(f"Coeficientes Œ≤_hat con lstsq: {np.round(beta_lstsq, 2)}")
print(f"¬øSon iguales? {np.allclose(beta_hat, beta_lstsq)}")

---
## 4. Ejercicios Guiados con Scaffolding (8+)
Rellena las partes marcadas con `# COMPLETAR` para afianzar tu comprensi√≥n.

### === EJERCICIO GUIADO 1: Construir los Componentes de las Ecuaciones Normales ===

In [None]:
# DATOS: Una matriz de dise√±o X y un vector y simples.
X = np.array([[1, 2], [1, 3], [1, 5]])
y = np.array([3, 4, 6])

# TODO 1: Calcula la matriz de Gram, X·µÄX.
XTX = # COMPLETAR

# TODO 2: Calcula el vector del lado derecho, X·µÄy.
XTy = # COMPLETAR

# VERIFICACI√ìN
XTX_esperada = np.array([[3, 10], [10, 38]])
XTy_esperada = np.array([13, 47])
assert np.allclose(XTX, XTX_esperada)
assert np.allclose(XTy, XTy_esperada)
print("‚úÖ ¬°Componentes de las Ecuaciones Normales calculados correctamente!")
print(f"X·µÄX =\n{XTX}")
print(f"\nX·µÄy = {XTy}")

### === EJERCICIO GUIADO 2: Resolver las Ecuaciones Normales ===

In [None]:
# DATOS: Los componentes X·µÄX y X·µÄy del ejercicio anterior.
XTX = np.array([[3, 10], [10, 38]])
XTy = np.array([13, 47])

# TODO: Resuelve el sistema cuadrado (X·µÄX)Œ≤ = (X·µÄy) para encontrar beta_hat.
# PISTA: Usa np.linalg.solve().
beta_hat = # COMPLETAR

# VERIFICACI√ìN
assert beta_hat.shape == (2,)
assert np.allclose(beta_hat, np.array([1.5, 0.85714]))
print("‚úÖ ¬°Sistema de Ecuaciones Normales resuelto correctamente!")
print(f"Œ≤_hat = {np.round(beta_hat, 2)}")

### === EJERCICIO GUIADO 3: Calcular el Vector de Proyecci√≥n y el Error ===

In [None]:
# DATOS: La matriz X original y el beta_hat que acabamos de encontrar.
X = np.array([[1, 2], [1, 3], [1, 5]])
y = np.array([3, 4, 6])
beta_hat = np.linalg.solve(X.T @ X, X.T @ y)

# TODO 1: Calcula el vector de predicciones y_hat (la proyecci√≥n de y sobre Col(X)).
y_hat = # COMPLETAR

# TODO 2: Calcula el vector de error (residuos).
error = # COMPLETAR

# VERIFICACI√ìN
assert y_hat.shape == (3,)
assert error.shape == (3,)
print("‚úÖ ¬°C√°lculos correctos!")
print(f"y_hat (proyecci√≥n) = {np.round(y_hat, 2)}")
print(f"error (residuos) = {np.round(error, 2)}")

### === EJERCICIO GUIADO 4: Verificar la Ortogonalidad del Error ===

In [None]:
# DATOS: La X, y_hat y error del ejercicio anterior.
X = np.array([[1, 2], [1, 3], [1, 5]])
y = np.array([3, 4, 6])
y_hat = X @ np.linalg.solve(X.T @ X, X.T @ y)
error = y - y_hat

# El vector de error debe ser ortogonal a CADA columna de X.

# TODO 1: Calcula el producto punto del error con la primera columna de X.
dot_col1 = # COMPLETAR

# TODO 2: Calcula el producto punto del error con la segunda columna de X.
dot_col2 = # COMPLETAR

# VERIFICACI√ìN
assert np.isclose(dot_col1, 0) and np.isclose(dot_col2, 0)
# Una forma m√°s compacta de verificar es X.T @ error, que debe ser un vector de ceros.
assert np.allclose(X.T @ error, np.zeros(2))
print("‚úÖ ¬°Verificaci√≥n de ortogonalidad exitosa!")
print("El vector de error es perpendicular al espacio de las predicciones.")

--- 
# 5. Banco de Ejercicios Pr√°cticos (30+)
Ahora te toca a ti. Resuelve estos ejercicios para consolidar tu conocimiento.

### Parte A: Componentes de las Ecuaciones Normales

**A1 (üü¢ F√°cil):** Dados $A = \begin{pmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{pmatrix}$ y $\vec{b} = \begin{pmatrix} 1 \\ 2 \\ 2 \end{pmatrix}$, calcula a mano (y luego verifica con c√≥digo) $A^T A$ y $A^T \vec{b}$.

**A2 (üü¢ F√°cil):** Usando el `datos_estudiantes`, construye la matriz de dise√±o $X$ y el vector $y$. Calcula $X^T X$.

**A3 (üü° Medio):** ¬øPor qu√© la matriz $X^T X$ es siempre cuadrada, incluso si $X$ es una matriz alta y delgada?

**A4 (üü° Medio):** Usando `datos_negocio`, construye la matriz de dise√±o $X$ para predecir `ventas_mensuales` a partir de `precio` y `gasto_marketing`. Calcula $X^T X$. ¬øDe qu√© tama√±o es?

### Parte B: Resoluci√≥n y Verificaci√≥n

**B1 (üü¢ F√°cil):** Usando los resultados de A1, resuelve las Ecuaciones Normales para encontrar $\hat{x}$.

**B2 (üü° Medio):** Para los datos de A1, calcula el vector de proyecci√≥n $\vec{p}=A\hat{x}$ y el vector de error $\vec{e}=\vec{b}-\vec{p}$.

**B3 (üü° Medio):** Verifica que el vector de error $\vec{e}$ del ejercicio B2 es ortogonal a las columnas de A.

**B4 (üî¥ Reto):** Implementa desde cero la regresi√≥n m√∫ltiple para el problema de `datos_negocio` (ejercicio A4). Resuelve las Ecuaciones Normales para encontrar los 3 coeficientes beta. Compara tu resultado con `np.linalg.lstsq`.

### Parte C: Geometr√≠a y Aplicaciones

**C1 (üü° Medio):** ¬øQu√© le pasar√≠a a la matriz $X^T X$ si las columnas de $X$ fueran perfectamente ortogonales? ¬øC√≥mo simplificar√≠a esto la soluci√≥n de las Ecuaciones Normales?

**C2 (üî¥ Reto):** La matriz de Proyecci√≥n que mapea cualquier vector $\vec{y}$ a su proyecci√≥n sobre el espacio columna de $X$ es $P = X(X^T X)^{-1} X^T$. Usando los datos de A1, calcula esta matriz $P$. Verifica que $P\vec{b}$ te da el mismo vector de proyecci√≥n $\vec{p}$ que calculaste en B2.

**C3 (üî¥ Reto):** Una propiedad de las matrices de proyecci√≥n es que son idempotentes ($P^2 = P$). Verifica que la matriz $P$ que calculaste en C2 cumple esta propiedad.

---

## ‚úÖ Mini-Quiz de Autoevaluaci√≥n

1. ¬øCu√°l es la f√≥rmula de las Ecuaciones Normales?
2. ¬øCu√°l es la relaci√≥n geom√©trica entre el vector de error $\vec{e}$ y el espacio columna de la matriz $X$ en una regresi√≥n OLS?
3. Si las columnas de $X$ son linealmente dependientes (multicolinealidad), ¬øqu√© problema ocurre con la matriz $X^T X$ que impide resolver las Ecuaciones Normales?
4. La soluci√≥n de m√≠nimos cuadrados, $\hat{\beta}$, produce un vector de predicciones $\hat{y} = X\hat{\beta}$. Este vector $\hat{y}$ es la ___________ de $\vec{y}$ sobre el espacio columna de $X$.

## üöÄ Pr√≥ximos Pasos

¬°Felicidades! Has entendido la bella geometr√≠a que hace funcionar la regresi√≥n lineal, derivando y aplicando su soluci√≥n desde los primeros principios.

- Aunque las Ecuaciones Normales son conceptualmente clave, pueden ser num√©ricamente inestables si $X^T X$ est√° mal condicionada (alto n√∫mero de condici√≥n). En el **pr√≥ximo notebook** exploraremos m√©todos num√©ricamente m√°s robustos para resolver problemas de m√≠nimos cuadrados, como la **descomposici√≥n QR**.