<a href="https://colab.research.google.com/github/diegoax/ALNAE-2025/blob/main/notebooks/clase18_ALNAE_2025.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clase 18 (Miércoles 4 de junio, 2025)
---

# Mínimos cuadrados (Regresión Lineal/Polinomial)

## Resolviendo $Ax = y$

### Comentarios breves sobres sistemas lineales

Sea $A\in\mathbb{R}^{m\times n}$, $x\in\mathbb{R}^n$, $y\in\mathbb{R}^m$.


 Resultados clave sobre existencia y unicidad:

1. *Existe* una solución $x$ si y solo si $y \in \mathcal{C}(A)$.
2. *Existe* una solución $x$ para todo $y \in \mathbb{R}^m$ si y solo si $\mathcal{C}(A) = \mathbb{R}^m$.
3. Una solución $x$ es *única* si y solo si $\mathcal{N}(A) = \{0\}$.
4. Existe una única solución para todo $y \in \mathbb{R}^m$ si y solo si $A$ es una matriz $m \times m$ e inversible,  
   *es decir*, ninguno de los valores propios o singulares de $A$ es cero.
5. Hay a lo sumo una solución para todo $y \in \mathbb{R}^m$ si y solo si las columnas de $A$ son linealmente independientes,  
   *es decir*, $\mathcal{N}(A) = \{0\}$, y esto solo es posible si $m \ge n$.
6. El sistema homogéneo $Ax = 0$ tiene una solución no trivial (*es decir*, distinta de cero) si y solo si $\text{rango}(A) < n$.


# Mínimos Cuadrados y Pseudoinversa (Moore–Penrose)

## Motivación: Interpolación de Polinomios

Comenzamos con una pequeña digresión/motivación sobre **interpolación de polinomios**.

### Interpolación de $m$ puntos

Supongamos que tenemos $m$ puntos $x_1, \dots, x_m \in \mathbb{C}$  
y datos $y_1, \dots, y_m \in \mathbb{C}$.

Existe un único polinomio de grado $m-1$:

$$
p(x) = c_0 + c_1 x + \cdots + c_{m-1} x^{m-1}
$$

tal que interpola los datos:

$$
p(x_i) = y_i \quad \text{para } i = 1, \dots, m.
$$

Esto equivale a resolver el sistema lineal:

$$
\begin{pmatrix}
1 & x_1 & x_1^2 & \cdots & x_1^{m-1} \\
1 & x_2 & x_2^2 & \cdots & x_2^{m-1} \\
\vdots & \vdots & \vdots & & \vdots \\
1 & x_m & x_m^2 & \cdots & x_m^{m-1}
\end{pmatrix}
\begin{pmatrix}
c_0 \\ c_1 \\ \vdots \\ c_{m-1}
\end{pmatrix}
=
\begin{pmatrix}
y_1 \\ y_2 \\ \vdots \\ y_m
\end{pmatrix}
$$

Denotando por $V$ la matriz de Vandermonde:

$$
V =
\begin{pmatrix}
1 & x_1 & \cdots & x_1^{m-1} \\
1 & x_2 & \cdots & x_2^{m-1} \\
\vdots & \vdots & & \vdots \\
1 & x_m & \cdots & x_m^{m-1}
\end{pmatrix}
$$

Entonces, los coeficientes $c_j$ del polinomio son solución del sistema $Vc = y$.

⚠️ **La matriz de Vandermonde es invertible si $x_i \ne x_j$ para $i \ne j$**.

---

### Ejercicio

1. Probar que si $V$ es invertible y $Vc = 0$, entonces $p(x) = 0$.
   - Es decir, si $p$ interpola $m$ ceros en $x_1, \dots, x_m$ distintos, entonces $p \equiv 0$.

2. Probar que:

$$
\det(V) = \prod_{i<j}(x_j - x_i)
$$

**Idea:** considerar $f(x) = \det(\tilde{V})$ donde $\tilde{V}$ es la matriz Vandermonde con una fila general $(1, x, x^2, \dots)$ y aplicar desarrollo por cofactores.

---

Continuaremos viendo en la computadora qué sucede con los polinomios que interpolan.


## Aproximación por polinomios de grado menor

De los ejemplos anteriores surge que el polinomio interpolador puede tener un comportamiento **no deseado** (e.g. oscilaciones no controladas, como en el fenómeno de Runge).

### ¿Qué pasa si aproximamos por polinomios de grado menor?

Tomemos $n < m$ y consideremos un polinomio de grado $n-1$:

$$
p(x) = c_0 + c_1 x + \cdots + c_{n-1} x^{n-1}
$$

Buscamos $p$ tal que minimice el **error cuadrático total** respecto a los datos $(x_i, y_i)$:

$$
\sum_{i=1}^m |p(x_i) - y_i|^2 \quad \text{(lo más chico posible)}
$$

Observaciones:

- El sistema ya **no tiene solución exacta** (es sobredeterminado).
- Tenemos $n$ incógnitas (los coeficientes $c_0, \dots, c_{n-1}$) y $m > n$ ecuaciones.
- Lo que buscamos es **minimizar el error**, no anularlo.

---

## Casos particulares

### Caso $n = 0$ (polinomio constante)

Buscamos $c_0$ tal que:

$$
\sum_{i=1}^m |c_0 - y_i|^2 \quad \text{sea mínimo}
$$

✅ La solución es el **promedio**:

$$
c_0 = \frac{1}{m} \sum_{i=1}^m y_i
$$

---

### Caso $n = 1$ (regresión lineal)

Buscamos una recta $p(x) = c_0 + c_1 x$ que se ajuste a los datos en el sentido de mínimos cuadrados:

$$
\min_{c_0, c_1} \sum_{i=1}^m |c_0 + c_1 x_i - y_i|^2
$$

Esto conduce al problema clásico de **regresión lineal por mínimos cuadrados**.


## 5.2.2 Regresión lineal y aprendizaje automático

En la **regresión lineal**, se nos da un conjunto de datos de entrenamiento que consiste en $m$ vectores de entrada (características) $a_1, \dots, a_m \in \mathbb{R}^n$  
y respuestas correspondientes $y_1, \dots, y_m \in \mathbb{R}$. Queremos encontrar coeficientes o pesos $x \in \mathbb{R}^n$ tales que $a_i^\top x
\approx y_i$.  
Apilando los vectores de entrada en una matriz $A$ y las respuestas en un vector $y$, se obtiene la siguiente expresión matricial:

$$
\begin{bmatrix}
y_1 \\
\vdots \\
y_m
\end{bmatrix}
\approx
\begin{bmatrix}
a_1^\top \\
\vdots \\
a_m^\top
\end{bmatrix}
x,
\quad \text{es decir,} \quad
y = Ax + \varepsilon,
$$

donde $\varepsilon \in \mathbb{R}^m$ representa el ruido u otros errores.

Queremos determinar (o “aprender”) el vector de pesos o coeficientes $x$ de forma que, dado un nuevo vector de características $a$, podamos **predecir** la respuesta correspondiente (desconocida) simplemente calculando $a^\top x$.

Este es un problema clásico en estadística, y un método clave del "aprendizaje automático" que usualmente se debe considerar (para estimación/regresión) antes de métodos más complejos.

La notación para regresión lineal varía según la disciplina:

- En estadística: $y \approx X \beta$
- En aprendizaje automático: $y \approx X w$
- En álgebra lineal: $y \approx Ax$

---

### Los nombres de las variables pueden variar:

- **$y$**: respuesta, etiqueta, variable endógena, variable medida, variable dependiente, variable predicha, ...
- **$a$** (filas de $A$): características, regresores, variables exógenas, explicativas, covariables, variables independientes, ...
- **$x$**: vector de parámetros, coeficientes de regresión, incógnitas, ...
- **$\varepsilon$**: ruido, error, perturbación, ...

> **Ejemplo:** Predecir la altura de un niño a partir de la altura de sus padres. [Wikipedia](https://en.wikipedia.org/wiki/Linear_regression)


Ver [Demo](https://jefffessler.github.io/book-la-demo/generated/demos/05/ls-lift/) de Rao

## Estimación por mínimos cuadrados lineales

En una situación típica donde $m > n$ (es decir, el sistema está *sobredeterminado* o es "alto"), se puede mostrar que $\mathcal{R}(A) \ne \mathbb{R}^m$.  
Por lo tanto, habrá (infinitos) vectores $y$ que no están en el rango de $A$ y para los cuales **no existe solución exacta** de $Ax = y$.

Entonces, cuando $m > n$, en lugar de insistir en resolver exactamente $Ax = y$, buscamos una **solución aproximada** tal que $Ax \approx y$.  
Para esto, necesitamos cuantificar qué tan "cerca" está una solución.

La solución aproximada más importante y común es usar la **estimación por mínimos cuadrados lineales (LLS)**, que consiste en encontrar un estimador $\hat{x}$ que **mejor ajuste** los datos $y$ según una norma euclídea:

$$
\hat{x} = \arg \min_{x \in \mathbb{R}^n} \|Ax - y\|_2^2 \tag{5.3}
$$

- $\hat{x}$ se llama la **solución por mínimos cuadrados lineales**.
- $Ax - y$ se llama el **residuo**.
- $\|Ax - y\|_2$ es la **norma euclídea** del residuo, que mide el "error" del ajuste.
- $\arg\min_x$ significa que buscamos el argumento $x$ que minimiza el error cuadrático.
- A menudo decimos “minimizamos el error cuadrático” cuando en realidad queremos decir que encontramos $\hat{x}$ que lo minimiza.

---

### Ejemplo: el promedio

Supongamos que observamos una medición ruidosa
$$
y_i=\alpha +\varepsilon_i,\quad i = 1, \dots, m.
$$
Por ejemplo, tomamos $m$ mediciones de una barra de metal.

Estamos interesados en la solución $\alpha$ que minimiza
$$
\|A\alpha-y\|^2,
$$
siendo $A=(1,\ldots,1)^T$.
Geométricamente, nos podemos convencer que la solución óptima es la que hace que el vector $(1,\ldots,1)^T \alpha -y$ es ortogonal a $(1,\ldots,1)^T$.

Por lo tanto
$$
\langle \begin{pmatrix}1\\\vdots\\1\end{pmatrix}\alpha-y,  \begin{pmatrix}1\\\vdots\\1\end{pmatrix}\rangle=0,
$$
lo que implica
$$
0=\sum_{i=1}^m (\alpha-y_i),
$$
y por lo tanto
$$
\alpha =\frac 1n \sum_{i=1}^m y_i
$$
es el promedio de los datos.


### Ejemplo: regresión polinomial
Demos un paso más.

Supongamos que observamos muestras ruidosas de una señal:

$$
y_i = s(t_i) + \varepsilon_i, \quad i = 1, \dots, m
$$

y creemos que la señal es un polinomio cúbico:

$$
s(t) = \alpha_0 + \alpha_1 t + \alpha_2 t^2 + \alpha_3 t^3
$$

Entonces, en forma matricial:

$$
y \approx Ax, \quad \text{donde} \quad
y = \begin{bmatrix} y_1 \\ \vdots \\ y_M \end{bmatrix}, \quad
A = \begin{bmatrix}
1 & t_1 & t_1^2 & t_1^3 \\
1 & t_2 & t_2^2 & t_2^3 \\
\vdots & \vdots & \vdots & \vdots \\
1 & t_m & t_m^2 & t_m^3
\end{bmatrix}, \quad
x = \begin{bmatrix} \alpha_0 \\ \alpha_1 \\ \alpha_2 \\ \alpha_3 \end{bmatrix}
$$

Este método se conoce como **regresión polinomial**, y las “características” son las potencias de los tiempos $t_m$.

---

### Notas adicionales

- Si elegimos exactamente $m = 4$ valores distintos $t_i$, se puede resolver $Ax = y$ exactamente (si $A$ es invertible).
- Pero si hay ruido, es preferible usar **$m \gg 4$** muestras y estimar $\hat{x}$ usando mínimos cuadrados.
- Para polinomios de mayor orden, a veces es mejor usar **polinomios ortogonales** como base en lugar de monomios.


# Distintos enfoques para resolver Mínimos Cuadrados

Los métodos pueden depender de la complejidad de nuestro problema.

1. Via SVD con la pseudoinversa de $A$, denotada por $A^\dagger$.
2. Ecuaciones normales: $A^TA\hat x=A^Ty$
3. Gram-Schimdt (o Householderr) $A=QR$
4. Optimización/Gradientes.

Veamos a continuación un resumen de estos métodos.

## 1. La pseudoinversa $A^+$ de una matriz $A$ (o inversa Moore-Penrose)

### Idea general

- Si $A$ es $m\times n$, entonces $A^\dagger$ es $n\times m$, y se piensa como un mapa que "deshace" lo que hace $A$. (Va en el sentido inverso.)
- Una forma de entender la pseudoinversa es la siguiente:
Recordar que si restrigimos $A$ al ortogonal a su núcleo (i.e. el espacio filas), entonces se puede ver como un isomorfismo entre ese espacio, y el espacio columnas. Luego $A^\dagger$ es la aplicación lineal que en el codominio proyecta ortogonalmente sobre la imagen de $A$, y luego invierte $A$ sobre el orgotonal al núcleo (el isomorfismo que mencionamos).
- Si $A$ es invertible, entonces $A^+ = A^{-1}$.
- Para matrices no invertibles, $A^+$ actúa como un “pseudo-inverso”.
- $A^+$ invierte $A$ **cuando es posible**:
  - Si $x$ está en el espacio fila ($x=A^Ty$): $A^+Ax = x$
  - Si $b$ está en el espacio columna: $AA^+b = b$

### Espacios asociados

- **Núcleo de $A^+$** es el núcleo de $A^T$ (i.e., el ortogonal a la imagen de $A$).
- Vectores en el núcleo son ortogonales a la imagen de $A$.
- En estos casos, la mejor solución en norma 2 a $Ax = y$ es $x^+ = A^+y$.

### Ejemplo

Si $A = \begin{bmatrix} 2 & 0 \\ 0 & 0 \end{bmatrix}$, entonces:

$$
A^+ = \begin{bmatrix} 1/2 & 0 \\ 0 & 0 \end{bmatrix}
$$

### Reglas para construir $A^+$

- **Regla 1:** Si $A$ tiene columnas independientes, $A^+ = (A^TA)^{-1}A^T$
- **Regla 2:** Si $A$ tiene filas independientes, $A^+ = A^T(AA^T)^{-1}$
- **Regla 3:** Para $\Sigma$ diagonal (SVD), se invierte donde hay valores singulares distintos de cero:

  Si $\Sigma = \begin{bmatrix} \sigma_1 & 0 & 0 \\ 0 & \sigma_2 & 0 \\ 0 & 0 & 0 \end{bmatrix}$,  
  entonces $\Sigma^+ = \begin{bmatrix} 1/\sigma_1 & 0 & 0 \\ 0 & 1/\sigma_2 & 0 \\ 0 & 0 & 0 \end{bmatrix}$

### SVD y pseudoinversa

Si $A = U \Sigma V^T$, entonces:

$$
A^+ = V \Sigma^+ U^T
$$

### Interpretación geométrica

- $A$ lleva el espacio fila al espacio columna.
- $A^+$ revierte: lleva el espacio columna al espacio fila.
- Los 4 subespacios fundamentales (imagen, núcleo y sus ortogonales) se intercambian bajo $A$ y $A^+$.

### Identidad útil

$$
A^+A = \begin{bmatrix} I & 0 \\ 0 & 0 \end{bmatrix}
$$
es decir, es la proyección ortogonal sobre el espacio filas (i.e., el ortogonal al núcleo).

Además
$$
AA^\dagger=\mbox{proyección ortogonal sobre espacio columna de }A.
$$




# ¿Cuándo es $A^T A$ invertible?

La matriz $A^T A$ es invertible **exactamente cuando $A$ tiene columnas linealmente independientes**.

- Si $Ax = 0$ implica $x = 0$, entonces $A^T A$ es invertible:- $A$ y $A^T A$ comparten el mismo núcleo. Esto sucdede porque
  $$ A^T A x = 0 \Rightarrow x^T A^T A x = \|Ax\|^2 = 0 \Rightarrow Ax = 0 $$

Por tanto, para cualquier matriz $A$:

- $\mathcal{N}(A^T A) = \mathcal{N}(A)$  
- $\mathcal{C}(AA^T) = \mathcal{C}(A)$  
- $\mathrm{rank}(A^T A) = \mathrm{rank}(AA^T) = \mathrm{rank}(A)$

---

2. # Las ecuaciones normales

El problema de mínimos cuadrados consiste en resolver:

$$ A^T A \hat{x} = A^T b $$

Cuando $Ax = b$ no tiene solución, buscamos una $\hat{x}$ que **minimice $\|Ax - b\|^2$**.

## Geometría de la solución

- $p = A\hat{x}$ es la **proyección ortogonal** de $b$ sobre el espacio columna de $A$.
- $e = b - p$ es el **error** ortogonal al plano.

Esto implica:

$$
(Ax)^T (b - A\hat{x}) = 0 \quad \forall x \Rightarrow A^T (b - A\hat{x}) = 0
$$

---


### Fórmulas clave en mínimos cuadrados

#### 1. Ecuación normal
$$
A^T A \hat{x} = A^T b
$$

#### 2. Solución de mínimos cuadrados
$$
\hat{x} = (A^T A)^{-1} A^T b
$$

#### 3. Matriz de proyección ortogonal sobre espacio columnas de $A$
$$
A (A^T A)^{-1} A^T
$$
