# Sistemas de ecuaciones sobredeterminados

Este notebook repasa brevemente las herramientas apropiadas para resolver varios tipos de sistemas de ecuaciones lineales que surgen al estimar modelos a partir de observaciones.

## Sistemas determinados

Resolvamos el sistema de ecuaciones

$$
\begin{align*}
x + 2y &= 3\\
3x+4y  &= 5
\end{align*}
$$

o, en forma matricial $A X = B$:

$$\begin{bmatrix}1 & 2 \\ 3 & 4\end{bmatrix} X = \begin{bmatrix}3 \\ 5 \end{bmatrix}
$$

In [None]:
import numpy as np

In [None]:
a = np.array([[1,2]
             ,[3,4]])

b = np.array([3,5])

In [None]:
x = np.linalg.solve(a,b)

In [None]:
x

In [None]:
a @ x

También se puede resolver con la inversa de la matriz de coeficientes. $x=A^{-1}B$

In [None]:
np.linalg.inv(a)

In [None]:
np.linalg.inv(a) @ b

Pero normalmente se recomienda `solve` porque es más eficiente y estable numéricamente.

## Múltiples lados derechos

Cuando hay múltiples lados derechos podemos ponerlos en una matriz y entonces tenemos una ecuación $AX=B$ donde $A$, $B$, y $X$ son matrices. Por ejemplo:

$$\begin{bmatrix}1 & 2 \\ 3 & 4\end{bmatrix} X = \begin{bmatrix}3 & 1 & 2\\ 5 & 7 & 2\end{bmatrix}
$$

Son tres sistemas distintos que comparten la misma matriz de coeficientes $A$.

In [None]:
a = np.array([[1,2]
             ,[3,4]])

b = np.array([[3,1,2]
             ,[5,7,2]])

In [None]:
x = np.linalg.solve(a,b)
x

In [None]:
a @ x

Se puede precomputar una estructura (la [descomposición LU](https://en.wikipedia.org/wiki/LU_decomposition)) que permite resolver rápidamente cualquier lado derecho.

## Número de soluciones

El sistema $AX=B$ tendrá solución única si $A$ tiene rango completo. Si hay más ecuaciones (independientes) que incógnitas el sistema será incompatible, y si hay menos, tendrá múltiples soluciones.

## Sistema homogéneo

Si $B = 0$ tenemos un sistema *homogéneo*: buscamos un vector $X \neq \vec 0$ que consiga $AX=\vec 0$. La solución será un elemento del *espacio nulo* de $A$. Para que exista una solución no trivial la matriz $A$ no pude ser de rango completo.

Por ejemplo, resolvamos

$$\begin{bmatrix}1 & 2 & 3 \\ 3 & -4 & 7\end{bmatrix} X = \begin{bmatrix}0 \\ 0 \end{bmatrix}
$$

In [None]:
a = np.array([[1,2,3],
              [3,-4,7]])

# calcula el espacio nulo de una matriz
# suponiendo que tiene dimensión 1
def null1(M):
    u,s,vt = np.linalg.svd(M)
    return vt[-1]

x = null1(a)
x

In [None]:
a @ x

(Son ceros núméricos.)

## Sistemas sobredeterminados

En muchas aplicaciones surgen sistemas de ecuaciones que tienen más ecuaciones que incógnitas. Esto suele ocurrir cuando se intenta estimar los parámetros de un modelo a partir de un gran número de datos experimentales. Estrictamente hablando esos sistemas son incompatibles pero en muchos casos se puede encontrar una solución aceptable que minimice el error cuadrático.

Por ejemplo, el sistema siguiente no tiene solución:

$$\begin{bmatrix}1 & 2 \\ 3 & 4 \\ 6 & 7\end{bmatrix} X = \begin{bmatrix}3 \\ 5 \\ 10 \end{bmatrix}
$$

In [None]:
a = np.array([[1,2],
              [3,4],
              [6,7]])

b = np.array([3,5,10])

En este caso `np.linalg.solve(a,b)` daría error: "expected square matrix". Pero podemos encontrar una solución aproximada con `np.linalg.lstsq` (*least squares*):

In [None]:
x = np.linalg.lstsq(a,b, rcond=None)[0]
x

In [None]:
a @ x

Esta función devuelve también el error conseguido (suma de residuos cuadráticos) e información sobre lo "bien condicionado" que está el sistema.

Se obtiene la misma solución utilizando la *pseudoinversa*: $A^+ \equiv (A^T A)^{-1}A^T$

In [None]:
pinv = np.linalg.inv(a.T @ a) @ a.T
pinv

In [None]:
pinv @ b

Pero si solo vamos a usarla para multiplicar por $B$ es mejor usar directamente `np.linalg.lstsq`.

## Sistemas homogéneos sobredeterminados

Finalmente, también nos encontraremos con sistemas homogéneos sobredeterminados. Por ejemplo:
    
$$\begin{bmatrix}10 & 20 & 50 \\ 10 & 21  & 49 \\ 9 & 20 & 51 \\ 11 & 19 & 50\end{bmatrix} X = \begin{bmatrix}0 \\ 0 \\ 0\\0\end{bmatrix}
$$

In [None]:
a = np.array([[10, 20, 50],
              [10, 21, 49],
              [ 9, 20, 51],
              [11, 19, 50]])

x = null1(a)
x

La función `null1` definida más arriba obtiene el vector de norma 1 que minimiza $\left\rVert AX \right\rVert$. Se basa en la [descomposición SVD](https://en.wikipedia.org/wiki/Singular_value_decomposition), la herramienta más importante del Álgebra Lineal Numérica.

In [None]:
a @ x

Este vector no "anula" perfectamente a la matriz pero consigue un residuo pequeño.

## Ejercicios:

- Encuentra la recta que mejor se ajusta a una colección de puntos 2D.

- Encuentra la ecuación de una elipse que pase cerca de un conjunto de puntos 2D.

## Sistemas sobredeterminados y generalización

El problema fundamental en  *Machine Learning* es encontrar un modelo de los ejemplos de entrenamiento que resuelva correctamente la mayoría de casos futuros no vistos previamente.

Si estos ejemplos son representativos del problema y sobredeterminan los parámetros libres del modelo, y además el proceso de aprendizaje (optimización) consigue una buena solución, cabe esperar que esta solución "generalice" y resuelva bien casos futuros. Pero si los parámetros no están sobredeterminados, es seguro que encontraremos una solución perfecta para los datos de entrenamiento, sean cuales sean las etiquetas de clase que se les asignen: es un aprendizaje puramente memorístico, sin ninguna garantía sobre los resultados en futuras instancias del problema. Es necesario controlar la capacidad de las máquinas de aprendizaje (véase el apartado "Regularización" del capítulo sobre [Machine Learning](machine-learning.ipynb#Regularización)).