### Modelos de regresión lineal

La regresión lineal es un modelo matemático que se utiliza para predecir una variable continua a partir de otra variable continua.

Vamos a tener el siguiente modelo, un modelo que va a predecir la estatura de una persona a partir de su peso y el peso de sus padres.

![Modelo](image.png)

El modelo a predecir es:
donde:
- $y$ es la estatura de la persona
- $k$ es el peso de la persona
- $p$ es el peso de los padres de la persona
- $\beta_0$ es el intercepto
- $\beta_1$ es la pendiente de la relación entre la estatura y el peso de la persona
- $\beta_2$ es la pendiente de la relación entre la estatura y el peso de los padres de la persona

$$
y = \beta_0 + \beta_1 k + \beta_2 p
$$

Solo con esto NO PODEMOS hacer el calculo exacto de la estatura de las personas. Por lo que agregamos un residuo $\epsilon$ que va acumular los residuos y errores.


$$
y = \beta_0 + \beta_1 k + \beta_2 p + \epsilon
$$

Los datos son los siguientes

| Estatura (y) | Estatura papas (k) | Peso persona (p) |
|--------------|------------------|-----------------|
| 175          | 70               | 177             |
| 181          | 86               | 190             |
| 159          | 63               | 180             |
| 165          | 62               | 172             |



Lo cual serian las siguientes ecuaciones:

$$
175 = \beta_0 + \beta_1 70 + \beta_2 177
$$
$$
181 = \beta_0 + \beta_1 86 + \beta_2 190
$$
$$
159 = \beta_0 + \beta_1 63 + \beta_2 180
$$
$$
165 = \beta_0 + \beta_1 62 + \beta_2 172
$$

Esto es un sistema de ecuaciones expresado en matrices de la siguiente forma

$$
\begin{bmatrix}
1 & 70 & 177 \\
1 & 86 & 190 \\
1 & 63 & 180 \\
1 & 62 & 172 \\
\end{bmatrix}
\begin{bmatrix}
\beta_0 \\
\beta_1 \\
\beta_2 \\
\end{bmatrix}
=
\begin{bmatrix}
175 \\
181 \\
159 \\
165 \\
\end{bmatrix}

$$
Donde  nos queda una ecuacion

$$
X \boldsymbol{\beta} = \mathbf{Y}
$$


EL cambiar de ecuaciones a matrices es muy comun en machine learning.

Para que sirve todo esto? 
Para obtener los coeficientes de la regresion lineal. que nos permitan predecir la estatura de una persona a partir de su peso y el peso de sus padres.

Pero esta matriz no es cuadrada, por lo que no podemos sacar la inversa. Las inversas solo se pueden sacar si la matriz es cuadrada y de rango completo. Se considera de rango completo si todas sus columnas son linealmente independientes (rango completo por columnas).

## Inversas de matrices rectangulares
La inversa de una matriz rectangular, se puede obtener con la inversa por la izquierda y por la derecha.
Pero lo que mas se hace es obligar a una matiz rectangular a ser CUADRADA.




$$
A
=
\begin{bmatrix}
 
\end{bmatrix}
$$

m x n -> n x m
Nesesitamos que tenga mas filas que columnas, es una matriz alta.

Como obligamos a que sea cuadrada esta matriz?

Si multiplicamos esta matriz por su transpuesta, obtendremos una matriz cuadrada.

$$
A^T A
=
\begin{bmatrix}
 
\end{bmatrix}

n x m  ->  m x n = n x n
$$
una matriz de n filas por n columnas

Pero
$$
(A^T A)^-1 (A^T A) = I
$$

Tenemos que  es la matriz inverza izquierda
$$
(A^T A)^-1 A^T 
$$
![funciona si](image1.png)
![funciona si](image2.png)

### Matriz inversa por la derecha

![matriz ancha](image3.png)
![matriz ancha](image4.png)
![matriz ancha](image5.png)
![inversa por derecha](image6.png)

La inversa es derecha si el rango de la matriz es completo en las filas.

### DESPEJE DE REGRESION LINEAL

Tenemos las siguiente ecuaciones que represntan el sistema a resolver
![matrices ecuaciones](image7.png)

Donde tenemos X que aplica transformacion al vector Betha, y obtenemos el vector Y de soluciones.
![transformacion](image8.png)
Al ser una matriz alta para dezpejar debo multiplicar ambos lados por la matriz inversa izquierda de X.
Despues simplicando obtenemos

![despeje](image9.png)

Esto se le conoce como la solucion de minimos cuadrados.

In [1]:
## implementacion de la solucion en python seria 
import numpy as np

X = np.array([[1, 70, 177], [1, 86, 190], [1, 63, 180], [1, 62, 172]])
X


array([[  1,  70, 177],
       [  1,  86, 190],
       [  1,  63, 180],
       [  1,  62, 172]])

In [2]:
Y = np.array([[175, 181, 159, 165]]).T
Y


array([[175],
       [181],
       [159],
       [165]])

In [3]:
# Matriz inverza
x_invizq = np.linalg.inv(X.T @ X) @ X.T
x_invizq

array([[ 10.08428076,  -5.28145152, -15.91940955,  12.11658031],
       [  0.04275543,   0.03147948,  -0.09755097,   0.02331606],
       [ -0.07142058,   0.0184702 ,   0.12807992,  -0.07512953]])

In [4]:
### Comprobacion matriz identidad
x_invizq @ X

array([[ 1.00000000e+00, -2.66204836e-11, -6.82760515e-11],
       [-3.05311332e-16,  1.00000000e+00, -1.55486735e-13],
       [ 7.91033905e-16,  1.12659881e-13,  1.00000000e+00]])

In [5]:
betha = x_invizq @ Y
betha


array([[276.85604056],
       [  1.51653185],
       [ -1.18716219]])

Esto datos o variables independientes no son suficientes para predecir la variable dependiente. Por lo mismo los datos de tu variable dependiente, No van a estar en el espacio de columnas de tu matriz de datos independientes. La solucion para esto es aceptar que no podemos modelar con precision el mundo. Simepre vamos a vivir en el error, por lo que a y le vamos a agregar un error con lo que no pudimos precir.
![error](image10.png)
Esto es la proyeccion ortogonal, donde se busca minimizar el error a lo menos posible.
Con esto la meta es encontrar la combinacion de regresores que se acerquen lo mas posible a los datos observados.

### Interpretacion geometrica
Sabemos que la transformacion lineal X por Betha, forma un plano, del cual tenemos que la variable dependiente y nunca llegara a ser una combinacion lineal del plano.
![plano](image11.png)
Lo que debemos encontrar son los coeficientes de Betha, que nos de un plano que se acerque lo mas posible a los datos observados, es decir al vector Y.
![plano](image12.png)
La proyeccion de Y sobre el plano o la distancia,es el vector E, de los erorres.
![error](image13.png)
Esta distancia mas corta esta dada por la proyeccion ortogonal de Y sobre el plano.
![error](image14.png)
Donde E es Y menos el X por Betha.

Despejando tendremos que:
![error](image15.png)
Esto seria la solucion de los minimos cuadrados.



## Minimos cuadrados

Para obtener la distancia de los puntos observados a la recta estimada, tenemos que la distancia de cada punto a la recta, que puede ser positivo o negativo.
![error](image16.png)
Si sumamos las distancias al cuadrado, obtendremos la distancia de los puntos observados a la recta estimada, esta suma seria el error cuadrado.
![error](image17.png)

La meta es minimizar el error a los minimos cuadrados.

Nosotros no podemos construir un super modelo que estime todas las variables independietes posibles para estimar la variable dependiente. Por lo que todos esos errors los podemos capturar en un solo vector:
![error](image18.png)

Recordar que no solo podemos minimizar los errores tenemos que elevarlos al cuadrado primero.
![error](image19.png)

Despues de eso lo podemos ver como un problema de optimizacion.
![error](image20.png)

La inversa izquierda fue buena pero inestable numericamente, porlo que lo mejor es obtar por QR decomposition.
![error](image21.png)

In [6]:
# SOLUCIÓN CORREGIDA USANDO SCIPY:
import numpy as np
import scipy.linalg as sp

# Datos originales
X = np.array([[1, 70, 177], [1, 86, 190], [1, 63, 180], [1, 62, 172]])
Y = np.array([[175, 181, 159, 165]]).T

# Para mínimos cuadrados necesitamos resolver: (X^T * X) * beta = X^T * Y
XTX = X.T @ X  # Matriz cuadrada 3x3
XTY = X.T @ Y  # Vector lado derecho

print('Matriz X^T * X:')
print(XTX)
print('Vector X^T * Y:')
print(XTY)

# Ahora sí podemos aplicar descomposición LU a la matriz cuadrada
P, L, U = sp.lu(XTX)
print('Matriz L:')
print(L)
print('Matriz U:')
print(U)

# Aplicar permutación al vector del lado derecho
V_P = P @ XTY
print('Vector V_P:', V_P)

# Paso 1: Resolver Ly = V_P usando scipy.linalg.solve_triangular
y = sp.solve_triangular(L, V_P, lower=True)
print('Paso 1 - Resolver Ly = V_P usando scipy:')
print('y =', y)

# Paso 2: Resolver Ux = y usando scipy.linalg.solve_triangular
x = sp.solve_triangular(U, y, lower=False)
print('Paso 2 - Resolver Ux = y usando scipy:')
print('x =', x)

print('Paso 3 - Solución final (coeficientes beta):')
print('beta =', x)

Matriz X^T * X:
[[     4    281    719]
 [   281  20109  50734]
 [   719  50734 129413]]
Vector X^T * Y:
[[   680]
 [ 48063]
 [122365]]
Matriz L:
[[ 1.          0.          0.        ]
 [ 0.39082058  1.          0.        ]
 [ 0.00556328 -0.00443802  1.        ]]
Matriz U:
[[ 7.19000000e+02  5.07340000e+04  1.29413000e+05]
 [ 0.00000000e+00  2.81108484e+02  1.56735744e+02]
 [ 0.00000000e+00  0.00000000e+00 -2.65460105e-01]]
Vector V_P: [[122365.]
 [ 48063.]
 [   680.]]
Paso 1 - Resolver Ly = V_P usando scipy:
y = [[1.22365000e+05]
 [2.40239221e+02]
 [3.15144199e-01]]
Paso 2 - Resolver Ux = y usando scipy:
x = [[276.85604056]
 [  1.51653185]
 [ -1.18716219]]
Paso 3 - Solución final (coeficientes beta):
beta = [[276.85604056]
 [  1.51653185]
 [ -1.18716219]]


## Resumen:

-   El modelo de regresion lineal es un modelo estadistico para entender nuestro mundo.
-   Se habla diferente en Estadistica que en Algebra Lineal.
-   El Metodo del Minimos Cuadrados via Inversa es el cimiento de muchos analisis estadisticos.
-   La Formula de Minimos cuadrados puede ser entendida usando algebra lineal, geometria o calculo.
-   Aunque en teoriaca deberiamos multiplicar el vector de datos por su inversa izquierda, en la practica usamos Descomposion QR.

