# **Salomon Uran Parra C.C. 1015068767**

## **Laboratorio 5 - Aprendizaje Estadistico**

In [None]:
import numpy as np
import pandas as pd
import plotly.graph_objects as go
from plotly.subplots import make_subplots

### **0. Demostrar que:**

- $J(\theta_1,\theta_2,\theta_3, ...,\theta_n ) = \frac{1}{2m} (\Theta ^ T X - y^T) (\Theta ^ T X - y^T)^T$

- $J= \frac{1}{2m} ((\Theta ^T X) (\Theta ^T X)^T - 2(\Theta ^T X)Y  + Y^TY $)


- $ \nabla _{\theta} J = \frac{1}{m} ( X(X^T \Theta) -XY)$


Para encontrar el valor minimo de \theta,  $\nabla _{\theta} J = 0$,

- $\Theta = (X^T X)^{-1} X^T y$

**Solución**

Empecemos primero por la definición del modelo multilineal. Supongamos que $\hat{Y}$ es una variable (target) que decimos, depende de $n$ features (que también son variables) $\hat{X} ^{(i)}$ con $i = 1, 2, \cdots ,n$. Vamos a definir un modelo de predicción que es lineal en cada uno de los $n$ features y que depende de $n+1$ parámetros $\theta_j$ con $j = 0,1,\cdots, n$, de tal forma que la predicción en un valor $l$ de los features tiene la siguiente forma:

$$h(\theta,X_l) = \theta_0 + \theta_1 X^{(1)}_l + \cdots + \theta_n X^{(n)}_l$$

Si para este valor $l$ de los features hay asociado un valor $Y_l$ de la variable target, podemos usar una métrica euclídea $||\cdot||$ para cuantizar de alguna forma que tan cercana o alejada es la predicción $h(\theta,X_l)$ respecto a $Y_l$ para un conjunto dado de parámetros $\theta = (\theta_0, \theta_1, \cdots, \theta_n)$. Si con esta métrica empleamos un error cuadrático medio sobre una cantidad de $m$ conjuntos de valores disponibles tanto para los features como para la variable target, podemos definir una función llamada la función coste $J(\theta)$ de la siguiente forma:

$$J(\theta) = \frac{1}{2m}\sum_{i = 1}^m (\theta_0 + \theta_1 X^{(1)}_i + \cdots + \theta_n X^{(n)}_i - Y_i)^2$$

Es fácil ver el carácter vectorial de la expresión anterior. Si se definen los siguientes vectores $Y = (Y_1 , \cdots, Y_m) \in \mathbb{R}^{m\times 1}$ y $\Theta = (\theta_0, \theta_1 , \cdots, \theta_n) \in \mathbb{R}^{(n+1)\times 1}$, y la matriz:

\begin{equation}
X =
\begin{bmatrix}
1& 1 & 1 & .&.&.&1\\
X_1^{(1)}&X_2^{(1)} & X_3^{(1)} & .&.&.&X_m^{(1)}\\
.&. & . &.&.&.& .\\
.&. & . & .&.&.&.\\
.&. & . & .&.&.&.\\
X_1^{(n)}&X_2^{(n)} & X_3^{(n)} & .&.&.&X_m^{(n)}\\
\end{bmatrix}_{(n+1) \times m}
\end{equation}

Se puede ver que la suma interior al cuadrado se puede expresar de la siguiente forma:

$$\theta_0 + \theta_1 X^{(1)}_i + \cdots + \theta_n X^{(n)}_i - Y_i = \Theta^{T}X_i - Y_i^T$$

Donde $X_i$ es la i-esima columna de la matriz $X$ y $\Theta^T , Y^T$ son las transpuestas de los vectores (o matrices columna) $\Theta, Y$. Es fácil ver que dimensionalmente el producto y resta entre matrices está correcto, pues al transponer los vectores, su dimensión como matriz se invierte, por lo que el producto entre $\Theta^T$ y $X$ es posible y arroja una matriz $(1\times m)$, que es la misma dimensión de $Y^T$. Como la resta también será una matriz (o vector) $(1 \times m)$, la suma de los cuadrados de las componentes de dicha diferencia se puede ver como el producto interno del vector consigo mismo, que matricialmente se obtiene multiplicando a la derecha por la transpuesta del vector. Esto implica lo siguiente:

$$J(\theta) = \frac{1}{2m}(\Theta^T X - Y^T)(\Theta^T X - Y^T)^T$$

Así, es posible definir la función costo matricialmente. Si introducimos en el último paréntesis la transposición y realizamos el producto, se obtiene la siguiente expresión:

$$J(\theta) = \frac{1}{2m}(\Theta^T X (\Theta^T X)^T - \Theta^T X Y - Y^T (\Theta^T X)^T + Y^T Y )$$

Como $\Theta^T X$ y $Y$ son vectores o matrices $(1\times m)$ y $(m \times 1)$ respectivamente, se puede emplear la propiedad para los productos punto de dos vectores $a^T b = b^T a$, es decir, se tiene que $\Theta^TX Y = Y^T (\Theta^T X)^T$. Además, usando que $(AB)^T = B^T A^T$, la expresión se puede simplificar de la siguiente forma:

$$J(\theta) = \frac{1}{2m}(\Theta^T X X^T \Theta - 2Y^T X^T \Theta + Y^T Y )$$

Por medio de esta función se desea optimizar los valores de $\theta$ para llegar a un 'buen' modelo $h(\theta)$ que sea capaz de predecir valores cercanos a los del target $\hat{Y}$. Como dicha función representa un error cuadrático medio, lo ideal sería minimizarla con respecto a los parámetros $\theta$. Para ello podemos emplear los resultados sobre mínimos y máximos en el cálculo vectorial, y por tanto necesitamos primero calcular el gradiente $\nabla_\theta J$ con respecto a los parámetros $\theta$. Empleando las propiedades siguientes de los gradientes vectoriales $\nabla _x b^T x = b$ y $\nabla _x  x^T A x = 2Ax$, podemos ver que:

$$\nabla_\theta (\Theta^T (X X^T) \Theta) = 2XX^T\Theta$$

$$\nabla_\theta ((Y^T X^T) \Theta) = XY$$

Que dimensionalmente están bien, pues $X \in \mathbb{R}^{(n+1)\times m}$, $X^T \in \mathbb{R}^{m \times (n+1)}$, $\Theta \in \mathbb{R}^{(n+1) \times 1}$, $Y \in \mathbb{R}^{m \times 1}$. Los gradientes anteriores son de dimensión $((n+1)\times 1)$, lo que significa que son vectores (que es lo esperable del gradiente de una función escalar). Empleando los resultados anteriores, se tiene que (recordando que $Y$ no depende de $\theta$):

$$\nabla_\theta J(\theta) = \frac{1}{m} ( X X^T \Theta - XY)$$

Con este gradiente obtenido, podemos aplicarlo al propósito de minimizar (o como mínimo extremizar) la función de coste $J$. Anulando el gradiente llegamos a la siguiente ecuación:

$$X X^T \Theta - XY = \tilde{0}_{(n+1)\times 1}$$

Cuya solución para $\Theta$ está dada por la siguiente expresión, suponiendo que $XX^T$ es invertible:

$$\Theta = (XX^T)^{-1}XY$$


### **1. Para los datos del laboratorio anterior aplicar la ecuacion normal.**

Hay que recordar que la función es de la forma $y = 2.1 x_1 - 3.1 x_2$, lo que significa que de manera exacta, el mejor modelo lineal para los datos $y$ es $\theta_0 = 0, \theta_1 = 2.1, \theta_2 = -3.1$.

In [None]:
#defino la ecuacion
y = lambda x1,x2: 2.1*x1 - 3.1*x2

#hago un sample aleatorio

np.random.seed(42)
#fijo la semilla para reproducibilidad de resultados

m = 1000
#numero de datos

x1 = (np.random.random(m) - 0.5)*2
x2 = (np.random.random(m) - 0.5)*2
#numero aleatorio de m puntos en R2

Y = y(x1,x2)
#funcion evaluada en los m datos

X = np.matrix([np.ones(len(x1)),x1,x2])

Y = np.matrix(Y).T

theta = np.linalg.inv(X @ X.T)@X@Y
print('Los valores de Theta obtenidos por medio de la ecuacion normal son: ', theta)

### **2. Tomar el dataset de las casas de Boston y construir un modelo de regresión mutivariada.**

Primero vamos a leer los datos del link de la página web y organizar un dataframe con todas las columnas importantes.

In [None]:
# Tomar los datos de las casas de boston y hacer una regresion lineal tomando
# el average number of rooms per dwelling.
data_url = "http://lib.stat.cmu.edu/datasets/boston"
columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']

raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :3]])

target = raw_df.values[1::2, 2]
#el target es el Median value of owner-occupied homes in $1000's

#df = pd.DataFrame({"mean_":target, "rm":data[:,5]})

df = pd.DataFrame(columns=columns)
for i in columns:
  df[i] = data[:,columns.index(i)]

display(df)

Ahora, el target o valor a predecir va a ser el de la columna MEDV, o *Median value of owner-occupied homes in $1000's*. Vamos a observar primero como son las correlaciones entre las otras columnas con respecto a esta misma.

In [None]:
#este grafico se hizo con ayuda de la IA gemini, documentado esta la explicacion y razonamiento de su codigo

#lista de columnas sin el target
columns_to_plot = df.columns.drop('MEDV')

#numero columnas y filas en la grafica
num_cols = 3
num_rows = (len(columns_to_plot) + num_cols - 1) // num_cols
#aqui selecciono el numero de filas necesarias para graficar la cantidad de columnas que hay, en filas de 3 plots, sin que se pase de 3


#se crean num_cols * num_rows subplots
fig = make_subplots(rows=num_rows, cols=num_cols,
                    subplot_titles=[f'{col} vs MEDV' for col in columns_to_plot])

#se grafica el scatterplot en cada uno de los subplots para cada columna vs MEDV
for i, col in enumerate(columns_to_plot):
    row = i // num_cols + 1
    #se ubica en la fila que corresponde al elemento i-esimo de las columnas del df

    col_num = i % num_cols + 1
    #se ubica en la columna que corresponde al elemento i-esimo de las columnas del df

    fig.add_trace(go.Scatter(x=df[col], y=df['MEDV'], mode='markers', name=col),
                  row=row, col=col_num)
    #se grafica en el subplot (usando plotly) el scatter de la i-esima columna del df vs MEDV

#se fija el tamaño de todas las figuras
fig.update_layout(height=num_rows * 200, width = 900, showlegend=False)

#se ponen los labels a las figuras
for i, col in enumerate(columns_to_plot):
    row = i // num_cols + 1
    col_num = i % num_cols + 1
    fig.update_xaxes(title_text=col, row=row, col=col_num)
    fig.update_yaxes(title_text='MEDV', row=row, col=col_num)


fig.show()

Vamos a emplear las columnas RM (*average number of rooms per dwelling*) y LSTAT (*% lower status of the population*), que son las que visualmente parecen comportarse mas linealmente y sin problemas (mucha dispersión o topes en los datos) con respecto a MEDV. Vamos a estandarizar estas variables empleando la siguiente formula

$$X_s = \frac{x - \mu}{\sigma}$$

Con esto pretendemos escalar de forma semejante las dos variables y el target para evitar problemas de cálculo a la hora de aplicar la ecuación normal. Como se plantea en el ejercicio, propondremos un modelo lineal multivariado para el target MEDV con RM y LSTAT como features, y obtendremos los valores idóneos de $\theta_0, \theta_1, \theta_2$ aplicando la ecuación normal que se dio en la teoría.


In [None]:
m = len(df)
#longitud de los datos

ls = (df['LSTAT']-df['LSTAT'].mean())/df['LSTAT'].std()
rm = (df['RM']-df['RM'].mean())/df['RM'].std()
#se estandarizan los features lstat y rm

X = np.matrix([np.ones(m),ls,rm])
#se define X como matriz (n+1)xm

Y = np.matrix(df['MEDV']).T
#se define Y como matriz mx1

theta = np.linalg.inv(X @ X.T)@X@Y
#se calcula theta usando la ecuacion normal

print('Los valores de Theta obtenidos por medio de la ecuacion normal son: ', theta)

Una vez conseguidos los valores de $\theta$, podemos visualizar (gracias a las pocas dimensiones de los features) que tan bueno es el modelo comparado con los datos del dataset, usando una gráfica de dispersión en 3D.

In [None]:
#nuevamente se uso la IA gemini para hacer el grafico 3D, la siguiente documentacion explica lo que hizo

#se extraen los datos sin estandarizar del df
lstat_data = df['LSTAT']
rm_data = df['RM']
medv_data = df['MEDV']

#se sacan los maximos y minimos de los features lstat y rm
lstat_min, lstat_max = lstat_data.min(), lstat_data.max()
rm_min, rm_max = rm_data.min(), rm_data.max()

#con ayuda de los minimos anteriores, se hace un grid regular para evaluar el modelo lineal multivariado 2D
lstat_grid, rm_grid = np.meshgrid(np.linspace(lstat_min, lstat_max, 100),
                                  np.linspace(rm_min, rm_max, 100))


#se definen los features estandarizados que se obtienen de la malla regular
lstat_grid_scaled = (lstat_grid - df['LSTAT'].mean()) / df['LSTAT'].std()
rm_grid_scaled = (rm_grid - df['RM'].mean()) / df['RM'].std()

#se hace la prediccion con los theta del modelo lineal
medv_plane = theta[0, 0] + theta[1, 0] * lstat_grid_scaled + theta[2, 0] * rm_grid_scaled


fig = go.Figure()

#se grafican los datos originales como scatter
fig.add_trace(go.Scatter3d(x=lstat_data, y=rm_data, z=medv_data, mode='markers', name='Data Points'))

#se grafica el plano ajustado por el modelo lineal en 3D
fig.add_trace(go.Surface(x=lstat_grid, y=rm_grid, z=medv_plane, name='Fitted Plane', opacity=0.7))

#se definen los labels
fig.update_layout(
    title='Grafica de dispersion 3D y modelo lineal multivariado (MEDV vs LSTAT y RM)',
    scene = dict(
        xaxis_title='LSTAT',
        yaxis_title='RM',
        zaxis_title='MEDV'
    )
)
fig.show()

Como se puede observar, aunque los datos son bastante dispersos, el plano parece seguir la tendencia en RM y LSTAT que siguen los datos del target, además de que se ven centrado en un "valor medio" de los datos del target.