# 4. Formulación matricial del modelo OLS (Mínimos cuadrados)

## 4.1 Explicación forma matricial

Para la formulación matricial del modelo lineal se expresa de la siguiente manera:

$$X\beta + \epsilon= Y$$

Donde:
* __$\beta$__ es una matriz de coeficientes de tamaño $(p+1)\times1$, que contiene los coeficientes $\beta_0, \beta_1,...,\beta_{p}$
* __X__ es una matriz de variables regresoras de tamaño $n \times (p+1)$, donde la primera columna de cada fila debe tener valor 1, y el resto de valores corresponde a los $p$ atributos que serán usados para determinar Y, para cada una de las n observaciones.
* __$\epsilon$__ es una matriz de tamaño $n \times 1$ que contiene los errores entre la predicción obtenida del modelo lineal y la variable objetivo __Y__
* __Y__ es una matriz de tamaño $n \times 1$ las observaciones obtenidas de la variable objetivo.

Recordamos que el objetivo del metodo de mínimos cuadrados es minimizar la función de pérdida, dada por:
$$S(\boldsymbol{\beta}) = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})$$


Para minimar el error, es necesario derivar la expresión anterior, para lo cual la expandimos:

$$
\begin{aligned}
S(\boldsymbol{\beta})
&= (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) \\
&= \mathbf{y}' \mathbf{y}
   - \mathbf{y}' \mathbf{X}\boldsymbol{\beta}
   - (\mathbf{X}\boldsymbol{\beta})' \mathbf{y}
   + (\mathbf{X}\boldsymbol{\beta})' (\mathbf{X}\boldsymbol{\beta}) \\
&= \mathbf{y}' \mathbf{y}
   - 2\boldsymbol{\beta}' \mathbf{X}' \mathbf{y}
   + \boldsymbol{\beta}' \mathbf{X}' \mathbf{X} \boldsymbol{\beta}.
\end{aligned}
$$


(Usamos que $(\mathbf{y}^\top\mathbf{X}\boldsymbol{\beta})^\top = \boldsymbol{\beta}^\top\mathbf{X}^\top\mathbf{y}$, ya que ambos son escalares.)

---

Aplicamos las reglas de derivación matricial:

$$
\frac{\partial (\mathbf{y}' \mathbf{y})}{\partial \boldsymbol{\beta}} = 0
$$

$$
\frac{\partial (-2\boldsymbol{\beta}' \mathbf{X}' \mathbf{y})}{\partial \boldsymbol{\beta}} = -2\mathbf{X}' \mathbf{y}
$$


$$
\frac{\partial (\boldsymbol{\beta}' \mathbf{X}' \mathbf{X} \boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = 2\mathbf{X}' \mathbf{X}\boldsymbol{\beta}
$$



Sumando los términos:
$$
\nabla_{\boldsymbol{\beta}} S(\boldsymbol{\beta})
= -2\mathbf{X}' \mathbf{y} + 2\mathbf{X}' \mathbf{X}\boldsymbol{\beta}
= 2\mathbf{X}'(\mathbf{X}\boldsymbol{\beta} - \mathbf{y})
$$


---



Para encontrar el valor de $\boldsymbol{\beta}$ que minimiza $S(\boldsymbol{\beta})$, se iguala la derivada a cero:

$$\frac{\partial S(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = -2\mathbf{X}'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) = 0$$

$$\Rightarrow \mathbf{X}'\mathbf{X}\boldsymbol{\beta} = \mathbf{X}'\mathbf{y}$$

$$\Rightarrow \boxed{\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}}$$

Esta es la **solución matricial de los Mínimos Cuadrados Ordinarios (OLS)**.

Ahora bien, para que el determinante de $(X'X)$ sea distinto de 0 y, por tanto, sea invertible, todas las n filas de observaciones deben ser linealmente independientes las unas contras, es decir, no pude existir una combinación lineal tal que al aplicarlas a una de las observaciones se obtenga como resultado otra de las observaciones.

Expresado en terminos más simples, cada observación debe ser independiente de la otra, y no puede existir correlaciones entre ellas.

En base a esta discusión, armamos nuestra matriz X y Y:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from statsmodels.regression.linear_model import OLS
import pickle    

In [2]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
path = '../Data/'

df = pd.read_csv(path+'Ames-Housing-regressor-columns.csv', delimiter=',')

In [4]:
# Se define la variable objetivo
target_column = 'SalePrice'

target_column

'SalePrice'

In [5]:
regressor_columns = [column for column in df.columns if column != target_column]

regressor_columns

['Overall Qual',
 'Gr Liv Area',
 'Garage Cars',
 'Garage Area',
 'Year Built',
 '1st Flr SF',
 'Exter Qual_TA',
 'Year Remod/Add',
 'Full Bath',
 'Foundation_PConc',
 'Garage Yr Blt',
 'Kitchen Qual_TA',
 'Fireplace Qu_Sin categoria',
 'Exter Qual_Gd']

In [6]:
# Matriz X en numpy
X = df[regressor_columns].to_numpy()

## se insertan los unos en cada fila para el cálculo del intercepto
X_1 = np.insert(X, obj=0, values=1, axis=1)

X_1

array([[1.        , 6.        , 7.41276402, ..., 1.        , 0.        ,
        0.        ],
       [1.        , 5.        , 6.79905586, ..., 1.        , 1.        ,
        0.        ],
       [1.        , 6.        , 7.19293422, ..., 0.        , 1.        ,
        0.        ],
       ...,
       [1.        , 5.        , 6.87832647, ..., 1.        , 1.        ,
        0.        ],
       [1.        , 5.        , 7.23705903, ..., 1.        , 0.        ,
        0.        ],
       [1.        , 7.        , 7.60140233, ..., 1.        , 0.        ,
        0.        ]], shape=(2796, 15))

In [7]:
# De la misma forma, se crea la matriz Y
Y = df[target_column].to_numpy()

## Le damos la form n x 1
Y = np.expand_dims(Y, axis=1)

Y

array([[12.27839796],
       [11.56172515],
       [12.05525557],
       ...,
       [11.79056478],
       [12.0435596 ],
       [12.14420256]], shape=(2796, 1))

## 4.2 Regresión lineal matricial

Calculamos nuestro vector de coeficientes usando la forma matricial:

In [8]:
# Encontramos B usando la forma matricial
np.set_printoptions(suppress=True)

B = (np.linalg.inv(X_1.T@X_1))@X_1.T@Y

B

array([[ 0.34013032],
       [ 0.0812808 ],
       [ 0.35328005],
       [ 0.00685655],
       [ 0.00023946],
       [ 0.00236466],
       [ 0.1838746 ],
       [-0.06399954],
       [ 0.00220286],
       [-0.03521613],
       [ 0.01570772],
       [-0.00084105],
       [-0.02987366],
       [-0.07048969],
       [-0.06210405]])

## 4.3 Comparación con STATSMODEL

In [9]:
# usamos statmodels para comparar su modelo con el modelo obtenido
model = OLS(Y,X_1)
result = model.fit()

result.params

array([ 0.34013032,  0.0812808 ,  0.35328005,  0.00685655,  0.00023946,
        0.00236466,  0.1838746 , -0.06399954,  0.00220286, -0.03521613,
        0.01570772, -0.00084105, -0.02987366, -0.07048969, -0.06210405])

Como se puede observar, los parametros obtenidos coinciden exactamente con los obtenidos usando la forma matricial. Finalmente, guardamos los parámetros de nuestro modelo.

In [10]:
X_1.dump('../Data/X.dat')
B.dump('../Data/B.dat')
Y.dump('../Data/Y.dat')

In [11]:
result.save("../Data/ols_results.pickle")

In [12]:
with open("../Data/regressor_columns.pickle", "wb") as fp:   #Pickling
...   pickle.dump(regressor_columns, fp)