In [1]:
from sklearn.linear_model import LinearRegression, Ridge, LassoCV, ElasticNetCV, RidgeCV
from sklearn.model_selection import train_test_split
import numpy as np
import numpy.linalg as lin
import pandas as pd

#### Loading neccesary functions

In [2]:
def SSE(residuo):
    return np.sum(residuo**2)

In [3]:
def matriz_P(x):
    """
    La matriz P es cuadrada simétrica e idempotente ()PP = P)
    Tiene rango (m-1) es ortogonal al espacio definido por el vector 1 ya que P*1 = 0 y proyecta los
    datos ortogonalmente al espacio deÞnido por el vector constante
    """
    xx = np.array(x)
    m,n = xx.shape
    unos = np.ones([m,1])
    Identidad = np.identity(m)
    P = Identidad - float(1.0/m) * unos.dot(unos.T)
    return P

In [4]:
def Matriz_covarianzasCorregida(x):
    """
    matriz de covarianzas a partir de los datos. OBSERVE que se divide por (n-1)
    np.cov(Data, rowvar=False) # esta funcion me da la covarianza corregida
    """
    xx = np.array(x)
    m,n = xx.shape
    P = matriz_P(x)
    intermedio =P.dot(xx)
    S = float(1.0/(m-1))*(xx.T.dot(intermedio))
    return S

#### Loading Data

In [5]:
data_x = pd.read_csv('Parcail1_X.csv', header=None)
data_y = pd.read_csv('Parcial1_Y.csv', header=None)

## Exercise 1

* Considerando solamente la matriz de diseño: construya el vector de correlaciones múlti- ples. Identifique la variable con mayor correlación múltiple y calcule los parámetros de la regresión lineal múltiple de la variable con el resto.


In [6]:
s_jj__jj = np.diag(Matriz_covarianzasCorregida(data_x))*np.diag(lin.inv(Matriz_covarianzasCorregida(data_x))).round(4)
1 / s_jj__jj

array([0.23084976, 0.33814122, 0.34215454, 0.26680149, 0.40910949,
       0.32619677, 0.40339246, 0.33937762, 0.31210582, 0.48771293,
       0.23399743, 0.30022438, 0.36049206, 0.30222769, 0.27359666,
       0.33933888, 0.34923185, 0.28783846, 0.36279301, 0.31731815,
       0.36811363, 0.26093089, 0.35540104, 0.30906682, 0.22561193,
       0.30588389, 0.30642085, 0.20993376, 0.17022365, 0.45992115,
       0.34784057, 0.34305944, 0.34077264, 0.28517046, 0.27128255,
       0.33706736, 0.28196503, 0.26303462, 0.39485004, 0.359091  ,
       0.21144963, 0.28206492, 0.4290079 , 0.23886279, 0.38808351,
       0.41017884, 0.33359951, 0.27225882, 0.33538881, 0.3074104 ,
       0.34644698, 0.35151336, 0.33873102, 0.23368131, 0.32289644,
       0.3845235 , 0.32879048, 0.31627577, 0.3215374 , 0.30581107])

* Para ajustar un modelo de regresión de Y sobre X divida los datos en datos de entre- namiento y datos de testeo usando 60 % para los datos de entrenamiento.

In [7]:
X_train, X_test, y_train, y_test = train_test_split(data_x, data_y, test_size=0.4)

In [11]:
##Lineal Regression
model_lineal = LinearRegression()
model_lineal.fit(X_train, y_train)

residuo_del_entrenamiento = y_train - model_lineal.predict(X_train)
residuo_del_testeo = y_test - model_lineal.predict(X_test)

sse_train = SSE(residuo_del_entrenamiento)
sse_test = SSE(residuo_del_testeo)

(sse_train, sse_test, np.count_nonzero(model_lineal.coef_))

(0    1.838245e-23
 dtype: float64,
 0    103635.347186
 dtype: float64,
 60)

In [12]:
##Ridge
model_ridge = RidgeCV()
model_ridge.fit(X_train, y_train)

residuo_del_entrenamiento = y_train - model_ridge.predict(X_train)
sse_train = SSE(residuo_del_entrenamiento)

residuo_del_testeo = y_test - model_ridge.predict(X_test)
sse_test = SSE(residuo_del_testeo)

(sse_train, sse_test, np.count_nonzero(model_ridge.coef_))

(0    17.079513
 dtype: float64,
 0    106629.31661
 dtype: float64,
 60)

In [13]:
##LassoCV
model_lasso = LassoCV()
model_lasso.fit(X_train, y_train)

residuo_del_entrenamiento = y_train.values - model_lasso.predict(X_train)
sse_train = SSE(residuo_del_entrenamiento)

residuo_del_testeo = y_test.values - model_lasso.predict(X_test)
sse_test = SSE(residuo_del_testeo)

(sse_train, sse_test, np.count_nonzero(model_lasso.coef_))

  return f(**kwargs)


(309320770.35501295, 137920034.58512193, 11)

In [14]:
##ElasticNetCV
model_elastic = ElasticNetCV()
model_elastic.fit(X_train, y_train)

residuo_del_entrenamiento = y_train.values - model_elastic.predict(X_train)
sse_train = SSE(residuo_del_entrenamiento)

residuo_del_testeo = y_test.values - model_elastic.predict(X_test)
sse_test = SSE(residuo_del_testeo)

(sse_train, sse_test, np.count_nonzero(model_elastic.coef_))

  return f(**kwargs)


(286133206.806817, 107937930.96320719, 59)

|   Model  |   Training Error  | Testing Error    | Num Params |
|:--------:|:-----------------:|------------------|------------|
| Linear R |    1.838245e-23   | 103635.347186    |   60       |           
|   Ridge  |    17.079513      | 106629.31661     |   60       |
| Lasso    | 309320770.35501295| 137920034.585121 |   11       |
| Elastic  | 295099383.5953049 | 117801838.989155 |   59       |

* De acuerdo a su modelo seleccionado. Construya un intervalo de confianza para el valor esperado de Y cuando X es igual al último dato de la muestra.

Selected model: Linear Regression

In [15]:
last_x = data_x.values[-1]
last_y = data_y.values[-1]
n = data_x.shape[0]
k = data_x.shape[1]

a = [1]
betas = [model_lineal.intercept_[0]]

for i in last_x:
    a.append(i)
    
for i in model_lineal.coef_[0]:
    betas.append(i)

In [16]:
a_b = np.transpose(a).dot(betas)

In [17]:
x_xtrans = lin.inv(np.transpose(data_x).dot(data_x))
cov = np.sqrt(np.transpose(last_x).dot(x_xtrans).dot(last_x))
s_2 = np.transpose(data_y).dot(data_y) - np.transpose(model_lineal.coef_[0]).dot(np.transpose(data_x)).dot(data_y)
s = np.sqrt(s_2 / (n - k))
t = 1.6973
t * s * cov

Unnamed: 0,0
0,110.491866


In [18]:
a_b

-204.52350918826818

T tiene 30 grados de libertad
T_30 1 - alpha = 90% 
alpha / 2 = 0.05

-204.523 +- 110.49 Intervalos de confianza

## Exercise 2

* Considere los siguientes datos (X, Y ) = {(−2, 0), (−1, 0), (0, 1), (1, 1), (2, 3)}.
Se pretende evaluar la funcionalidad de un modelo de regresión ajustado a los datos del siguiente estilo