# 2.Regresion lineal multivariable

## 2.0 Introduccion

La regresion lineal multivariable modela la relacion entre una variable de respuesta ( $y$ ) y varias variable explicativas ( $x_1$,$x_2$,$x_3$,...,$x_n$**). El objetivo en los problemas de regresión es predecir el valor de una variable de respuesta ( $y$ ).

El modelo de la regresion lineal multivariables es:

\begin{equation}
y=a+b_1x_1+b_2x_2+...+b_nx_n
\end{equation}

Este modelo lo podemos expresar de manera matricial:


\begin{equation}
\begin{bmatrix}
y_1 \\
y_2  \\
.\\
.\\
. \\
y_m
\end{bmatrix}
=
\begin{bmatrix}
a +{b_1}x_{11}+{b_2}x_{21}+...+{b_n}x_{n1}\\
a +{b_1}x_{12}+{b_2}x_{22}+...+{b_n}x_{n2}\\
.\\
.\\
.\\
a +{b_1}x_{1m}+{b_2}x_{2m}+...+{b_n}x_{nm}
\end{bmatrix}
=
\begin{bmatrix}
1 &x_{11}& x_{21} & ... &x_{n1}\\
1 &x_{12}& x_{22} & ... &x_{n2}\\
. & . & . & ... & .\\
. & . & . & ... & .\\
. & . & . & ... & .\\
1 &x_{1m}& x_{2m} & ... &x_{nm}
\end{bmatrix}
X
\begin{bmatrix}
a \\
b_1 \\
b_2 \\
.\\
.\\
.\\
b_n
\end{bmatrix}
    .......(1)
\end{equation}
\begin{equation}
Y=XB
\end{equation}

Donde:

$Y:$ Es la matriz con la data de entrenamiento de la variable respuesta es del orden $m$X$1$

$X:$ Es la matriz que contine la data de entrenamiento de las variables de explicativas , tiene adicionalmente una columna de unos. Es del orden $m$X$(n+1)$

$B:$ Es la matriz que contine los parametros de nuestro modelo , nosotros necesitaremos hallar esta, es del orden de $(n+1)$X$1$

$x_{ij}:$ Es el valor j-enesimo de la data de entrenamiento de la i-enesima variable explicativa.

$m:$ Es el numero de muestras de la data de entrenamiento.

$n:$ Es el numero de variables explicativas.

Para resolver esto tenemos veremos dos metodos de optimizacion :

*   ***Optimizacion analitica ( Minimos cuadrados )***
*   ***Optimizacion Machine learning ( Descenso de gradiente )***

## 2.1 Optimizacion analitica ( Minimos cuadrados )

Como podemos notar la solucion de la expresion $(1)$ es :


\begin{equation}
B=
\begin{bmatrix}
a \\
b_1\\
b_2\\
.\\
.\\
.\\
b_n
\end{bmatrix}
=(X^T X)^{-1}X^T Y .......(2)
\end{equation}

### 2.1.0 Ejemplo 1

Anteriormente vimos la regresion lineal simple donde el precio solo dependia del diametro , sin embargo como sabemos hay mas factores que intervienen en el precio como por ejemplo la cantidad de ingredientes , el tipo de queso , la masa a usar entre otros.

Para nuestro ejemplo consideraremos las variables explicativas de diametro y numero de ingredientes.

Nuestra data de entrenamiento sera:

i  | Diametro |Numero de ingredientes |Precio($)
---|  ---     |         ---           |  ---
1  | 6        |2                      |7
2  | 8        |1                      |9
3  | 10       |0                      |13
4  | 14       |2                      |17.5
5  | 18       |0                      |18

La data de testeo o prueba sera:

i  | Diametro |Numero de ingredientes |Precio($)
---|  ---     |         ---           |  ---
1  | 8        |2                      |11
2  | 9        |0                      |8.5
3  | 11       |2                      |15
4  | 16       |2                      |18
5  | 12       |0                      |11

#### 2.1.0.1 Numpy ( 5 min - 1 pto )

In [1]:
from numpy.linalg import inv
from numpy import dot, transpose

X = [[1, 6, 2], [1, 8, 1], [1, 10, 0], [1, 14, 2], [1, 18, 0]]
y = [[7], [9], [13], [17.5], [18]]
print (dot(inv(dot(transpose(X), X)), dot(transpose(X), y)))

[[1.1875    ]
 [1.01041667]
 [0.39583333]]


In [2]:
#Regresion lineal simple
from numpy.linalg import inv
from numpy import dot, transpose
X = [[1,6], [1,8], [1,10], [1,14], [1,18]]
y = [[7], [9], [13], [17.5], [18]]

print (dot(inv(dot(transpose(X), X)), dot(transpose(X), y)))

[[1.96551724]
 [0.9762931 ]]


#### 2.1.0.1 Sklearn

In [3]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

X_train = [[6, 2], [8, 1], [10, 0], [14, 2], [18, 0]]
y_train = [[7], [9], [13], [17.5], [18]]
model = LinearRegression()
model.fit(X_train, y_train)

print('Coeficiente de la primera variable explicativa: ', model.coef_[0][0])
print('Coeficiente de la segunda variable explicativa: ', model.coef_[0][1])
print('coeficiente independiente: ', model.intercept_[0])

X_test = [[8, 2], [9, 0], [11, 2], [16, 2], [12, 0]]
y_test = [[11], [8.5], [15], [18], [11]]

predictions = model.predict(X_test)
for i, prediction in enumerate(predictions):
  print ('Predicted: %s, Target: %s' % (prediction, y_test[i]))
print ('R-squared: %.2f' % model.score(X_test, y_test))

Coeficiente de la primera variable explicativa:  1.0104166666666667
Coeficiente de la segunda variable explicativa:  0.39583333333333376
coeficiente independiente:  1.1875
Predicted: [10.0625], Target: [11]
Predicted: [10.28125], Target: [8.5]
Predicted: [13.09375], Target: [15]
Predicted: [18.14583333], Target: [18]
Predicted: [13.3125], Target: [11]
R-squared: 0.77


### 2.1.1 Ejemplo 2


#### 2.1.1.0 Numpy

In [4]:
import numpy as np
from sklearn.datasets import make_regression
import matplotlib.pyplot as plt
from random import randint, uniform,random
from numpy.linalg import inv
from numpy import dot, transpose

# Creación de data de entrenamiento

feature=2 
n_datos=100

X=[]
y=[]
X_1 = np.linspace(0, 2, n_datos) + np.random.randn(1,n_datos)[0] * 0.33
X_2 = np.linspace(0, 2, n_datos) - np.random.randn(1,n_datos)[0] * 0.27
y_1 = 3 +1.5 * X_1 +5 * X_2 +np.random.randn(1,n_datos)[0] * 0.33

for i in np.arange(n_datos):
  X.append( [1] + [X_1[i]] + [X_2[i]] )
  y.append( [y_1[i]] ) 


# [[1 , 2 , 5] , [1,3,6] ,.....

#Data de entrenamiento
X_train=X[0:80]
y_train=y[0:80]

#Data de teste
X_test=X[80:100]
y_test=y[80:100]

[[a],[b_1],[b_2]] = dot(inv(dot(transpose(X_train), X_train)), dot(transpose(X_train), y_train))

print('Coeficiente independiente: '+str(a))
print('Tangente_1: '+str(b_1) )
print('Tangente_2: '+str(b_2) )


Coeficiente independiente: 3.0337437625697063
Tangente_1: 1.590455606089563
Tangente_2: 4.876812654927633


#### 2.1.1.0 Sklearn

In [5]:
import numpy as np
from sklearn.datasets import make_regression
import matplotlib.pyplot as plt
from random import randint, uniform,random
from numpy.linalg import inv
from numpy import dot, transpose

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

n_datos=100

X=[]
y=[]
X_1 = np.linspace(0, 2, n_datos) + np.random.randn(1,n_datos)[0] * 0.33
X_2 = np.linspace(0, 2, n_datos) - np.random.randn(1,n_datos)[0] * 0.27
y_1 = 3 +1.5 * X_1 +5 * X_2 +np.random.randn(1,n_datos)[0] * 0.33

for i in np.arange(n_datos):
  X.append( [X_1[i]] + [X_2[i]] )
  y.append( [y_1[i]] ) 



#Data de entrenamiento
X_train=X[0:80]
y_train=y[0:80]

#Data de teste
X_test=X[80:100]
y_test=y[80:100]

model = LinearRegression()
model.fit(X_train, y_train)

print('Coeficiente de la primera variable explicativa: ', model.coef_[0][0])
print('Coeficiente de la segunda variable explicativa: ', model.coef_[0][1])
print('coeficiente independiente: ', model.intercept_[0])


Coeficiente de la primera variable explicativa:  1.4845441511665065
Coeficiente de la segunda variable explicativa:  5.07649105887534
coeficiente independiente:  2.9456476585600777


## 2.2 Optimizacion Machine learning ( Gradiente descendente )

In [12]:
import numpy as np
n_datos=100

X_1 = np.linspace(0, 2, n_datos) + np.random.randn(1,n_datos)[0] * 0.33
X_2 = np.linspace(0, 2, n_datos) - np.random.randn(1,n_datos)[0] * 0.27
y = 3 +1.5 * X_1 +5 * X_2 +np.random.randn(1,n_datos)[0] * 0.6

#Data de entrenamiento
X_1_train=X_1[0:80]
X_2_train=X_2[0:80]
y_train=y[0:80]

#Data de teste
X_test_1=X_1[80:100]
X_test_2=X_2[80:100]
y_test=y[80:100]


In [13]:
#Optimizacion por Gradiente Descendente

# Definición de los ajustes y parámetros iniciales
num_steps = 100000
learningRate = 0.1
criteria = 1e-8
a = 1
b_1 = 1
b_2 = 1
# Proceso iterativo
for step in range(0, num_steps):
    a_gradient = 0
    b_1_gradient = 0
    b_2_gradient = 0
    N = float(len(X_train))
    for i in range(0, len(X_train)):
        a_gradient -= (2/N) * (y_train[i] - (a + b_1 * X_1_train[i]+b_2 * X_2_train[i]))
        b_1_gradient -= (2/N) * (y_train[i] - (a + b_1 * X_1_train[i]+b_2 * X_2_train[i])) * X_1_train[i]
        b_2_gradient -= (2/N) * (y_train[i] - (a + b_1 * X_1_train[i]+b_2 * X_2_train[i])) * X_2_train[i]


    a = a - (learningRate * a_gradient)
    b_1 = b_1 - (learningRate * b_1_gradient)
    b_2 = b_2 - (learningRate * b_2_gradient)
    if max(abs(learningRate * a_gradient), abs(learningRate * b_1_gradient) , abs(learningRate * b_2_gradient) ) < criteria:
        break
    
# Resultados
print('Resultados en '+str(step)+ ' pasos')
print('Tangente 1 :',b_1)
print('Tangente 2 :',b_2)
print('Coeficiente independiente:',a)


Resultados en 795 pasos
Tangente 1 : 1.5259320675435384
Tangente 2 : 5.006362667254616
Coeficiente independiente: 3.0451613632457364


## 2.3 Metricas de evaluacion del modelo

Al diferencia que el modelo de regresion lineal simple que usa el  $R^2$ ( ***R-Squared*** )para medir la habilidad de predecir del modelo , la regresion lineal multivarible usara una pequeña variacion de esta , llamada $R^2_a$ ( ***Adjusted R-Squared*** ).

$R^2$ para multiples variables:
\begin{equation}
SS_{res}={\sum_{i=1}^n}(y_i-f(x_{1i},x_{2i},...,x_{1m}))^2
\end{equation}
\begin{equation}
SS_{tot}={\sum_{i=1}^n}(y_i-prom(y)))^2
\end{equation}
\begin{equation}
R^2=1-\frac{SS_{res}}{SS_{tot}}
\end{equation}
Ahora , $R^2_a$:

\begin{equation}
R^2_a=1-(\frac{n-1}{n-k-1})(1-R^2)
\end{equation}

Donde:

n: Numero de observaciones de la muestra

k: Numero de variables independientes

### 2.3.0 Implementacion de $R_a^2$ ( 5 min - 1 pts )

Elegir algúno de los ejemplos anteriores para encontrar el $R_a^2$. 

### 2.3.1 Implementacion de $R_a^2$ ( Solucion )

In [8]:
import numpy as np
n_datos=100

X_1 = np.linspace(0, 2, n_datos) + np.random.randn(1,n_datos)[0] * 0.33
X_2 = np.linspace(0, 2, n_datos) - np.random.randn(1,n_datos)[0] * 0.27
y = 3 +1.5 * X_1 +5 * X_2 +np.random.randn(1,n_datos)[0] * 0.6

#Data de entrenamiento
X_1_train=X_1[0:80]
X_2_train=X_2[0:80]
y_train=y[0:80]

#Data de teste
X_test_1=X_1[80:100]
X_test_2=X_2[80:100]
y_test=y[80:100]

In [9]:
#Optimizacion por Gradiente Descendente

# Definición de los ajustes y parámetros iniciales
num_steps = 1000
learningRate = 0.1
criteria = 1e-8
a = 1
b_1 = 1
b_2 = 1
# Proceso iterativo
for step in range(0, num_steps):
    a_gradient = 0
    b_1_gradient = 0
    b_2_gradient = 0
    N = float(len(X_1_train))
    for i in range(0, len(X_1_train)):
        a_gradient -= (2/N) * (y_train[i] - (a + b_1 * X_1_train[i]+b_2 * X_2_train[i]))
        b_1_gradient -= (2/N) * (y_train[i] - (a + b_1 * X_1_train[i]+b_2 * X_2_train[i])) * X_1_train[i]
        b_2_gradient -= (2/N) * (y_train[i] - (a + b_1 * X_1_train[i]+b_2 * X_2_train[i])) * X_2_train[i]


    a = a - (learningRate * a_gradient)
    b_1 = b_1 - (learningRate * b_1_gradient)
    b_2 = b_2 - (learningRate * b_2_gradient)
    if max(abs(learningRate * a_gradient), abs(learningRate * b_1_gradient) , abs(learningRate * b_2_gradient) ) < criteria:
        break
    
# Resultados
print('Resultados en '+str(step)+ ' pasos')
print('Tangente 1 :',b_1)
print('Tangente 2 :',b_2)
print('Coeficiente independiente:',a)

prediccion=a+b_1*X_test_1+b_2*X_test_2
prom_y=sum(y_test)/len(y_test)

SS_res=sum((y_test-prediccion)**2)
SS_tot=sum((y_test-prom_y)**2)

R_2=1-(SS_res/SS_tot)
R_2_a=1-(1-R_2)*( (100-1)/(100-2-1) )

print(R_2)
print(R_2_a)

Resultados en 999 pasos
Tangente 1 : 1.5643231618120073
Tangente 2 : 4.960667874104868
Coeficiente independiente: 2.8959829793028917
0.8225356180518143
0.8188765586302023


## 2.4 Tarea 2

Crear la data de manera conveniente para una regresion lineal multivariable con las siguientes caracteristicas:


*   variables explicativas ( $x_1,x_2,x_3$ )
*   varible de respuesta ( $y$ )
*   Optimizacion por Gradiente Descendiente
*   Tamaño de la muestra ( 80 % train , 20 % test )

Implementar un programa que visualice la estabilizacion de los parametros de este modelo en el eje Y , y en el eje X debe estar los numero de pasos para la gradiente descendiente, las cuatro graficas deben estar en una sola. 