# Linear Regression

Antes de realizar ningún punto, se inicializa todas las funciones que se van a necesitar en todo el programa

In [20]:
# Se importa la librería de numpy
import numpy as np
# Se importa la función para obtener el valor de "Least-squares"
from scipy.linalg import lstsq
# Se importa la función para calcular la norma
from numpy import linalg as no

- **Q1**) Se descarga todo el dataset, y se guarda con el nombre de "*housing.data*". 

- **Q2**) Se cargan los datos y se separa la última columna.

In [21]:
# Se abre el fichero de datos
data = np.loadtxt("housing.data")
# Se separa la última fila, que contendrá los valores correctos
target = data[:,-1]
print 'Total data points: ', len(target)
print target.T

Total data points:  506
[ 24.   21.6  34.7  33.4  36.2  28.7  22.9  27.1  16.5  18.9  15.   18.9
  21.7  20.4  18.2  19.9  23.1  17.5  20.2  18.2  13.6  19.6  15.2  14.5
  15.6  13.9  16.6  14.8  18.4  21.   12.7  14.5  13.2  13.1  13.5  18.9
  20.   21.   24.7  30.8  34.9  26.6  25.3  24.7  21.2  19.3  20.   16.6
  14.4  19.4  19.7  20.5  25.   23.4  18.9  35.4  24.7  31.6  23.3  19.6
  18.7  16.   22.2  25.   33.   23.5  19.4  22.   17.4  20.9  24.2  21.7
  22.8  23.4  24.1  21.4  20.   20.8  21.2  20.3  28.   23.9  24.8  22.9
  23.9  26.6  22.5  22.2  23.6  28.7  22.6  22.   22.9  25.   20.6  28.4
  21.4  38.7  43.8  33.2  27.5  26.5  18.6  19.3  20.1  19.5  19.5  20.4
  19.8  19.4  21.7  22.8  18.8  18.7  18.5  18.3  21.2  19.2  20.4  19.3
  22.   20.3  20.5  17.3  18.8  21.4  15.7  16.2  18.   14.3  19.2  19.6
  23.   18.4  15.6  18.1  17.4  17.1  13.3  17.8  14.   14.4  13.4  15.6
  11.8  13.8  15.6  14.6  17.8  15.4  21.5  19.6  15.3  19.4  17.   15.6
  13.1  41.3  24.3  23.3  2

Con los datos preparados, se debe encontrar la media de los resultados, y despues encontrar el MSE utilizando una prediccion constante.

In [22]:
# Se calcula la media de los datos de salida
mean_value = sum(target)/len(target)
print 'La media es', mean_value

La media es 22.5328063241


In [23]:
# Para calcular Theta, se definen unos comandos para reducir los comandos 
# que se obtienen desde la librería numpy
dot = np.dot
inv = np.linalg.inv

# Se inicializa toda la variable de X con unos.
X = np.ones((len(data),1))

# Utilizando estos valores, se calcula Theta utilizando la formula:
# Theta = (X^T*X)^-1 * X^T*y
# sustituyendo queda

Theta = dot(inv(dot(X.T,X)),dot(X.T,target))

Para calcular el MSE se va a definir una función que realizará el calculo, porque durante el ejercicio se va a utilizar muchas veces

In [24]:
# Función para calcular el MSE
# La formula para calcula el MSE es:
# MSE = sum(y - X*Theta)²/N
def MSE(Y,X,THETA):
    MSE = sum((Y-dot(X,THETA))**2) / len(Y)
    return MSE

# Se calcula el MSE
MSE_Q2 = MSE(target,X, Theta)

print 'Resultado Q2) El MSE es ', MSE_Q2

Resultado Q2) El MSE es  84.4195561562


- **Q3**) Hay que dividir los datos por la mitad, la mitad superior será para entrenamiento, y la parte inferior para testear

In [25]:
# Se dividen los datos en dos partes

# Primero se crean los indices de los dos margenes de valores
Train_Rows = len(data)/2
Test_Rows = len(data) - Train_Rows

# Ahora se dividen los datos en dos partes, entrenamiento y test
Train_data = data[:Train_Rows,:-1]
Test_data = data[Test_Rows:,:-1]

#Por último se dividen los resultados en dos grupos
Train_result = data[:Train_Rows,-1]
Test_result = data[Test_Rows:,-1]

El siguiente paso es generar entrenar el *Linear regression* para cada una de las columnas del *data set*, con el termino de bias.

In [26]:
# Se crea una matriz para guardar los valores del MSE de los 
# datos de entrenamiento 
MSE_Train_Result = []

# Se crea una matriz para guardar los valores del MSE de los 
# datos de test
MSE_Test_Result = []

# Se crea un bucle obtener todos los valores
for i in range(0,len(data[0])-1):
    # Se añade la columna a los datos de entreno
    X_train = np.hstack((X[:Train_Rows],Train_data[:,i].reshape(Train_Rows,1)))
    
    # Se añaden la columna a los datos de test
    X_test = np.hstack((X[Test_Rows:],Test_data[:,i].reshape(Test_Rows,1)))
    
    # Ahora se obtiene el valor de Theta con los valores de entrenamiento
    theta_value = lstsq(X_train,Train_result)[0]
    
    #Se calcula el MSE para los valores de entrenamiento
    MSE_Train_Result.append(MSE(Train_result,X_train,theta_value))
    
    #Se calcula el MSE para los valores de test
    MSE_Test_Result.append(MSE(Test_result,X_test,theta_value))

# Se imprimen los resultados de los MSE
print 'Q3.- Los resultados del MSE con los datos de entrenamiento es:\n'
print MSE_Train_Result
print '\nQ3.- Los resultados del MSE con los datos de test es:\n'
print MSE_Test_Result

Q3.- Los resultados del MSE con los datos de entrenamiento es:

[65.773395404381432, 62.184864129384579, 60.202946298313769, 69.24037546862543, 61.545279056417812, 15.93514792057165, 61.427495917253601, 68.000623079838476, 69.14935937656351, 65.435881603038396, 59.750972582605677, 66.040752768311776, 34.380755775897235]

Q3.- Los resultados del MSE con los datos de test es:

[873.51687362382017, 91.933794664840448, 74.746111965988774, 105.20352304376993, 80.160126225464296, 78.055634425305982, 88.955360723285224, 97.463242190867064, 144.9052308496002, 67.517480981725654, 72.507163330551407, 86.449500143875355, 43.34372359529646]


El siguiente paso es calcular el valor *most informative* de los valores de entrenamiento, y el mejor y peor valor para los valores de test

In [27]:
# Se calcula el indice del valor mínimo de los valores de entrenamiento, que será el valor 
# más informativo
Train_index_min = MSE_Train_Result.index(min(MSE_Train_Result))
print 'Q3.- El valor más informativo es el ', Train_index_min,', con un MSE de ', MSE_Train_Result[Train_index_min]

# Se calcula el indice del valor mínimo de los valores de test, que será el valor 
# mejor valor
Test_index_min = MSE_Test_Result.index(min(MSE_Test_Result))
print 'Q3.- El mejor valor es ', Test_index_min,', con un MSE de ', MSE_Test_Result[Test_index_min]

# Se calcula el indice del valor máximo de los valores de test, que será el valor 
# peor valor
Test_index_max = MSE_Test_Result.index(max(MSE_Test_Result))
print 'Q3.- El peor valor es ', Test_index_max,', con un MSE de ', MSE_Test_Result[Test_index_max]


Q3.- El valor más informativo es el  5 , con un MSE de  15.9351479206
Q3.- El mejor valor es  12 , con un MSE de  43.3437235953
Q3.- El peor valor es  0 , con un MSE de  873.516873624


Para finalizar, se va debe cacluar el coeficiente de deteminación R² de los valores de Test

In [28]:
# La formula para calcular R² = 1 - FVU(f), donde FVU(f) = MSE(f)/Var(y),
# por tanto, hay que comenzar calculando la media de los valores
R2_Mean = sum(Test_result)/Test_Rows

# Y contunuar calculando la variancia
R2_var = sum((R2_Mean - Test_result)**2)/Test_Rows

# Con todo esto ya se puede calcular el valor R²
R2 = 1 - (MSE_Test_Result/R2_var)

# Se imprime el resultado
print 'Q3.- El Coeficiente de determinación R² de los valores de test es ', R2

Q3.- El Coeficiente de determinación R² de los valores de test es  [-8.3637876   0.01450269  0.19874849 -0.12774404  0.1407122   0.16327159
  0.04643044 -0.044771   -0.5533321   0.27623682  0.22274921  0.07329236
  0.53537083]


- **Q4**) Ahora se debe entrenar todo el modelo utilizando todas las variables

In [29]:
# Primero se añaden todos los valores y el valor de bias a los valores de entreno
X_train_all = np.hstack((X[:Train_Rows],Train_data[:,:].reshape(Train_Rows,len(Train_data[0]))))

# Se añaden todos los valores y el valor de bias a los valores de test
X_test_all = np.hstack((X[Test_Rows:],Test_data[:,:].reshape(Test_Rows,len(Test_data[0]))))

# Se vuelve a calcular Theta
theta_all = lstsq(X_train_all, Train_result)[0]
   
#Se calcula el MSE para los valores de entrenamiento
MSE_Train_all_Result = MSE(Train_result,X_train_all,theta_all)

#Se calcula el MSE para los valores de test
MSE_Test_all_Result = MSE(Test_result,X_test_all,theta_all)

print 'Q4.- El MSE de los valores de entreno con todos los datos es: ', MSE_Train_all_Result
print 'Q4.- El MSE de los valores de test con todos los datos es: ', MSE_Test_all_Result

Q4.- El MSE de los valores de entreno con todos los datos es:  9.98751732546
Q4.- El MSE de los valores de test con todos los datos es:  303.436862927


Ahora se debe volver a calcular el parametro R² para cuantificar el comportamiento del metodo utilizado

In [30]:
# Se vuelve a calcular el R² utilizando los valores obtenidos en Q3
R2_all = 1- (MSE_Test_all_Result/R2_var)

print 'Q4.- El valor de R² con el nuevo metodo es: ', R2_all


Q4.- El valor de R² con el nuevo metodo es:  -2.25273434239


Para verificar el funcionamiento, se debe volver a calcular todo, eliminando la columna con peor valor, tal y como hemos calculado en la pregunta Q3

In [31]:
# Se elimina la columna con el peor indice, utilizando el valor encontrado en Q3, con la premisa que el indice
# obtenido se debe sumar 1 para tener en cuenta el valor de bias
X_train_all = np.delete(X_train_all, Test_index_max + 1, 1 ) 

X_test_all = np.delete(X_test_all, Test_index_max + 1, 1 ) 

# Se vuelve a calcular Theta
theta_all = lstsq(X_train_all, Train_result)[0]
   
#Se calcula el MSE para los valores de entrenamiento
MSE_Train_all_Result = MSE(Train_result,X_train_all,theta_all)

#Se calcula el MSE para los valores de test
MSE_Test_all_Result = MSE(Test_result,X_test_all,theta_all)

print 'Q4.- El MSE de los valores de entreno con todos los datos menos la peor columna es: ', MSE_Train_all_Result
print '\nQ4.- El MSE de los valores de test con todos los datos menos la peor columna es: ', MSE_Test_all_Result

# Se vuelve a calcular el R² utilizando los valores obtenidos en Q3
R2_all = 1- (MSE_Test_all_Result/R2_var)

print '\nQ4.- El valor de R² eliminando la peor columna: ', R2_all

print "\nQ4.- Como se puede ver ahora el coeficiente ha mejorado, pero como el valor es menor de 0,5, no deja de ser un detector trivial"

Q4.- El MSE de los valores de entreno con todos los datos menos la peor columna es:  10.2162833878

Q4.- El MSE de los valores de test con todos los datos menos la peor columna es:  50.4903768903

Q4.- El valor de R² eliminando la peor columna:  0.458761268201

Q4.- Como se puede ver ahora el coeficiente ha mejorado, pero como el valor es menor de 0,5, no deja de ser un detector trivial


- **Q5**) Ahora se va a añadir más capacidad al predictor utilizando el *polynomial basis expansion*:


Y = Theta_0 + Theta_1\*X + Theta_2\*X²+ Theta_3\*X³ + Theta_4\*X⁴ + ...

En este caso se va a realizar hasta el orden 4.

In [32]:
# Para poder imprimir correctamente los resultados, se va a crear un vector con los nombres de las 
# distintas columnas

Array_names = [ "CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", "RAD", "TAX", "PTRATIO", "B", "LSTAT"]

# Creamos unas variables para guardar los datos 
MSE_Train_Q5 = []
MSE_Test_Q5 = []
R2_Q5 = []

# Se crea el bucle anidado para calcular los MSE
for i in range(0,len(data[0])-1):
    # Se crea el segundo bucle para calcular los datos de cada valor
    
    # Variables para guardar los datos obtenidos
    MSE_Train_Q5_Row = []
    MSE_Test_Q5_Row = []
    R2_Q5_Row = []
    
    # Se incializan las variables
    X_train_Q5 = X[:Train_Rows]
    X_test_Q5 = X[Test_Rows:]
    
    for j in range(1,5):
        # Se añade la columna a los datos de entreno
        X_train_Q5 = np.hstack((X_train_Q5,(Train_data[:,i].reshape(Train_Rows,1))**j))

        # Se añaden la columna a los datos de test
        X_test_Q5 = np.hstack((X_test_Q5,(Test_data[:,i].reshape(Test_Rows,1))**j))

        # Ahora se obtiene el valor de Theta con los valores de entrenamiento
        theta_value_Q5 = lstsq(X_train_Q5,Train_result)[0]

        #Se calcula el MSE para los valores de entrenamiento
        MSE_Train_Q5_Row.append(MSE(Train_result,X_train_Q5,theta_value_Q5))

        #Se calcula el MSE para los valores de test
        MSE_Test_Q5_Row.append(MSE(Test_result,X_test_Q5,theta_value_Q5))
        
        #Se calcula el valor de R², utilizando los valores obtenidos en Q3
        R2_Temp = 1 - (MSE_Test_Q5_Row[j-1]/R2_var)
        R2_Q5_Row.append(R2_Temp)
        
    # Se añaden los valores calculados a las variables
    MSE_Train_Q5.append(MSE_Train_Q5_Row)
    MSE_Test_Q5.append(MSE_Test_Q5_Row)
    R2_Q5.append(R2_Q5_Row)
    
# Se imprimen los valroes de una manera lo más limpia posible

# MSE para los valores de entrenamiento
print 'Q5.- Los valores MSE de los datos de entrenamiento para las distintas columnas son:\n'
print 'Attribute \tMSE_X\t\tMSE_X²\t\tMSE_X³\t\tMSE_X⁴'
# Se crea el bucle anidado para calcular los MSE
for i in range(0,len(data[0])-1):
    if i == 10:
        print Array_names[i],'\t',
    else:
        print Array_names[i],'\t\t',
    
    for j in range(0,4):
        print MSE_Train_Q5[i][j],'\t',
    print ''
    
print'\n'

# MSE para los valores de test
print 'Q5.- Los valores MSE de los datos de test para las distintas columnas son:\n'
print 'Attribute \tMSE_X\t\tMSE_X²\t\tMSE_X³\t\tMSE_X⁴'
# Se crea el bucle anidado para calcular los MSE
for i in range(0,len(data[0])-1):
    if i == 10:
        print Array_names[i],'\t',
    else:
        print Array_names[i],'\t\t',
    
    for j in range(0,4):
        print MSE_Test_Q5[i][j],'\t',
    print ''
    
print'\n'

# R²
print 'Q5.- Los valores R² para las distintas columnas son:\n'
print 'Attribute \tR²_X\t\tR²_X²\t\tR²_X³\t\tR²_X⁴'
# Se crea el bucle anidado para calcular los MSE
for i in range(0,len(data[0])-1):
    if i == 10:
        print Array_names[i],'\t',
    else:
        print Array_names[i],'\t\t',
    
    for j in range(0,4):
        # Se ajusta la salida a 6 decimales, para poder printarlo bien
        R2_temp = round(R2_Q5[i][j],6)
        print R2_temp,'\t',
    print ''
    
print'\n'

Q5.- Los valores MSE de los datos de entrenamiento para las distintas columnas son:

Attribute 	MSE_X		MSE_X²		MSE_X³		MSE_X⁴
CRIM 		65.7733954044 	65.6179891362 	64.3715418216 	62.2906443389 	
ZN 		62.1848641294 	61.0582195947 	60.9252498867 	59.9434024859 	
INDUS 		60.2029462983 	54.2413256422 	50.0448910408 	49.8250055753 	
CHAS 		69.2403754686 	69.2403754686 	69.2403754686 	69.2403754686 	
NOX 		61.5452790564 	61.2908893082 	61.267381972 	61.1421064783 	
RM 		15.9351479206 	14.4470745011 	13.80410477 	13.3225563454 	
AGE 		61.4274959173 	60.2653055691 	60.2202779936 	59.2542521663 	
DIS 		68.0006230798 	67.3816469855 	64.7275796527 	63.5733465798 	
RAD 		69.1493593766 	63.1900072693 	62.8125724475 	62.7858571995 	
TAX 		65.435881603 	65.4290025794 	64.5343503218 	63.3427603004 	
PTRATIO 	59.7509725826 	57.2025156241 	56.5899275703 	55.6050080423 	
B 		66.0407527683 	65.9110101513 	65.672066416 	65.3583544279 	
LSTAT 		34.3807557759 	23.4484611007 	20.6440360455 	19.7888740196 	


Q

In [33]:
# Resultado de Q5
print "\n\nQ5.- Como se puede ver en los resultados, el calculo mejora en algunos puntos,",
print "como por ejemplo en la columna 12, donde teniamos el valor que mejor funcionaba en el",
print "ejercicio Q3, donde va de 0,53 a 0,56, aunque, por otro lado, en la peor columna, la 0, el valor",
print "empeora considerablemente. Asi, que yo creo que este metodo podría funcionar bien en algunos casos,",
print "pero tambien puede funcionar mucho peor para otros muchos, por ejemplo, en la columna RAD el error",
print "aumenta exponencialmente, y en la columna TAX pasa de estar dentro de los margenes a ir muy mal."



Q5.- Como se puede ver en los resultados, el calculo mejora en algunos puntos, como por ejemplo en la columna 12, donde teniamos el valor que mejor funcionaba en el ejercicio Q3, donde va de 0,53 a 0,56, aunque, por otro lado, en la peor columna, la 0, el valor empeora considerablemente. Asi, que yo creo que este metodo podría funcionar bien en algunos casos, pero tambien puede funcionar mucho peor para otros muchos, por ejemplo, en la columna RAD el error aumenta exponencialmente, y en la columna TAX pasa de estar dentro de los margenes a ir muy mal.


- **Q6**) Se deben implementar dos funciones para implementar *The objective function **f** for 
Regularized Linear Regression* y la función derivada.

In [35]:
# Se crea una función para la función regularized linear regresion
def RLR(theta, X, Y, Lambda):
    
    # La formula es f(theta) = (1/N)*norm(X*Theta-y)²+lambda*norm(Theta)
    
    # Primer termino:(1/N)*norm(X*Theta-y)²
    Term_1 = (no.norm((dot(X,theta))-Y)**2)/len(Y)
    
    #Segunda parte lambda*norm(Theta)
    Term_2 = Lambda*no.norm(theta)
    
    # Se la suma de los dos terminos de la ecuación
    return Term_1+Term_2

# Se crea la función para la función derivada de regularized linear regresion
def Dev_RLR(theta, X, Y, Lambda):
    
    # La formula es f'(theta) = (2/N)* X^T*(X*Theta - Y) + 2*Lambda*Theta
    
    # Primer termino: (2/N)* X^T*(X*Theta - Y)
    Term_1_p = (2*dot(X.T,(dot(X,theta)-Y)))/len(Y)
    
    # Segundo termino: 2*Lambda*Theta
    Term_2_p = 2*Lambda*theta
    
    #Se devuelve la suma de los dos terminos
    return Term_1_p + Term_2_p


84.5322201878
[ 0.22532806]
