# Linear Regression

Antes de realizar ningún punto, se inicializa todas las funciones que se van a necesitar en todo el programa

In [1]:
# Se importa la librería de numpy
import numpy as np
# Se importa la función para obtener el valor de "Least-squares"
from scipy.linalg import lstsq

- **Q1**) Se descarga todo el dataset, y se guarda con el nombre de "*housing.data*". 

- **Q2**) Se cargan los datos y se separa la última columna.

In [2]:
# Se abre el fichero de datos
data = np.loadtxt("housing.data")
# Se separa la última fila, que contendrá los valores correctos
target = data[:,-1]
print 'Total data points: ', len(target)
print target.T

Total data points:  506
[ 24.   21.6  34.7  33.4  36.2  28.7  22.9  27.1  16.5  18.9  15.   18.9
  21.7  20.4  18.2  19.9  23.1  17.5  20.2  18.2  13.6  19.6  15.2  14.5
  15.6  13.9  16.6  14.8  18.4  21.   12.7  14.5  13.2  13.1  13.5  18.9
  20.   21.   24.7  30.8  34.9  26.6  25.3  24.7  21.2  19.3  20.   16.6
  14.4  19.4  19.7  20.5  25.   23.4  18.9  35.4  24.7  31.6  23.3  19.6
  18.7  16.   22.2  25.   33.   23.5  19.4  22.   17.4  20.9  24.2  21.7
  22.8  23.4  24.1  21.4  20.   20.8  21.2  20.3  28.   23.9  24.8  22.9
  23.9  26.6  22.5  22.2  23.6  28.7  22.6  22.   22.9  25.   20.6  28.4
  21.4  38.7  43.8  33.2  27.5  26.5  18.6  19.3  20.1  19.5  19.5  20.4
  19.8  19.4  21.7  22.8  18.8  18.7  18.5  18.3  21.2  19.2  20.4  19.3
  22.   20.3  20.5  17.3  18.8  21.4  15.7  16.2  18.   14.3  19.2  19.6
  23.   18.4  15.6  18.1  17.4  17.1  13.3  17.8  14.   14.4  13.4  15.6
  11.8  13.8  15.6  14.6  17.8  15.4  21.5  19.6  15.3  19.4  17.   15.6
  13.1  41.3  24.3  23.3  2

Con los datos preparados, se debe encontrar la media de los resultados, y despues encontrar el MSE utilizando una prediccion constante.

In [3]:
# Se calcula la media de los datos de salida
mean_value = sum(target)/len(target)
print 'La media es', mean_value

La media es 22.5328063241


In [4]:
# Para calcular Theta, se definen unos comandos para reducir los comandos 
# que se obtienen desde la librería numpy
dot = np.dot
inv = np.linalg.inv

# Se inicializa toda la variable de X con unos.
X = np.ones((len(data),1))

# Utilizando estos valores, se calcula Theta utilizando la formula:
# Theta = (X^T*X)^-1 * X^T*y
# sustituyendo queda

Theta = dot(inv(dot(X.T,X)),dot(X.T,target))

Para calcular el MSE se va a definir una función que realizará el calculo, porque durante el ejercicio se va a utilizar muchas veces

In [5]:
# Función para calcular el MSE
# La formula para calcula el MSE es:
# MSE = sum(y - X*Theta)²/N
def MSE(Y,X,THETA):
    MSE = sum((Y-dot(X,THETA))**2) / len(Y)
    return MSE

# Se calcula el MSE
MSE_Q2 = MSE(target,X, Theta)

print 'Resultado Q2) El MSE es ', MSE_Q2

Resultado Q2) El MSE es  84.4195561562


- **Q3**) Hay que dividir los datos por la mitad, la mitad superior será para entrenamiento, y la parte inferior para testear

In [6]:
# Se dividen los datos en dos partes

# Primero se crean los indices de los dos margenes de valores
Train_Rows = len(data)/2
Test_Rows = len(data) - Train_Rows

# Ahora se dividen los datos en dos partes, entrenamiento y test
Train_data = data[:Train_Rows,:-1]
Test_data = data[Test_Rows:,:-1]

#Por último se dividen los resultados en dos grupos
Train_result = data[:Train_Rows,-1]
Test_result = data[Test_Rows:,-1]

El siguiente paso es generar entrenar el *Linear regression* para cada una de las columnas del *data set*, con el termino de bias.

In [21]:
# Se crea una matriz para guardar los valores del MSE de los 
# datos de entrenamiento 
MSE_Train_Result = []

# Se crea una matriz para guardar los valores del MSE de los 
# datos de test
MSE_Test_Result = []

# Se crea un bucle obtener todos los valores
for i in range(0,len(data[0])-1):
    # Se añade la columna a los datos de entreno
    X_train = np.hstack((X[:Train_Rows],Train_data[:,i].reshape(Train_Rows,1)))
    
    # Se añaden la columna a los datos de test
    X_test = np.hstack((X[Test_Rows:],Test_data[:,i].reshape(Test_Rows,1)))
    
    # Ahora se obtiene el valor de Theta con los valores de entrenamiento
    theta_value = lstsq(X_train,Train_result)[0]
    
    #Se calcula el MSE para los valores de entrenamiento
    MSE_Train_Result.append(MSE(Train_result,X_train,theta_value))
    
    #Se calcula el MSE para los valores de test
    MSE_Test_Result.append(MSE(Test_result,X_test,theta_value))

# Se imprimen los resultados de los MSE
print 'Q3.- Los resultados del MSE con los datos de entrenamiento es:\n'
print MSE_Train_Result
print '\nQ3.- Los resultados del MSE con los datos de test es:\n'
print MSE_Test_Result

Q3.- Los resultados del MSE con los datos de entrenamiento es:

[65.773395404381446, 62.184864129384593, 60.202946298313748, 69.240375468625416, 61.545279056417804, 15.935147920571643, 61.427495917253601, 68.000623079838491, 69.149359376563524, 65.435881603038396, 59.750972582605655, 66.040752768311762, 34.380755775897249]

Q3.- Los resultados del MSE con los datos de test es:

[873.51687362382029, 91.933794664840434, 74.746111965988717, 105.20352304376991, 80.160126225464296, 78.055634425305939, 88.955360723285239, 97.463242190867049, 144.90523084960057, 67.51748098172564, 72.507163330551379, 86.449500143875326, 43.343723595296474]


El siguiente paso es calcular el valor *most informative* de los valores de entrenamiento, y el mejor y peor valor para los valores de test

In [25]:
# Se calcula el indice del valor mínimo de los valores de entrenamiento, que será el valor 
# más informativo
Train_index_min = MSE_Train_Result.index(min(MSE_Train_Result))
print 'Q3.- El valor más informativo es el ', Train_index_min,', con un MSE de ', MSE_Train_Result[Train_index_min]

# Se calcula el indice del valor mínimo de los valores de test, que será el valor 
# mejor valor
Test_index_min = MSE_Test_Result.index(min(MSE_Test_Result))
print 'Q3.- El mejor valor es ', Test_index_min,', con un MSE de ', MSE_Test_Result[Test_index_min]

# Se calcula el indice del valor máximo de los valores de test, que será el valor 
# peor valor
Test_index_max = MSE_Test_Result.index(max(MSE_Test_Result))
print 'Q3.- El peor valor es ', Test_index_max,', con un MSE de ', MSE_Test_Result[Test_index_max]


Q3.- El valor más informativo es el  5 , con un MSE de  15.9351479206
Q3.- El mejor valor es  12 , con un MSE de  43.3437235953
Q3.- El peor valor es  0 , con un MSE de  873.516873624


Para finalizar, se va debe cacluar el coeficiente de deteminación R² de los valores de Test

In [30]:
# La formula para calcular R² = 1 - FVU(f), donde FVU(f) = MSE(f)/Var(y),
# por tanto, hay que comenzar calculando la media de los valores
R2_Mean = sum(Test_result)/Test_Rows

# Y contunuar calculando la variancia
R2_var = sum((R2_Mean - Test_result)**2)/Test_Rows

# Con todo esto ya se puede calcular el valor R²
R2 = 1 - (MSE_Test_Result/R2_var)

# Se imprime el resultado
print 'Q3.- El Coeficiente de determinación R² de los valores de test es ', R2

Q3.- El Coeficiente de determinación R² de los valores de test es  [-8.3637876   0.01450269  0.19874849 -0.12774404  0.1407122   0.16327159
  0.04643044 -0.044771   -0.5533321   0.27623682  0.22274921  0.07329236
  0.53537083]


- **Q4**) 