In [6]:
#!usr/bin/env python
# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn.linear_model as lm
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn import cross_validation
from sklearn.preprocessing import StandardScaler

#(a)
url = 'http://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.data'
df = pd.read_csv(url, sep='\t', header=0)

# Drop: devuelve un nuevo objeto con las etiquetas y ejes dados removidos
# Con drop se elimina columna sin nombre que denota la posicion de cada registro del dataframe
df = df.drop('Unnamed: 0', axis=1)

# la columna train indica si el registro pertenece o no al conjunto de entrenamiento. Almacenamos esta info en istrain_str
istrain_str = df['train']
istrain = np.asarray([True if s == 'T' else False for s in istrain_str])
istest = np.logical_not(istrain)

#Se elimina la etiqueta train y columna asociada a esta con la función drop.
df = df.drop('train', axis=1)

In [9]:
#(b)
#97 filas 9 columnas
print df.shape
print ""
df.info()
print ""
print df.describe()
print ""

(97, 9)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 97 entries, 0 to 96
Data columns (total 9 columns):
lcavol     97 non-null float64
lweight    97 non-null float64
age        97 non-null int64
lbph       97 non-null float64
svi        97 non-null int64
lcp        97 non-null float64
gleason    97 non-null int64
pgg45      97 non-null int64
lpsa       97 non-null float64
dtypes: float64(5), int64(4)
memory usage: 6.9 KB

          lcavol    lweight        age       lbph        svi        lcp  \
count  97.000000  97.000000  97.000000  97.000000  97.000000  97.000000   
mean    1.350010   3.628943  63.865979   0.100356   0.216495  -0.179366   
std     1.178625   0.428411   7.445117   1.450807   0.413995   1.398250   
min    -1.347074   2.374906  41.000000  -1.386294   0.000000  -1.386294   
25%     0.512824   3.375880  60.000000  -1.386294   0.000000  -1.386294   
50%     1.446919   3.623007  65.000000   0.300105   0.000000  -0.798508   
75%     2.127041   3.876396  68.000000   1

In [8]:
#(c)
#Normalizacion
scaler = StandardScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
#La variable Y (lPSA) no se normaliza, sólo se normalizan las caracteristicas/predictores (features)
df_scaled['lpsa'] = df['lpsa']

# Notamos que una vez normalizado, el promedio (mean) de cada feature es practicamente 0
# y la desviacion estandar (std) es muy cercana a 1.
print df_scaled.describe()

             lcavol       lweight           age          lbph           svi  \
count  9.700000e+01  9.700000e+01  9.700000e+01  9.700000e+01  9.700000e+01   
mean  -9.614302e-17 -3.216213e-16  3.433679e-16 -4.721309e-17 -1.327689e-16   
std    1.005195e+00  1.005195e+00  1.005195e+00  1.005195e+00  1.005195e+00   
min   -2.300218e+00 -2.942386e+00 -3.087227e+00 -1.030029e+00 -5.256575e-01   
25%   -7.139973e-01 -5.937689e-01 -5.219612e-01 -1.030029e+00 -5.256575e-01   
50%    8.264956e-02 -1.392703e-02  1.531086e-01  1.383966e-01 -5.256575e-01   
75%    6.626939e-01  5.806076e-01  5.581506e-01  1.010033e+00 -5.256575e-01   
max    2.107397e+00  2.701661e+00  2.043304e+00  1.542252e+00  1.902379e+00   

                lcp       gleason         pgg45       lpsa  
count  9.700000e+01  9.700000e+01  9.700000e+01  97.000000  
mean   8.240831e-17 -1.476482e-16 -1.816989e-16   2.478387  
std    1.005195e+00  1.005195e+00  1.005195e+00   1.154329  
min   -8.676552e-01 -1.047571e+00 -8.689573e

In [None]:
#(d)
# Se crea el modelo de regresion lineal
X = df_scaled.ix[:,:-1] # Se obtinen las Caracteristicas (features) lcavol...pgg45
N = X.shape[0] # Cantidad de datos (97 filas/registros)
X.insert(X.shape[1], 'intercept', np.ones(N)) # Se agrega la columna Intercepto (columna de unos)
y = df_scaled['lpsa'] # La variable dependiente lPSA es almancenada en y
Xtrain = X[istrain] # Se crea el conjunto de entrenamiento para las caracteristicas
ytrain = y[istrain] # Se crea el conjunto de entramiento para la variable a predecir
Xtest = X[np.logical_not(istrain)] # Se crea el conjunto de prueba para las caracteristicas PSA
ytest = y[np.logical_not(istrain)] # Se crea el conjunto de prueba para la variable a predecir PSA
linreg = lm.LinearRegression(fit_intercept = False) #Generación del modelo
linreg.fit(Xtrain, ytrain) # Se ajusta (fit) el modelo de acuerdo a los datos de entrenamiento

In [None]:
#(e)
# Se obtiene el peso asociado a cada variable y su error estandar
weights = linreg.coef_
SEM = np.asarray(Xtrain.std()) / np.sqrt(len(Xtrain))
# A partir de lo anterior, se calculan los Z-score de cada variable
Z_score = weights / SEM

In [96]:
#(f)
#Se estima error de prediccion del modelo utilizando k-fold k = 5 y k = 10
yhat_test = linreg.predict(Xtest)
mse_test = np.mean(np.power(yhat_test - ytest, 2))
print 'mse_test = %.4f'% mse_test
Xm = Xtrain.as_matrix()
ym = ytrain.as_matrix()

print 'Cross validation'
for i in range(5,11,5):
    k_fold = cross_validation.KFold(len(Xm),i)
    mse_cv = 0
    for k, (train, val) in enumerate(k_fold):
      linreg = lm.LinearRegression(fit_intercept = False)
      linreg.fit(Xm[train], ym[train])
      yhat_val = linreg.predict(Xm[val])
      mse_fold = np.mean(np.power(yhat_val - ym[val], 2))
      mse_cv += mse_fold
    mse_cv = mse_cv/i
    print 'k = %d'% i, ' mse = %.4f'% mse_cv


mse_test = 0.5096
Cross validation
k = 5  mse = 0.9565
k = 10  mse = 0.7572


In [None]:
#Se estima error de prediccion por cada dato de entrenamiento
yhat_train = linreg.predict(Xtrain)
ytrain_array = np.asarray(ytrain)
error = yhat_train - ytrain_array

#Se genera grafico de errores
stats.probplot(error, dist='norm', plot=plt)
plt.title('Siguen los errores de prediccion sobre el conjunto de entrenamiento una distribucion normal?')
plt.ylabel('Error dato de entrenamiento')
plt.show()