## SELECCIÓN DE VARIABLES

En este código se usa el método de regresión de Lasso para seleccionar variables. Se guardará el listado de variables seleccionadas en un archivo .csv

In [1]:
# Manejo de los datos
import pandas as pd
import numpy as np

# Representación gráfica
import matplotlib.pyplot as plt

# Modelos
from sklearn.linear_model import Lasso
from sklearn.feature_selection import SelectFromModel

# Visualización de todas las columnas del banco de datos
pd.pandas.set_option('display.max_columns', None)

In [2]:
#Ingesta de datos: cargamos los datos resultantes del código anterior "Procesado"

X_train = pd.read_csv('xtrain.csv')
X_test = pd.read_csv('xtest.csv')

#Visualización
#X_train.head()

In [3]:
# Variable endógnea (objetivo, target)
y_train = X_train['SalePrice']
y_test = X_test['SalePrice']

# Descartamos la variable ID en ambos conjuntos de datos.
X_train.drop(['Id', 'SalePrice'], axis=1, inplace=True)
X_test.drop(['Id', 'SalePrice'], axis=1, inplace=True)

### Selección de variables

<b>Es importante establecer la semilla.</b>

In [4]:
#Especificación del modelo de regresión Lasso
sel_ = SelectFromModel(Lasso(alpha=0.005, 
                             random_state=0) #SET THE SEED!!!
                      )

#El valor de alpha se establece por convención. 
#A mayor valor, menor número de variables seleccionadas.

#Ajuste y selección de variables (Aquellas cuyo coeficiente no es cero tras el ajuste)
sel_.fit(X_train, y_train)

SelectFromModel(estimator=Lasso(alpha=0.005, copy_X=True, fit_intercept=True,
                                max_iter=1000, normalize=False, positive=False,
                                precompute=False, random_state=0,
                                selection='cyclic', tol=0.0001,
                                warm_start=False),
                max_features=None, norm_order=1, prefit=False, threshold=None)

In [5]:
#Visualización del array de selección como resultado del ajuste

sel_.get_support()

array([False,  True, False,  True, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False,  True, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False])

In [6]:
# Lista de las variables seleccionadas
selected_feats = X_train.columns[(sel_.get_support())]

print(
    'Total: {}'.format(
        (X_train.shape[1])
    )
)

print(
    'Seleccionadas: {}'.format(
        len(selected_feats)
    )
)

print('Con coeficiente nulo: {}'.format(
    np.sum(sel_.estimator_.coef_ == 0)
    )
)

Total: 90
Seleccionadas: 3
Con coeficiente nulo: 87


In [7]:
selected_feats

Index(['MSZoning', 'LotArea', 'BedroomAbvGr'], dtype='object')

In [8]:
# print the selected features
print(f"Listado {selected_feats}")

#Próxima versión del ejercicio, actualizar a PEP8 para Python >3.6, tal como se ha hecho aquí.

Listado Index(['MSZoning', 'LotArea', 'BedroomAbvGr'], dtype='object')


### Backup del listado de variables seleccionadas

In [9]:
pd.Series(selected_feats).to_csv('selected_features.csv', index=False)