# Automatic Feature Engineering

### Uso de RFE del paquete feature_selection

In [1]:
# Importamos libs

from sklearn.feature_selection import RFE
from sklearn import linear_model
import pandas as pd

In [2]:
# Leemos dataset

data = pd.read_csv("../eggomPY_Datasets/AirlineDelays/DelayedFlights.csv")

In [3]:
# Defino las cols

col_pred_0 = ["AirTime", "Distance", "TaxiIn", "TaxiOut", "DayOfWeek", "DayofMonth", "Month", "DepDelay", "WeatherDelay"]
col_target = "ArrDelay"

In [4]:
# Limpiamos el dataset de NaN

df = data.dropna(subset=col_pred_0)
df = df.dropna(subset=["ArrDelay"])

In [5]:
# Sampleamos el dataset y lo capamos a un total de 10000 filas.

df = df.sample(frac=1,replace=True, random_state=12).head(10000)

In [6]:
# Defino un conjunto X con los datos de predicción y un conjunto con los datos objetivo

X = df[col_pred_0]
y = df[col_target]

In [8]:
# Creo un modelo de regresión lineal

# Aunque podríamos usar un SVM, un randomForest un árbol de clasificación... lo que sea.

lm = linear_model.LinearRegression()

### Comienza la selección de variables...

In [9]:
# Creamos un selector con la función RFE
#
# estimator = : Al estimador que queremos emplear. En este caso el lm
#
# n_features_to_select = : Cuántas variables queremos tomar

selector = RFE(estimator=lm, n_features_to_select = 5)

# Fiteamos el objeto selector con nuestros datos concretos:

selector.fit(X,y)

RFE(estimator=LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
                               normalize=False),
    n_features_to_select=5, step=1, verbose=0)

In [11]:
# Mostramos el ranking de resultados.

# Este vector muestra el "peso" de la variable en cuanto a importancia.
# Esto tiene que verse conjuntamente con el array de columnas del conjunto X

selector.ranking_

array([1, 1, 1, 1, 3, 5, 2, 1, 4])

In [14]:
# Así que una mejor manera de ver qué 5 variables son las que más influencia tienen es:

X.columns[selector.support_]

Index(['AirTime', 'Distance', 'TaxiIn', 'TaxiOut', 'DepDelay'], dtype='object')

In [18]:
# Un ejercicio muy bueno es hacer un RFE con n_features_to_select = 1

selector = RFE(estimator=lm, n_features_to_select = 1)

selector.fit(X,y)

print("Orden de importancia: ",selector.ranking_)
print("Var más importante: ",X.columns[selector.support_][0])

Orden de importancia:  [4 5 2 3 7 9 6 1 8]
Var más importante:  DepDelay
