# Eliminacion Recursiva de Features (RFE)

Es una tecnica utilizada para seleccionar las caracteristicas mas importantes de un conjunto de datos. Su objetivo es eliminar las caracteristicas menos relevantes, mejorando asi el rendimiento del modelo y reduciendo su complejidad.

Generalmente, RFE se aplica a modelos que pueden proporcionar alguna medida de la importancia de las caracteristicas como los modelos lineales o arboles de decision. Entre los modelos donde se puede aplicar tenemos:

- Regresion Lineal
- Regresion Logistica
- Arboles de decision
- Bosques aleatorios
- Maquina de vectores de soporte
- Entre otros...

## Como funciona RFE?

   1. **Entrenamiento inicial**: Entrena un modelo utilizando todas las caracteristicas (Variables predictoras)
    
    
   2. **Evaluacion de Importancia**: Evalua la importancia de cada caracteristica. Esta importancia se puede medir de diferentes maneras dependiendo del modelo utilizado (coeficientes de la regresion lineal)
   
    
   3. **Eliminacion de Caracteristicas**: Elimina las caracteristicas menos importantes para el modelo
   
   
   4. **Repeticion de pasos**: Repite los pasos de 1 a 3 hasta alcanzar un numero predefinido de caracteristicas.

## Aplicacion de RFE

Supongamos que tenemos un conjunto de 5 caracteristicas y vamos a usar RFE para seleccionar las 3 caracteristicas mas importantes. Generamos el conjunto de datos de prueba convenientemente.

In [1]:
# Generamos datos de prueba
import numpy as np
import pandas as pd

# semilla
np.random.seed(0)

# 5 caracteristicas
X = pd.DataFrame({
    'feature_1': np.random.rand(100),
    'feature_2': np.random.rand(100),
    'feature_3': np.random.rand(100),
    'feature_4': np.random.rand(100),
    'feature_5': np.random.rand(100)
})

# variable objetivo
# la asociamos linealmente con 3 de las 5 caracteristicas
y = 3*X['feature_2'] + 2*X['feature_5'] + X['feature_1'] + np.random.rand(100)

Al asociar la variable objetivo con 3 de las 5 features nos aseguramos que el modelo solo va a estar influenciado por estas tres caracteristicas lo cual debe verse reflejado al aplicar RFE.

In [2]:
# juntamos los datos en un dataframe para mejorar la visualizacion de los datos
df = pd.DataFrame(X, columns=[f'feature_{i+1}' for i in range(X.shape[1])])
df['target'] = y
df.head()

Unnamed: 0,feature_1,feature_2,feature_3,feature_4,feature_5,target
0,0.548814,0.677817,0.311796,0.906555,0.40126,3.695163
1,0.715189,0.270008,0.696343,0.774047,0.929291,3.756831
2,0.602763,0.735194,0.377752,0.333145,0.099615,3.532546
3,0.544883,0.962189,0.179604,0.081101,0.945302,6.072647
4,0.423655,0.248753,0.024679,0.407241,0.869489,3.242399


### 1.- Entrenamiento inicial
Entrenamos el modelo de regresion lineal con todas las caracteristicas y calculamos la importancia de cada una.

In [3]:
# libreria para usar la regresion lineal
from sklearn.linear_model import LinearRegression

# funcion para entrena el modelo
def train_model(X, y):
    model = LinearRegression()
    return model.fit(X,y)

In [4]:
# entrenamos el modelo
modelo = train_model(X, y)

### 2.- Evaluacion de importancia
Para el caso de la regresion, debemos obtener los coeficientes de cada caracteristicas una vez entrenado el modelo.

In [5]:
# funcion para obtener los coeficientes de cada caracteristica
def evaluate_model(model):
    coeficientes = model.coef_
    return coeficientes

In [6]:
# coeficiente de las caracteristicas
coefi = evaluate_model(modelo)
coefi

array([1.0169788 , 2.96313024, 0.01281724, 0.04742558, 1.94336239])

### 3.- Eliminacion de caracteristicas
Identificamos la caracteristica con el coeficiente mas pequeño (el valor absoluto) y la eliminamos

In [7]:
# funcion que determina la caracteristica con menor valor de coeficiente y la elimina
def remove_feature(X, coeficientes):
    # indice del coficiente mas pequeño
    min_indice = np.argmin(np.abs(coeficientes))
    # nombre de la caracteristica correspondiente al indice anterior
    feature_remove = X.columns[min_indice]
    # eliminar caracteristica
    X = X.drop(columns=[feature_remove])
    # retornar matriz de caracteristica y nombre de la caracteristica eliminada
    return X, feature_remove
    

### 4.- Repetir hasta obtener el numero deseado de caracteristicas

Inicialmente dijimos que vamos a obtener las 3 caracteristicas mas importantes. Entonces, repetimos el proceso del 1 al 3 hasta obtener las tres caracteristicas. Para automatizar el proceso, procedemos como sigue

In [8]:
# numero de features a seleccionar
n_features = 3

# ejecutar proceso hasta llegar a 3 caracteristicas
while X.shape[1] > n_features:
    modelo = train_model(X,y)
    coefi = evaluate_model(modelo)
    X, feature_remove = remove_feature(X, coefi)
    
# mostrar las 3 caracteristicas mas importantes
print('Caracteristicas seleccionadas', X.columns)
    
    

Caracteristicas seleccionadas Index(['feature_1', 'feature_2', 'feature_5'], dtype='object')


Los resultados confirman que los features 1, 2 y 5 son los que realmente influyen sobre el modelo de regresion lineal.

## Aplicacion de RFE con Scikit-Learn

Ahora vamos a utilizar la libreria Scikit Learn para aplicar este metodo y simplificar el proceso de eliminacion recursiva. Trabajaremos sobre los mismos datos de prueba del ejemplo anterior para comparar los resultados 

In [9]:
# features
X = df.drop(columns=['target'])
# variable objetivo
y = df['target']

Aplicamos RFE con la libreria sklearn

In [10]:
# libreria para aplicar RFE
from sklearn.feature_selection import RFE

# crear modelo de regresion
modelo_2 = LinearRegression()

# Crear el objeto RFE y especificar el numero de caracteristicas deseadas
rfe = RFE(estimator=modelo_2, n_features_to_select=3)

# ajustar RFE a los datos
rfe.fit(X, y)

# obtener las caracteristicas seleccionadas por RFE
features_select = X.columns[rfe.support_]

# mostrar nombre
features_select

Index(['feature_1', 'feature_2', 'feature_5'], dtype='object')

De esta forma, obtenemos los features mas importantes para el modelo de regresion, que en este caso son los features 1, 2 y 5, coincidiendo con los resultados del ejemplo anterior.

# Eliminacion Recursiva de Features con Validacion Cruzada (RFECV)

Es una tecnica de seleccion de caracteristicas que mejora la metodologia RFE al incoporar la validacion cruzada para seleccionar automaticamente el numero optimo de caracteristicas

## Como funciona RFECV?

1. **Entrenamiento del modelo**: Similar a RFE, entrena el modelo usando todas las caracteristicas


2. **Validacion Cruzada**: Utiliza la validacion cruzada para evaluar el rendimiento del modelo en diferentes subconjuntos de datos.


3. **Eliminacion de caracteristicas**: Elimina la caracteristica menos importante y evalua el modelo usando validacion cruzada.


4. **Repeticion de pasos**: Repite los pasos 1 hasta 3 hasta que se encuentre el conjunto optimo de caracteristicas que maximiza el rendimiento del modelo.

## Aplicacion de RFECV

Para implementar este metodos, vamos a utilizar los datos de Boston Housing de la libreria de Scikit Learn. Cargamos los datos

In [11]:
from sklearn.datasets import load_boston

# cargamos los datos
boston = load_boston()

# features
X = pd.DataFrame(boston.data, columns=boston.feature_names)
# variable objetivo
y = pd.Series(boston.target)


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

In [12]:
X.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [13]:
y.head()

0    24.0
1    21.6
2    34.7
3    33.4
4    36.2
dtype: float64

Dividimos los datos en datos de entrenamiento y de prueba

In [14]:
# libreria para dividir los datos
from sklearn.model_selection import train_test_split

# entrenamiento 70% y prueba 30%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

Creamos una funcion que entrena el modelo de regresion lineal

In [15]:
# libreria para entrenar el modelo de regresion
import statsmodels.api as sm

def train_model(X, y):
    # agregar una constante al intercepto
    X = sm.add_constant(X)
    # creacion y ajuste del modelo con minimos cuadrados ordinarios (OLS)
    model = sm.OLS(y, X).fit()
    return model

Creamos una funcion que realice la validacion cruzada y calcule el error cuadratico medio promedio (MSE)

In [16]:
# libreria para dividir los datos en grupos
from sklearn.model_selection import KFold

def cross_val(model, X, y, cv=5):
    # numero de pliegues de datos
    kf = KFold(n_splits=cv)
    # lista para almacenar valores de MSE de cada pliegue
    mse_score = []
    
    # iterar sobre los pliegues
    for train_index, val_index in kf.split(X):
        # caracteristicas de los conjuntos de entrenamiento y validacion
        X_train_fold, X_val_fold = X.iloc[train_index], X.iloc[val_index]
        # variables objetivo de los conjuntos de entrenamiento y validacion
        y_train_fold, y_val_fold = y.iloc[train_index], y.iloc[val_index]
        
        # entrenamiento del modelo para cada pliegue
        model_fold = train_model(X_train_fold, y_train_fold)
        # prediccion para el conjunto de validacion
        y_pred_fold = model_fold.predict(sm.add_constant(X_val_fold))
        # calculos de la metrica MSE
        mse_fold = np.mean((y_val_fold - y_pred_fold)**2)
        mse_score.append(mse_fold)
        
    return np.mean(mse_score)
    

Creamos una funcion que realice todo el proceso de RFECV y devuelva los mejores features junto a su respectiva puntuacion.

In [17]:
def rfecv(X, y, cv=5):
    # lista de caracteristicas disponibles
    features_disp = list(X.columns)
    # inicializa la mejor puntuacion como infinito representando la peor puntuacion posible
    mejor_punt = float('inf')
    # inicializa las mejores features
    mejor_features = None
    
    # bucle que se ejecuta mientras haya caracteristicas para evaluar
    while len(features_disp) > 0:
        # lista para almacenar las puntuaciones de la validacion cruzada
        scores = []
        # lista para almacenar los modelos entrenados y las caracteristicas utilizadas
        models = []
        
        # itera sobre cada feature de features_disp
        for feature in features_disp:
            # lista de features excluyendo la actual
            features_usar = [f for f in features_disp if f != feature]
            # subconjunto de X que solo contiene las features_usar
            X_subset = X[features_usar]
            # entrenar el modelo usando X_subset y y
            model = train_model(X_subset, y)
            # obtener la puntuacion promedio de la validacion cruzada
            score = cross_val(model, X_subset, y, cv=cv)
            # almacenar resultados de la metrica y el modelo entrenado
            scores.append(score)
            models.append((model, features_usar))
            
        # mejor puntuacion de la iteracion    
        mejor_it_punt = min(scores)
        # indice de la mejor puntuacion
        mejor_it_indice = scores.index(mejor_it_punt)
        
        # actualizacion de la mejor puntuacion y features
        if mejor_it_punt < mejor_punt:
            mejor_punt = mejor_it_punt
            mejor_features = models[mejor_it_indice][1]
        else:
            break
        
        # elimina la peor puntuacion de la iteracion actual
        peor_feature = features_disp[scores.index(max(scores))]
        features_disp.remove(peor_feature)
        
    return mejor_features, mejor_punt

Ahora, aplicamos RFECV a los datos y obtenemos los resultados

In [18]:
mejores_features, mejor_score = rfecv(X_train, y_train, cv=7)
print('Mejores features seleccionadas: ', mejores_features)
print('Mejor puntuacion de validacion cruzada (MSE): ', mejor_score)

Mejores features seleccionadas:  ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']
Mejor puntuacion de validacion cruzada (MSE):  22.447996725679257


En este caso se obtuvieron 12 caracteristicas optimas seleccionadas por el metodo RFECV implementado de forma manual.

## Aplicacion de RFECV con Scikit Learn

Vamos a utilizar los datos del ejemplo anterior para aplicarles el metodo RFECV de Scikit Learn. 

In [19]:
# datos de entrenamiento
X_train.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
141,1.62864,0.0,21.89,0.0,0.624,5.019,100.0,1.4394,4.0,437.0,21.2,396.9,34.41
272,0.1146,20.0,6.96,0.0,0.464,6.538,58.7,3.9175,3.0,223.0,18.6,394.96,7.73
135,0.55778,0.0,21.89,0.0,0.624,6.335,98.2,2.1107,4.0,437.0,21.2,394.67,16.96
298,0.06466,70.0,2.24,0.0,0.4,6.345,20.1,7.8278,5.0,358.0,14.8,368.24,4.97
122,0.09299,0.0,25.65,0.0,0.581,5.961,92.9,2.0869,2.0,188.0,19.1,378.09,17.93


In [20]:
y_train.head()

141    14.4
272    24.4
135    18.1
298    22.5
122    20.5
dtype: float64

Aplicamos RFECV a los datos

In [21]:
# importamos el metodo RFECV
from sklearn.feature_selection import RFECV

# creamos el modelo de regresion lineal
model_2 = LinearRegression()

# configuramos RFECV
rfecv = RFECV(
    estimator=model_2,
    step=1, # paso para eliminar caracteristicas
    cv=7, # numero de pliegues para la validacion cruzada
    scoring='neg_mean_squared_error' # uso del MSE negativo como metrica de rendimiento
)

# ajustar el modelo utilizando RFECV
rfecv.fit(X_train, y_train)

# mostrar numero optimo de caracteristicas
print('Numero optimo de caracteristicas: ', rfecv.n_features_)
# mostrar nombre de las caracteristicas
print('Caracteristicas seleccionadas: ', X_train.columns[rfecv.support_])

Numero optimo de caracteristicas:  12
Caracteristicas seleccionadas:  Index(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX',
       'PTRATIO', 'LSTAT'],
      dtype='object')


Vemos que, al igual que el ejemplo anterior, el RFECV arroja 12 variables optimas para entrenar el modelo. Al utilizar el metodo de Scikit Learn simplificamos considerablemente el proceso de RFECV pero es importante entender que hay detras y fue por eso que lo implementamos anteriormente de forma manual.

RFECV recibe como parametro el *scoring* que en este caso se asigna como el negativo del error cuadratico medio (MSE). Veamos una explicacion del porque:
> Esto se debe a como funciona la API y la convencion de algunas metricas de evaluacion. El MSe es una metrica de error, lo que significa que debemos minimizar este valor para mejorar el rendimiento del modelo. Sim embargo, la mayoria de las funciones de scikit learn estan diseñadas para maximizar la metrica de evaluacion. Por tanto al usar MSE, scikit learn lo convierte en su valor negativo para que la funcion de maximizacion funcione correctamente. Al maximizar el negativo del MSE estamos minimizando el MSE real

In [25]:
# semilla
np.random.seed(0)

# 10 caracteristicas
X = pd.DataFrame({
    'feature_1': np.random.rand(100),
    'feature_2': np.random.rand(100),
    'feature_3': np.random.rand(100),
    'feature_4': np.random.rand(100),
    'feature_5': np.random.rand(100),
    'feature_6': np.random.rand(100),
    'feature_7': np.random.rand(100),
    'feature_8': np.random.rand(100),
    'feature_9': np.random.rand(100),
    'feature_10': np.random.rand(100),
})

# variable objetivo
# la asociamos linealmente con 3 de las 5 caracteristicas
y = (
    3*X['feature_2'] + 
    2*X['feature_5'] + 
    X['feature_1'] + 
    X['feature_7']*X['feature_7'] + 
    X['feature_9']*X['feature_9']*X['feature_9'] +
    np.random.rand(100)
)
y.head()

0    4.008232
1    3.763218
2    4.014345
3    6.088574
4    3.851811
dtype: float64