<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>

 # **<font color="DeepPink">RFE (Recursive Feature Elimination)  con `sklearn`</font>**


<p align="justify">
üëÄ RFE (Recursive Feature Elimination) es un algoritmo utilizado en el campo del aprendizaje autom√°tico para seleccionar las variables explicativas (features) relevantes en un conjunto de datos. Su objetivo principal es identificar un subconjunto √≥ptimo de caracter√≠sticas que maximicen el rendimiento del modelo.
<br>
<br>
El proceso de RFE comienza entrenando un modelo utilizando todas las caracter√≠sticas disponibles. Luego, se eval√∫a la importancia o relevancia de cada caracter√≠stica y se eliminan las menos importantes.
<br>
<br>
En la biblioteca <code>scikit_learn</code> la implementaci√≥n de RFE (Recursive Feature Elimination) se encuentra en el m√≥dulo <code>feature_selection</code>.

Documentaci√≥n de [RFE (Recursive Feature Elimination)](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html)

## **<font color="DeepPink">Bibliotecas**

In [None]:
import pandas as pd
from sklearn.feature_selection import RFE

## **<font color="DeepPink">Conjunto de Datos**

In [None]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/Ecommerce_Customers.csv"

In [None]:
datos = pd.read_csv(url)

In [None]:
datos.head()

Unnamed: 0,Email,Address,Avatar,Avg. Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
0,mstephenson@fernandez.com,"835 Frank Tunnel\nWrightmouth, MI 82180-9605",Violet,34.497268,12.655651,39.577668,4.082621,587.951054
1,hduke@hotmail.com,"4547 Archer Common\nDiazchester, CA 06566-8576",DarkGreen,31.926272,11.109461,37.268959,2.664034,392.204933
2,pallen@yahoo.com,"24645 Valerie Unions Suite 582\nCobbborough, D...",Bisque,33.000915,11.330278,37.110597,4.104543,487.547505
3,riverarebecca@gmail.com,"1414 David Throughway\nPort Jason, OH 22070-1220",SaddleBrown,34.305557,13.717514,36.721283,3.120179,581.852344
4,mstephens@davidson-herman.com,"14023 Rodriguez Passage\nPort Jacobville, PR 3...",MediumAquaMarine,33.330673,12.795189,37.536653,4.446308,599.406092


<p align="justify">
Es una empresa de comercio electr√≥nico con sede en la ciudad de Nueva York que vende ropa en l√≠nea, pero tambi√©n tienen sesiones de asesoramiento sobre estilo y ropa en la tienda. Los clientes que vienen a la tienda, tienen sesiones/reuniones con un estilista personal, luego pueden ordenar a trav√©s de una aplicaci√≥n m√≥vil o sitio web la ropa que desean.
<br>
<br>
Intentan identificar si debe enfocarse en mejorar su experiencia de aplicaci√≥n movil o en su p√°gina web.
<br>
<br>
Este es un conjunto de datos de los clientes de la empresa. El cual tiene informaci√≥n del cliente, como correo electr√≥nico, direcci√≥n postal y su color de avatar. Tambi√©n tiene columnas de valores num√©ricos:

* **Avg. Session Length**: duraci√≥n promedio de sesiones de asesoramiento de estilo en la tienda.

* **Time on App**: tiempo promedio de permanencia en la aplicaci√≥n en minutos.

* **Time on Website**: tiempo promedio de permanencia en el sitio web en minutos.

* **Length of Membership**: cu√°ntos a√±os ha sido miembro el cliente.

* **Yearly Amount Spent**: monto anual gastado en la plataforma.





In [None]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Email                 500 non-null    object 
 1   Address               500 non-null    object 
 2   Avatar                500 non-null    object 
 3   Avg. Session Length   500 non-null    float64
 4   Time on App           500 non-null    float64
 5   Time on Website       500 non-null    float64
 6   Length of Membership  500 non-null    float64
 7   Yearly Amount Spent   500 non-null    float64
dtypes: float64(5), object(3)
memory usage: 31.4+ KB


<p align="justify">
En la biblioteca <code>Pandas</code>, el m√©todo <code>unique()</code> se utiliza para obtener los valores √∫nicos presentes en una serie o columna de un DataFrame. El objetivo es revisar que no hayan clientes repetidos.  

In [None]:
len(datos.Email.unique())

500

<p align="justify">
Con el m√©todo <code>drop()</code> de <code>Pandas</code> se eliminan las columnas del <code>DataFrame</code> que ya no son √∫tiles. Descartamos <code>Avatar</code>, <code>Email</code> y <code>Address</code>.

In [None]:
datos = datos.drop(["Avatar","Email","Address"], axis=1)

<p align="justify">
Se renombran las columnas para asignarles nombres m√°s descriptivos y significativos. Es posible utilizar el m√©todo <code>rename()</code>.

In [None]:
# Renombramos columnas:
datos.rename(columns={"Avg. Session Length": "Tiempo_sesi√≥n",
                      "Time on App":"Tiempo_app",
                      "Time on Website":"Tiempo_web",
                      "Length of Membership":"A√±os_miembro",
                      "Yearly Amount Spent":"Gasto_anual"},inplace=True)

In [None]:
datos.head()

Unnamed: 0,Tiempo_sesi√≥n,Tiempo_app,Tiempo_web,A√±os_miembro,Gasto_anual
0,34.497268,12.655651,39.577668,4.082621,587.951054
1,31.926272,11.109461,37.268959,2.664034,392.204933
2,33.000915,11.330278,37.110597,4.104543,487.547505
3,34.305557,13.717514,36.721283,3.120179,581.852344
4,33.330673,12.795189,37.536653,4.446308,599.406092


In [None]:
X = datos[['Tiempo_sesi√≥n', 'Tiempo_app','Tiempo_web','A√±os_miembro']]
y = datos['Gasto_anual']

# **<font color="DeepPink">Selecci√≥n de variables explicativas (features)**

<p align="justify">
Crea el objeto <code>RFE</code> especificando el estimador del modelo (<code>LinearRegression</code>) y el n√∫mero deseado de variables explicativas seleccionadas. En este ejemplo, se desea seleccionar √∫nicamente una caracter√≠stica utilizando el par√°metro <code>n_features_to_select = 1</code>.

In [None]:
from sklearn.linear_model import LinearRegression
rfe = RFE(LinearRegression(), n_features_to_select = 1)

Ajusta el objeto `RFE` a tus datos y realiza la selecci√≥n de caracter√≠sticas.

In [None]:
X_selected = rfe.fit(X, y)

<p align="justify">
<code>support_</code> es un atributo de un objeto <code>RFE</code> que se utiliza para obtener un <code>array</code> booleano que indica las variables seleccionadas por el algoritmo <code>RFE</code>.

In [None]:
X_selected.support_

array([False, False, False,  True])

<p align="justify">
<code>ranking_</code> es un atributo de un objeto <code>RFE</code> que se utiliza para obtener un <code>array</code> que indica el ranking de las variables seg√∫n su importancia durante el proceso de selecci√≥n.

In [None]:
X_selected.ranking_

array([3, 2, 4, 1])

<p align="justify">
Para crear una lista que contenga pares de variables y sus rankings correspondientes, puedes utilizar la funci√≥n <code>zip()</code>. Luego, se convierte <code>z</code> en una <code>lista</code> de <code>tuplas</code> utilizando list(z), donde cada <code>tupla</code> contiene un nombre de columna y su ranking correspondiente.

In [None]:
z = zip(X.columns, X_selected.ranking_)
list(z)

[('Tiempo_sesi√≥n', 3),
 ('Tiempo_app', 2),
 ('Tiempo_web', 4),
 ('A√±os_miembro', 1)]

<p align="justify">
Para armar un <code>DataFrame</code> con las variables seleccionadas por <code>RFE</code>. Nuevamente se ajusta el objeto <code>RFE</code> al conjunto de datos. Mediante el atributo <code>support_</code> se obtiene un <code>array</code> booleano que indica qu√© variables fueron seleccionadas. Luego se utiliza este <code>array</code> para filtrar las columnas correspondientes del conjunto de datos original.

In [None]:
rfe_2 = RFE(LinearRegression(), n_features_to_select = 2)
X_selected = rfe_2.fit(X, y)
selected_columns = X.columns[X_selected.support_]
selected_columns

Index(['Tiempo_app', 'A√±os_miembro'], dtype='object')

In [None]:
X = X[selected_columns]
X

Unnamed: 0,Tiempo_app,A√±os_miembro
0,12.655651,4.082621
1,11.109461,2.664034
2,11.330278,4.104543
3,13.717514,3.120179
4,12.795189,4.446308
...,...,...
495,13.566160,3.746573
496,11.695736,3.576526
497,11.499409,4.958264
498,12.391423,2.336485


<br>
<br>
<p align="center"><b>
üíó
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
