<a href="https://colab.research.google.com/github/chema74/AI-Portfolio-2025/blob/main/08_Feature_Selection_Pipeline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìà M√≥dulo 8: Selecci√≥n de Caracter√≠sticas y Pipelines

La **Selecci√≥n de Caracter√≠sticas (Feature Selection)** y la **Ingenier√≠a de Caracter√≠sticas (Feature Engineering)** son procesos que buscan optimizar el conjunto de datos de entrada ($X$) para mejorar la precisi√≥n y reducir el tiempo de entrenamiento del modelo.

## Conceptos Clave

### 1. La Maldici√≥n de la Dimensionalidad (Curse of Dimensionality)
* **Definici√≥n:** A medida que el n√∫mero de caracter√≠sticas (dimensiones) aumenta, la cantidad de datos requerida para mantener la misma densidad de informaci√≥n crece exponencialmente.
* **Problema:** Un n√∫mero excesivo de caracter√≠sticas irrelevantes o redundantes puede hacer que los algoritmos de ML funcionen peor, sean m√°s lentos y requieran m√°s recursos.

### 2. M√©todos de Selecci√≥n de Caracter√≠sticas

La selecci√≥n consiste en eliminar las caracter√≠sticas menos informativas:
* **M√©todos de Filtro (Filter Methods):** Usan estad√≠sticas (como correlaci√≥n o puntuaci√≥n chi-cuadrado) para evaluar la relaci√≥n de cada caracter√≠stica con la variable objetivo, *independientemente del modelo*. Son r√°pidos.
* **M√©todos de Envoltura (Wrapper Methods):** Usan el rendimiento del modelo (ej. precisi√≥n) para evaluar subconjuntos de caracter√≠sticas. Son m√°s lentos, pero a menudo m√°s precisos (ej. Eliminaci√≥n Recursiva de Caracter√≠sticas - RFE).

### 3. El Pipeline de Scikit-learn (Flujo de Trabajo)
Un **Pipeline** es una herramienta de `sklearn` que encadena pasos de preprocesamiento (como el escalado de datos) y un estimador (el modelo de ML) en un solo objeto.
* **Ventaja:** Garantiza que los pasos de preprocesamiento (ej. `StandardScaler` o `fit`) se apliquen consistentemente a los datos de entrenamiento y de prueba, **evitando la fuga de datos (data leakage)**.

En este ejercicio, aplicaremos la Eliminaci√≥n Recursiva de Caracter√≠sticas (RFE), un m√©todo de envoltura, y lo implementaremos dentro de un Pipeline para mantener un flujo de trabajo limpio y profesional.

In [1]:
# =======================================================
# PASO 1: Importar librer√≠as
# =======================================================
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import RFE # Importamos la Eliminaci√≥n Recursiva de Caracter√≠sticas
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline # Importamos la herramienta Pipeline
from sklearn.metrics import accuracy_score

print("‚úÖ Librer√≠as de Selecci√≥n de Caracter√≠sticas y Pipeline importadas.")
print("-" * 70)

# =======================================================
# PASO 2: Preparaci√≥n de Datos con M√∫ltiples Caracter√≠sticas
# =======================================================

# Usaremos un DataFrame con m√°s variables predictoras (X)
datos = {
    'Precio_Unitario': [15.5, 15.5, 15.5, 22.0, 10.0, 15.5],
    'Dias_Envio': [5, 2, 5, 7, 1, 2],
    'Antiguedad_Cliente': [10, 2, 1, 5, 8, 3], # Nueva Caracter√≠stica 1
    'Descuento': [0, 1, 0, 1, 0, 0], # Nueva Caracter√≠stica 2 (binaria)
    'Cantidad': [3, 1, 3, 2, 4, 1]
}
df = pd.DataFrame(datos)

# Creamos la variable objetivo binaria (Y) como en el M√≥dulo 5 (Clasificaci√≥n)
media_cantidad = df['Cantidad'].mean()
df['Cantidad_Alta'] = np.where(df['Cantidad'] > media_cantidad, 1, 0)

# X: Seleccionamos TODAS las caracter√≠sticas para la selecci√≥n
X = df[['Precio_Unitario', 'Dias_Envio', 'Antiguedad_Cliente', 'Descuento']]
Y = df['Cantidad_Alta']

print(f"1. Total de caracter√≠sticas iniciales (dimensionalidad): {X.shape[1]}")
print("-" * 70)


# =======================================================
# PASO 3: Divisi√≥n de Datos
# =======================================================
X_train, X_test, Y_train, Y_test = train_test_split(
    X, Y, test_size=0.3, random_state=42 # Cambiamos el test_size para tener m√°s datos de prueba
)

print(f"2. Muestras de entrenamiento: {len(X_train)}")
print(f"3. Muestras de prueba: {len(X_test)}")
print("-" * 70)


# =======================================================
# PASO 4: Implementaci√≥n del Pipeline (Escalado + Selecci√≥n RFE + Modelo)
# =======================================================

# 4a. Definimos el Estimador (Modelo Base) para RFE
# Usaremos Regresi√≥n Log√≠stica como base para evaluar las caracter√≠sticas
estimator = LogisticRegression(solver='liblinear', random_state=42)

# 4b. Definimos el paso de Selecci√≥n de Caracter√≠sticas (RFE)
# RFE usar√° el Estimador (RegLog) y elegir√° las 2 mejores caracter√≠sticas de las 4.
selector_rfe = RFE(estimator, n_features_to_select=2, step=1)

# 4c. Creamos el Pipeline: Encadenamos Escalado, RFE y el Modelo final
modelo_pipeline = Pipeline(steps=[
    ('escalador', StandardScaler()), # Paso 1: Escalar las variables (vital para LogReg/SVM)
    ('seleccion', selector_rfe),     # Paso 2: Seleccionar las 2 mejores variables
    ('clasificador', estimator)      # Paso 3: Entrenar el modelo final
])

# 4d. Entrenar el Pipeline (Aplica todos los pasos en orden, solo a los datos de train)
modelo_pipeline.fit(X_train, Y_train)

print("4. Pipeline entrenado (Escalado, RFE y Log√≠stica aplicados).")

# 4e. Identificar las caracter√≠sticas seleccionadas por RFE
# Debemos acceder al paso 'seleccion' del pipeline y luego al selector:
columnas_seleccionadas = X.columns[modelo_pipeline.named_steps['seleccion'].support_]

print(f"5. Caracter√≠sticas seleccionadas por RFE: {list(columnas_seleccionadas)}")
print("-" * 70)


# =======================================================
# PASO 5: Predicci√≥n y Evaluaci√≥n
# =======================================================

# El pipeline predice aplicando autom√°ticamente el escalado y la selecci√≥n a X_test
Y_pred = modelo_pipeline.predict(X_test)
precision = accuracy_score(Y_test, Y_pred)

print("6. Evaluaci√≥n del rendimiento en datos de PRUEBA:")
print(f"   Precisi√≥n (Accuracy) con Pipeline y RFE: {precision:.4f}")
print("-" * 70)

‚úÖ Librer√≠as de Selecci√≥n de Caracter√≠sticas y Pipeline importadas.
----------------------------------------------------------------------
1. Total de caracter√≠sticas iniciales (dimensionalidad): 4
----------------------------------------------------------------------
2. Muestras de entrenamiento: 4
3. Muestras de prueba: 2
----------------------------------------------------------------------
4. Pipeline entrenado (Escalado, RFE y Log√≠stica aplicados).
5. Caracter√≠sticas seleccionadas por RFE: ['Precio_Unitario', 'Descuento']
----------------------------------------------------------------------
6. Evaluaci√≥n del rendimiento en datos de PRUEBA:
   Precisi√≥n (Accuracy) con Pipeline y RFE: 1.0000
----------------------------------------------------------------------
