In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.feature_selection import RFE, RFECV, SequentialFeatureSelector
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score, classification_report
import warnings
warnings.filterwarnings('ignore')

In [None]:
wines_path:str= r"https://docs.google.com/spreadsheets/d/e/2PACX-1vTH3jye4YrhpWRVtWivYX0fxP9VsyXhGxGqTeJ-_LVVxKAuF0xAHImhsLMSwXUi4fRcBP0ETEVZtVRf/pub?output=csv"

In [None]:
df = pd.read_csv(wines_path)

In [None]:
print("AN√ÅLISIS INICIAL DEL DATASET")

# Informaci√≥n b√°sica
print(f"Dimensiones del dataset: {df.shape}")
print(f"\nPrimeras 5 filas:")
df.head()


In [None]:

print(f"\nInformaci√≥n del dataset:")
df.info()


In [None]:
print(f"\nEstad√≠sticas descriptivas:")
df.describe().T


In [None]:
print(f"\nValores nulos por columna:")
df.isnull().sum()

In [None]:
# Verificar si hay variables categ√≥ricas
categorical_cols = df.select_dtypes(include=['object']).columns
print(f"\nColumnas categ√≥ricas: {list(categorical_cols)}")


In [None]:
# Preparar los datos
def prepare_data(df:pd.DataFrame, target:str = "target"):
    """Preparar datos para feature selection"""
    df_clean = df.copy()
    
    if df_clean.isnull().sum().sum() > 0:
        print("Manejar valores nulos")
        # Para caracter√≠sticas num√©ricas
        numeric_cols = df_clean.select_dtypes(include=[np.number]).columns
        df_clean[numeric_cols] = df_clean[numeric_cols].fillna(df_clean[numeric_cols].median())
        
        # Para caracter√≠sticas categ√≥ricas
        categorical_cols = df_clean.select_dtypes(include=['object']).columns
        for col in categorical_cols:
            df_clean[col] = df_clean[col].fillna(df_clean[col].mode()[0] if not df_clean[col].mode().empty else 'Unknown')
    
    # Codificar variables categ√≥ricas
    label_encoders = {}

    for col in df_clean.select_dtypes(include=['object']).columns:
        print("Evitar codificar la variable objetivo si es categ√≥rica")
        if col != target: 

            le = LabelEncoder()
            df_clean[col] = le.fit_transform(df_clean[col].astype(str))
            label_encoders[col] = le
    
    return df_clean


In [None]:
df.quality.unique()

In [None]:
target_column = "quality"

In [None]:
# Preparar datos
df_processed = prepare_data(df,target_column)
df_processed.sample()

In [None]:
# Separar caracter√≠sticas y variable objetivo
X = df_processed.drop(columns=[target_column])
y = df_processed[target_column]

# Si la variable objetivo es categ√≥rica, codificarla
if y.dtype == 'object':
    le_target = LabelEncoder()
    y = le_target.fit_transform(y)
    print(f"Variable objetivo codificada. Clases: {le_target.classes_}")

print(f"\nCaracter√≠sticas: {X.shape[1]}")
print(f"Tama√±o del dataset: {X.shape[0]} muestras")
print(f"Distribuci√≥n de la variable objetivo: {pd.Series(y).value_counts().to_dict()}")

In [None]:
# Escalar caracter√≠sticas num√©ricas
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_scaled = pd.DataFrame(X_scaled, columns=X.columns)

*Recursive Feature Elimination (RFE) con Validaci√≥n Cruzada*
---

In [None]:
models = {
    # Modelos de manera aleatoria para uso de ver que es mas conveniente de manera random
    'Logistic Regression': LogisticRegression(random_state=42, max_iter=1000),
    'Random Forest': RandomForestClassifier(random_state=42, n_estimators=100),
    'Gradient Boosting': GradientBoostingClassifier(random_state=42, n_estimators=100)
}


# **Feature Selection: Explicaci√≥n Sencilla**

## **RFE (Recursive Feature Elimination) - "Eliminaci√≥n hacia Atr√°s Inteligente"**

### **¬øC√≥mo funciona?**
Imagina que est√°s preparando una mochila para un viaje:

1. **Empiezas con todas tus cosas** (todas las caracter√≠sticas)
2. **Vas probando** qu√© pasa si sacas cada cosa
3. **Eliminas lo que menos afecta** (la caracter√≠stica menos importante)
4. **Repites** el proceso hasta quedarte con lo esencial

### **Proceso paso a paso:**
```
Todas las caracter√≠sticas ‚Üí Modelo ‚Üí Identifica la menos importante ‚Üí Elimina ‚Üí Repite
```

### **Ejemplo pr√°ctico:**
**Predecir precio de casas:**
- Empiezas con: tama√±o, habitaciones, ba√±os, garage, jard√≠n, piscina
- El modelo dice: "piscina" es lo menos importante
- Eliminas piscina
- Repites: ahora "jard√≠n" es lo menos importante
- Eliminas jard√≠n
- Te quedas con: tama√±o, habitaciones, ba√±os, garage

### **Ventaja:**
- Elimina caracter√≠sticas de forma inteligente
- Se enfoca en lo que realmente importa

---

## **Forward Selection - "Construcci√≥n desde Cero"**

### **¬øC√≥mo funciona?**
Como armar un equipo de f√∫tbol empezando desde cero:

1. **Empiezas con equipo vac√≠o** (ninguna caracter√≠stica)
2. **Pruebas cada jugador individualmente** (cada caracter√≠stica sola)
3. **Agregas al mejor jugador** (la caracter√≠stica que m√°s mejora el modelo)
4. **Repites** buscando qui√©n complementa mejor al equipo

### **Proceso paso a paso:**
```
Caracter√≠stica vac√≠a ‚Üí Prueba cada una ‚Üí Agrega la mejor ‚Üí Prueba combinaciones ‚Üí Repite
```

### **Ejemplo pr√°ctico:**
**Predecir si un cliente comprar√°:**
- Pruebas individual: "edad" ‚Üí buen resultado
- Pruebas individual: "ingresos" ‚Üí mejor resultado
- Agregas "ingresos" (la mejor)
- Ahora pruebas: "ingresos + edad", "ingresos + historial", "ingresos + ubicaci√≥n"
- "ingresos + historial" da mejor resultado ‚Üí agregas historial
- Continuas...

### **Ventaja:**
- No pierdes caracter√≠sticas importantes
- Computacionalmente m√°s eficiente al empezar con pocas

---

## **Backward Elimination - "Limpieza General"**

### **¬øC√≥mo funciona?**
Como limpiar tu closet:

1. **Tienes toda la ropa** (todas las caracter√≠sticas)
2. **Ves qu√© prenda usas menos** (caracter√≠stica menos √∫til)
3. **La sacas del closet** (eliminas)
4. **Verificas** si todav√≠a puedes vestirte bien
5. **Repites** hasta quedarte con lo esencial

### **Proceso paso a paso:**
```
Todas las caracter√≠sticas ‚Üí Elimina la menos importante ‚Üí Verifica rendimiento ‚Üí Repite
```

### **Ejemplo pr√°ctico:**
**Diagnosticar una enfermedad:**
- Tienes: fiebre, tos, dolor cabeza, cansancio, estornudos, dolor muscular
- El modelo dice: "estornudos" es lo menos relevante
- Eliminas estornudos
- Ahora: "dolor cabeza" es lo menos relevante
- Eliminas dolor cabeza
- Te quedas con: fiebre, tos, cansancio, dolor muscular

### **Ventaja:**
- Menos riesgo de perder combinaciones importantes
- Bueno cuando tienes muchas caracter√≠sticas

---

## **Comparaci√≥n Sencilla**

| M√©todo | Analog√≠a | Cu√°ndo usar | Velocidad |
|--------|----------|-------------|-----------|
| **RFE** | Eliminar lo menos √∫til de tu mochila | Cuando quieres selecci√≥n autom√°tica | üü° Media |
| **Forward** | Construir equipo desde cero | Cuando tienes muchas caracter√≠sticas | üü¢ R√°pido al inicio |
| **Backward** | Limpiar closet lleno | Cuando tienes pocas caracter√≠sticas | üî¥ Lento al inicio |

---

## **¬øCu√°l elegir?**

### **Forward Selection es mejor cuando:**
- Tienes MUCHAS caracter√≠sticas (100+)
- Quieres empezar r√°pido
- Crees que pocas caracter√≠sticas son suficientes

### **Backward Elimination es mejor cuando:**
- Tienes POCAS caracter√≠sticas (menos de 50)
- No quieres perder combinaciones importantes
- Tienes tiempo computacional

### **RFE es mejor cuando:**
- Quieres un balance entre ambos
- Necesitas que el m√©todo decida cu√°ntas caracter√≠sticas mantener
- Buscas robustez

## **TIPS**

- **Forward**: "¬øQu√© debo AGREGAR?"
- **Backward**: "¬øQu√© debo ELIMINAR?"  
- **RFE**: "¬øQu√© es lo MENOS importante?"

Todos buscan lo mismo: quedarse con las caracter√≠sticas que realmente ayudan a predecir, eliminando el "ruido" que no aporta valor.

In [None]:
def plot_rfecv_results(results, feature_names):
    
    if not results['success']:
        return
    
    try:
        plt.figure(figsize=(10, 6))
        cv_results = results['cv_results']
        
        # N√∫mero total de puntos evaluados
        n_scores = len(cv_results['mean_test_score'])
        n_features_range = range(1, n_scores + 1)
        
        print(f"   üìä Debug: √ìptimo reportado = {results['n_features_optimal']}, Puntos evaluados = {n_scores}")
        
        # L√≠nea principal con scores
        plt.plot(n_features_range, cv_results['mean_test_score'], 
                 label='Score promedio', linewidth=2, color='blue')
        
        # √Årea de incertidumbre
        plt.fill_between(n_features_range,
                        cv_results['mean_test_score'] - cv_results['std_test_score'],
                        cv_results['mean_test_score'] + cv_results['std_test_score'],
                        alpha=0.2, label='¬± 1 desviaci√≥n est√°ndar', color='blue')
        
        # Encontrar el √≠ndice real del mejor score
        best_idx = np.argmax(cv_results['mean_test_score'])
        best_n_features = best_idx + 1  # +1 porque los √≠ndices empiezan en 0
        best_score = cv_results['mean_test_score'][best_idx]
        
        # L√≠nea vertical en el punto √≥ptimo REAL (el que est√° en el gr√°fico)
        plt.axvline(x=best_n_features, 
                   color='red', linestyle='--', 
                   label=f'√ìptimo real: {best_n_features} caracter√≠sticas')
        
        # Punto destacado en el √≥ptimo real
        plt.scatter(best_n_features, best_score,
                   color='red', s=100, zorder=5, label='Punto √≥ptimo')
        
        # Si hay discrepancia, mostrarla
        if results['n_features_optimal'] != best_n_features:
            plt.axvline(x=results['n_features_optimal'], 
                       color='orange', linestyle=':', 
                       label=f'√ìptimo reportado: {results["n_features_optimal"]} caracter√≠sticas',
                       alpha=0.7)
        
        plt.xlabel('N√∫mero de caracter√≠sticas')
        plt.ylabel('Accuracy Score')
        plt.title(f'RFECV - {results["model_name"]}\n'
                 f'√ìptimo real: {best_n_features} caracter√≠sticas | '
                 f'Mejor score: {best_score:.4f}')
        plt.legend()
        plt.grid(True, alpha=0.3)
        plt.tight_layout()
        plt.show()
        
        # Informaci√≥n de debug
        if results['n_features_optimal'] != best_n_features:
            print(f"   ‚ö†Ô∏è  Discrepancia: RFECV reporta {results['n_features_optimal']} √≥ptimas,"
                  f" pero el mejor score est√° en {best_n_features}")
        
    except Exception as e:
        print(f"   ‚ùå Error al graficar {results['model_name']}: {e}")


def run_rfecv_analysis(model, model_name, X, y, min_features=5, cv_folds=5, step=1):

    print(f"\nüîç {model_name}:")
    
    try:
        # Calcular el step para que no haya demasiados puntos
        n_features = X.shape[1]
        if step == 'auto':
            step = max(1, n_features // 20)  # M√°ximo 20 puntos en el gr√°fico
        
        # Configurar y ejecutar RFECV
        rfecv = RFECV(
            estimator=model,
            step=step,
            cv=StratifiedKFold(cv_folds),
            scoring='accuracy',
            min_features_to_select=min_features,
            n_jobs=-1
        )
        
        rfecv.fit(X, y)
        
        # Informaci√≥n de debug
        n_evaluated = len(rfecv.cv_results_['mean_test_score'])
        print(f">>> Caracter√≠sticas totales: {n_features}")
        print(f">>> Puntos evaluados: {n_evaluated}")
        print(f">>> Step usado: {step}")
        
        # Encontrar el mejor score real (puede diferir del reportado)
        best_idx = np.argmax(rfecv.cv_results_['mean_test_score'])
        best_n_features_actual = best_idx + 1
        best_score_actual = rfecv.cv_results_['mean_test_score'][best_idx]
        
        # Recopilar resultados
        results = {
            'model_name': model_name,
            'n_features_optimal': rfecv.n_features_,
            'n_features_optimal_actual': best_n_features_actual,
            'best_score': rfecv.cv_results_['mean_test_score'].max(),
            'best_score_actual': best_score_actual,
            'selected_features': X.columns[rfecv.support_],
            'feature_ranking': rfecv.ranking_,
            'cv_results': rfecv.cv_results_,
            'rfecv_object': rfecv,
            'n_features_evaluated': n_evaluated,
            'success': True
        }
        
        # Mostrar resultados
        print(f">>> N√∫mero √≥ptimo reportado: {results['n_features_optimal']}")
        print(f">>> N√∫mero √≥ptimo real: {results['n_features_optimal_actual']}")
        print(f">>> Mejor score de validaci√≥n: {results['best_score']:.4f}")
        print(f">>> Caracter√≠sticas seleccionadas ({len(results['selected_features'])}):")
        for i, feature in enumerate(results['selected_features'], 1):
            print(f"     {i}. {feature}")
            
        return results
        
    except Exception as e:
        error_msg = f"   ‚ùå Error con {model_name}: {e}"
        print(error_msg)
        import traceback
        traceback.print_exc()
        return {
            'model_name': model_name,
            'success': False,
            'error': str(e)
        }
    
    

In [None]:
for model_name, model in models.items():
    # Ejecutar RFECV
    resultados_rf = run_rfecv_analysis(
        model=model,
        model_name=model_name,
        X=X_scaled,  # Tus caracter√≠sticas escaladas
        y=y,         # Tu variable objetivo
        min_features=5,
        cv_folds=5
    )

    plot_rfecv_results(resultados_rf, X_scaled.columns)

**Forward Selection - Implementaci√≥n Completa**


In [None]:
def run_forward_selection(model, model_name, X, y, n_features='auto', cv_folds=5, direction='forward'):
  
    print(f"\n{model_name} - Forward Selection:")
    
    try:
        # Si es 'auto', selecciona la mitad de las caracter√≠sticas
        if n_features == 'auto':
            n_features = max(1, X.shape[1] // 2)
        
        # Configurar Forward Selection
        sfs_forward = SequentialFeatureSelector(
            estimator=model,
            n_features_to_select=n_features,
            direction=direction,
            cv=StratifiedKFold(cv_folds),
            scoring='accuracy',
            n_jobs=-1
        )
        
        # Ajustar el selector
        sfs_forward.fit(X, y)
        
        # Obtener caracter√≠sticas seleccionadas
        selected_features = X.columns[sfs_forward.get_support()]
        feature_mask = sfs_forward.get_support()
        
        # Evaluar performance con las caracter√≠sticas seleccionadas
        X_selected = sfs_forward.transform(X)
        cv_scores = cross_val_score(model, X_selected, y, cv=cv_folds, scoring='accuracy')
        
        # Recopilar resultados
        results = {
            'model_name': model_name,
            'method': 'Forward Selection',
            'n_features_selected': len(selected_features),
            'selected_features': selected_features,
            'feature_mask': feature_mask,
            'mean_score': cv_scores.mean(),
            'std_score': cv_scores.std(),
            'cv_scores': cv_scores,
            'sfs_object': sfs_forward,
            'success': True
        }
        
        # Mostrar resultados
        print(f">>> Caracter√≠sticas seleccionadas: {results['n_features_selected']}")
        print(f">>> Score de validaci√≥n: {results['mean_score']:.4f} ¬± {results['std_score']:.4f}")
        print(f">>> Caracter√≠sticas:")
        for i, feature in enumerate(results['selected_features'], 1):
            print(f"     {i}. {feature}")
            
        return results
        
    except Exception as e:
        error_msg = f"   ‚ùå Error con {model_name}: {e}"
        print(error_msg)
        return {
            'model_name': model_name,
            'method': 'Forward Selection',
            'success': False,
            'error': str(e)
        }

def plot_forward_selection_results(results, X_original):
    """
    Genera gr√°fico comparativo para Forward Selection
    """
    if not results['success']:
        return
    
    try:
        # Comparar performance vs todas las caracter√≠sticas
        model = results['sfs_object'].estimator
        all_features_score = cross_val_score(model, X_original, y, cv=5, scoring='accuracy')
        
        # Preparar datos para el gr√°fico
        methods = ['Todas las caracter√≠sticas', 'Forward Selection']
        scores = [all_features_score.mean(), results['mean_score']]
        errors = [all_features_score.std(), results['std_score']]
        
        # Crear gr√°fico de comparaci√≥n
        plt.figure(figsize=(10, 6))
        bars = plt.bar(methods, scores, yerr=errors, capsize=10, 
                      color=['lightblue', 'lightgreen'], alpha=0.7)
        
        # A√±adir valores en las barras
        for i, (score, error) in enumerate(zip(scores, errors)):
            plt.text(i, score + error + 0.01, f'{score:.4f} ¬± {error:.4f}', 
                    ha='center', va='bottom', fontweight='bold')
        
        plt.ylabel('Accuracy Score')
        plt.title(f'Forward Selection - {results["model_name"]}\n'
                 f'Reducci√≥n: {X_original.shape[1]} ‚Üí {results["n_features_selected"]} caracter√≠sticas')
        plt.grid(True, alpha=0.3, axis='y')
        plt.tight_layout()
        plt.show()
        
        print(f" Comparaci√≥n:")
        print(f"      ‚Ä¢ Todas las caracter√≠sticas ({X_original.shape[1]}): {all_features_score.mean():.4f}")
        print(f"      ‚Ä¢ Forward Selection ({results['n_features_selected']}): {results['mean_score']:.4f}")
        print(f"      ‚Ä¢ Mejora: {results['mean_score'] - all_features_score.mean():+.4f}")
        
    except Exception as e:
        print(f"   Error al graficar {results['model_name']}: {e}")

In [None]:
for model_name, model in models.items():

    resultados = run_forward_selection(
        model=model,
        model_name=model_name,
        X=X_scaled,  # Tu DataFrame de caracter√≠sticas
        y=y,         # Tu variable objetivo
        n_features='auto',  # Selecciona autom√°ticamente la mitad
        cv_folds=5
    )
        
    # Generar gr√°fico comparativo
    plot_forward_selection_results(resultados, X_scaled)

**Backward Elimination - Implementaci√≥n Completa**


In [None]:
def run_backward_elimination(model, model_name, X, y, n_features='auto', cv_folds=5):

    print(f"\n{model_name} - Backward Elimination:")
    
    try:
        # Si es 'auto', selecciona la mitad de las caracter√≠sticas
        if n_features == 'auto':
            n_features = max(1, X.shape[1] // 2)
        
        # Configurar Backward Elimination
        sfs_backward = SequentialFeatureSelector(
            estimator=model,
            n_features_to_select=n_features,
            direction='backward',
            cv=StratifiedKFold(cv_folds),
            scoring='accuracy',
            n_jobs=-1
        )
        
        # Ajustar el selector
        sfs_backward.fit(X, y)
        
        # Obtener caracter√≠sticas seleccionadas
        selected_features = X.columns[sfs_backward.get_support()]
        feature_mask = sfs_backward.get_support()
        
        # Evaluar performance con las caracter√≠sticas seleccionadas
        X_selected = sfs_backward.transform(X)
        cv_scores = cross_val_score(model, X_selected, y, cv=cv_folds, scoring='accuracy')
        
        # Recopilar resultados
        results = {
            'model_name': model_name,
            'method': 'Backward Elimination',
            'n_features_selected': len(selected_features),
            'selected_features': selected_features,
            'feature_mask': feature_mask,
            'mean_score': cv_scores.mean(),
            'std_score': cv_scores.std(),
            'cv_scores': cv_scores,
            'sfs_object': sfs_backward,
            'success': True
        }
        
        # Mostrar resultados
        print(f">>> Caracter√≠sticas seleccionadas: {results['n_features_selected']}")
        print(f">>> Score de validaci√≥n: {results['mean_score']:.4f} ¬± {results['std_score']:.4f}")
        print(f">>> Caracter√≠sticas:")
        for i, feature in enumerate(results['selected_features'], 1):
            print(f"     {i}. {feature}")
            
        return results
        
    except Exception as e:
        error_msg = f"   ‚ùå Error con {model_name}: {e}"
        print(error_msg)
        return {
            'model_name': model_name,
            'method': 'Backward Elimination',
            'success': False,
            'error': str(e)
        }

def plot_backward_elimination_results(results, X_original):

    if not results['success']:
        return
    
    try:
        # Comparar performance vs todas las caracter√≠sticas
        model = results['sfs_object'].estimator
        all_features_score = cross_val_score(model, X_original, y, cv=5, scoring='accuracy')
        
        # Preparar datos para el gr√°fico
        methods = ['Todas las caracter√≠sticas', 'Backward Elimination']
        scores = [all_features_score.mean(), results['mean_score']]
        errors = [all_features_score.std(), results['std_score']]
        
        # Crear gr√°fico de comparaci√≥n
        plt.figure(figsize=(10, 6))
        bars = plt.bar(methods, scores, yerr=errors, capsize=10, 
                      color=['lightblue', 'lightcoral'], alpha=0.7)
        
        # A√±adir valores en las barras
        for i, (score, error) in enumerate(zip(scores, errors)):
            plt.text(i, score + error + 0.01, f'{score:.4f} ¬± {error:.4f}', 
                    ha='center', va='bottom', fontweight='bold')
        
        plt.ylabel('Accuracy Score')
        plt.title(f'Backward Elimination - {results["model_name"]}\n'
                 f'Reducci√≥n: {X_original.shape[1]} ‚Üí {results["n_features_selected"]} caracter√≠sticas')
        plt.grid(True, alpha=0.3, axis='y')
        plt.tight_layout()
        plt.show()
        
        print(f" Comparaci√≥n:")
        print(f"      ‚Ä¢ Todas las caracter√≠sticas ({X_original.shape[1]}): {all_features_score.mean():.4f}")
        print(f"      ‚Ä¢ Backward Elimination ({results['n_features_selected']}): {results['mean_score']:.4f}")
        print(f"      ‚Ä¢ Mejora: {results['mean_score'] - all_features_score.mean():+.4f}")
        
    except Exception as e:
        print(f"  Error al graficar {results['model_name']}: {e}")

In [None]:
for model_name, model in models.items():
    resultados = run_backward_elimination(
        model=model,
        model_name=model_name,
        X=X,
        y=y
    )
    
    
    plot_forward_selection_results(resultados, X)
    