
# Selección de Variables: Técnicas para Todos los Niveles

La **selección de variables** es un paso crucial para mejorar la interpretabilidad, rendimiento y generalización de los modelos.

---

## ¿Por qué seleccionar variables?

- Mejora la precisión del modelo.
- Reduce el sobreajuste.
- Disminuye el tiempo de entrenamiento.
- Mejora la interpretabilidad.

---

## Niveles:

- **Rookie**: Métodos estadísticos simples y filtrado univariado.
- **Intermedio**: Métodos automáticos de búsqueda con modelos.
- **Experto**: Técnicas avanzadas como Lasso, Recursion y Permutation Importance.


In [None]:

import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# Cargar datos
boston = load_boston()
X = pd.DataFrame(boston.data, columns=boston.feature_names)
y = boston.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X.head()



## Nivel Rookie: Filtrado Univariado

Se basa en relaciones estadísticas simples entre cada predictor y la variable objetivo.

### Técnicas:
- Correlación para regresión
- Chi-cuadrado para clasificación

```python
from sklearn.feature_selection import SelectKBest, f_regression
```


In [None]:

from sklearn.feature_selection import SelectKBest, f_regression

selector = SelectKBest(score_func=f_regression, k=5)
X_new = selector.fit_transform(X_train, y_train)

print("Variables seleccionadas:", X.columns[selector.get_support()])



## Nivel Intermedio: Selección Secuencial

Evalúa combinaciones de variables añadiendo o quitando una a la vez.

### Técnicas:
- Forward Selection
- Backward Elimination

```python
from sklearn.feature_selection import SequentialFeatureSelector
```


In [None]:

from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import SequentialFeatureSelector

modelo = LinearRegression()
sfs = SequentialFeatureSelector(modelo, n_features_to_select=5, direction='forward')
sfs.fit(X_train, y_train)

print("Variables seleccionadas:", X.columns[sfs.get_support()])



## Nivel Experto: Regularización y Permutation Importance

### Lasso (L1):
Penaliza el valor absoluto de los coeficientes y fuerza a algunos a cero.

### Permutation Importance:
Evalúa la importancia real de una variable midiendo la pérdida de desempeño al perturbarla.

```python
from sklearn.linear_model import LassoCV
from sklearn.inspection import permutation_importance
```


In [None]:

from sklearn.linear_model import LassoCV

lasso = LassoCV(cv=5)
lasso.fit(X_train, y_train)

print("Coeficientes distintos de cero:")
for name, coef in zip(X.columns, lasso.coef_):
    if coef != 0:
        print(f"{name}: {coef:.4f}")


In [None]:

from sklearn.inspection import permutation_importance

result = permutation_importance(lasso, X_test, y_test, n_repeats=10, random_state=42)

importances = pd.DataFrame({'feature': X.columns, 'importance': result.importances_mean})
importances = importances.sort_values(by='importance', ascending=False)
importances.head()



## Ejercicio Final

1. Usa el dataset `load_diabetes`.
2. Aplica técnicas de los tres niveles.
3. Compara las variables seleccionadas por cada método.
4. Entrena un modelo con las mejores variables según cada técnica y compara desempeño.

¿Notas cuáles variables son seleccionadas consistentemente?
