### Implementación Práctica de Selección de Características

In [3]:
# Importar librerías necesarias
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, chi2, RFE
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# Cargar el conjunto de datos de iris
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

print(X)
print(y)

# Selección de características utilizando el método de chi-cuadrado
chi2_selector = SelectKBest(chi2, k=2)
X_kbest = chi2_selector.fit_transform(X, y)
print(f"Características seleccionadas por chi-cuadrado: {X.columns[chi2_selector.get_support(indices=True)]}")

# Selección de características utilizando Recursive Feature Elimination (RFE)
model = LogisticRegression(max_iter=200)
rfe_selector = RFE(model, n_features_to_select=2, step=1)
rfe_selector = rfe_selector.fit(X, y)
print(f"Características seleccionadas por RFE: {X.columns[rfe_selector.get_support(indices=True)]}")

# Selección de características utilizando Random Forest
forest = RandomForestClassifier(random_state=42)
forest.fit(X, y)
importances = forest.feature_importances_
important_features = X.columns[importances > np.percentile(importances, 75)]
print(f"Características seleccionadas por Random Forest: {important_features}")

print(importances)

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                  5.1               3.5                1.4               0.2
1                  4.9               3.0                1.4               0.2
2                  4.7               3.2                1.3               0.2
3                  4.6               3.1                1.5               0.2
4                  5.0               3.6                1.4               0.2
..                 ...               ...                ...               ...
145                6.7               3.0                5.2               2.3
146                6.3               2.5                5.0               1.9
147                6.5               3.0                5.2               2.0
148                6.2               3.4                5.4               2.3
149                5.9               3.0                5.1               1.8

[150 rows x 4 columns]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

# Comparación de Métodos de Selección de Características
 * Filtrado: Rápido y fácil de interpretar, pero puede ser menos preciso porque no considera la interacción entre características.
 * Wrapper: Más preciso porque evalúa características en el contexto de un modelo, pero es computacionalmente costoso.
 * Embebido: Ofrece un buen equilibrio entre rendimiento y eficiencia, integrando la selección de características en el proceso de entrenamiento del modelo.