In [2]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, SelectFromModel, chi2
from sklearn.ensemble import RandomForestClassifier

data = load_iris()
X = data.data
y = data.target

In [3]:
print(X[:5])

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]


## Dividir los datos en conjuntos de entrenamiento y prueba

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [5]:
print(f"Tamaño del conjunto total: {X.shape}")
print(f"Tamaño del conjunto de entrenamiento: {X_train.shape}")
print(f"Tamaño del conjunto de prueba: {X_test.shape}")

Tamaño del conjunto total: (150, 4)
Tamaño del conjunto de entrenamiento: (120, 4)
Tamaño del conjunto de prueba: (30, 4)


## Selección de características más importantes

### SelectKBest: Selecciona una cantidad determinada de características más relevantes basadas en pruebas estadísticas univariadas. Obtener las características más importantes mirándolas por separado.

In [6]:
data = load_iris()
X = data.data
y = data.target

In [7]:
selector = SelectKBest( chi2, k=2)
X_nuevo = selector.fit_transform( X_train, y_train )
print("Columnas originales:")
print(X_train[:5])
print("Columnas seleccionadas:")
print(X_nuevo[:5])

Columnas originales:
[[4.6 3.6 1.  0.2]
 [5.7 4.4 1.5 0.4]
 [6.7 3.1 4.4 1.4]
 [4.8 3.4 1.6 0.2]
 [4.4 3.2 1.3 0.2]]
Columnas seleccionadas:
[[1.  0.2]
 [1.5 0.4]
 [4.4 1.4]
 [1.6 0.2]
 [1.3 0.2]]


- Devuelve k columnas más importantes 

### SelectFromModel: Selecciona las características basadas en la importancia de las características asignadas por un modelo predictivo base. Considiera la relación que hay entre las carcterísticas a partir de un modelo de ML.

In [34]:
modelo = RandomForestClassifier( n_estimators=100, random_state=42 )
modelo.fit( X_train, y_train )
selector = SelectFromModel( modelo )
X_nuevo = selector.fit_transform( X_train, y_train )
print("Columnas originales:")
print(X_train[:5])
print("Columnas seleccionadas:")
print(X_nuevo[:5])

Columnas originales:
[[5.5 2.4 3.7 1. ]
 [6.3 2.8 5.1 1.5]
 [6.4 3.1 5.5 1.8]
 [6.6 3.  4.4 1.4]
 [7.2 3.6 6.1 2.5]]
Columnas seleccionadas:
[[3.7 1. ]
 [5.1 1.5]
 [5.5 1.8]
 [4.4 1.4]
 [6.1 2.5]]


### Ejercicios

In [24]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, chi2

data = load_iris()
X = data.data
y = data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

selector = SelectKBest( chi2, k=2)
X_train_kbest = selector.fit_transform( X_train, y_train )

In [26]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

data = load_iris()
X = data.data
y = data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

rf = RandomForestClassifier( n_estimators=100, random_state=42 )
rf.fit(X_train, y_train)

selector = SelectFromModel( rf )
X_train_selected = selector.fit_transform( X_train, y_train )