# Selección y División de Datos con Scikit-Learn 1

**División de datos**

Escribe un programa que:

1. Cargue el conjunto de datos `iris`.

2. Almacena los parámetros requeridos en las variables: `X`, `y`

3. Divida los datos en conjuntos de entrenamiento y prueba, utilizando `train_test_split` con un 30% de los datos para prueba y una semilla aleatoria de 42.

4. Asegurate de declarar las variables: `X_train`, `X_test`, `y_train`, `y_test`

In [3]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42
)

# Selección y División de Datos con Scikit-Learn 2

**Selección de características con SelectKBest**

Escribe un programa que:

1. Cargue el conjunto de datos `iris`.

2. Almacena los parámetros requeridos en las variables: `X`, `y`

3. Divide los datos en conjuntos de entrenamiento y prueba, utilizando `train_test_split` con un 30% de los datos para prueba y una semilla aleatoria de 42.

4. Seleccione las 2 características más importantes utilizando `SelectKBest` con la función de puntaje `chi2`.

5. Asegurate de declarar las variables: `X_train`, `X_test`, `y_train`, `y_test`, `selector`, `X_train_kbest`

In [5]:
import numpy as np

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.model_selection import train_test_split


X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42
)

selector: SelectKBest = SelectKBest(chi2, k=2)
X_train_kbest: np.ndarray = selector.fit_transform(X_train, y_train)

# Selección y División de Datos con Scikit-Learn 3

**Selección de características con SelectFromModel**

Escribe un programa que:

1. Cargue el conjunto de datos `iris`.

2. Almacena los parámetros requeridos en las variables: `X`, `y`

3. Divida los datos en conjuntos de entrenamiento y prueba, utilizando `train_test_split` con un 30% de los datos para prueba y una semilla aleatoria de 42.

4. Entrene un `RandomForestClassifier` con el conjunto de entrenamiento.

5. Utilice `SelectFromModel` para seleccionar las características más importantes basadas en el modelo entrenado.

6. Asegurate de declarar las variables: `X_train`, `X_test`, `y_train`, `y_test`, `rf` (para entrenar un modelo `RandomForestClassifier`), `selector`, `X_train_selected`

In [8]:
import numpy as np

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel
from sklearn.model_selection import train_test_split


X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42
)

rf: RandomForestClassifier = RandomForestClassifier(
    n_estimators=100,
    random_state=42
)

rf.fit(X_train, y_train)  # esta parte es importante en Udemy

selector: SelectFromModel = SelectFromModel(rf)

X_train_selected: np.ndarray = selector.fit_transform(X_train, y_train)