# Selección y División de Datos

Bienvenido a esta nueva lección en la que vamos a avanzar un paso más en la estructora del código de **Scikit-Learn**. En la lección anterior analizamos el preprocesamiento de los datos, y ahora vamos a explorar cómo **preparar nuestros datos** de manera efectiva para el momento del entrenamiento y de la evaluación de los modelos en **Machine Learning**.


### ¿Qué es la preparación de los datos?

Como seguramente recuerdas, en todos los ejercicios que hicimos durante los días de Machine Learning, una de las cosas que hacíamos con nuestros datos era **dividirlos en conjuntos de prueba y conjuntos de entrenamiento**. Bueno, ese es el proceso que vamos a analizar en detalle y a expandir en esta lección.

Vamos a aprender dos procesos de preparación de datos:
+ **División de Datos**: En conjuntos de entrenamiento y prueba utilizando `train_test_split()`
+ **Selección de Características más Importantes**: Específicamente con `SelectKBest` y `SelectFromModel`, dos nuevos amigos que agregamos a nuestro equipo

Comencemos importando todas las librerías que necesitaremos en esta lección. Observa que he incluido al modelo `RandomforestClassifier`, a los nuevos recursos que te he mencionado, y a un elemento llamado `chi2` que también neceitaremos para la selección de características.

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, SelectFromModel, chi2
from sklearn.ensemble import RandomForestClassifier

Para esta práctica vamos a utilizar nuevamente el conjunto de datos `iris`.

In [2]:
data = load_iris()
X = data.data
y = data.target

## División de Datos con `train_test_split()`

Para repasar un poco, te recuerdo que el motivo por el que queremos dividir a nuestros datos en conjuntos de **entrenamiento** y **prueba**, es para poder evaluar la capacidad de nuestros modelos de aprendizaje automático.

Al tener un conjunto de entrenamiento por un lado, y un conjunto de prueba por el otro, podemos ver si las **relaciones que ha identificado** nuestro modelo durante la etapa de estimaciones, se comprueban como correctas al verificar si se cumplen con el conjunto de pruebas.

Por eso es que **Scikit-Learn** nos ofrece una función perfecta para esto, que es `train_test_split()`.

Comencemos con un ejemplo clásico de cómo usamos esta función:

In [3]:
X_entrena, X_prueba, y_entrena, y_prueba = train_test_split(X, y, test_size=0.2, random_state=42)

Ahora vamos a imprimir algunos datos, para comprender mejor qué tenemos aquí. Te sugiero probar distintos valores para el parámetro `test_size` de modo que veas cómo se reparten los casos en los diferentes conjuntos de entrenamiento y de prueba.

In [4]:
print("Tamaño del conjunto total:", len(X))
print("Tamaño del conjunto entrenamiento:", len(X_entrena))
print("Tamaño del conjunto pruebas:", len(X_prueba))

Tamaño del conjunto total: 150
Tamaño del conjunto entrenamiento: 120
Tamaño del conjunto pruebas: 30


Antes de avanzar a la siguiente técnica, te propongo revisar la ayuda de `train_test_split()` para conocer todos sus detalles. Presta especial atención a la **descripción** de esta función, a sus **parámetros**, y a lo que **devuelve**.

In [5]:
help(train_test_split)

Help on function train_test_split in module sklearn.model_selection._split:

train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)
    Split arrays or matrices into random train and test subsets.
    
    Quick utility that wraps input validation,
    ``next(ShuffleSplit().split(X, y))``, and application to input data
    into a single call for splitting (and optionally subsampling) data into a
    one-liner.
    
    Read more in the :ref:`User Guide <cross_validation>`.
    
    Parameters
    ----------
    *arrays : sequence of indexables with same length / shape[0]
        Allowed inputs are lists, numpy arrays, scipy-sparse
        matrices or pandas dataframes.
    
    test_size : float or int, default=None
        If float, should be between 0.0 and 1.0 and represent the proportion
        of the dataset to include in the test split. If int, represents the
        absolute number of test samples. If None, the value is set to

## Selección de Características

Además de la división de nuestros conjuntos de datos, otra estrategia que podemos implementar, es la **selección de características**. Este es un proceso mediante el cual seleccionamos automáticamente aquellas características que son **más relevantes para predecir** la variable objetivo.

Recuerda que cuando usamos modelos de Machine Learning, nuestra meta es **realizar predicciones**. Eso significa que vamos a querer identificar cómo podemos predecir una determinada variable (la variable objetivo) a partir de cálculos sofisticados con **las variables que ya conocemos**. Esto nos lleva a una pregunta obvia: sin tengo 10 características en mi dataset *¿cuáles son las más importantes para predecir el valor de la variable objetivo?*.

Para eso es importante contar con herramientas que nos permitan hacer una buena selección de categorías, que ayuden a mejorar la eficiencia del modelo y a reducir el riesgo de sobreajuste. Aquí es donde entran los objetos `SelectKBest`, y `SelectFromModel`. Vamos a conocerlos.


### SelectKBest

`SelectKBest` selecciona una cantidad determinada de características más relevantes basadas en pruebas estadísticas univariadas. Esto significa que `SelectKBest` es útil cuando queremos mantener solo las características más importantes.

In [6]:
selector = SelectKBest(chi2, k=3)
X_nuevo = selector.fit_transform(X_entrena, y_entrena)

In [7]:
print("Primeras 5 filas del conjunto de entrenamiento")
print(X_entrena[:5])
print("\nPrimeras 5 filas del conjunto de columnas seleccionadas")
print(X_nuevo[:5])

Primeras 5 filas del conjunto de entrenamiento
[[4.6 3.6 1.  0.2]
 [5.7 4.4 1.5 0.4]
 [6.7 3.1 4.4 1.4]
 [4.8 3.4 1.6 0.2]
 [4.4 3.2 1.3 0.2]]

Primeras 5 filas del conjunto de columnas seleccionadas
[[4.6 1.  0.2]
 [5.7 1.5 0.4]
 [6.7 4.4 1.4]
 [4.8 1.6 0.2]
 [4.4 1.3 0.2]]


Así, con este procedimiento hemos logrado crear un **nuevo array** que contiene solamente las **características más útiles** para realizar predicciones con nuestros datos.

`SelectKBest` es muy útil cuando el número de características es relativamente grande y se necesita reducir la dimensionalidad para simplificar el modelo, para mejorar la eficiencia o para reducir el riesgo de sobreajuste. 


### SelectFromModel

`SelectFromModel` es otra técnica que selecciona características basándose en la importancia de las características asignadas por un modelo predictivo.

La principal diferencia que tiene con respecto a `SelectKBest`, es que `SelectFromModel` selecciona características basadas en la importancia de las características **asignadas por un modelo predictivo base**.

Entonces, mientras que `SelectKBest` evalúa cada característica de manera **independiente del resto**, `SelectFromModel` puede considerar la **interacción entre las características**, ya que la selección se basa en un modelo de Machine Learning que puede captar esas interacciones.

A continuación vamos a definir primero el **modelo** para usar en la selección de características (en este caso `RandomForestClassifier`), y luego generamos el **selector** propiamente dicho, que asume las interacciones captadas por ese modelo.

In [8]:
modelo = RandomForestClassifier(n_estimators=100, random_state=42)
selector2 = SelectFromModel(modelo)
X_importante = selector2.fit_transform(X_entrena, y_entrena)

In [9]:
print("Primeras 5 filas del conjunto de entrenamiento")
print(X_entrena[:5])
print("\nPrimeras 5 filas del conjunto de columnas seleccionadas")
print(X_importante[:5])

Primeras 5 filas del conjunto de entrenamiento
[[4.6 3.6 1.  0.2]
 [5.7 4.4 1.5 0.4]
 [6.7 3.1 4.4 1.4]
 [4.8 3.4 1.6 0.2]
 [4.4 3.2 1.3 0.2]]

Primeras 5 filas del conjunto de columnas seleccionadas
[[1.  0.2]
 [1.5 0.4]
 [4.4 1.4]
 [1.6 0.2]
 [1.3 0.2]]


En este caso también ha devuelto **dos características** como las más importantes, y de hecho **son las mismas**. Esto se debe a que si ambos selectores trabajan con efectividad, van a llegar a los mismos resultados por caminos diferentes.

Ten presente, eso sí, que si bien en `SelectKBest` hemos podido establecer explícitamente la cantidad de características importantes usando el parámetro `k`, eso es diferente en `SelectFromModel`, en el cual por defecto la cantidad de características que selecciona es igual al **promedio de las importancias de las características** calculadas por el modelo base.

Si por alguna razón preferimos especificar otra cantidad de características diferentes, lo hacemos manipulando el parámetro `threshold`, que significa *umbral*. Pero ten en cuenta que según las características de los datos, modificar este parámetro puede generar advertencias.

```selector2 = SelectFromModel(modelo, threshold=1)```


## Cierre de la lección

Con esto hemos cubierto lo más importante sobre **selección** y **división** de datos con **Scikit-Learn**, hemos aprendido cómo dividir correctamente nuestros datos en conjuntos de entrenamiento y prueba, y hemos explorado dos métodos muy poderosos para la selección de características.

Estas técnicas son esenciales para preparar nuestros datos y para asegurar que los modelos de Machine Learning que desarrollamos sean robustos, eficientes y efectivos.
