## En este notebook podrás ver cómo se ponen en práctica las estrategias de muestreo y partición mencionadas en la teoría:
<div style="background-color: rgb(0, 143, 88);margin: 20px; padding: 20px; border-left: 9px solid #ffb200;">
<ul style="color: rgb(255, 255, 255);font-weight:bold;font-size:15px;">
    <li style="padding:10px;">Random sampling </li>
    <li style="padding:10px;">Systematic sampling</li>
    <li style="padding:10px;">Stratified sampling</li>
    <li style="padding:10px;">Cross-Validation K-fold</li>
    <li style="padding:10px;">Cross-Validation Shuffle Split</li>
    <li style="padding:10px;">Cross-Validation Stratified K-fold</li>
    <li style="padding:10px;">Cross-Validation Stratified Shuffle Split</li>
</ul>
</div>

# Muestreo de los datos

## Random Sampling

Para está estrategia de muestreo de datos importaremos la librería **random**. Esto nos incluye una funcion ***`sample`*** que nos extraer una muestra de la longitud indicada por el usuario.

In [1]:
import random

In [2]:
datos = [1,23,42,34,65,12,8,59,75,45,17,3,4.5,83.9] #Nuestros datos

muestra_random = random.sample(datos,4) #Extraer muestra de longitud 4

print(muestra_random)

[12, 23, 3, 45]


La estrategia aplicada al ser random, te recomiendo que ejecutes la casilla más de una vez. Verás como cambia el resultado.

Si no queremos que el resultado cambie cada vez que ejecutamos una celda, tenemos la posibilidad de utilizar la función ***`random.seed()`*** (en la siguiente celda aparece como comentario). El generador de números aleatorios necesita un número con el que empezar (un valor semilla), para poder generar un número aleatorio. Por defecto, el generador de números aleatorios utiliza la hora actual del sistema, pero se puede personalizarla y fijarla con dicha función.


También tenemos la posibilidad de utilizar la función ***`random.choices()`*** para la misma estrategia. La diferencia respecto a ***`random.sample()`*** es que con esta función los elementos pueden volver a ser seleccionados, es decir, con ***`random.choices()`*** nuestra muestra de datos puede llegar a tener elementos repetidos.

In [3]:
#random.seed(3)        #fijar semilla de random

print(random.choices(datos, k = 4))

[1, 23, 75, 45]


## Systematic Sampling

Para la extración de una muestra con esta estrategia nos crearemos una función que selecciona valores del dataset en un intervalo (k) determinado de antemano.

In [4]:
#En caso de no tener instalado pandas o numpy descomentar y ejecutar el comando pip
#pip install pandas
#pip install numpy
import pandas as pd
import numpy as np

In [5]:
#Función que extraerá la muestra
def systematic_sampling(df, k):
    intervalo = np.arange(0, len(df), step=k) #Guarda los índices según el valor del intervalo k
    systematic_sample = df.iloc[intervalo]
    return systematic_sample

A continuación, creamos un dataset para poder ver lo que devuelve la función construida.

In [6]:
data = {'Id': np.arange(1, 16).tolist(),
        'altura': [189, 171, 158, 162, 162, 167, 180, 175,
                   178, 181, 178, 178, 173, 157, 194]}   #Datos para la creación del dataframe como un diccionario

datos_systematic = pd.DataFrame(data) #Creación del dataframe para el ejemplo
datos_systematic.head()

Unnamed: 0,Id,altura
0,1,189
1,2,171
2,3,158
3,4,162
4,5,162


In [7]:
systematic_sampling(datos_systematic,3) #llamada a la función systematic

Unnamed: 0,Id,altura
0,1,189
3,4,162
6,7,180
9,10,181
12,13,173


Como se aprecia en el resultado, la función creada para la estrategia ***Systematic Sampling*** funciona correctamente. En este caso, el salto del intervalo se ha puesto como ***`k = 3`***, pero podéis cambiar ese número y ejecutar la celda para ver cómo cambia el resultado y entender mejor la estrategia.

## Stratified Sampling

Para la extracción de la muestra mediante esta estrategia nos crearemos un dataset más amplio. En este caso, nos interesa ver cómo se escogen los datos en función de las características.

In [8]:
studiantes = {'Nombre': ['Aitor', 'Maria', 'Ander', 'Kepa', 'Jose','Alex', 'Eva', 'Jon', 'Ane', 'Juan'],
              'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
              'Grado': ['B', 'B', 'C', 'A', 'A', 'A', 'C', 'B', 'A', 'B'],
              'Categoria': [1, 3, 2, 3, 1, 3, 3, 2, 1, 2]} #Datos para la creación del dataframe como un diccionario
  
datos_stratified = pd.DataFrame(studiantes) #Creación del dataframe para el ejemplo
datos_stratified.head()

Unnamed: 0,Nombre,ID,Grado,Categoria
0,Aitor,1,B,1
1,Maria,2,B,3
2,Ander,3,C,2
3,Kepa,4,A,3
4,Jose,5,A,1


In [9]:
datos_stratified.groupby('Grado').apply(lambda x: x.sample(1)) #Agrupar por 'Grado' y seleccionar 1 aleatoriamente

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,ID,Grado,Categoria
Grado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,5,Alex,6,A,3
B,9,Juan,10,B,2
C,6,Eva,7,C,3


En esta ocasión, podemos apreciar cómo primero se agrupan según el grado de los estudiantes y una vez agrupados, se selecciona uno al azar de cada grupo. Cada grado es un estrato, en el que de ese estrato se escoge un estudiante al azar, justo como en la estrategia de ***Stratified***. Con eso ya tendríamos nuestra muestra. 

Aquí también si ejecutamos más de una vez la celda obtendremos distintos resultados, ya que la selección es aleatoria.

# Particionado de los datos

Para esta sección, cabe recordar que para el uso de los modelos de Machine Learning tenemos principalmente 2 clases de la librería **Scikit-Learn** para el particionado de datos. La primera, ***`train_test_split`*** y la segunda, ***`Cross-Validation`***. Veamos cómo funciona cada uno de ellos y las distintas estrategias de muestreo que utilizan.

## Train Test Split

Para esta estrategia utilizaremos la clase ***`train_test_split`*** de la librería **Scikit-Learn**. Haremos un ejemplo simple para entender el funcionamiento interno del algoritmo.

Esta es una manera facil y sencilla de particionar los datos para entrenamiento y test. Veamos su ejecución.

In [10]:
#En caso de no tener instalado sklearn descomentar y ejecutar el comando pip
#pip install -U scikit-learn
from sklearn.model_selection import train_test_split

In [11]:
X, y = np.arange(20).reshape((10, 2)), np.hstack(([0] * 8, [1] * 2)) #Creación del dato para el ejemplo

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

print('X_train: \n',X_train)
print('\nX_test: \n',X_test)
print('\ny_train: \n',y_train)
print('\ny_test: \n',y_test)

X_train: 
 [[ 4  5]
 [12 13]
 [ 6  7]
 [ 0  1]
 [18 19]
 [10 11]
 [ 8  9]
 [14 15]]

X_test: 
 [[ 2  3]
 [16 17]]

y_train: 
 [0 0 0 0 1 0 0 0]

y_test: 
 [0 1]


En este caso, también tenemos la posibilidad de utilizar la estrategia de muestreo **Stratified** mediante el parametro ***`stratify = True`***. Veamos el mismo ejemplo con este parametro.

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,stratify=y)

print('X_train: \n',X_train)
print('\nX_test: \n',X_test)
print('\ny_train: \n',y_train)
print('\ny_test: \n',y_test)

X_train: 
 [[14 15]
 [10 11]
 [ 8  9]
 [12 13]
 [ 0  1]
 [ 6  7]
 [16 17]
 [18 19]]

X_test: 
 [[2 3]
 [4 5]]

y_train: 
 [0 0 0 0 0 0 1 1]

y_test: 
 [0 0]


## Cross-Validation K-Fold

Para esta estrategia utilizaremos la clase ***`KFold`*** de la librería **Scikit-Learn**. Haremos un ejemplo simple para entender el funcionamiento interno del algoritmo.

Se hace la partición de los datos, y para ver cómo cambian en cada iteración, se imprime la posicion del dato en el vector para entrenamiento y para test.

In [13]:
from sklearn.model_selection import KFold

In [14]:
datos_kfold = ["a", "b", "c", "d", "e","f"]

kf = KFold(n_splits=3)

for train_index, test_index in kf.split(datos_kfold):
    print("Entrenamiento: %s , Test: %s" % (train_index, test_index)) #Imprimir índices de los valores para entrenamiento y test

Entrenamiento: [2 3 4 5] , Test: [0 1]
Entrenamiento: [0 1 4 5] , Test: [2 3]
Entrenamiento: [0 1 2 3] , Test: [4 5]


Podemos apreciar como en los resultados al ser ***`n_splits = 3`*** el algoritmo tiene 3 iteraciones. En cada iteración, vemos cómo cambian las posiciones de los datos para entrenamiento y test.

Para tu propio aprendizaje, puedes jugar con los valores de los datos e ir cambiando el valor que se le asigna a ***n_splits***. Te ayudará a entender mejor el funcionamiento de **K-fold**.


## Cross-Validation Shuffle Split

Para esta estrategia utilizaremos la clase ***`ShuffleSplit`*** de la librería **Scikit-Learn**. Haremos un ejemplo simple para entender el funcionamiento interno del algoritmo.

Se hace la partición de los datos, y para ver cómo cambian en cada iteración, se imprime la posicion del dato en el vector para entrenamiento y para test. 

In [15]:
from sklearn.model_selection import ShuffleSplit

In [16]:
datos_shuffle = np.arange(10) # crear array [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

ss = ShuffleSplit(n_splits=5, test_size=0.2, random_state=0)
for train_index, test_index in ss.split(datos_shuffle):
    print("Entrenamiento: %s Test: %s" % (train_index, test_index)) #Imprimir índices de los valores para entrenamiento y test

Entrenamiento: [4 9 1 6 7 3 0 5] Test: [2 8]
Entrenamiento: [1 2 9 8 0 6 7 4] Test: [3 5]
Entrenamiento: [8 4 5 1 0 6 9 7] Test: [2 3]
Entrenamiento: [9 2 7 5 8 0 3 4] Test: [6 1]
Entrenamiento: [7 4 1 0 6 8 9 3] Test: [5 2]


Como se comenta en la documentación, ***`ShuffleSplit`*** es una buena alternativa a la validación cruzada ***`KFold`***, ya que permite un control del número de iteraciones y de la proporción de muestras para cada partición de entrenamiento y test.

Para el número de iteraciones puedes jugar cambiando el valor de ***`n_splits = 5`*** y para la proporción de muestras en test puedes jugar cambiando el valor de ***`test_size = 0.2`***. Esto, te ayudará a entender mejor el funcionamiento de **Shuffle Split**.

Para terminar, puedes cambiar el valor del parámetro ***`random_state = 0`***, quien fija una semilla para random. Esta semilla nos ayuda a fijar el comportamiento del algoritmo para que cada vez que ejecutes la casilla los resultados no cambien. Te recomiendo también que quites el parámetro ***`random_state`*** y ejecutes la misma casilla más de una vez, verás lo que sucede.

## Cross-Validation Stratified K-Fold

Para esta estrategia utilizaremos la clase ***`StratifiedKFold`*** de la librería **Scikit-Learn**.

A continuación, se muestra un ejemplo de validación cruzada estratificada de 3-folds o iteraciones. En esta estrategia, vamos a utilizar un conjunto de datos con 50 muestras de dos clases no equilibradas. Para terminar, primero se imprime el número de muestras de cada clase y se compara con la clase ***`KFold`***, seguidamente, se imprimen los índices de las muestras para entrenamiento/test y de nuevo se compara con la clase ***`KFold`***.

In [17]:
from sklearn.model_selection import StratifiedKFold

In [18]:
datos_x, datos_y = np.ones((50,1)), np.hstack(([0] * 42, [1] * 8)) # Crear los datos para el ejemplo

print('NÚMERO DE MUESTRAS DE CADA CLASE:\n')

print('------------Stratified K-Fold----------\n')

skf = StratifiedKFold(n_splits=3) # 3 iteraciones
kf = KFold(n_splits=3)

for train, test in skf.split(datos_x, datos_y):
    print('Entrenamiento -  {}   |   Test -  {}'.format(
    np.bincount(datos_y[train]), np.bincount(datos_y[test])))
    
print('\n-----------------K-Fold----------------\n')
    
for train, test in kf.split(datos_x, datos_y):  
    print('Entrenamiento -  {}   |   Test -  {}'.format(
    np.bincount(datos_y[train]), np.bincount(datos_y[test])))
    
print('\nÍNDICES DE LAS MUESTRAS:\n')

print('------------Stratified K-Fold----------\n')


for train_index, test_index in skf.split(datos_x, datos_y):
    print("Entrenamiento: %s , Test: %s" % (train_index, test_index))
    
print('\n-----------------K-Fold----------------\n')
    
for train_index, test_index in kf.split(datos_x, datos_y):
    print("Entrenamiento: %s , Test: %s" % (train_index, test_index))

NÚMERO DE MUESTRAS DE CADA CLASE:

------------Stratified K-Fold----------

Entrenamiento -  [28  5]   |   Test -  [14  3]
Entrenamiento -  [28  5]   |   Test -  [14  3]
Entrenamiento -  [28  6]   |   Test -  [14  2]

-----------------K-Fold----------------

Entrenamiento -  [25  8]   |   Test -  [17]
Entrenamiento -  [25  8]   |   Test -  [17]
Entrenamiento -  [34]   |   Test -  [8 8]

ÍNDICES DE LAS MUESTRAS:

------------Stratified K-Fold----------

Entrenamiento: [14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
 38 39 40 41 45 46 47 48 49] , Test: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 42 43 44]
Entrenamiento: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 28 29 30 31 32 33 34 35 36 37
 38 39 40 41 42 43 44 48 49] , Test: [14 15 16 17 18 19 20 21 22 23 24 25 26 27 45 46 47]
Entrenamiento: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 42 43 44 45 46 47] , Test: [28 29 30 31 32 33 34 35 36 37 38 39 40 41 48 49]

--------

En los resultados se aprecia como la clase ***`StratifiedKFold`*** usa la estrategia de muestreo **Stratified Sampling**, conteniendo aproximadamente el mismo porcentaje de muestras de cada clase del conjunto total de datos.

## Cross-Validation Stratified Shuffle Split

Para esta estrategia utilizaremos la clase ***`StratifiedShuffleSplit`*** de la librería **Scikit-Learn**.

En esta estrategia, vamos a utilizar el conjunto de datos definido anteriormente *datos_x* y *datos_y*. Primero, se imprime el número de muestras de cada clase y se compara con la clase ***`ShuffleSplit`***, seguidamente, se imprimen los índices de las muestras para entrenamiento/test y de nuevo se compara con la clase ***`ShuffleSplit`***.

In [19]:
from sklearn.model_selection import StratifiedShuffleSplit

In [20]:
print('NÚMERO DE MUESTRAS DE CADA CLASE:\n')

print('------------Stratified Shuffle Split----------\n')

sss = StratifiedShuffleSplit(n_splits=5, test_size=0.2, random_state=0)
ss = ShuffleSplit(n_splits=5, test_size=0.2, random_state=0)

for train, test in sss.split(datos_x, datos_y):
    print('Entrenamiento -  {}   |   Test -  {}'.format(
    np.bincount(datos_y[train]), np.bincount(datos_y[test])))
    
print('\n-----------------Shuffle Split----------------\n')
    
for train, test in ss.split(datos_x, datos_y):  
    print('Entrenamiento -  {}   |   Test -  {}'.format(
    np.bincount(datos_y[train]), np.bincount(datos_y[test])))
    
print('\nÍNDICES DE LAS MUESTRAS:\n')

print('------------Stratified Shuffle Split----------\n')


for train_index, test_index in sss.split(datos_x, datos_y):
    print("Entrenamiento: %s , Test: %s" % (train_index, test_index))
    
print('\n-----------------Shuffle Split----------------\n')
    
for train_index, test_index in ss.split(datos_x, datos_y):
    print("Entrenamiento: %s , Test: %s" % (train_index, test_index))

NÚMERO DE MUESTRAS DE CADA CLASE:

------------Stratified Shuffle Split----------

Entrenamiento -  [34  6]   |   Test -  [8 2]
Entrenamiento -  [34  6]   |   Test -  [8 2]
Entrenamiento -  [34  6]   |   Test -  [8 2]
Entrenamiento -  [34  6]   |   Test -  [8 2]
Entrenamiento -  [34  6]   |   Test -  [8 2]

-----------------Shuffle Split----------------

Entrenamiento -  [32  8]   |   Test -  [10]
Entrenamiento -  [33  7]   |   Test -  [9 1]
Entrenamiento -  [34  6]   |   Test -  [8 2]
Entrenamiento -  [33  7]   |   Test -  [9 1]
Entrenamiento -  [34  6]   |   Test -  [8 2]

ÍNDICES DE LAS MUESTRAS:

------------Stratified Shuffle Split----------

Entrenamiento: [ 1 27 24 38  2 15 37 14 45  5 13 33 26 46 39 43 17  8 47 16 41 20 28  4
 12 11  7 36 32 35 29 31 10 18 22 25 48 30 49 34] , Test: [42  0 44 23  6  3 40 21 19  9]
Entrenamiento: [22  9 36 26 12 21 32  4  6 19 17 39 23  2 47 25 14 16 28  3 18 27  8  1
 24 43 33 44 46 10 13 20 15 48 45 38 37 11  7 41] , Test: [40  5 34 30 49 29 3

En los resultados se aprecia como la clase ***`StratifiedShuffleSplit`*** usa la estrategia de muestreo **Stratified Sampling**, conteniendo aproximadamente el mismo porcentaje de muestras de cada clase del conjunto total de datos.

## Conclusión

Como has visto, tenemos muchas maneras diferentes de implementar cada estrategia para hacer uso del muestreo de datos y dividir nuestros datos en subconjuntos para el entrenamiento de modelos. Dependerá del tipo de problema que tengas que resolver en cada momento aplicar una u otra.

Suerte en tu formación!😊😊