In [1]:
from sklearn.utils import resample

# Introducción

El método de remuestreo bootstrap es una técnica usada para estimar estadísticos de una población muestreando un conjunto de datos con reemplazamiento. Puede ser usado para estimar estadísticos tales como la media y la desviación estándar. Es usado en el aprendizaje automático para estimar las abilidades de los diferentes modelos cuando hacemos predicciones con datos no incluidos en el conjunto de entrenamiento. Una propiedad deseada a la hora de representar los resultados de un modelo es que estos puedan ser representados mediante intervalos de confianza, esto es algo que los métodos bootstrap permiten mientras que los métodos como la validación cruzada no permiten esta opción.

# Método Bootstrap

El método bootstrap es una técnica estadística para cuantificar la estimación sobre una población, promediando estimaciones para múltiples muestras de datos. Importante, las muestras son construidas extrayendo observaciones de un gran conjunto de datos y una vez esta observación es extraida se retorna  al conjunto de datos. Esto permite que una observación aparezca más de una vez en una pequeña muestra. Este enfoque para muestrear es llamado muestreo con remplazamiento. Esto proceso puede resumirse como:

* Elegir el tamaño de la muestra

* Mientras el tamaño de la muestra sea menor al seleccionadoç
    
    * Seleccionamos aleatoriamente una observación del dataset
    
    * La añadimos a la muestra

El método bootstrap puede ser usado para estimar un estadístico de una población. Para ello, se toman de forma repetida pequeñas muestras, calculando el estadístico para cada una de las muestras y finalmente se toma el promedio de los estadísticos calculados. Este procedimiento puede resumirse de la siguiente forma:

* Seleccionar un número de muestras bootstrap para realizar

* Seleccionar un tamaño muestral

* Para cada muestra bootstrap

    * Seleccionar una muestra con remplazamiento con el tamaño elegido
    
    * Calcular el estadístico de la muestra
    

* Calcular la media de la muestra de estadísticos calculados

Bootstrap es ampliamente usado y se trata de una herramienta estadística muy potente que puede ser usada para cuantificar la incertidumbre asociada a un estimador o método de aprendizaje estadístico. Es se hace entrenando el modelo con la muestra y evaluando la abilidad del modelo con aquellas muestras no incluidas. Estas muestras no incluidas son llamadas muestras **out-bag** o **OBB**. Este procedimiento de usar bootstrap para estimar la abilidad de un modelo puede resumirse de la siguiente manera:

* Seleccionar un número de muestras bootstrap a realizar

* Seleccionar el tamaño muestral

* Para cada muestra bootstrap:

    * Seleccionar una muestra con remplazamiento con el tamaño elegido
    
    * Fijar un modelo con la muestra
    
    * Estima la abilidad del modelo con las muestras OBB


* Calcular la media de la muestra de estadísticos calculados

Cualquier preparación de datos a priori para fijar el modelo o un tuneo de hiperparámetros de el modelo debe ocurrir dentro del bucle. Esto es para evitar la fuga de datos donde el conocimiento del conjunto de test es usado para mejorar el modelo. Una característica útil del método bootstrap es que los resultados de las estimaciones a menudo forman una distribución gaussianna. Por lo tanto podemos sumarizar esta distribución con una tendencia central, medidas de varianza pueden ser dadas, tales como la desviación estándar y el error estándar. Además, un intervalo de confianza puede ser calculado y usado.

# Configuración de Bootstrap

Existen dos parámetrosque deben ser elegidos cuando realizamos bootstrap: el tamaño de la muestra y el número de repeticiones del procedimiento.

## Tamaño de la muestra

En aprendizaje automático, es común usar el tamaño muestral que es el mismo que el del conjunto de datos original. La muestra bootstrap es de igual tamaño que el conjunto de datos original. Como resultado, algunas muestras aparecerán múltiples veces en la muestra bootstrap mientras que otras no serán seleccionadas.

Si el conjunto de datos es muy grande y la eficiencia computacional es un problema, pequeñas muestras pueden ser usadas, tales como el 50% o 80% del tamaño del conjunto de datos.

## Repeticiones

El número de repeticiones debe ser lo suficientemente grande para asegurarnos de que existe un significado estadístico en los resultados obtenidos. Un número de repeticiones podría ser entre 20 y 30.

# Bootstrap en Python

La librería scikit-learn proporciona una implementación que puede crear una muestra bootstrap. La función **resample()**  puede ser usada con este fin. Esta función toma como argumentos el array de datos, el argumento **replace** que si toma el valor de True quiere decir que estamos haciendo la selección con reemplazamiento en caso contrario tomará el valor de False, el tamaño de la muestra.

In [6]:
#Nos creamos una muestras de datos
data = [0.1, 0.2, 0.3, 0.4, 0.5, 0.6]

#Hacemos uso de resample
boot = resample(data, replace = True, n_samples = 4, random_state = 7)
print('Bootstrap Sample: %s' % boot)

#Vemos las muestras que se quedaron fuera
out_bag = [x for x in data if x not in boot]
print('Out-Bag Sample: %s' % out_bag)

Bootstrap Sample: [0.5, 0.2, 0.4, 0.4]
Out-Bag Sample: [0.1, 0.3, 0.6]
