# Bootstrapping
Es una técnica de remuestreo utilizada cuando se tiene una población pequeña. Lo que se hace es tomar una muestra de esa población y a partir de esa muestra se vuelve a tomar otra muestra de forma aleatoria y con reemplazo; es decir, que una vez que escoge al elemento de la muestra original, se puede volver a escoger como el siguientes ejemplo:

In [1]:
muestra_original = [1, 2, 3, 4, 5]

bootstrap_1 = [1, 5, 2, 5, 4]
bootstrap_2 = [5, 2, 1, 4, 4]

Algo que se debe cumplir es que las muestras obtenidas deben ser del tamaño de la muestra original y como ventajas. Este método permite evaluar la distribución de un estadístico, esto al calcular el estadístico y graficar cada resultado en un histograma, esto nos permite saber la variabilidad de ese estadístico.

Además se usa en modelos de machine learning para entrenar el modelo con multiples muestras en vez de con una sola, a este método se le llama **Bagging**.

In [2]:
import numpy as np
import pandas as pd
import random

In [31]:
# creamos una serie de 100 datos con distribucion normal con media 34
data = np.random.normal(loc = 34, size = 100)
data

array([33.27903299, 33.08991445, 33.0911206 , 35.08467787, 34.45679091,
       36.09774821, 33.34347023, 34.09813004, 33.64085299, 32.78839333,
       34.44111516, 33.79146017, 34.42500514, 34.32149427, 33.67973244,
       34.01285579, 33.60132702, 34.89269366, 35.41231482, 34.28810454,
       32.9611472 , 33.80124573, 34.04846786, 34.75968569, 34.20716889,
       33.22035466, 34.06385503, 34.47436795, 33.41448457, 34.94279893,
       33.29140448, 36.12080945, 33.7532285 , 33.70642785, 34.32056822,
       33.49799716, 32.4384087 , 34.75478402, 36.1475047 , 34.40042514,
       33.20520279, 33.05746963, 35.45907915, 34.15596717, 32.91589704,
       34.26683455, 33.05724648, 35.09701241, 35.34059044, 34.71086645,
       33.48036341, 32.61959338, 34.37111258, 33.79198565, 34.03953908,
       32.02526798, 33.17357707, 35.158017  , 32.60524367, 35.40739122,
       32.94833144, 33.88710677, 33.19682986, 33.75227877, 34.86230171,
       34.94930285, 33.88368858, 35.02224251, 34.40668144, 34.10

In [32]:
#compronamos que la media es muy cercana a 34
data.mean()

34.06807974525593

Iniciamos bootstrapping para calcular el promedio de edades con un tamaño de muestras n=40 (el número de muestras puede ser cualquiera, siempre y cuando sea lo suficientemente grande para ser significativamente estadístico).

In [33]:
#vamos a 
promedio = []
for i in range(40):
    muestra = random.choices(data.tolist(),k=100) #muestras de 5 elementos
    prom = np.mean(muestra)
    promedio.append(prom)

In [35]:
#obtenemos un promedio muy parecido al de la muestra original
np.mean(promedio)

34.04933500440254

# Validación cruzada
Técnica utilizada para evaluar los resultados de un análisis estadístico. EL procedimiento es el siguiente:
1. Dividimos los datos de forma aleatoria en k grupos de tamaño similar
2. Se usan k-1 grupos para entrenar el modelo, el grupo restante se usará para validar el modelo
3. El proceso se repite k veces usando un grupo distinto como validación


Realizaremos un ejemplo con una tabla de kaggle sobre cancer de seno en Winsconsin: https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data

Tiene una categorización de si el canser es Benigno (B) o Maligno (M) junto con diferentes medidas.

In [60]:
df = pd.read_csv('cancer_data.csv')
df.dropna(axis = 1, inplace =True) #eliminamos una columna con valor NaN
df.head()

Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [61]:
X = df.iloc[:,2:] # a partir de la tercer columna seran nuestras variables independientes
Y = df.iloc[:,1] # la segunda columna sera nuestra variable categórica

In [62]:
# distribución de variables categoricas
Y.value_counts()

B    357
M    212
Name: diagnosis, dtype: int64

In [43]:
# entrenaremos un algoritmo de Machine Learning
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [63]:
# con el siguiente codigo dividimos la data en data de entrenamiento y prueba
# donde el conjunto de prueba va a ser del 30% del conjunto total
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,test_size = 0.3,
                                                    random_state = 4 )


#definimos el modelo como objeto
modelo = DecisionTreeClassifier()
modelo.fit(X_train, Y_train)
resultado = modelo.score(X_test,Y_test)
print(resultado)

0.8947368421052632


De los resultados de prueba, el 89% fueron clasificados correctamente. Es un buen resultado pero vamos a mejorarlo con validación cruzada:

In [64]:
from sklearn.model_selection import KFold

In [66]:
# creamos 10 grupos donde sobre estos 10 realizaremos la clasificacion 
# y el resultado sera el promedio del entrenamiento de los 10 grupos
modelo = DecisionTreeClassifier()
kfold_validation = KFold(10)

In [67]:
from sklearn.model_selection import cross_val_score
resultados = cross_val_score(modelo, X, Y, cv = kfold_validation)

print(resultados)

[0.94736842 0.9122807  0.87719298 0.9122807  0.94736842 0.96491228
 0.9122807  0.96491228 0.89473684 0.94642857]


Por cada grupo obtenemos resultados muy buenos, al realizar el promedio tenemos el resultado final:

In [68]:
resultados.mean()

0.9279761904761905

Que es del 92%, mejor que el entrenar el modelo con una sola muestra.