<a href="https://colab.research.google.com/github/gilvardperez/Ciencia-de-datos/blob/main/Bootstrap.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Bootstrap es una técnica estadística que permite estimar la distribución de muestreo de un estadístico (como la media o la mediana) mediante el remuestreo con reemplazo de los datos de una muestra. Es especialmente útil cuando la teoría estadística clásica es difícil de aplicar, como en muestras pequeñas o distribuciones desconocidas

Usos prácticos del bootstrap incluyen:
•  Estimar intervalos de confianza y errores estándar cuando las fórmulas analíticas son complejas o desconocidas.

•  Validar la robustez de los resultados estadísticos.

•  Comparar distribuciones y realizar pruebas de hipótesis sin asumir una forma específica para la distribución de los datos.

Bootstrap:

Bootstrap es una técnica de remuestreo que se utiliza para estimar la distribución de una estadística de interés, como la media, la mediana, la desviación estándar, etc., o para calcular intervalos de confianza para estas estadísticas. La idea principal detrás de Bootstrap es generar múltiples muestras (con reemplazo) de los datos originales y luego calcular la estadística de interés en cada una de estas muestras. Al repetir este proceso muchas veces, podemos obtener una distribución de la estadística de interés y, a partir de esta distribución, podemos calcular intervalos de confianza, percentiles, etc.

Casos de uso de Bootstrap:

    Estimación de intervalos de confianza: Bootstrap es útil cuando queremos obtener intervalos de confianza para estadísticas de muestras pequeñas o cuando las suposiciones de distribución paramétrica no se cumplen.

    Validación de modelos: En la validación cruzada bootstrap (Bootstrap Cross-Validation), se pueden generar múltiples muestras de entrenamiento y prueba para validar modelos predictivos.

    Estimación de sesgo y varianza: Bootstrap también se puede utilizar para estimar el sesgo y la varianza de un estimador.

    Comparación de métodos: Se puede utilizar para comparar diferentes métodos estadísticos o de aprendizaje automático al calcular intervalos de confianza para sus diferencias.

    Estimación de parámetros: Bootstrap se puede aplicar para estimar parámetros en modelos estadísticos cuando los métodos de estimación estándar son difíciles de aplicar o están sesgados.

En resumen, Bootstrap es una herramienta poderosa y versátil en el arsenal de cualquier analista de datos o científico, que proporciona una manera robusta de obtener estimaciones de parámetros y evaluaciones de incertidumbre en una amplia variedad de situaciones.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.utils import resample

In [None]:
# Cargamos el conjunto de datos Iris
iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)

In [None]:
iris_df.head(5)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [None]:
# Definimos una función para realizar bootstrap en la longitud del sépalo
def bootstrap(dataframe, column_name, n=1000):
    means = []
    for _ in range(n):
        sample = resample(dataframe[column_name])
        means.append(sample.mean())
    return means

In [None]:
# Aplicamos bootstrap a la columna de longitud del sépalo
bootstrap_means = bootstrap(iris_df, 'sepal length (cm)')

In [None]:
means

[]

In [None]:
# Calculamos el intervalo de confianza del 95%
lower = np.percentile(bootstrap_means, 2.5)
upper = np.percentile(bootstrap_means, 97.5)
print(f"Intervalo de confianza al 95% para la media de la longitud del sépalo: {lower:.2f} - {upper:.2f}")

Intervalo de confianza al 95% para la media de la longitud del sépalo: 5.71 - 5.97


Forma iterativa

In [None]:
# Definimos una función para realizar bootstrap en la longitud del sépalo
def bootstrap(dataframe, column_name, n=1000):
    means = []
    for i in range(n):
        sample = resample(dataframe[column_name])
        mean = sample.mean()
        means.append(mean)
        print(f"Iteración {i+1}: Media = {mean:.2f}")
    return means

# Aplicamos bootstrap a la columna de longitud del sépalo
bootstrap_means = bootstrap(iris_df, 'sepal length (cm)')

# Calculamos el intervalo de confianza del 95%
lower = np.percentile(bootstrap_means, 2.5)
upper = np.percentile(bootstrap_means, 97.5)
print(f"\nIntervalo de confianza al 95% para la media de la longitud del sépalo: {lower:.2f} - {upper:.2f}")


Iteración 1: Media = 4.95
Iteración 2: Media = 5.01
Iteración 3: Media = 4.91
Iteración 4: Media = 4.97
Iteración 5: Media = 4.98
Iteración 6: Media = 4.91
Iteración 7: Media = 4.98
Iteración 8: Media = 5.02
Iteración 9: Media = 4.87
Iteración 10: Media = 4.99
Iteración 11: Media = 4.94
Iteración 12: Media = 4.94
Iteración 13: Media = 5.00
Iteración 14: Media = 4.93
Iteración 15: Media = 5.00
Iteración 16: Media = 4.93
Iteración 17: Media = 4.96
Iteración 18: Media = 4.93
Iteración 19: Media = 4.94
Iteración 20: Media = 4.91
Iteración 21: Media = 4.98
Iteración 22: Media = 4.98
Iteración 23: Media = 4.99
Iteración 24: Media = 4.92
Iteración 25: Media = 4.98
Iteración 26: Media = 4.98
Iteración 27: Media = 4.99
Iteración 28: Media = 4.90
Iteración 29: Media = 4.93
Iteración 30: Media = 4.99
Iteración 31: Media = 4.91
Iteración 32: Media = 4.94
Iteración 33: Media = 5.01
Iteración 34: Media = 4.97
Iteración 35: Media = 5.02
Iteración 36: Media = 4.95
Iteración 37: Media = 4.97
Iteración 