#### Importamos las librerías necesarias para el análisis

In [1]:
import pandas as pd
import numpy as np
import random

In [2]:
# Creamos una muestra aleatoria de 10,0000 personas que tienen una edad promedio de 34 años
data = np.random.normal(loc= 34, size=10000)
data

array([32.0277855 , 33.86414986, 34.02166092, ..., 34.55444399,
       33.1253159 , 34.13373702])

In [3]:
# Comprobamos cuál es el promedio de edad de nuestra base
data.mean()

np.float64(34.00271295013872)

#### Iniciamos el procedimiento para calcular el promedio de edad a partir de bootstrapping

In [None]:
# Vamos a crear 40 muestras de tamaño 5 para estimar el promedio
promedio = [] # Esta lista almacenará los promedios calculados de cada una de las muestras aleatorias.
for i in range(40): # Este bucle se ejecuta 40 veces, lo que significa que va a generar 40 promedios.
  muestra = random.sample(data.tolist(), 5) #  toma una muestra aleatoria de 5 datos de la lista data
  # .tolist() convierte un array de numpy en una lista de python estandar.
  prom = np.mean(muestra) # Calcula el promedio de los 5 elementos seleccionados en la muestra
  promedio.append(prom) # el valor de prom se agrega a la lista promedio

La lista llamada promedio que hemos creado va a contener el promedio para las 40 muestras. Para estimar el promedio de la población tenemos que calcular el promedio de la lista promedio.

In [5]:
np.mean(promedio)

np.float64(34.05383243346647)

La técnica de bootstrapping se utiliza en estadística cuando se necesita estimar la distribución de una estadística (como la media, la mediana, la varianza, etc.) a partir de una muestra de datos, sin asumir una distribución específica sino aleatoria. Es especialmente útil cuando no se puede realizar una inferencia confiable debido a la falta de supuestos como normalidad en los datos o cuando las muestras son pequeñas.

En bootstrapping, cada vez obtendríamos un resultado diferente porque tomamos muestras aleatorias con reemplazo de un conjunto de datos. El muestreo por bootstrapping saca promedios de una población creando muestras más pequeñas y se usa para DS e IA para evitar el overfitting. Overfitting ocurre cuando un modelo aprende demasiado bien los datos de entrenamiento, hasta el punto de que memorizan detalles irrelevantes o el ruido en esos datos. Como resultado, el modelo no generaliza bien cuando se le da nueva información, ya que ha aprendido a ser muy específico con los datos de entrenamiento. Al usar bootstrapping, generamos muestras aleatorias del conjunto de datos y calculamos promedios o estadísticas. Esto ayuda a que el modelo no dependa solo de un conjunto específico de datos, sino que se entrene con diferentes "versiones" del conjunto de datos. Esto hace que el modelo sea más robusto y menos probable que se ajuste demasiado a un conjunto de entrenamiento específico. El overfitting ó sobreajuste es un error de modelado que se produce cuando una función se ajusta demasiado a un conjunto limitado de puntos de datos. Así, el modelo da buenos resultados en los datos de entrenamiento, pero falla cuando se enfrenta a nuevos datos. Al entrenar con muchas muestras pequeñas y aleatorias, el modelo no se ajusta demasiado a un conjunto limitado de datos, lo que mejora su capacidad para generalizar y hacer predicciones con nuevos datos.


### Ejemplo práctico:

Imagina que tienes una muestra de 10 personas y quieres estimar el promedio de sus edades. Si no puedes asumir que la edad sigue una distribución normal o si la muestra es muy pequeña para confiar en una aproximación paramétrica, puedes usar **bootstrapping**.

1. **Paso 1**: Tienes una muestra de 10 edades.
2. **Paso 2**: Tomar una muestra aleatoria de 10 edades, pero permitiendo repetir edades, y calcular el promedio de esa muestra.
3. **Paso 3**: Repetir este proceso muchas veces (por ejemplo, 1000 veces).
4. **Paso 4**: Analizar la distribución de los promedios obtenidos en las 1000 repeticiones para obtener un intervalo de confianza del promedio.

### Ventajas del Bootstrapping:
- No requiere supuestos sobre la distribución de los datos (como la normalidad).
- Es fácil de aplicar, incluso con muestras pequeñas.
- Proporciona estimaciones precisas de la variabilidad de las estadísticas.

### Desventajas:
- Requiere una cantidad considerable de cómputo, especialmente con muestras grandes y muchas repeticiones.
- El bootstrapping puede ser menos efectivo si la muestra original es muy pequeña y no es representativa de la población.