# <span style="color:gold">**Bootstrap**</span>
***

### **Editado por: Kevin Alexander Gómez**
#### Contacto: kevinalexandr19@gmail.com | [Linkedin](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) | [Github](https://github.com/kevinalexandr19)
Este tutorial está basado en el trabajo de [Michael Pyrcz](https://github.com/GeostatsGuy/PythonNumericalDemos).
***

### **Descripción**

En este tutorial, revisaremos el concepto de <span style="color:gold">bootstrap</span> en estadística, usando la librería Numpy.

Este Notebook es parte del proyecto [**Python para Geólogos**](https://github.com/kevinalexandr19/manual-python-geologia), y ha sido creado con la finalidad de facilitar el aprendizaje en Python para estudiantes y profesionales en el campo de la Geología.
***

## **1. ¿Qué significa bootstrap?**
***

Si tenemos un conjuntos de datos, podemos realizar un <span style="color:gold">remuestreo</span> o <span style="color:gold">bootstrap</span> para obtener un nuevo conjunto de datos que será extraído de manera aleatoria y con reemplazo a partir del conjunto original.

<img src="resources/bootstrap.jpeg" alt="Las 4 fases en el análisis de datos" width="800"/>

Este procedimiento estadístico permite simular las condiciones de muestreo original y calcular medidas como el error estándar, intervalos de confianza y pruebas de hipótesis.\
Es importante tener en cuenta que este método no incrementa la cantidad de información en el conjunto de datos, solamente nos ayuda a <span style="color:lightgreen">obtener una mejor estimación acerca de la distribución de las muestras</span>.


## **2. Generación de datos**
***
Usando Python, generaremos un conjunto inicial de datos.

In [None]:
import scipy
import numpy as np
import pandas as pd
import math
import random as rand
import matplotlib.pyplot as plt

Asumiremos que el conjunto tiene una distribución normal o gaussiana $N[0,1]$:

In [None]:
# Número de muestras en el conjunto original
n = 10
# Número de conjuntos a crear con bootstrap
m = 100

# Generador aleatorio de datos
rng = np.random.default_rng()

# Creación del conjunto original
data = np.zeros(n)
for i in range(0, n):
    data[i] = rng.normal() 

Observamos el conjunto original de datos:

In [None]:
print(data)

A partir de este conjunto original, tomaremos `n` muestras con reemplazo unas `m` veces:

In [None]:
bootstrap = np.zeros((n, m)) 

for i in range(0, m):
    for sample in range(0, n):
        bootstrap[sample, i] = np.random.choice(data)

print(f"El conjunto de remuestreo tiene un tamaño de {bootstrap.shape}")

En total, tenemos 100 conjuntos de datos, cada uno de estos conjuntos contiene 10 muestras tomadas del conjunto original (con repetición).

Observamos los primeros 5 conjuntos generados:

In [None]:
bootstrap[:, :5]

## **3. Cálculo de medidas estadísticas**
***
Ahora que tenemos los 100 conjuntos de remuestreo, calcularemos los valores de media y varianza para cada uno de estos conjuntos:

In [None]:
media = np.zeros(m)
varianza = np.zeros(m)

for i in range(0, m):
    media[i] = np.mean(bootstrap[:, i])
    varianza[i] = np.var(bootstrap[:, i])

Observamos los resultados:

In [None]:
media

In [None]:
varianza

## **4. Visualización de la incertidumbre**
***
Ahora que tenemos la media y varianza de los conjuntos generados a través de bootstrap, crearemos histogramas para visualizar su distribución:

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

ax1.hist(media, bins=20)
ax1.set_title("Media - Bootstrap")
ax1.set_xlabel("Valor")
ax1.set_ylabel("Frecuencia")

ax2.hist(varianza, bins=20)
ax2.set_title("Varianza - Bootstrap")
ax2.set_xlabel("Valor")
ax2.set_ylabel("Frecuencia")

plt.show()

Por último, generaremos un resumen estadístico de los valores de media y varianza:

In [None]:
df = pd.DataFrame({"Media": media, "Varianza": varianza})
df.describe()

En conclusión:
- La incertidumbre disminuye rápidamente conforme aumentamos el número de muestras.
- Usando bootstrap, el valor de incertidumbre para la media se aproxima al error estándar.
- Este método nos permite encontrar valores de incertidumbre para cualquier medida estadística.
- El método de bootstrap no toma en cuenta el contexto espacial (e.g. ubicación de los datos, correlación espacial, etc.).


***