# 2.2.9 Estimación de estadísticos usando bootstrap

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import pandas as pd

from scipy.stats import norm, lognorm

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
import warnings
warnings.filterwarnings("ignore")

In [3]:
import sys
sys.path.append("../../../") 

from utils.paths import make_dir_line

modality = 'u'
project = 'Analitica predictiva'
data = make_dir_line(modality, project)

raw = data('raw')

La estimación de la distribución de probabilidades (y sus propiedades) de un estadístico suele ser dificil debido a que solo unos pocos estadísticos siguen una distribución de probabilidades conocida. El bootstrap es un método numérico para realizar está estimación a partir de una muestra de datos. Uno de sus usos más importantes es la estimación del error promedio de pronóstico en modelos predictivos comúnmente usados en analítica.

## Descripción del problema

Se tiene la siguiente muestra de datos, obtenida de un experimento. Se desea estimar la media de la población.

In [4]:
x = [0.09, 0.15, 0.18, 0.16, 0.23, 0.35, 0.49, 0.68, 0.71, 0.85, 0.96, 0.98, 0.27]

## Conceptos básicos

A continuación se presentan las principales definiciones asociadas al concepto de bootstrap.

![Alt text](images/bootstrap_1.png)

**Población:** Colección de objetos o individuos sobre los cuales se desea obtener información de interés.

**Muestra:** Grupo obtenido aleatoriamente que es representativo de la población.

**Parámetro:** Un valor que resume una propiedad o característica de la población entera.

**Muestreo sin reemplazo:** Cuando una observación es seleccionada ya no está disponible en adelante.

**Muestreo con reemplazo:** Cada observación es devuelta a la población después de ser seleccionada.

**Muestreo aleatorio:** Muestreo de elementos de forma aleatoria tal que cada miembro de la población tiene igual probabilidad de ser seleccionado.

**Muestreo estratificado:** División de la población en estratos y muestreo aleatorio de cada estrato.

**Muestra aleatoria simple:** Muestra que resulta de muestrear la población sin estratificar.

**Muestra sesgada:** Muestra que no representa la población.

**Sesgo estadístico:** Errores de muestreo o medición que son sistemáticos y producidos por la medición o el muestreo mismo.

**Estadístico:** Un número que resume una propiedad o característica de la muestra.

**Estadístico muestral:** Una métrica calculada para una muestra de datos obtenida de forma aleatoria de la población.

**Distribución muestral:** Es la distribución de probabilidad de un estadístico muestral calculado sobre muchas muestras o remuestreos.

**Error estándar:** Es la desviación estándar del estadístico muestral sobre muchas muestras.

Para estimar el valor de un parámetro de la población mediante un estadístico calculado sobre la muestra, se deben tener en cuenta alguna de las dos siguientes opciones:

- Pruebas de hipótesis (se caracterizaron en el módulo de análisis exploratorio).
- Estimación de intervalos de confianza.

El problema abordado aquí radica en que el estadístico calculado (la media de la muestra) es una aproximación al parámetro real de la población (la media de la población); si se obtienen diferentes muestras de datos, y se calcula el estadístico de interés, se obtendrán distintos valores (distintas medias); entonces, la pregunta es cómo aproximar la media de la población a partir de la muestra de datos. Esta es la utilidad del bootstrapping.

## Bootstrapping

El bootstrap se usa cuando no es posible derivar ecuaciones que permitan aproximar la distribución de probabilidades de un estadístico. El bootstrap se basa en el remuestreo de los datos para poder obtener una muestra del estadístico que se está calculado.

Suponga que tiene una muestra de ocho ejemplos:

$$

\{x1,x2,x3,x4,x5,x6,x7,x8\}

$$

Una muestra bootstap se obtiene de la muestra original, seleccionando ocho elementos de forma aleatoria con reemplazo. Por ejemplo, una muestra bootstrap podría ser:

$$

\{x1,x2,x2,x2,x4,x1,x7,x7\}

$$

Nóte que los elementos pueden repetirse. Sobre cada muestra bootstrap obtenida, se realiza el proceso de cómputo y se obtiene el estadístico de interés. Si este procedimiento se repite, por ejemplo, 500 veces para calcular el estadístico de interés, se tendrían 500 valores posibles de éste. Así, una estimación mucho mejor del valor del estadístico, sería calcular su valor promedio a partir de la muestra de 500 valores. Más aún, podría calcularse el histograma o la distribución de probabilidades de dicho estadístico, lo cual es mucho más informativo.

## Algoritmo bootstrap no paramétrico

- Se tiene la muestra $x=\{xi;1,...,n\}$, que en ese caso es $\{x1,x2,x3,x4,x5,x6,x7,x8\}$ con n=8.
- Se seleccionan B muestras bootstrap independientes $x∗^1,...,x∗^B$ cada una de n elementos obtenidos de la muestra original. Por ejemplo:

$$x∗^1=\{x1,x2,x2,x2,x4,x1,x7,x7\}$$

$$x∗^2=\{x4,x1,x2,x4,x8,x3,x1,x1\}$$

$$x∗^3=\{x7,x7,x1,x3,x6,x1,x4,x8\}$$

y así sucesivamente.

In [5]:
print('ok_')

ok_
