Bootstrap
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/series-de-tiempo/blob/master/03-R-bootstrap.ipynb) para acceder a la última versión online

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/series-de-tiempo/blob/master/03-R-bootstrap.ipynb) para ver la última versión online en `nbviewer`. 

---

El bootstrap es una técnica numérica para estimar la distribución de probabilidades de cualquier estadístico calculado sobre una muestra de datos y tiene muchas aplicaciones en modelado predictivo y pronóstico de series de tiempo.

Sea una secuencia $\{x_i; i = 1, ...,n\}$ proveniente de una distribución poblacional $F$ desconocida con media $\mu$ y varianza $\sigma^2$. Esto es:

$$ F \to (x_1, ...,x_n)$$

* $F$ es aproximada a través de la distribución empírica de los datos $G$.

* El parámetro $\theta$ es una función $𝑡(∙)$ de la distribución de probabilidades de la población $𝐹: 𝜃 = 𝑡(𝐹)$

* $\theta$ se aproxima a partir de la distribución empírica de probabilidad de los datos: $\theta = 𝑡(𝐹)$.

* Muestra bootstrap: Sea G la distribución empírica de los datos que coloca una probabilidad de $1/n$ en el dato $𝑥_i, ~𝑖=1,...,𝑛$.Una muestra bootstrap se define como una muestra aleatoria de tamaño $𝑛$ obtenida de $G$:

$$𝑥^∗ = ( 𝑥_1^∗, 𝑥_2^∗, ..., 𝑥_n^*)$$

por ejemplo, $𝑥_1^∗ = 𝑥_3, 𝑥_2^∗= 𝑥_1, 𝑥_3^∗ = 𝑥_3, ...$

**Algoritmo bootstrap no paramétrico**

* Se tiene la muestra $x=\{x_i; 1,...,n\}$


* Se seleccionan $B$ muestras bootstrap independientes $x^{*1}, ..., x^{*B}$ cada una de $n$ elementos obtenidos de la muestra original.


* Para cada muestra bootstap se calcula el estadístico de interes: $\theta(b) = t(x^{*b})$


* La muestra $\theta(1), ..., \theta(B)$ representa la distribución de probabilidades de $\theta$ y puede calcularsele valor esperado, desviación estándar, etc.

In [15]:
## sea la muestra de datos para la cual se desea obtener 
## la distribución de probabilidades de la media
x <- c(1, 4, 5, 3, 8, 4, 3, 2, 1, 0, 2, 4, 7)

In [16]:
## por el teorema del límite central:
## la media de los datos sigue una distribución 
## normal con media m y varianza = s2 / n
n <- length(x)     # cantidad de datos
m <- mean(x)       # media muestral
s2 <- var(x) / n   # varianza muestral
cat(m, s2)

3.384615 0.4171598

In [17]:
## el mismo calculo usando bootstrap
B <- 200       # cantidad de replicas bootstrap
y = rep(0, B)  # muestra bootstrap

for(i in 1:B) {
    z <- sample(x,              # muestra original
                size = n,       # tamaño de la muestra bootstrap
                replace = TRUE) # se pueden repetir valores de la muestra original
    
    y[i] <- mean(z)             # replica bootstrap del estadístico
}

m_bootstrap   <- mean(y)        # valor esperado de la muestra bootstrap
s2_bootstrap  <- var(y)         # varianza de la muestra bootstrap

cat(m_bootstrap, s2_bootstrap)

3.392692 0.386215

**Ejercicio.--** El paquete `boot` que implementa la metodología de bootstraping. Uselo para repetir los cálculos anteriores. 

Bootstrap
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/series-de-tiempo/blob/master/03-R-bootstrap.ipynb) para acceder a la última versión online

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/series-de-tiempo/blob/master/03-R-bootstrap.ipynb) para ver la última versión online en `nbviewer`. 

---