# Tarea 4 - Métodos de Monte Carlo y Técnicas de reducción de varianza

In [9]:
library(tidyverse)

── Attaching packages ─────────────────────────────────────── tidyverse 1.2.1 ──
✔ ggplot2 3.0.0.9000     ✔ purrr   0.2.5     
✔ tibble  1.4.2          ✔ dplyr   0.7.6     
✔ tidyr   0.8.1          ✔ stringr 1.3.1     
✔ readr   1.1.1          ✔ forcats 0.3.0     
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()


## Pregunta 2

Cinco elementos, numerados del 1 al 5 se acomodan inicialmente en un orden aleatorio. En cada estado del proceso, uno de los elementos es seleccionado y puesto en el frente de la lista. Por ejemplo, si el orden presente es $(2,3,4,1,5)$ y el elemento 1 se elige, entonces el nuevo orden es $(1,2,3,4,5)$. Supongan que cada selección es, independientemente, elemento $i$ con probabilidad $pi$, donde

$$
\mathbf~{p}'=(\frac{1}{15},\frac{2}{15},\frac{3}{15},\frac{4}{15},\frac{5}{15},)
$$

Sea $L_j$ la posición del $j$-ésimo elemento seleccionado y $L=\sum_{j=1}^{100}L_j$

a. Explique cómo utilizar simulación para estimar $\mathbb{E}[L]$.

Recordemos que hay $5!=120$ permutaciones de los números $\{1, 2, 3, 4, 5\}$. Podemos enumerarlas (por ejemplo en el orden que `combinat::permn` las regresa en `R`) y elegir una es equivalente a extraer una muestra tamaño uno de $P \sim \mathcal{U}\{1,5\}$ (discreta). (Nótese que esta es la parte tardada de todo el proceso, por lo que es mejor generarlas sólo cuando se necesiten e irlas guardando en memoria).

Una vez elegida la distribución inicial, elegimos una muestra tamaño $n=100$ de con la masa de probabilidad $\mathbf{p}$ de arriba. Cada observación es un cambio. Vamos haciendo los cambios en el orden de la muestra, y entre cambio y cambio tenemos la $L_j$ correspondiente. Con este proceso obtenemos las 100 $L_j$, que luego usamos para calcular $L$. Repitiendo el proceso un número grande de veces, aproximamos $\mathbb{E}[L]$ con $\bar{L}$.

b. Calcule $\mathbb{E}[N_i]$, donde $N_i$ es el número de veces que se elige al elemento $i$ en 100.

Notemos que, como las elecciones son independientes, $N_i \sim \textrm{Bin}(100,p_i)$, por lo que $\mathbb{E}[N_i]=100p_i$.

c. Sea $Y = \sum_{i=1}^5iN_i$. ¿Cómo se relaciona $Y$ con $L$?

En ambas, la aleatoriedad queda resuelta sólo con la muestra de las 100 elecciones.

d. Desarrolle un estudio para estimar $L$ usando $Y$ como variable de control

In [21]:
library(combinat)

distribuciones_iniciales <- function(){
    permutacion <- permn(1:5)
    inicial <- sample(1:5, 100, replace=TRUE)
    inicial <- permutacion[inicial]
    inicial
}


actualizar_dual <- function(lambda, j){
    ind <- lambda < lambda[j]   
    lambda[ind] <- lambda[ind] + 1
    lambda[j] <- 1
    lambda
}

simular_proceso<- function(inicial, eleccion){
    
    Ns <- sapply(1:5, function(i) sum(eleccion==i))
    Y <- sum(1:5*Ns)

    estados <- matrix(-1, nrow=101, ncol=5)
    estados[1,] <- sapply(1:5, function(i) which(inicial==i))
        
    L <- rep(-1, 100)
    L[1] <- estados[1,eleccion[1]]
        
    for(i in 2:100){
        L[i] <- estados[i-1, eleccion[i]]
        estados[i,] <- actualizar_dual(estados[i-1,], eleccion[i])
    }
        
    list('Y'=Y, 'L'=sum(L))
        
}
                          
d_inic <- distribuciones_iniciales()
elecciones <- rerun(100, sample(1:5, 100, prob=1:5/15, replace=TRUE))


simular_proceso_n <- map2(d_inic, elecciones, simular_proceso) %>%
                          map(as_data_frame) %>%
                          bind_rows()
simular_proceso_n



[1] "inicial y eleccion:"
[1] 1 2 3 4 5
  [1] 4 4 3 2 1 4 4 4 5 4 4 4 5 1 3 1 3 2 5 4 5 4 1 3 1 3 4 2 4 5 4 5 4 5 1 5 5
 [38] 3 4 4 1 4 3 5 1 5 5 5 1 4 2 3 3 3 5 5 4 5 3 4 5 5 5 3 2 2 5 3 3 5 2 5 2 2
 [75] 5 4 3 1 5 3 4 4 5 5 5 4 2 3 4 5 4 5 4 2 3 3 4 5 3 5
[1] 1 2 3 4 5
[1] 4
[1]  TRUE  TRUE  TRUE FALSE FALSE
[1] 2 3 4 1 5
[1] 3
[1]  TRUE  TRUE FALSE  TRUE FALSE
[1] 3 4 1 2 5
[1] 2
[1]  TRUE FALSE  TRUE  TRUE FALSE
[1] 4 1 2 3 5
[1] 1
[1] FALSE  TRUE  TRUE  TRUE FALSE
[1] 1 2 3 4 5
[1] 4
[1]  TRUE  TRUE  TRUE FALSE FALSE
[1] 2 3 4 1 5
[1] 4
[1] FALSE FALSE FALSE FALSE FALSE
[1] 2 3 4 1 5
[1] 4
[1] FALSE FALSE FALSE FALSE FALSE
[1] 2 3 4 1 5
[1] 5
[1]  TRUE  TRUE  TRUE  TRUE FALSE
[1] 3 4 5 2 1
[1] 4
[1] FALSE FALSE FALSE FALSE  TRUE
[1] 3 4 5 1 2
[1] 4
[1] FALSE FALSE FALSE FALSE FALSE
[1] 3 4 5 1 2
[1] 4
[1] FALSE FALSE FALSE FALSE FALSE
[1] 3 4 5 1 2
[1] 5
[1] FALSE FALSE FALSE  TRUE FALSE
[1] 3 4 5 2 1
[1] 1
[1] FALSE FALSE FALSE  TRUE  TRUE
[1] 1 4 5 3 2
[1] 3
[1]  TRUE  TRUE FALS

Y,L
359,286
390,240
389,252
354,282
380,264
367,262
357,278
356,279
387,259
373,275


In [7]:
1/15+4/15+9/15+16/15+25/15