## El método de Monte Carlo


El __método de Monte Carlo__ es un procedimiento general para seleccionar muestras aleatorias de una población utilizando números aleatorios.

La denominación Monte Carlo fue popularizado por los científicos Stanislaw Ulam, Enrico Fermi, John von Neumann, y Nicholas Metropolis, entre otros, quienes ya trabajaban sobre __muestreo estadístico__. Su nombre hace referencia al Casino de Montecarlo en Mónaco.


### Aplicación en cálculos matemáticos

Este método se utiliza para calcular numéricamente expresiones matemáticamente complejas y difíciles de evaluar con exactitud, o que no pueden resolverse analíticamente:
- Cálculo de integrales definidas
- Aproximaciones al valor de $\pi$.

Este método se basa en dos resultados fundamentales de la Teoría de la Probabilidad:

1. __Ley de los Grandes Números__:
Si $X_1$, $X_2$, $\dots, X_n, \dots$ son variables aleatorias independientes, idénticamente distribuidas, con media $\mu$, entonces:
\begin{equation}
P\left(\lim_{n\to \infty} \frac{X_1+X_2+\dots+X_n}n = \mu\right)=1.
\end{equation}
Equivalentemente se suele decir que, con probabilidad 1,
$$\lim_{n\to \infty} \frac{X_1+X_2+\dots+X_n}n = \mu.$$
2. Si $X$ es una variable aleatoria absolutamente continua, con función de densidad $f$, y $g:\mathbb R \mapsto \mathbb R$ es una función, entonces $g\circ X$ es una variable aleatoria y su valor esperado está dado por 
$$E[g(X)]=\int_{-\infty}^\infty g(x)\,f(x) \, dx.$$


Supongamos que se quiere determinar un cierto número $\theta$, desconocido, y que se sabe que este valor puede calcularse como 
$$\theta=E[g(X)]$$
para cierta variable aleatoria $X$ que posee una distribución $\mathcal F$ (por ejemplo, con distribución uniforme en $(0,1)$). 

En algunos casos puede ocurrir que, por la naturaleza de la función $g$, o de la función de densidad de $X$, resulta muy difícil o imposible determinar $E[g(X)]$. 

El método de Monte Carlo propone encontrar un __valor estimado__ de $\theta$, donde _estimado_ significa que hay una alta probabilidad de obtener un valor muy cercano a la verdadera solución. Aclaremos este punto.

El método de Monte Carlo considera una secuencia $X_1$, $X_2$, $\dots$ de variables aleatorias, independientes, todas con la misma distribución de $X$, es decir, $X_i \sim \mathcal F$ para todo $i\ge 1$. Entonces $g(X_1)$, $g(X_2)$, $\dots g(X_n), \dots $ son todas variables aleatorias independientes (¿por qué?), con media igual $\theta=E[g(X)]$, y por lo tanto:
\begin{equation*}
\theta=\lim_{n\to \infty} \frac{g(X_1)+g(X_2)+\dots+g(X_n)}n,
\end{equation*}
__con probabilidad $1$__. 

Notemos que el lado izquierdo de la igualdad es un número, mientras que lo que está a la derecha es una variable aleatoria. Por ello es importante la aclaración ''con probabilidad 1'', porque indica que la probabilidad del evento donde ese límite es igual a $\theta$ es 1.
Entonces es importante aclarar: la Ley de los Grandes Números no dice que exista una cota del error 
\begin{equation*}
|\theta - \frac{g(x_1)+g(x_2)+\dots+g(x_n)}n| 
\end{equation*}
para cualquier realización de las $X_i$:
$$X_1=x_1,\quad X_2=x_2,\quad X_3=x_3,\quad \dots \quad X_n=x_n,$$
y un $n$ suficientemente grande; sino que establece que para __casi__ todas las realizaciones ocurre que
$$\lim_{x\to\infty} \frac{g(x_1)+g(x_2)+\dots+g(x_n)}n=\mu.$$
Dicho de una manera más coloquial, es prácticamente improbable que una realización de las $X_i$'s no cumpla que el límite de sus promedios
$$\frac{x_1+x_2+\dots+x_n}n$$ se aproxime a $\theta$ a medida que $n$ tiende a infinito.

## Estimación de integrales definidas

### Integración sobre $(0,1)$

Una de las aplicaciones del método de Monte Carlo es para el cálculo de integrales definidas. Veamos primero el caso en que se desee calcular una integral de la forma
$$\int_0^1 g(x)\,dx,$$
y que por alguna razón esta integral es difícil de calcular. Pensemos por ejemplo, si $g$ es la densidad de una v.a. normal estandar. 

Denotamos con $\theta$ a este valor desconocido:
$$\theta=\int_0^1 g(x)\,dx,$$
y consideramos $U\sim \mathcal U(0,1)$. Entonces la función de densidad de $U$ es 

$$f(x)=I_{(0,1})(x)=\begin{cases} 1 & 0<x<1 \\
                                  0 & c.c
                    \end{cases},
$$
y por lo tanto se cumple que:
$$\theta=\int_0^1 g(x)\,f(x)\,dx = E[g(U)].$$


Por lo tanto, si $U_1, \ U_2, \dots$ son v.a. uniformes en $(0,1)$, independientes, entonces 

$$\lim_{N \to \infty} \frac 1N \sum_{i=1}^N g(U_i) = \theta$$

con probabilidad $1$.

Consideramos entonces una muestra de tamaño $N$ de $U_1$, $U_2$, $\dots U_n$, y __estimamos__ el valor de $\theta$ con un promedio simple de esta muestra. Por ejemplo, podemos estimar el valor de la integral
$$\int_0^1 (1-x^2)^{3/2}\,dx \sim \frac 1N \sum_{i=1}^N (1-u_i^2)^{3/2},$$
donde $u_1$, $u_2$, $\dots$, $u_n$ es una realización de las v.a. $U_1$, $U_2$, $\dots U_N$.

El valor exacto de esta integral es $\frac{3\,\pi}{16}$, aproximadamente 0.5890486226.


In [None]:
from random import random
import matplotlib.pyplot as plt
import numpy as np
% matplotlib inline

In [None]:
##Montecarlo para estimación de integrales entre 0 y 1
##g(x)=(1-x^2)^{3/2}

def MC(g,Nsim): ##estimación de la integral de g con Nsim simulaciones
    Integral=0
    for i in range(Nsim):
        Integral+=g(random())
    return Integral/Nsim

def g(u): ##función a integrar
    return  (1-u**2)**(1.5)
    

Nsim=1000
print('El valor estimado de la integral con ')
for i in range(4):
    print(Nsim*10**i, 'simulaciones es ',MC(g,Nsim*10**i))


N=300
x=np.empty(N,float)
for i in range(N):
	x[i]=random()
#x = np.linspace(0.1, 2*np.pi, 10)
plt.stem(x,g(x));
plt.savefig('integral0a1.pdf')
plt.show()
              

 
### Integración sobre un intervalo $(a,b)$

Para estimar el valor de una integral definida, sobre un intervalo $(a,b)$, con $a$ y $b$ reales, se aplica un cambio de variables. Esto es, si 
$$\theta= \displaystyle\int_a^b g(x) \, dx,$$ 
con $a<b$, entonces por sustitución definimos:
$$y=\frac{x-a}{b-a},\qquad \qquad dy = \dfrac{1}{b-a}\,dx$$
y así el valor de $\theta$ es una integral definida entre $0$ y $1$:

$$\int_a^b g(x) \, dx = \int_0^1 g(a+(b-a)y) (b-a)\, dy = {\int_0^1 h(y)\,dy.}$$ 
donde 
$$h(y)=g(a+(b-a)y) (b-a), \qquad y \in (0,1).$$

Por ejemplo, podría estimarse el valor de la integral siguiente con $N$ simulaciones:
$$\int_{-1}^{1}e^{x+x^2}\,dx.$$
En este caso, consideramos el cambio de variable $y=\frac{x+1}2$, $dy=\frac 12 dx$, y entonces:
$$\int_{-1}^{1}e^{x+x^2}\,dx=\int_{0}^{1}e^{(2y-1)+(2y-1)^2} 2dy=2\int_{0}^{1}e^{4y^2-2y} dy.$$

Una estimación con $N$ simulaciones estará dada por una expresión:
$$\frac 2N\, \sum_{i=1}^N e^{4u_i^2-2u_i},$$
donde $u_1$, $u_2$, $\dots$, $u_n$ es una realización de las v.a. $U_1$, $U_2$, $\dots U_N$, todas uniformes en $(0,1)$ e independientes entre sí.


In [None]:
##Montecarlo para estimar la integral de h(x)=e^{x+x^2} en (-1,1)
import numpy as np

Nsim=1000 ##cantidad de simulaciones
def IntegralMC(g,a,b,Nsim):
    Integral=0
    for i in range(Nsim):
        Integral+=g(a+(b-a)*random())
    return Integral*(b-a)/Nsim

a=-1  ## a <b, extremos del intervalo
b=1        
def g(x):
    return np.exp(x+x**2)
    
print('El valor estimado de la integral de g entre ',a,'y',b)
for i in range(5):
    print('con ',Nsim,'simulaciones es', IntegralMC(g,a,b,Nsim) )
    Nsim*=10

x1 = np.linspace(a, b, 100)
y1 = g(x1)

x = np.linspace(0, 1, 100)
y = (b-a)*g((b-a)*x+a)

plt.grid(True)
plt.plot(x,y,'r',label='y=(b-a)*g(a+(b-a)*x)')
plt.plot(x1,y1,'b',label='y=g(x)')
plt.legend()
plt.savefig('cambio_variables.pdf')
plt.show()


### Integración sobre $(0,\infty)$

En el caso de la estimación de una integral en el intervalo $(0,\infty)$:

$$\theta= \displaystyle\int_0^\infty g(x) \, dx,$$

también se aplica un cambio de variables:

$$y=\frac{1}{x+1},\qquad \qquad dy = -\frac{1}{(x+1)^2}\,dx=-y^2\, dx.$$
Luego se tiene que:

$$\int_0^\infty g(x) \, dx = -\int_1^0 \frac{g(\frac{1}{y}-1)}{y^2}\, dy =\int_0^1 \frac{g(\frac{1}{y}-1)}{y^2}\, dy ={\int_0^1 h(y)\,dy,}$$
con
$$h(y)=\frac{1}{y^2}g(\frac 1y -1).$$

Por ejemplo, se puede estimar la siguiente integral:

$$\int_0^\infty\cos(x)\,e^{-x}\,dx$$
 
 

In [None]:
##Montecarlo en intervalo (a,\infty)
def MCinfty(g):
    Integral=0
    for i in range(Nsim):
        u=random()
        Integral+= g(1/u-1)/u**2
    return Integral/Nsim 

def g(x):
    return np.sin(x)*np.exp(-x)


a=0.01
Nsim=1000000
print('Integral estimada con ',Nsim,'simulaciones:', MCinfty(g))

x1 = np.linspace(a, 10, 500)
y1 = g(x1)

x = np.linspace(0.01, 1, 100)
y = g(1/x-1)/x**2


plt.grid(True)
plt.plot(x,y,'r',label='y=g(1/x-1)/x**2')
plt.plot(x1,y1,'b',label='y=g(x)')
plt.legend()

plt.show()


### Integrales múltiples

El método de Monte Carlo para el cálculo de integrales en una variable no es muy eficiente, comparado con otros métodos numéricos que convergen más rápidamente al valor de la integral. Sin embargo, para la estimación de integrales múltiples este método cobra mayor importancia ya que computacionalmente es menos costoso.

Nuevamente, una integral múltiple de una función en varias variables definida en un hipercubo de lado $1$ puede estimarse con el método de Monte Carlo.

Para calcular la cantidad 
$$\theta = \int_0^1\dots \int_0^1 g(x_1,\dots, x_l)\, dx_1\dots dx_l$$
utilizamos el hecho que
$$\theta=E[g(U_1,\dots, U_l)]$$
con $U_1,\dots, U_l$ independientes y uniformes en $(0,1)$.


Si $$U_1^1, \dots, U_l^1$$
$$U_1^2, \dots, U_l^2$$
$$\vdots$$
$$U_1^n, \dots, U_l^n$$
son $n$ muestras independientes de estas $l$ variables, podemos estimar el valor de $\theta$ como
$$\theta \sim \sum_{i=1}^n \frac{g(U_1^i, \dots, U_l^i)}{n}$$

###  Cálculo aproximado el valor de $\pi$

Una aplicación de Monte Carlo para la estimación de integrales múltiples es el cálculo aproximado del valor de $\pi$. 
Recordemos que el área de un círculo de radio $r$ es $\pi\cdot r^2$. Si tomamos $r=1$, entonces $\pi$ está dado por el valor de la integral

\begin{equation*}
\int_{- 1}^{ 1} \mathbb I_{\{x^2+y^2<1\}}(x,y) dx  dy.
\end{equation*}

Si $X$ e $Y$ son v.a. indendientes, uniformes en $(- 1, 1)$, ambas con densidad
$$f_X(x)=f_Y(x)=\frac 12 \cdot \mathbb I_{(-1,1)}(x),$$
entonces su densidad conjunta es igual al producto de sus densidades:
$$f(x,y)=f_X(x)\cdot f_Y(y)=\frac 14\cdot \mathbb I_{(-1,1)\times (-1,1)}(x,y).$$

En particular, $(X,Y)$ resulta un vector aleatorio con distribución uniforme en $(-1,1)\times (-1,1),$ y tenemos que 

$$\pi=\int_{-1}^{1}\int_{-1}^{1} \mathbb I_{\{x^2+y^2<1\}}(x,y)\,dx\,dy=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} 4\cdot \mathbb I_{\{x^2+y^2<1\}}(x,y)\,f(x,y)\,dx\,dy.$$

Entonces 

$$\frac{\pi}4=E[g(X,Y)],$$

donde 

$$g(x,y)=I_{\{x^2+y^2<1\}}(x,y).$$


Entonces, para calcular $\pi$ debemos generar secuencias de pares $(X_i,Y_i)$, $i\ge 1$, donde $X_i$ e $Y_i$ son variables aleatorias  uniformes en $(-1,1)$, y luego estimar el valor de $\pi$ como:

$$4\cdot  \frac 1N \,\sum_{j=1}^N \mathbb I_{x^2+y^2\le 1}(x_i,y_i).$$

En otras palabras, $\pi$ será estimado por la proporción de pares $(X,Y)$ que caigan dentro del círculo de radio 1, multiplicado por 4.

Notemos que si $U_1, U_2 \sim  U(0,1)$,  entonces
$$X =2U_1-1 \qquad Y=2U_2-1$$
verifican $X, \ Y\sim  U(-1, 1)$.

In [None]:
from random import random
###Estimación de \pi con Monte Carlo
Nsim=1000 #Cantidad de iteraciones

def valorPi(Nsim):
    enCirculo=0.
    for i in range(Nsim):
        u=2*random()-1
        v=2*random()-1
        if u**2+v**2<=1:
            enCirculo+=1
    return 4*enCirculo/Nsim

for i in range(5):
    print(valorPi(Nsim),": El valor estimado de pi con", Nsim, "simulaciones")
    Nsim*=10



In [None]:
### ¿Qué estima el siguiente código?
Nsim=10000000

numMisterio=0
for i in range(Nsim):
    n, sumaRandom=0,0
    while sumaRandom<1:
        sumaRandom+=random()
        n+=1
    numMisterio+=n
print(numMisterio/Nsim)

In [None]:
### ¿Qué estima el siguiente código?
Nsim=10000000

numIncognito=0
for i in range(Nsim):
    n, prodRandom=0,random()
    while prodRandom>np.exp(-1):
        prodRandom*=random()
        n+=1
    numIncognito+=n
print(numIncognito/Nsim)