In [None]:
import holoviews as hv
hv.extension('bokeh')

In [None]:
import scipy.stats
import numpy as np
from IPython.display import YouTubeVideo


# Simulación, modelos generativos y método de Monte Carlo


## ¿Qué es y para que sirve simular?


### Definiciones de simular

- ["Hacer que algo parezca real no siéndolo"](https://www.rae.es/dpd/simular)
- Del latín [simulâre: "copiar, representar"](https://es.wiktionary.org/wiki/simulaci%C3%B3n) o [simulatio "acción y efecto de imitar algo"](http://etimologias.dechile.net/?simulacio.n)
- Reproducir artificialmente un fenómeno o las relaciones entrada-salida de un sistema


Una simulación digital es la aplicación de un modelo computacional para la predicción de eventos físicos o el comportamiento de sistemas de ingeniería

<img src="images/paradigms.jpg" width="600">

### ¿Por qué simulamos en ingeniería y ciencia?

La simulación nos permite explorar nuevas teorías o diseñar nuevos experimentos para probar dichas teorias

Usando simulación podemos estudiar fenomenos que son de plano no observables o muy difíciles/caros/peligrosos/imprácticos de observar o medir

Usando simulaciones podemos 

- analizar un sistema antes de haberlo construido
- analizar situaciones a las que el sistema aun no ha sido expuesto
- realizar predicciones sobre el comportamiento del sistema
- analizar la influencia e inter-relaciones entre las variables del sistema y en consecuencia entender mejor su operación. [Ceteris paribus](https://en.wikipedia.org/wiki/Ceteris_paribus)

Los simuladores son también ampliamente usados en educación

Con el rápido avance y la disminución en costos de la computación, la simulación digital se ha vuelto una herramienta clave en muchas disciplinas (eléctrica, mecánica, química, aeroespacial, nuclear, biomédica, materiales, etc)

> [Los principales desafíos de los simuladores están en la validación, verificación y medición de incerteza de los modelos](http://www.mcs-uab.com/docs/NSF.Simluation-Based_Engineering_Science.2006.pdf)



<img src="images/morpho.jpg" width="700">

## Modelo generativo

> [“What I cannot create, I do not understand.” Richard Feynman](https://jcs.biologists.org/content/joces/130/18/2941.full.pdf)

Sea un observación descrita por $x$ que viene de una distribución de probabilidad $p^*(x)$

Un modelo generativo es una aproximación $p_\theta(x) \approx p^*(x)$ con la cual podemos generar nuevos ejemplos  aleatorios de $x$

Sea por ejemplo la siguiente muestra de diez datos escalares y continuos

In [None]:
with open("../data/mistery_data.npy", "rb") as f:
    data = np.load(f)
print(data)

Como se vio en la unidad anterior podemos ajustar un modelo probabilístico usando la estimación de máxima verosimilitud

En este ejemplo seleccionamos una distribución normal y la ajustamos con `scipy.stats`

In [None]:
# Seleccionamos una distribución
dist = scipy.stats.norm 
# Ajustamos los parámetros con MLE
args = dist.fit(data)   
# Estos son los parámetros ajustados
print(args)

Luego creamos un modelo con los parámetros ajustados. Al ser un modelo probabilístico podemos generar nuevos datos

In [None]:
model = dist(*args) # Crear modelo
synthetic_data = model.rvs(size=1000) # Generar datos
print(synthetic_data[:10])

In [None]:
edges, bins = np.histogram(data, bins=5, density=True)
hist_real = hv.Histogram((edges, bins),kdims='datos', vdims='Frecuencia', 
                         label='Histograma datos reales')
x = np.linspace(model.ppf(0.001), model.ppf(0.999))
model_plot = hv.Curve((x, model.pdf(x)),kdims='datos', vdims='Frecuencia', 
                      label='Modelo aprendido')
edges, bins = np.histogram(model.rvs(size=1000), bins=20, density=True)
hist_synt = hv.Histogram((edges, bins), kdims='datos', vdims='Frecuencia', 
                         label='Histograma datos sintéticos')

(hist_real + model_plot + hist_synt).opts(hv.opts.Histogram(fill_alpha=0.25))

Secreto relevado: Los datos fueron creados a partir de una distribución normal con media 10 y desviación estándar 4

A pesar de tener pocas observaciones el modelo parece haberse ajustado bien, pero ¿Qué hubiera pasado si hubieramos escogido otra distribución para ajustar? ¿Cómo evaluamos si el modelo escogido es adecuado?

Pasemos ahora a un ejemplo "de la vida real" cuyos datos no se distribuyen normal. Ajustemos una distribución normal multivariada y generemos algunos datos ¿Le parecen aceptables?

In [None]:
with open("../data/mnist_data.npy", "rb") as f:
    data = np.load(f) 
    
# TODO: USAR EJEMPLOS DE UN SOLO DIGITO
    
dist = scipy.stats.multivariate_normal 
mu = np.mean(data.reshape(-1, 28*28), axis=0) # MLE de la media
cov = np.cov(data.reshape(-1, 28*28), rowvar=False) # MLE de la covarianza
model = dist(mean=mu, cov=cov+0.001*np.eye(28*28)) # Crear modelo
new_data = model.rvs(size=10) # Generar datos
"""
fig, ax = plt.subplots(2, 10, tight_layout=True, figsize=(8, 2))
for i in range(10):
    ax[0, i].matshow(data[i], cmap=plt.cm.Greys_r)
    ax[0, i].axis('off')
    ax[1, i].matshow(new_data[i].reshape(28, 28), cmap=plt.cm.Greys_r)
    ax[1, i].axis('off')
"""

real_list = [hv.Image(sample).opts(width=100, height=100) for sample in data]
synt_list = [hv.Image(sample.reshape(28, 28)) for sample in new_data]

layout = hv.Layout(real_list + synt_list).cols(10)
layout.opts(hv.opts.Image(width=80, height=80, cmap='binary', xaxis=None, yaxis=None))

Lamentablemente los ejemplos de la vida real son demasiado complejos para modelarse con distribuciones sencillas

Es mucho más conveniente asumir que existe una variable oculta o latente $z$ con una distribución sencilla $p(z)$ que luego se modifica a través de una transformación  $p(x|z)$ para obtener un ejemplo de $x$

En ese caso buscamos modelar la evidencia o verosimilitud marginal

$$
p(x) = \int_{\mathcal{z\in Z}} p(x|z) p(z) \,dz = \int_{\mathcal{z\in Z}} p(x, z) \,dz
$$

Esto además nos permite condicionar el sistema generador con variables que nos interesen

> [Los modelos generativos se investigan muy activamente hoy en día](https://openai.com/blog/generative-models)

[Ejemplo](https://arxiv.org/abs/1807.03039) de un modelo generativo con variable latente entrenado sobre imágenes de rostros humanos.

In [None]:
YouTubeVideo('exJZOC3ZceA')

## Intermedio: Recordatorio del Teorema de Bayes

De las propiedades de las probabilidades condicionales y la ley de probabilidades totales podemos escribir

$$
p(y|x) = \frac{p(x|y) p(y)}{p(x)} = \frac{p(x|y) p(y)}{\int p(x|y) p(y) \,dy}
$$

Tipicamente $x$ representa un conjunto de datos que hemos observado a través de un experimento e $y$ algún parámetro que queremos estimar. 

**Reflexione:** ¿Qué representan $p(y)$ y $p(y|x)$? ¿Cuándo es conveniente usar el teorema de bayes?


**Desafio:** La marginalización de la variable latente, el cálculo de la esperanza de una variable continua o el cálculo de la evidencia en el teorema de Bayes requiere resolver integrales que pueden ser muy complicadas



## Métodos de Monte Carlo

Los métodos de Monte Carlo son una clase de métodos para resolver problemas matemáticos **usando muestras aleatorias** (o más bien pseudoaleatorias)

Los métodos de Monte Carlo se usan para predecir el comportamiento de un sistema en un escenario incierto (aleatorio)

Por ejemplo en la siguiente figura se predice el **valor esperado** del Producto Interno Bruto (PIB, GDP en inglés) per capita a un cierto horizonte de tiempo

<img src="images/montecarlo1.png" width="500">

Pero también pueden usarse en casos completamente determinísticos

Por ejemplo en el caso de [estimación de iluminación](https://en.wikipedia.org/wiki/Global_illumination), la solución analítica es muchas veces infactible de calcular. En lugar de eso se puede aproximar usando una [muestra aleatoria de rayos](https://en.wikipedia.org/wiki/Path_tracing) lanzados desde la fuente de iluminación

Si lanzamos "suficientes" rayos al azar entonces podemos modelar bien la iluminación real

<img src="images/montecarlo2.png" width="400">

### Breve historia de los métodos de Monte Carlo

En los 40s [Stanislaw Ulam](https://en.wikipedia.org/wiki/Stanislaw_Ulam), matemático polaco-américano, estaba en cama recuperandose de una enfermedad y pasaba el tiempo jugando solitario. Empezó a interesarse en calcular la probabilidad de ganar el juego de solitario. Trató de desarrollar las combinatorias sin éxito, era demasiado complicado

Luego pensó

> Supongamos que juego muchas manos, cuento las veces que gano y divido por la cantidad de manos jugadas

Sin embargo el había jugado muchas manos sin ganar, posiblemente le tomaría años hacer este conteo

Ulam pensó entonces en simular el juego usando un computador, por lo que recurrió a [John von Neumann](https://en.wikipedia.org/wiki/John_von_Neumann), quien implementó el algoritmo propuesto por Ulam en el [ENIAC](https://en.wikipedia.org/wiki/ENIAC)

Más adelante este algoritmo fue central en las simulaciones realizadas en el proyecto Manhattan. En aquel entonces [Nicholas Metropolis](https://en.wikipedia.org/wiki/Nicholas_Metropolis), colega de von Neumann y Ulam sugirió el nombre de Monte Carlo, haciendo alusión al famoso [casino de Monte Carlo](https://es.wikipedia.org/wiki/Casino_de_Montecarlo) que se encuentra en principado de Monaco en Europa.


### Esquema general  de un método de Monte Carlo

1. Se muestrean aleatoriamente las variables de entrada $X$
1. Se calcula una "cantidad de interés" $Y=g(x)$ (variable de salida)
1. Se reduce el resultando usando estadísticos, por ejemplo $\bar Y$ y $\sigma_Y$

La cantidad de interés es también una variable aleatoria. Es conveniente que las variables de entrada sigan una distribución sencilla (e.g. uniforme)

### Estimando el valor esperado de una función

El valor esperado de una función $g(x)$ es

$$
\mathbb{E}[g] = \int g(x) f(x) \,dx
$$

donde $f(x)$ es la densidad de $x$

Si la función y/o la integral son muy complicadas de calcular podemos en lugar de eso

- Muestrar aleatoriamente $N$ valores $x_i \sim f(x)$
- Evaluar $y_i = g(x_i)$
- aproximar el valor esperado como $V\frac{\sum_i y_i}{N}$

donde $V = \int f(x) \,dx$ es el volumen de integración

Cuando el método de Monte Carlo se usa para calcular un valor esperado se llama "Integración por Monte Carlo"

### Ejemplo: Calculando $\pi$ usando integración por Monte Carlo

El área es la integral de la función en su dominio

- La fórmula analítica del área de un cuadrado de lado $a$ es $a^2$
- La fórmula analítica del área de un circulo de radio $a$ es $\pi a^2$

Podemos estimar $\pi$ como el cociente $\frac{A_{circulo}}{A_{cuadrado}}$. Estimemos las áreas usando integración por Monte Carlo

- ¿Cómo cambia el resultado con $N$?
- ¿Qué ocurre si hay un sesgo al generar las muestras?

In [None]:
def g(x1, x2):
    return (x1 - 0)**2 + (x2 - 0)**2 - 1. <= 0.

N = 10000
x = np.random.rand(N, 2) # El volumen de integración es 1
N_inside = sum(g(x[:, 0], x[:, 1]))
print(4*N_inside/N) 

x_plot = np.linspace(0, 1, num=1000)
X1, X2 = np.meshgrid(x_plot, x_plot)
circle = hv.Image((x_plot, x_plot, g(X1, X2)), kdims=['x1', 'x2']).opts(cmap='Set1', width=320, height=300)
dots = hv.Points((x[:, 0], x[:, 1])).opts(color='k', size=1)
circle * dots

In [None]:
np.random.seed(12345)
logN = np.arange(0, 7, step=0.1)
pi = np.zeros_like(logN)

for i, logn in enumerate(logN):
    xr = np.random.rand(int(10**logn), 2)
    pi[i] = 4.*np.mean(g(xr[:, 0], xr[:, 1]))    

plot_estimation = hv.Curve((logN, pi), 'logaritmo de N', 'Estimación de PI').opts(width=500)
plot_real = hv.HLine(np.pi).opts(alpha=0.5, color='r', line_width=4)
(plot_estimation * plot_real)

### Ejercicio formativo: Experimento de lanzar una moneda

¿Cuál es la probabilidad de que el próximo lanzamiento sea cara?

- Si lancé la moneda una vez y salió cara
- Si lancé la moneda dos veces y en ambas salió cara
- Si lancé la moneda 100 veces y en todas salió cara
- Si lancé la moneda 100 veces y en 52 salió cara y 48 sello

¿Cómo es la varianza en cada caso? ¿Qué relación tiene que ver nuestra confianza sobre el resultado?