# Repaso de fundamentos 

## Ley fuerte de los grandes números 

Sean $X_1, X_2, \ldots, X_N$ variables aleatorias (V.A.) independientes e idénticamente distribuidas (iid) con 

$$
\mathbb{E}[X_i] = \mu
$$

Se cumple que su promedio

$$ 
\bar X = \frac{1}{N} (X_1 + X_2 + \ldots + X_N) \to \mu
$$

cuando $N \to \infty$

> El promedio converge al valor esperado con N grande

La ley fuerte nos dice que podemos aproximar $\mu$ con $\bar X$ pero no nos da pistas sobre que tan cerca está $\bar X$ de $\mu$

Esto último es importante puesto que en la práctica $N$ nunca será $\infty$


## Teorema central del límite

Si $X_1, X_2, \ldots, X_N$ son V.A iid, entonces su promedio de distribuye como

$$ 
\bar X \sim \mathcal{N}(\mu, \sigma^2/N) 
$$

cuando $N \to \infty$

Es decir que

> Cuando N es grande el promedio (suma) se distribuye como una normal centrada en $\mu$ y con desviación estándar $\sigma/\sqrt{N}$

Esto ocurre sin importar la distribución original de las V.A., pero tienen que ser independientes!

Más importante aun

> La tasa a la que converge el estimador a su valor esperado es $\frac{1}{\sqrt{N}}$



### Ejemplo: La distribución del promedio de lanzar $n$ dados

In [None]:
%matplotlib notebook
import matplotlib.pyplot as plt
from matplotlib import animation
import numpy as np
import scipy.stats

fig, ax = plt.subplots(figsize=(8, 3), tight_layout=True)

def update_plot(k):
    ax.cla()
    ax.set_title("Promedio de {0} lanzamiento/s de dado".format(k+1))
    dist = scipy.stats.multinomial(n=k+1, p=[1/6]*6)
    repeats = dist.rvs(size=1000)
    average_dice = np.sum(repeats*range(1, 7)/(k+1), axis=1)
    ax.hist(average_dice, bins=12, density=True)
    ax.set_xlim([1, 6])

anim = animation.FuncAnimation(fig, update_plot, frames=15, interval=1000, 
                               repeat=True, blit=False)

## Integración por Monte Carlo

La integración por Monte Carlo consiste en estimar el valor esperado de una función $g(x)$, definido como

$$
\mathbb{E}[g(X)] = \int g(x) f(x) \,dx
$$

donde $f(x)$ es la densidad de $x$

por medio de

$$
\mathbb{E}[g(X)] \approx \hat g_N = \frac{1}{N} \sum_{i=1}^N g(x_i) \quad x_i \sim f(x)
$$

Por otro lado el teorema central del límite nos asegura que

$$
\hat g_N \sim \mathcal{N} \left( \mathbb{E}[g(X)], \sigma_N^2/N \right)
$$

donde la varianza muestreal se puede estimar como

$$
\sigma_N^2 = \frac{1}{N-1} \sum_{i=1}^N (g(x_i) - \hat g_N)^2 
$$

> En resumen el estimador converge a su valor esperado a una tasa de $\frac{1}{\sqrt{N}}$. Esto es independiente de la dimensionalidad de la integral. Es decir que para una integral complicada con muchas dimensiones Monte Carlo puede darnos muchas ventajas

# Cadenas de Markov

En la lección anterior vimos la definición de un proceso estocástico

En lo que sigue asumiremos que el proceso estocástico solo puede tomar valores de un conjunto discreto $\mathcal{S}$ en tiempos $n>0$ que también son discretos

Llamaremos a $\mathcal{S}=\{1, 2, \ldots, M\}$ el conjunto de **estados** del proceso y cada estado en particular se suele denotar por un número natural

Para que un proceso estocástico sea considerado una **cadena de Markov**  se debe cumplir 

$$
P(X_{n+1}|X_{n}, X_{n-1}, \ldots, X_{1}) = P(X_{n+1}|X_{n})
$$

que se conoce como la propiedad de Markov o propiedad markoviana

> El estado futuro es independiente del pasado dado el presente

En particular si la cadena de Markov tiene estados discretos y es homogenea, podemos escribir

$$
P(X_{n+1}=j|X_{n}=i) = P_{ij},
$$

donde homogeneo quiere decir que la probabilidad de transicionar de un estado a otro no cambia con el tiempo

La probabilidad $P_{i,j}$ se suele llamar probabilidad de transición "a un paso"

El conjunto con todas las posibles combinaciones $P_{ij}$ para $i,j \in \mathcal{S}$ forma una matriz cuadrada de $M \times M$ que se conoce como matriz de transición

$$
P = \begin{pmatrix} P_{11} & P_{12} & \ldots & P_{1M} \\ 
P_{21} & P_{22} & \ldots & P_{2M} \\
\vdots & \vdots & \ddots & \vdots \\
P_{M1} & P_{M2} & \ldots & P_{MM}\end{pmatrix}
$$

Donde siempre se debe cumplir que las filas sumen 1

$$
\sum_{j \in \mathcal{S}} P_{ij} = 1
$$


Además todos los $P_{ij} \geq 0$  y $P_{ij} \in [0, 1]$


Una matriz de transición o matriz estocástica puede representarse como un grafo dirigido donde los vertices son los estados y las aristas las probabilidades de transición o pesos

El siguiente es un ejemplo de grafo para un sistema de cuatro estados con todas sus transiciones equivalentes e iguales a $1/2$. Las transiciones con probabilidad $0$ no se muestran.

<img src="images/markov2.png" width="300">

Considere ahora el siguiente ejemplo

<img src="images/markov-ruin.png" width="400">

Notemos que si salimos del estado $0$ o del estado $3$ ya no podemos volver a ellos. Esto se conoce como un estado **transitorio** o transiente

Por el contrario los estados a los que si tenemos posibilidad de retornar se llaman estados **recurrentes**

Cuando se tienen estados a los que no se puede retornar se dice que cadena es **reducible**

Por el contrario si podemos regresar a todos los estados se dice que la cadena es **irreducible**

Una cadena reducible puede "dividirse" para crear cadenas irreducibles. En el ejemplo de arriba podemos separar $\{0\}$, $\{1,2\}$ y $\{3\}$ en tres cadenas irreducibles

La cadena de Markov anterior modela un problema conocido como la ruina del apostador, puedes estudiar de que se trata [aquí](https://en.wikipedia.org/wiki/Gambler%27s_ruin) y [aquí](http://manjeetdahiya.com/posts/markov-chains-gamblers-ruin/)

## Ejemplo: Cadena de dos estados

Digamos que queremos predecir el clima de Valdivia por medio de un modelo de cadena de Markov

Asumiremos que el clima de mañana es perfectamente predecible a partir del clima de hoy

Sean dos estados

- $s_A$ Luvioso
- $s_B$ Soleado

Con probabilidades condicionales $P(s_A|s_A) = 0.7$, $P(s_B|s_A) = 0.3$, $P(s_A|s_B) = 0.45$ y $P(s_B|s_B) = 0.55$

En este caso la matriz de transición de la cadena es

$$ 
P = \begin{pmatrix} P(s_A|s_A) & P(s_B|s_A) \\ P(s_A|s_B) & P(s_B|s_B) \end{pmatrix}  = \begin{pmatrix} 0.7 & 0.3 \\ 0.45 & 0.55 \end{pmatrix} 
$$

que también se puede visualizar como un mapa de transición

<img src="images/markov1.png" width="600">

Si está soleado hoy, ¿Cuál es la probabilidad de que llueva mañana, en tres dias más y en una semana más? 

Podemos usar la matriz de transición para responder esta pregunta

In [None]:
import numpy as np 

P = np.array([[0.70, 0.30],
              [0.45, 0.55]])

Podemos crear un vector de estado como un arreglo con codificación `one-hot`

In [None]:
s0 = np.array([0, 1]) # Estado soleado

Luego, las probabilidades para mañana dado que hoy esta soleado puede calcularse como

$$
s_1 = s_0 P
$$

que se conoce como transición a un paso

In [None]:
np.dot(s0, P)

La probabilidad para tres días más puede calcularse como

$$
s_3 = s_2 P = s_1 P^2 = s_0 P^3
$$

que se conoce como transición a 3 pasos

Sólo necesitamos elevar la matriz al cubo y multiplicar por el estado inicial

In [None]:
np.dot(s0, np.linalg.matrix_power(P, 3))

El pronóstico para una semana sería entonces la transición a 7 pasos

In [None]:
np.dot(s0, np.linalg.matrix_power(P, 7))

Notamos que el estado de nuestro sistema comienza a converger

In [None]:
np.dot(s0, np.linalg.matrix_power(P, 1000))

## Estado estacionario de la cadena de Markov

Si la cadena de Markov converge a un estado, ese estado se llama **estado estacionario**

Una cadena puede tener más de un estado estacionario

Por definición en un estado estacionario se cumple que 

$$
s P = s
$$

Que corresponde al problema de valores y vectores propios

> Es decir que los estados estacionarios son los vectores propios del sistema


Para el ejemplo anterior teniamos que

$$
\begin{pmatrix} s_1 & s_2 \end{pmatrix} P = \begin{pmatrix} s_1 & s_2 \end{pmatrix}
$$

Que resulta en las siguientes ecuaciones

$$
0.7 s_1 + 0.45 s_2 = s_1 
$$

$$
0.3 s_1 + 0.55 s_2 = s_2
$$

Ambas nos dicen que $s_2 = \frac{2}{3} s_1$, si además consideramos que $s_1 + s_2 = 1$ podemos despejar y obtener

- $s_1 = 3/5 = 0.6$
- $s_2 = 0.4$

Que es lo que vimos antes

Esto nos dice que el 60\% de los días va a llover y un 40\% estará soleado

## Transición de n-pasos

Una pregunta interesante a responder con una cadena de Markov es

¿Cuál es la probabilidad de llegar al estado $j$ dado que estoy en el estado $i$ si doy exactamente $n$ pasos?

Consideremos por ejemplo 

<img src="images/markov3.png" width="400">

donde la matriz de transición es claramente

$$
P = \begin{pmatrix} 1/2 & 1/4 & 1/4 \\ 
1/4 & 1/2 & 1/4 \\
1/4 & 1/4 & 1/2\end{pmatrix}
$$


- ¿Cuántos caminos hay para llegar a $2$ desde $0$ en 2 pasos?
- ¿Cuál es la probabilidad asociada?

$$
0.3125 = P_{00}P_{02} + P_{01}P_{12} + P_{02}P_{22} = \begin{pmatrix} P_{00}  & P_{01} & P_{02} \end{pmatrix} \begin{pmatrix} P_{02} \\ P_{12} \\ P_{22} \end{pmatrix}
$$

- ¿Cuántos caminos hay para llegar a $0$ desde $0$ en 2 pasos?
- ¿Cuál es la probabilidad asociada?

$$
0.375 = P_{00}P_{00} + P_{01}P_{10} + P_{02}P_{20} = \begin{pmatrix} P_{00}  & P_{01} & P_{02} \end{pmatrix} \begin{pmatrix} P_{00} \\ P_{10} \\ P_{20} \end{pmatrix}
$$

In [None]:
P = np.array([[1/2, 1/4, 1/4],
              [1/4, 1/2, 1/4],
              [1/4, 1/4, 1/2]])

np.dot(P, P)

La probabilidad de llegar al estado $j$ desde el estado $i$ en $n$ pasos es equivalente al elemento en la fila $i$ y columna $j$ de la matriz $P^n$

¿Qué ocurre cuando $n$ tiene a infinito?

In [None]:
display(np.linalg.matrix_power(P, 3),
      np.linalg.matrix_power(P, 5),
      np.linalg.matrix_power(P, 100))

Todas las filas convergen al mismo valor, esto se conoce como la distribución estacionaria de la cadena de Markov

$P_{ij}^\infty$ nos da la probabilidad de estar en $j$ luego de infinitos pasos

El punto de partida ya no tiene relevancia

Las filas de $P^\infty$ convergen solo si la cadena es irreducible

## Algoritmo general para simular una cadena de Markov discreta

Asumiendo que tenemos un sistema con un conjunto discreto de estados $\mathcal{S}$ estados y que conocemos la matriz de probabilidades de transición $P$ podemos simular su evolución con el siguiente algoritmo

1. Setear $n=0$ y seleccionar un estado inicial $X_n = i$
1. Para $n = 1,2,\ldots,T$
    1. Obtener la fila de $P$ que corresponde al estado actual $X_n$, es decir $P[X_n, :]$
    1. Generar $X_{n+1}$ de una distribución multinomial con vector de probabilidad igual a la fila seleccionada 

En este caso $T$ es el horizonte de la simulación

Simulando una variable aleatoria multinomial

In [None]:
scipy.stats.multinomial.rvs(n=1, p=[0.7, 0.2, 0.1], size=1)

Tomando el argumento máximo de 100 realizaciones y graficando el histograma

In [None]:
fig, ax = plt.subplots(figsize=(5, 3), tight_layout=True)
ax.hist(np.argmax(scipy.stats.multinomial.rvs(n=1, p=[0.7, 0.2, 0.1], size=100), axis=1));

Simulando 1000 cadenas a un horizonte de 10 pasos para el ejemplo de dos estados

In [None]:
P = np.array([[0.70, 0.30],
              [0.45, 0.55]])

n_chains = 10000
horizon = 10
states = np.zeros(shape=(n_chains, horizon), dtype='int')
states[:, 0] = 1
for i in range(n_chains):
    for j in range(1, horizon):
        states[i, j] = np.argmax(scipy.stats.multinomial.rvs(n=1, p=P[states[i, j-1], :], size=1))
        

fig, ax = plt.subplots(figsize=(6, 3), tight_layout=True)
for i in range(3):
    ax.plot(states[i, :], '-o', alpha=0.5)

In [None]:
n_states = len(np.unique(states))

hist = np.zeros(shape=(horizon, n_states))
for j in range(horizon):
    hist[j, :] = np.array([sum(states[:, j] == s) for s in range(n_states)])

print(hist)
fig, ax = plt.subplots(figsize=(4, 3), tight_layout=True)
ax.plot(np.argmax(hist, axis=1), marker='x')
ax.axhline(1, ls='--', c='k', alpha=0.5)
ax.axhline(0, ls='--', c='k', alpha=0.5)

## Más sobre cadenas de Markov

https://www.uni-ulm.de/fileadmin/website_uni_ulm/mawi.inst.110/lehre/ss17/Stochastic_Simulation/Lecture_Notes_01.pdf