<h1 align="center">INF280 - Laboratorio de Estadística Computacional</h1>
<center>
<img src="https://prod-discovery.edx-cdn.org/media/course/image/381a0046-5d78-4790-8776-74620d59f48e-b5fbe38528ea.small.png" width="40%"></img>

<h2 align="center">LEC 2: Frecuentistas vs Bayesianos</h2>

<i> Notebook creado por Sebastián Bórquez G. - <a href="mailto://sebastian.borquez.g@gmail.com">sebastian.borquez.g@gmail.com</a> - DI UTFSM - Diciembre 2019.</i>
</center>



# Objetivo

Aprender a utilizar herramientas y técnicas básicas de la estimación paramétrica y bayesiana, para la estudio de diversos fenómenos aleatorios.

## Instrucciones

* Los informes deben ser desarrollados en parejas definidas al comienzo del semestre. Cualquier cambio debe ser informado previamente al ayudante para su autorización.
* El informe consiste en el desarrollo de este notebook. Completando código donde sea indicado y respondiendo las preguntas planteadas.
* Debe argumentar sus respuestas basándose en los resultados obtenidos en sus experimentos. De no ser así, no podrán optar al puntaje máximo de la pregunta.
* Los gráficos deben ser legibles y fáciles de entender. Esto es utilizar el gráfico adecuado al problema; usar escalas correctas; incluir títulos, nombres de ejes y leyenda.
* El código debe ser legible, comente de manera adecuada y evite la modularización (_simple is better than complex - [The Zen of Python](https://www.python.org/dev/peps/pep-0020/#id3)_)
* Cualquier consulta o queja debe realizarse a través de la plataforma Moodle.
* La fecha de entrega es el **Viernes 24 de Enero a las 23:55**.
* El formato de entrega es **GrupoXX_LECN.ipynb**, donde _XX_ es grupo asignado y _N_ el LEC correspondiente. (i.e Grupo03_LEC1.ipynb) 
* Por cada día de atraso se descuentan 10 puntos de la nota máxima a alcanzar.
* Los trabajos que sean resultado de copia o plagio de otros trabajos, serán automáticamente evaluados con nota 0.

## Aprendizaje Esperado

Los y las estudiantes deben ser capaces de:

* Utilizar las herramientas básicas de generación de números aleatorios. (Python o R-Project).

* Ser capaces de identificar problemas que pueden ser solucionados a través de métodos de probabilisticos como simulación y el teorema de bayes.

* Ser capaces de realizar un análisis comparativos entre gráficos y resultados obteniendo conclusiones que se infieren de este mismo análisis.

## Actividad

Lea las siguientes preguntas y responda de manera clara y precisa. Algunas de estas requieren de completar o implementar funciones, no edite funciones si no se les indica. 

El puntaje máximo es de 100, cada pregunta indica su puntaje asignado.

### Información del Grupo





| Rol| Nombre | Correo |
| ---------- | ---------- | ---------- |
| COMPLETAR  | COMPLETAR   | COMPLETAR |
| COMPLETAR   | COMPLETAR  | COMPLETAR |


## How to make $\pi$

<center>
<img src="https://images.fineartamerica.com/images-medium-large-5/2-pi-symbol-and-number-alfred-pasieka.jpg" width="40%"></img>


</center>

Los métodos de [Monte-Carlo](https://es.wikipedia.org/wiki/M%C3%A9todo_de_Montecarlo) son una amplia clase de algoritmos que dependen del muestreo aleatorio repetido para obtener resultados numéricos. Uno de los ejemplos básicos para comenzar con el algoritmo de Monte Carlo es la estimación de $\pi$.

Para estimar el valor de $\pi$, vamos a tomar muestras de una distribución uniforme de puntos en un cuadrado de lados $2r$, circunscrito a una circunferenca. 

Notar que el valor de $\pi$ puede ser expresado como la razón entre las áreas:

$$A_{cuadrado} = \pi r^2$$
$$A_{circulo} =  4 r^2$$
$$\pi = 4 \frac{A_{circulo}}{A_{cuadrado}}$$

Podemos estimar esta razón con nuestras muestras. Sea $m$ la cantidad de muestras que están contenidas en nuestra circunferencia, y $n$ el total de la cantidad de muestras. Definimos nuestro estimador $\hat{\pi}$ como:

$$\hat{\pi} =  4 \frac{m}{n}$$

En las sección siguiente implementaremos un algoritmo basado en el método de Monte-Carlo para obtener una aproximación de $\pi$. Para esto debe responder y completar las siguientes funciones.

* (<font color='red'>8 Puntos</font>) ¿Cúal es el fundamento probabilistico detrás del Método de Monte-Carlo?



**Respuesta**


<font color="greed"> COMPLETAR </font> 

### El algoritmo

De esta forma, podemos estimar el valor de $\pi$ para un $r=1$ y un valor dado de puntos $n$ (pares x,y), al usar el siguiente algoritmo. 

1. Generar $n$ valores x aleatorios entre $[-1,1]$ provinientes de una distribución uniforme.
2. Generar $n$ valores y aleatorios entre $[-1,1]$ provinientes de una distribución uniforme.
3. Calcular d = sqrt(x*x + y*y).
4. Contar la cantidad de valores que cumplan $d <= 1$, asignarlos a *m*.
5. Calcular pi = 4*(m/n).
6. Retornar pi.


In [0]:
# Vectores y Random Samples
from numpy.linalg import norm
from numpy import vstack, sum
from numpy import pi as real_pi
from numpy.random import random as uniform

distances = lambda sample: norm(sample, axis=1)

# Graficos
import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle, Circle
import seaborn as sns; sns.set()

# Interactividad
from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets

* (<font color='red'>5 Puntos</font>) El paso *1* y *2* requieren de una muestra aleatoria de tamaño $n$. Para esto, complete la función ``sample`` a continuación.

Luego ejecute la celda siguiente para visualizar el resultado de su función.


In [0]:
def sample(n):
    """
    sample genera una muestra uniforme de puntos en un intervalo [-1,1]
      arg
        n: cantidad de puntos.
      return
        points: vector con dimensiones (n, 2)
    """
    # COMPLETAR
    x = ...
    y = ...

    points = ...

    return points

In [0]:
# Obtener muestra de tamaño n
n = 100
s = sample(n)

# Generar figura
plt.figure(figsize=(6,6))

# Agregar Muestra
plt.scatter(x=s[:,0], y=s[:,1])

# Definir limites
plt.ylim((-1.125, 1.125))
plt.xlim((-1.125, 1.125))

# Agregar Cuadrado
rect = Rectangle((-1,-1),2,2,linewidth=1,edgecolor='g',facecolor='none')
ax = plt.gca()
ax.add_patch(rect)

# Titulo y ejes
plt.title("Muestra aleatoria")
plt.xlabel("X")
plt.ylabel("Y")

plt.show()

* (<font color='red'>5 Puntos</font>) El paso *3* y *4* clasifican y cuentan los puntos que se encuentran dentro de la circunferencia. Complete la función ``in_circumference`` a continuación. 
Luego ejecute la celda siguiente para visualizar el resultado de su función.


In [0]:
def in_circumference(points):
    """
    in_circumference evalua la distancia al origen de cada punto, y los clasifica
    como dentro o fuera de la circunferencia.
      arg
        points: vector con los puntos  con dimensiones (n, 2).
      return
        mask: vector booleano con dimensiones (n,) con True o False si el punto 
              pertenece a la circunferencia.
        m: Cantidad de puntos dentro de la circunferencia.
    """
    # COMPLETAR
    
    ...
    
    mask = ...
    m = ...
    
    return mask, m

In [0]:
# Muetra de tamaño n
n = 100
s = sample(n)

# Clasificacion y conteo
mask, m = in_circumference(s)

# Generar figura
plt.figure(figsize=(6,6))

# Agregar puntos y su clasificacion
plt.scatter(x=s[:,0], y=s[:,1], c=mask)

# Agregar limites
plt.ylim((-1.125, 1.125))
plt.xlim((-1.125, 1.125))

# Agregar Cuadrado y circunferencia
rect = Rectangle((-1,-1),2,2,linewidth=1,edgecolor='g',facecolor='none')
circ = Circle((0, 0), 1, color='r', fill=False)
ax = plt.gca()
ax.add_patch(rect)
ax.add_patch(circ)

# Titulo y ejes
plt.title("Muestra aleatoria")
plt.xlabel("X")
plt.ylabel("Y")
plt.show()

* (<font color='red'>7 Puntos</font>) Implemente en la función ``pi_estimator`` el algoritmo, reutilizando las funciones implementadas en los pasos anteriores. Ejecute la celda siguiente para ver los resultados para distintos valores de $n$.

In [0]:
def pi_estimator(n, return_points=False):
    """
    pi_estimator estima el valor de pi para una muestra de tamaño n
      args:
        n: Tamaño de la muestra
        return_points: si es True, retorna los puntos generados.
      return
        pi: Valor estimado de pi
        points:  Vector con los puntos  con dimensiones (n, 2).
    """

    # COMPLETAR
    ...
    ...
    
    pi = ...

    if return_points:
        return pi, points
    else:
        return pi

In [0]:
@interact(n=widgets.FloatLogSlider(
    value=1,
    base=10,
    min=1,
    max=6,
    step=1,
    readout_format='.0f',
))
def show_estimator(n):
    # Tamaño de muestra
    n = int(n)

    # Obtener aproximacion
    pi, s = pi_estimator(n, True)
    
    # Obtener mask para el grafico
    mask, m = in_circumference(s)

    # Crear figura
    plt.figure(figsize=(6,6))

    # Agregar puntos y clasificacion
    plt.scatter(x=s[:,0], y=s[:,1], c=mask)

    # Definir limites
    plt.ylim((-1.125, 1.125))
    plt.xlim((-1.125, 1.125))

    # Agregar cuadrado y circunferencia
    rect = Rectangle((-1,-1),2,2,linewidth=1,edgecolor='g',facecolor='none')
    circ = Circle((0, 0), 1, color='r', fill=False)
    ax = plt.gca()
    ax.add_patch(rect)
    ax.add_patch(circ)

    # Titulo y ejes
    plt.title("$\hat{\pi}$ = " + str(pi))
    plt.xlabel("X")
    plt.ylabel("Y")

    plt.show()

### La importancia del valor $n$

Como pudo notar en la sección anterior, que tan buena es la aproximación de $\pi$ está relacionada con el valor de $n$ que elijamos.

* (<font color='red'>10 Puntos</font>) Realice un análisis del desempeño del algoritmo para diferentes valores de $n$ (``n_values``), para esto calcule el *error relativo* de la estimación respecto al valor real de $\pi$ (``real_pi``). Gráfique su resultado utilizando un gráfico adecuado.

In [0]:
# Valores y 'labels' de distintos n's
n_values = [10, 100, 1000, 10000, 100000, 1000000]
n_values_names = map(str, n_values)
n_values_index = list(range(len(n_values)))

relative_errors = []

# COMPLETAR

#Calculo de errores
...

# Grafico de resultados
plt.figure(figsize=(8,3))

...

plt.show()

* (<font color='red'>15 Puntos</font>) ¿Qué se puede concluir del estudio del paso anterior? ¿Qué valor de $n$ es adecuado para este problema en particular? ¿Cuál es el *trade-off* que existe al elegir tamaño de la muestra para una simulación (tome en consideración simulación más complejas o "lentas")?

**Respuestas**

<font color="greed"> COMPLETAR </font> 

## The Dice Problem
<center>
<img src="https://cdn.vox-cdn.com/thumbor/YkTIpiIERbU3gVHo5-K26t5anj8=/0x0:4000x2250/1200x675/filters:focal(1680x805:2320x1445)/cdn.vox-cdn.com/uploads/chorus_image/image/65416286/Dice.0.jpg" width="100%"></img>




Supongamos que tengo en una bolsa un **dado 4 caras**, un **dado 6 caras**, un **dado 8 caras**, un **dado 10 caras**, un **dado 12 caras** y un **dado 20 caras**.

Supongamos ahora que, tomo un dado a azar, lo lanzo y obtengo **un 6**. Para cada dado, ¿cuál es la probabilidad de que haya sacado ese dado?


### The Bayesian procedure

El problema anterior puede ser solucionado utilizando la __inferencia bayesiana__. La cual consiste en:

Estamos interesado en determinar un parámetro $\theta_i$ (o también llamado hipótesis) que mejor represente los datos, o en otras palabras, la **cantidad de caras** del dado que represente mejor los lanzamientos obtenidos.

El procedimiento es el siguiente:

1. Definir nuestra creencia inicial sobre el parámetro, la distribución a priori de los distintos $\theta$'s,  $P(\theta)$.
2. Recolectar los datos $X$ a través de la experimentación, observaciones, lanzamientos de dados, etc.
3. Actualizar nuestras creencias utilizando el **teorema de bayes**, la distribución posterior. $P(\theta|X) = \frac{P(X|\theta)P(θ)}{P(X)}$

4. Repetir el proceso cada vez que obtengamos más datos.

En la siguiente sección atacaremos al _problema de los dados_ utilizando este procedimiento, para esto conteste las preguntas y complete el código a continuación.

* (<font color='red'>10 Puntos</font>) Escriba cual es el **teorema de bayes**, ¿Cuál es su interpretación diacrónica? ¿Qué significa que las hipotesis sean **mutuamente excluyentes** y **colectivamente exhaustivos**? y ¿Qué implica esto al calculo de la **constante de nomalización**?.


**Respuesta**


<font color="greed"> COMPLETAR </font> 

In [0]:
# Graficos
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()

# Interactividad
from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets

def show_distribution(distribution, thetas):
    x_values_index =list(range(len(thetas)))
    x_values_names = list(map(str, thetas))
    plt.figure(figsize=(8,3))
    plt.title("Distribución $\\theta$")
    plt.bar(x_values_index, distribution)
    plt.ylim((0,1))
    plt.xticks(x_values_index, x_values_names)
    plt.ylabel("$P(\\theta)$")
    plt.xlabel("$\\theta$")
    plt.show()

* (<font color='red'>5 Puntos</font>) A continuación definiremos la distribución a priori  $P(\theta)$ de los valores de $\theta $. Para cada dado ($\theta_i $) ¿cuál es la probabilidad de que lo haya sacado de la bolsa? Justifique su respuesta.




**Respuesta**


<font color="greed"> COMPLETAR </font> 

In [0]:
thetas = [4, 6, 8, 10, 12, 20]

# P(theta) 
# nota: las probabilidades suman 1
# COMPLETAR 
prior_distribution = ...

show_distribution(prior_distribution, thetas)

* (<font color='red'>5 Puntos</font>) El siguiente paso es determinar $P(x_j| \theta_i)$, la probabilidad de que el lanzamiento resulte en $x_j$ si se lanzara un dado $\theta_i$. 

**Hint 1**: _Esta parte del teorema varia según el problema. Suponga que cada dado se encuentra balanceado_.

**Hint 2**: _¿Cuál es la probabilidad de obtener un 6 si lanzo un dado de 4 caras?_

In [0]:
def P_theta_dados(x, theta):
    """
    P_theta_dados la probabilidad de obtener 'x' utilizando un dado 'theta' 
    Retorna un valor entre (0...1).
      args:
        x:      x_j, una observacion, lanzamiento de dados, etc.
        theta:  theta_i, parametro condicional.
    """
    # COMPLETAR

    ...

* (<font color='red'>8 Puntos</font>) Definimos likelihood y la constante de normalización según lo define el teorema para una muestra de $X$ tamaño $m$, $n$ la cantidad de hipotesis.


Donde el likelihood está definido como:

$$ L(\theta_i| X) = P(X|\theta_i) =  P(x_1, ..., x_m| \theta_i) = \prod_{j=1}^n P(x_j|\theta_i)$$

Y la constante de normalización, dado que es un problema de hipotesis **mutuamente excluyentes** y **colectivamente exhaustivos**, se define como:


$$ P(X) = \sum_{i=1}^n  P(X|\theta_i) \times P(\theta_i)$$


In [0]:
def likelihood(theta, X, P_theta):
    """
    likelihood de un theta para una muestra X utilizando las probabilidades dadas por P_theta.
      args:
        theta:    theta_i
        X:        lista con los datos de la experimentación, observaciones, lanzamientos de dados, etc.
        P_theta:  funcion P(x_j|theta_i)
      return:
        likelihood para un valor de theta 
    """
    # COMPLETAR
    _likelihood = ...
    
    ...

    return _likelihood

def normalization_const(priors, likelihoods):
    """
    constante de normalizacion, priors es una lista de las priori y likelihoods una lista de las likehoods para cada theta.
      args:
        priors:       distribucion a priori
        likelihoods:  lista de likelihood para cada valor de theta
      return:
        constante de normalizacion P(X)
    """

    # hint: zip?
    # COMPLETAR

    ...

    return ...

* (<font color='red'>4 Puntos</font>) El último paso es calcular la distribución posterior implementando el teorema de a bayes en la función ``update``:
$$P(\theta|X) = \frac{P(X|\theta)P(θ)}{P(X)}$$



* (<font color='red'>2 Puntos</font>) Luego, ejecute el bloque siguiente. Según sus resultados ¿cuál es el dado que se sacó de la bolsa? 


In [0]:
def update(prior_distribution, thetas, P_theta, X):
    """
    update o distribucion a posteriori.
      args:
        prior_distribution: Distribucion a priori para los diferentes thetas
        thetas:             valores de los diferentes thetas
        P_theta:            funcion P(x_j|theta_i)
        X:                  lista con los datos de la experimentación, observaciones, lanzamientos de dados, etc.
      return:
        posterior_distribution: Distrubucion a posteriori.
    """
    # COMPLETAR

    ...

    return posterior_distribution

In [0]:
lanzamientos = [6]

show_distribution(update(prior_distribution, thetas, P_theta_dados, lanzamientos), thetas)

**Respuesta**


<font color="greed"> COMPLETAR </font> 


* (<font color='red'>6 Puntos</font>) A continuación se estudiará como afecta la cantidad de observaciones a nuestras creencias. Ejecute el siguiente código y evalue para diferentes valores de $i$. ¿Cómo afecta la cantidad de datos a nuestras creencias a priori? ¿Cuál es el dado que se saco de la bolsa? Justifique.

In [0]:
def show_updates(prior, thetas, P_theta, X, i=0):
    X = X[:i]
    print("Data:", X)
    posterior_distribution = update(prior, thetas, P_theta, X)
    show_distribution(posterior_distribution, thetas)

data = [6, 1, 3, 1, 10, 6, 3, 3, 1, 2]
interactive(show_updates, prior=fixed(prior_distribution), thetas=fixed(thetas),
            P_theta=fixed(P_theta_dados), X=fixed(data), i=(0, len(data), 1))

## Taste the rainbow

A continuación debe utilizar el mismo procedimiento utilizado para el siguente problema:

Un escenario similar al de los dados, suponga que tengo tres paquetes de *Skittles*: "Original", "Tropical" y "Wild Berry". De forma aleatoria escojo una de los paquetes y comienzo a sacar uno a uno sus caramelos. Solo con ver los colores de cada dulce, ¿puedes saber de que paquete vienen?

Para esto se necesita al menos conocer la distribución de colores de los distintos paquetes:

1. __Original__:  morado (15%), amarillo (12%), verde (24%), naranja (18%), rojo (26%), azul (5%)
2. __Tropical__:  amarillo (15%), verde (30%), naranja (23%), rojo (1%), azul (10%), rosado (21%)
3. __Wild Berry__: verde (12%), rojo (30%), azul (25%), rosado (16%), violeta (17%)
 




* (<font color='red'>4 Puntos</font>) Utilizando el procedimiento bayesiando, determine de que paquete provienen los dulces que se sacaron (en la variable ``data``). Complete el siguiente código, grafique su resultado utilizando el _widget interactve_.


In [0]:
# Skittles sacados
data = ["azul", "verde", "verde", "rojo", "amarillo", "verde", "amarillo", "azul", "naranja", "naranja", "azul", "verde"]

# COMPLETAR
thetas = ...
prior_distribution = ...

# COMPLETAR 
## Defina e implementa las funciones que crean necesarias.

# COMPLETAR, puede agregar los argumentos que estime necesario
interactive(..., prior=fixed(...), P_theta=fixed(...), thetas=fixed(...), X=fixed(data), i=(0, len(data), 1))

**Respuesta**


<font color="greed"> COMPLETAR </font> 

* (<font color='red'>6 Puntos</font>) ¿Qué puede concluir respecto al procedimiento bayesiano sobre los resultados obtenidos? ¿Qué puede concluir de la importancia de enfoque bayesiano en contraste a un enfoque frecuentista? 

**Respuestas**


<font color="greed"> COMPLETAR </font> 


Felicidades! han completado el segundo Laboratorio de Estadística Computacional (LEC)

Recuerden contestar todas las preguntas y llenar la tabla con la información de su grupo.