# Clase 19 - Modelos Estadísticos 

Disclaimer: Esta clase estará fuertemente basada en el primer y segundo capítulo de [Probabilistic Programming & Bayesian Methods for Hackers](https://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/#prologue).

## Inferencia Bayesiana

Recordemos esta nota interesante de la clase número 4:

 > "Program testing can be used to show the presence of bugs, but never to show their absence!"
    —Edsger Dijkstra, 1970
    
    
Podemos hacer una gran cantidad de tests para confirmar distintos casos y eliminar varios bugs, pero en la práctica no podemos verificar que no existan errores en estas.

Sin embargo, mientras más test o *evidencia* tenemos, menos probable es que el código contenga errores y por ende, más confianza tendremos sobre que el código está correcto.. 

La idea de la inferencia bayesiana es la misma:

> A medida que tenemos más *evidencia*, actualizamos nuestras *creencias* sobre un resultado. Sin embargo, nunca estaremos 100% confiados de nuestros resultados ya que no tenemos toda la evidencia. 


## Estadística Frecuentista y Bayesiana


Hasta el momento, la mayoría de técnicas estadística que hemos conocido se basan en la estadística Frecuentista. Esta ofrece una interpretación de probabilidad basada en la *frecuencia a largo plazo de los eventos*.

>  **Ejemplo:** Accidentes de aviones con respecto a todos los vuelos hechos.

Sin embargo, ¿cómo podemos modelar en este enfoque eventos que suceden una vez?

> **Ejemplo**: Las futuras elecciones presidenciales.

En esto aparece una segunda intepretación a las probabilidades: **La probabilidad como una medida de creencia o confianza** sobre algun evento. Es decir:

- P = 0 -> No tengo nada de confianza que un evento sucederá.
- P = 1 -> Estoy seguro que un evento sucederá.

> Pregunta: ¿Cómo convalidamos esta idea de probabilidades con los ejemplos anteriores?


Ahora, lo interesante, es que como medida de creencia de un evento, cada individuo tendrá distintas medidas según la información o evidencia que posea. Es importante distinguir estos puntos:


> Ejemplo: Un paciente tiene los síntomas x, y, z. Existe una lista de enfermedades que pueden causar esto como síntomas. 

- Un doctor puede tener una *creencia* acerca de cual enfermedad tiene y por ende le asigna una probabilidad a esta. 
- Sin embargo, otro doctor la descarta por completo, aún teniendo los síntomas x, y, z.

Fijense además que tratar las probabilidades como creencia de algo es extremadamente intuitivo. **¡Es la forma en como interpretamos nuestro mundo!**. En breves palabras:

> **Tenemos una creencia inicial sobre algo. Luego recolectamos evidencia y actualizamos nuestras creencias.**

## Probabilidades

- $P(A)$: Creencia sobre algun evento $A$ o **Prior probability**

- $P(A | X)$:Creencia o probabilidad de un evento $A$ dada la evidencia $X$ o **Posterior probability**

> Ejemplo: Volvamos al caso de los tests para chequear los bugs de un programa. 

- $P(A)$ es la creencia que tengo sobre la presencia de un bug en mi código.
- $P(A|X)$ es la creencia que tenemos sobre la presencia de bugs luego de haber ejecutado todos nuestros tests.

Al ejecutar todos los tests $X$ y comprobar que todos terminan exitosamente, mi creencia se actualiza por lo que disminuye la probabilidad (que yo asigno) de tener un bug. Sin embargo, aún puede existir.    

### Framework Bayesiano

Como habrán visto, la idea general de este enfoque es muy similar a lo que hemos estado haciendo hasta el momento.

Al comienzo, tenemos mucha incerteza sobre las *creencias* de los los eventos que puedan suceder y nuestras predicción son muy malas. 
Luego, al observar datos y evidencia, actualizamos nuestras *creencias* y nuestras predicciones se vuelven mejores.



Para actualizar nuestras preferencias, usamos (como ya se habrán imaginado), el **teorema de bayes**.

$$P(A|X) = \frac{P(X|A) P(A)}{P(X)}$$


Esta fórmula nos permite actualizar nuestras creencias anteriores o *priors* $P(A)$ por medio del uso de la evidencia $X$. 

El resultado es en términos simples, las creencias actualizadas o *posteriors* $P(A|X)$.

<center>
<img src='./resources/coin.png' alt='Gráficos de distribuciones posteriores al simular el lanzamiento de una moneda.' width=600/>
</center>

<center>
    'Gráficos de distribuciones posteriores al simular el lanzamiento de una moneda.'
</center>

> **Ejemplo:** Bugs de nuestro código.

Definamos $A$ como el evento en que nuestro código no tiene bugs. 
Por otra parte, sea $X$ el evento en donde nuestro código pasa todos los tests.

Además, $P(A) = p$

Para saber la probabilidad de no tener bugs en nuestro código dado que ejecutamos todos los test $X$ (es decir, $P(A|X)$) podemos usar el teorema de bayes.

$$P(A|X) = \frac{P(X|A) P(A)}{P(X)}$$

¿Qué es cada uno de los componentes de esta fórmula?

- $P(X|A)$ es la probabilidad de que nuestro código pase todos los tests dado que no contiene bugs. O sea, 1...

- $P(A)$ ya dijimos que era $p$.

- $P(X)$: Hay que calcularlo. Nuestro código puede pasar todos los tests, incluso aunque este contenga bugs!! O sea, tenemos:
    - Un caso en el que pasa y el código no tiene bugs $P(X, A)$.
    - Un caso en el que pasa y el código tiene bugs $P(X ,\neg A)$.

Entonces,

$$P(X) = P(X , A) + P(X , \neg A)$$

$$P(X) = P(X|A)P(A) + P(X|\neg A)P(\neg A)$$

$$P(X) = P(X|A)p+ P(X|\neg A)(1-p)$$


Supongamos que $p(X | \neg A) = 0.5$ .

Entonces: 


$$P(A|X) = \frac{1\cdot p}{1 \cdot p + 0.5(1-p)}$$

$$= \frac{2p}{1+p}$$

**Esta es finalmente la función de probabilidad que definirá nuestras probabilidades posteriores en base a la priors**.



<center>
<img src='./resources/bugs.png'/>
</center>

Supongamos que un programador normal tiene $p = 0.2$ de probabilidad de que su código no tenga ningún error.

Usando los tests y el razonamiento que vimos un poco más arriba, podemos actualizar nuestra creencia a $0.33$ de que al usar tests, mi código no tiene bugs.

## Distribuciones de Probabilidad

> ¿Qué era una distribución de probabilidad?

Sea $Z$ una variable aleatoria. (Es decir, una función que mapea eventos a números)

La función de distribución de probabilidad asociada a $Z$ es una función que asigna probabilidades a cada valor posible de $Z$.

Existen 3 tipos de variables aleatorias:

1. **Discreta:** Puede tomar valores especificados en una lista de valores. 

> Ejemplo: Poblaciones, evaluaciones de películas, votos, etc ...

2. **Continua:** Puede tomar valores arbitrarios exactos.
> Ejemplo: Temperatura, velocidad, tiempo, etc...

3. **Mixtura** de las anteriores.


### Caso discreto

En el caso discreto, la distribución es llamada función de *masa de probabilidad (fp)*.

Para un valor de la variable aleatoria igual a $k$,

$$P(Z=k)$$ 

es la probabilidad asociada al evento.
Si sabemos la función de masa de probabilidad, sabemos como se comportará $P$ para cualquier z.

> Ejemplo: Distribución de poisson. La distribución de Poisson modela el número de veces que ocurre un evento en un intervalo de tiempo. 

$$P(Z = k) = \frac{\lambda^k \exp ^{-\lambda}}{k!}$$ con $k = 0,1,2,3,\dots$

$\lambda$ es el parámetro de la distribución. Este controla la forma de la distribución. Mientras mayor sea, mas probabilidad le da a los valores altos.


<center>
<img src='./resources/poisson.png' width=400/>
</center>


Nota: Si Z distribuye como Poisson, esto se denota como 

$$Z \sim Poi(\lambda)$$

### Caso Continuo

En este caso nombramos a la distribución como función de densidad de probabilidad. Esta puede tomar cualquier valor real continuo (obviamente en los intervalos que este definida) y retornar una probabilidad.

Por ejemplo, la distribución exponencial:

$$f_{Z} (z|\lambda) = \lambda \exp ^{-\lambda z}, z > 0$$

Al igual que el caso anterior, la distribución depende de un parámetro $\lambda$.

Esta distribución permite modelar, por ejemplo, modelar tiempos de espera para la ocurrencia de ciertos eventos.
Mientra mayor su parámetro $\lambda$, mayor la probabilidad en valores grandes.

<center>
<img src='./resources/exponencial.png' width=400 />
</center>

## ¿Qué es $\lambda$?

>  ¿Qué es $\lambda$?

Según el libro, es la pregunta que motiva la estadística. 

Es el parámetro que tenemos que encontrar pero que **está oculto de nosotros**.
Solo podemos observar lo que $Z$ nos reporta e intententar estimarlo a partir de esta muestra, pero $\lambda$ no puede ser jamas observado.

> Ejemplo: Altura de las personas. Sabemos que este distribuye normalmente. Sin embargo, los parámetros (media y varianza) exactos jamas los sabremos, ¡ya que esto implicaría medir a cada ser humano de la tierra!. Por lo tanto, la única opción es estimarlos.

Ahora, noten una diferencia fundamental entre la estadística bayesiana y la inferencial:

- En la Inferencial, deduciríamos un valor a partir de las muestras que $Z$ nos entrega.

- En la Bayesiana en cambio, se centra en las *creencias* que tenemos sobre estos parámetros. Para eso, le asignamos a estos parámetros distribuciones de probabilidad a través de sampling.
