# Práctico 0-B: Inferencia Estadística

# Introducción

El objectivo de este práctico es repasar conceptos de estadística y probabilidad que serán usados durante el resto del curso.


## Configuración del ambiente

Primero vamos a importar varias bibliotecas que son necesarias para este práctico. En particular `statsmodels` y `scipy.stats`.

También vamos a descargar dos archivos con datos que vamos a usar sobre el final del práctico.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import scipy.stats as st
import statsmodels.api as sm
import matplotlib.pyplot as plt
from scipy.special import beta, betaln

In [2]:
!wget 'https://raw.githubusercontent.com/prbocca/na101_master/master/homework_00_b_inference/BannersClicks.txt' -O "BannersClicks.txt"

In [3]:
!wget "https://raw.githubusercontent.com/prbocca/na101_master/master/homework_00_b_inference/TiempoAccesoWeb.txt" -O "TiemposAccesoWeb.txt"

## 2) Lanzamiento de Moneda

Lanzaremos una moneda y veremos si sale cara ("C") o cruz ("X").
Para que se puedan apreciar mejor los resultados, trabajaremos con una moneda injusta, donde la probabilidad de Cara es $0.2$.
Por tanto las muestras del experimiento siguen una distribución de Bernoulli de parámetro $p=0.2$.

Utilizar la siguiente función `lanzar_monedas()` para realizar el experimiento.



In [4]:
def lanzar_monedas(p, reps, n=1):
  return [np.random.binomial(n=n, p=p) for _ in range(reps)]

def display_result(res):
  n, c = len(res), sum(res)
  print("-" * 20)
  print(f"Cantidad de caras : {c}")
  print(f"Cantidad de cruces: {n - c}")
  print(f"Cantidad de caras relativa: {c / n}")
  print(f"Cantidad de cruces relativa: {(n - c) / n}")

### 2.a) Sortear distribución de Bernoulli de parámetro 0.2

Comencemos con un ejemplo sencillo...

In [5]:
# Lancemos 5 veces la moneda
reps = 5
resultado = lanzar_monedas(0.2, reps=reps)
display_result(resultado)

Verificar que al crecer la cantidad de lanzamientos, $n$, la frecuencia relativa de la cantidad de Caras se acerca a $0.2$.
Comparar resultados para $n \in {10,100,1000,10000}$.

In [6]:
for reps in [10, 100, 1000, 10000]:
  resultado = lanzar_monedas(0.2, reps=reps)
  display_result(resultado)

Explicar con texto: ¿qué sucede al crecer el número de lanzamientos, $n \in {10,100,1000,10000}$?

In [7]:
### START CODE HERE
### END CODE HERE


### 2.b) Distribución binomial, suma de distribuciones Bernoulli

Ahora el experimento es tirar $100$ veces la moneda y contar cuantas veces sale Cara.

Sabemos que la distribución de este experimento es Binomial (por ser una suma de distribuciones de Bernoulli) de parámetros $n=100$ y $p=0.2$.

Utilizar la función `lanzar_monedas(p=0.2, n=100, reps)` para realizar el experimento, donde se lanzan y suman $n=100$ monedas de parámetro $p=0.2$, y $reps$ son la repeticiones del experimento.

Graficar el histograma para $reps \in {100,1000,10000,100000}$.

In [8]:
p=0.2
n_lanzadas=100
reps = [100, 1000, 10000, 100000]
### START CODE HERE
### END CODE HERE


Verificar que al crecer las repeticiones del experimento, $reps$, el histograma de la frecuencia relativa de la cantidad de Caras se acerca a la distribución Binomial con parámetros $n=100$ y $p=0.2$.

Graficar el histograma y la densidad Binomial para $reps \in {100,1000,10000,100000}$, utilizar la función `st.binom.pmf()` como densidad teórica. 

![](https://github.com/prbocca/na101_master/raw/master/homework_00_b_inference/dbinom1000.png)


In [9]:
p=0.2
n_lanzadas=100
reps = [100, 1000, 10000, 100000]
                       
for rep in reps:
  #experimento
  resultado = lanzar_monedas(p=p, reps=rep, n=n_lanzadas)
  fig, ax = plt.subplots(figsize=(6, 3))
  sns.histplot(resultado, stat="probability", ax=ax)
  ax.set_title(f"n = {rep}")
  ax.set_xlim([0, 100])

  #resultado teorico
  x = np.arange(st.binom.ppf(0.01, n_lanzadas, p), st.binom.ppf(0.99, n_lanzadas, p))
  dbinom = st.binom.pmf(x, n_lanzadas, p)
  sns.lineplot(x=x, y=dbinom, ax=ax, color='red')


Explicar con texto: ¿qué sucede si aumento la cantidad de experimentos (cantidad de veces que cuento la cantidad de caras al lanzar $100$ veces)?

In [10]:
### START CODE HERE
### END CODE HERE


### 2.c) Usando funciones nativas de `python`

`Python` cuenta con funciones para manipular las distribuciones de probabilidad más comunes. 

Debemos recordar que las funciones de probabilidad usuales son:
* la distribución de probabilidad, llamada comunmente `cdf()`  (`pnorm()` en el dibujo)
* la densidad de probabilidad, llamada comunmente `pdf()` para variables continuas y `pmf()` para discretas  (`dnorm()` en el dibujo)
* la inversa de la distribución de probabilidad, llamada comunmente `ppf()`  (`qnorm()` en el dibujo)


La relación entre las funciones `dnorm()`, `pnorm()`, `qnorm()` se observa en la figura:
![](https://github.com/prbocca/na101_master/raw/master/homework_00_b_inference/funciones_normal.png)

Para trabajar con probabilidades, el paquete de python [`scipy.stats`](https://docs.scipy.org/doc/scipy/reference/stats.html) ofrece muchas funcionalidades.

In [11]:
# En scipy.stats, los cálculos de la figura sería

pnorm = st.norm(loc=0, scale=1).cdf(2)
print(f"pnorm(2) = {pnorm}")

dnorm = st.norm(loc=0, scale=1).pdf(2)
print(f"dnorm(2) = {dnorm}")

qnorm = st.norm(loc=0, scale=1).ppf(0.9772)
print(f"qnorm(0.9772) = {qnorm}")

Reimplementar la parte 2.b) usando la función de sorteo aleatorio de una distribución Binomial, `st.binom.rvs(n,p, size=reps)` en lugar de `lanzar_monedas()`.

In [12]:
p=0.2
n_lanzadas=100
reps = [100, 1000, 10000, 100000]
for rep in reps:

### START CODE HERE
### END CODE HERE

  #resultado teorico
  x = np.arange(st.binom.ppf(0.01, n_lanzadas, p), st.binom.ppf(0.99, n_lanzadas, p))
  dbinom = st.binom.pmf(x, n_lanzadas, p)
  sns.lineplot(x=x, y=dbinom, ax=ax, color='red')


### 2.d) Teorema central del Limite

Vimos que lanzar una moneda tiene una distribución de Bernulli y la suma de lanzar varias veces la moneda tiene una distribución Binomial.
Según el Teorema Central del Límite (TCL), al crecer $n$ la Binomial debería irse acercando a una Normal.
Verificar esto, graficando la distribución Binomial y la Normal para $n \in {5, 10,100,1000}$.

In [13]:
p=0.2
n_lanzadas= [5, 10, 100, 1000, 10000]
### START CODE HERE
### END CODE HERE


## 3) Inferencia estadística 

Utilizaremos los datos `TiempoAccesWweb.txt` (disponible en https://raw.githubusercontent.com/prbocca/na101_master/master/homework_00_b_inference/TiempoAccesoWeb.txt), 
recolectados por el Departamento de Estadística e Investigación Operativa, de la Universidad de Santiago de Compostela (http://eio.usc.es/). 
La primera variable tiene $55$ medidas (en segundos) del tiempo que se tarda en acceder a la página Web de la Universidad de Santiago de Compostela desde Internet.
La segunda variable tiene otras $55$ medidas (en segundos) del tiempo que se tarda en acceder a la misma página Web desde una computadora en la biblioteca de la Universidad (Intranet).  

Vamos a utilizar la segunda muestra, y como a partir de ella, 
podemos encontrar varias distribuciones candidatas para ajustar y que nos sirvan como modelo de distribución para saber el tiempo que tardamos 
cada vez que abrimos la página Web de la Universidad con ordenadores de su biblioteca.



In [14]:
df = pd.read_csv("TiemposAccesoWeb.txt",
                 decimal=",",
                 sep="\t",
                 header=None,
                 names=["internet", "library"])

df.head()

### 3.a) Estimación puntual: ajustamos la distribución normal a los datos.

Utilizando la función `norm.fit()` ajustamos una distribución normal a los datos.

La función hace la estimación puntual de los parámetros $\mu$ y $\sigma$ de la distribución Normal, utilizando el método de máxima verosimilitud.
Verificar que el resultado ($\hat\mu=1.425455$ y $\hat\sigma=0.1231085$) son muy cercanos a la media y desviación de los datos.

In [15]:
mean, std = st.norm.fit(df.library)
print(f"Media estimada: {mean:0.8f}, Desviación Estandard Estimada: {std:0.8f}")
mean_data = df.library.mean()
std_data = df.library.std()
print(f"Media real de los datos: {mean_data:0.8f}, Desviación Estandard real: {std_data:0.8f}")

### 3.b) Gráficos que permitir evaluar el resultado.

 Para visualizar la bondad del ajuste, graficar:
*   3.b.1) el histograma de los tiempos en comparación con la densidad de la normal (`pdf()`);
*   3.b.2) la función de distribución empírica de los datos (`ecdf()`) en comparación con la función de distribución de una normal (`cdf()`); y 
*   3.b.3) los cuantiles de los datos con respecto a los cuantiles de la distribución normal.

In [16]:
dist = st.norm(loc=mean, scale=std)

fig, ax = plt.subplots(1, 3, figsize=(30, 10))

# Fist plot
ax_ = ax[0]
sns.histplot(df.library, ax=ax_, stat="density", label="Histogram of observed data") # Histogram of the data
x = np.linspace(0, 3, 10000)
ax_.plot(x, [dist.pdf(z) for z in x], label="Original Distribution", color="red", linewidth=3)
ax_.legend()

# Second plot
ax_ = ax[1]
sns.ecdfplot(df.library, ax=ax_, label="Empirical Distribution")
x = np.linspace(1, 2, 1000)
ax_.plot(x, [dist.cdf(z) for z in x], label="Original Distribution", color="red", linewidth=3)
ax_.legend()

# Third Plot
ax_ = ax[2]
_ = sm.qqplot(df.library, dist=st.norm, ax=ax_, line="q")

### 3.c) Probamos ajustar la distribución  Weibull y log-normal

Todo ello parece indicar que la distribución normal puede ser una clara candidata para los datos. Pero no tiene porque ser la única que podemos usar para el ajuste.

Repetir las partes anteriores para las distribuciones Weibull y log-normal.
Las gráficas para las tres distribuciones (Normal, Weibull y log-normal) muestran que todas son buenas candidatas para ajustar a los datos. 


In [17]:
#Weibull
c, loc, scale = st.weibull_min.fit(df.library)
print(c, loc, scale)
dist = st.weibull_min(c, loc=loc, scale=scale)

fig, ax = plt.subplots(1, 3, figsize=(30, 10))

# Fist plot
ax_ = ax[0]
sns.histplot(df.library, ax=ax_, stat="density", label="Histogram of observed data") # Histogram of the data
x = np.linspace(0, 3, 10000)
ax_.plot(x, [dist.pdf(z) for z in x], label="Original Distribution", color="red", linewidth=3)
ax_.legend()

# Second plot
ax_ = ax[1]
### START CODE HERE
### END CODE HERE

# Third Plot
ax_ = ax[2]
_ = st.probplot(df.library, dist=st.weibull_min, sparams=(c,), plot=ax_)

In [18]:
#log-normal

c, loc, scale = st.lognorm.fit(df.library)
print(c, loc, scale)
dist = st.lognorm(c, loc=loc, scale=scale)

fig, ax = plt.subplots(1, 3, figsize=(30, 10))

# Fist plot
ax_ = ax[0]
sns.histplot(df.library, ax=ax_, stat="density", label="Histogram of observed data") # Histogram of the data
x = np.linspace(0, 3, 10000)
ax_.plot(x, [dist.pdf(z) for z in x], label="Original Distribution", color="red", linewidth=3)
ax_.legend()

# Second plot
ax_ = ax[1]
### START CODE HERE
### END CODE HERE

# Third Plot
ax_ = ax[2]
_ = st.probplot(df.library, dist=st.lognorm, sparams=(c,), plot=ax_)

### 3.d) Evaluar la bondad del ajuste con Test de Hipótesis

Para cuantificar la bondad del ajuste podemos usar un Test de Hipótesis. 
El test de Kolmogorov-Smirnov contrasta la hipótesis nula $H0$ de que la distribución generadora de los datos es $F0$, 
con la hipótesis alternativa $H1$ de que la distribución generadora de los datos no es $F0$.

Usar el test mediante la función `st.kstest()` para verificar la bondad de ajuste de la distribución normal.
Verificar que $p-valor=0.7057$, y como es mayor a $0.05$ no podemos rechazar que la distribución es Normal.


In [19]:
np.random.seed(987654321)
cdf_ = st.norm(df.library.mean(), df.library.std()).cdf
### START CODE HERE
### END CODE HERE


### 3.e) Usar resultados para estimar tiempos


Suponiendo como válida la distribución Normal par los datos.
Calcular cuál es la probabilidad de esperar como mucho $1.60$ segundos para acceder a la página Web de la Universidad de Santiago. 

In [20]:
# TIP. Verificar que el 92% de las personas que se conectan lo hacen en menos de 1.6 segundos

### START CODE HERE
### END CODE HERE
print(f"Una proporción de {prob160:0.2f} de las personas que se conectan lo hacen en menos de 1.6 segundos.")

### 3.f) Intervalo de confianza

En lugar de proporcionar un estimador de los parámetros de la distribución (estimación puntual), es útil dar un intervalo numérico donde al valor del parámetro en la población pertenece con cierta "seguridad" (intervalo de confianza).

Supongamos que los datos son una muestra aleatoria simple de una distribución Normal.
¿Cuál es el intervalo del tiempo medio de acceso a la Web con un nivel de confianza de $0.95$?.
Responder la pregunta utilizando la función `ppf()`.


In [21]:
mean_ = df.library.mean()
std_  = df.library.std()
sqrt = np.sqrt(df.library.shape[0])
norm_ = st.norm(mean_, std_ / sqrt)
z1 = norm_.ppf(0.05 / 2)
z2 = norm_.ppf(0.95 + 0.05 / 2)
interval = f"[{z1, z2}]"
print(interval)

## 4) Inferencia bayesiana (opcional).

Una empresa comienza a hacer publicidad en Internet utilizando banners.
El objetivo de la empresa es atraer nuevos clientes, por tanto le interesa que los usuarios que visualizan el banner efectivamente hagan click sobre el mismo.
La empresa ha realizado dos campañas probando los banners A y B, los datos se encuentran en el archivo `BannersClicks.txt` (https://raw.githubusercontent.com/prbocca/na101_master/master/homework_00_b_inference/BannersClicks.txt). Donde se incluyen todas las impresiones para cada banner, informando si el usuario hizo click en cada caso.


Se busca estimar el porcentaje de usuarios que hacen click sobre un banner,
llamado CTR (Click Through Rate).
Se decide usar inferencia bayesiana para tener un modelo detallado del comportamiento de los usuarios frente a los banners.
En cada campaña donde se prueba un banner, se obtiene como datos resultantes: $L$ = cantidad de impresiones, y $C$ = cantidad de clicks.


Para aplicar inferencia bayesiana debemos primero suponer un modelo sobre los usuarios,
supondremos que son todos independientes e idénticamente distribuidos.
Es decir, la probabilidad de hacer click de cada usuario es la misma, y su distribución de probabilidad es $\theta \sim Beta(1,1)$,
donde $\theta$ es la VA que representa los valores posibles de CTR para cada usuario:
$$P(\theta)=f_{1,1}(\theta) = \frac{1}{B(1,1)}=1,$$ siendo $f(.)$ la función de densidad de la distribución beta (implementada en `R` con $dbeta(\theta, a, b)$), y  $B(.)$ la función beta (implementada en `R` con $beta(a, b)$).


Suponiendo válido el modelo, al ser todos los usuarios independientes, la probabilidad de tener $C$ clicks en una muestra de $L$ usuarios es fácil de estimar, y es la binomial:
    $$P(L\text{ impresiones, }C\text{ clicks } | \theta) =  \binom{L}{C} \theta^C(1 - \theta)^{L - C}$$

Usando la regla de Bayes, y haciendo cuentas obtenemos la distribución a posteriori, que usaremos como modelo estadístico para el CTR de cada banner:
    $$P(\theta | L\text{ impresiones, }C\text{ clicks }) =  f_{1 + C,1 + L - C}(\theta)$$

In [22]:
clicks = pd.read_csv("BannersClicks.txt")

clicks.head()

In [23]:
L_A = clicks.banner.value_counts()["A"]
L_B = clicks.banner.value_counts()["B"]

print(L_A, L_B)

C_A = clicks.groupby("banner")["click"].sum()["A"]
C_B = clicks.groupby("banner")["click"].sum()["B"]

print(C_A, C_B)

### 4.a) Estadística de CTR

Estimar el CTR como la media de los datos (clicks/impresiones) para ambos banners.
Para el banner A, graficar el histograma de sus clicks (solución: $\hat{CTR_A} = 0.05312085$ y $\hat{CTR_B} = 0.07437833$).


In [24]:

### START CODE HERE
### END CODE HERE

print("El ctr_A = ", ctr_A, "y el ctr_B = ", ctr_B)

### 4.b) Intervalo de confianza

El modelo de inferencia bayesiana anterior, permite estimar el CTR y además su error.
Para el banner A, graficar la función de densidad del CTR, y calcular su intervalo de confianza 0.95 (solución: $[0.0457, 0.06172]$).
Recordar que podemos acotar el CTR, $\theta \in [a,b]$ con un $95\%$ de certidumbre si:
        $$P(a<\theta<b) = \int_a^b f_{1 + C,1 + L - C}(\theta)d\theta > 0.95$$


In [25]:
x = np.arange(0, 0.2, 0.001)
alpha_A = 1 + C_A
beta_A = 1 + L_A - C_A

dist = st.beta(a=alpha_A, b=beta_A)

_ = plt.plot(x, dist.pdf(x))

### START CODE HERE
### END CODE HERE
print("[", z1, ",", z2, "] intervalo de confianza de 0.95")


### 4.c) Bondad de ajuste

Podemos utilizar los datos para ver lo bondad del ajuste de la distribución a posteriori.
Realizar $1000$ muestras de $2000$ impresiones del banner A, y comparar su histograma con la densidad a posteriori.


In [26]:
### START CODE HERE
### END CODE HERE


### 4.d) ¿Cuál es el mejor banner?

Suponiendo que los modelos de inferencia bayesiana para los $CTR_A$ y $CTR_B$ son correctos.
Queremos realizar una nueva campaña, y debemos elegir entre el banner A y el B con el objetivo de obtener más clicks.
¿Cuál es la probabilidad de que el banner B sea mejor que el banner A?
Recordar:
$$P(\theta_B > \theta_A) = \sum_{i=0}^{C_B} \frac{B(1 + C_A + i, 1 + L_B - C_B + 1 + L_A - C_A)}{(1 + L_B -  C_B + i) B(1+i,1+L_B- C_B)B(1 + C_A,1+L_A - C_A)}$$

Sugerencia: utilizar la función logarítmica $lbeta(a,b)$ en lugar de $beta(a,b)$ para evitar errores de cálculo numérico.
(solución: $0.999879$)

In [27]:
### START CODE HERE
### END CODE HERE

print("La probabilidad de que el banner B sea mejor que el A es: ", p_B_A)