In [None]:
%run "../../../common/0_notebooks_base_setup.py"    

## Imports

In [None]:
import numpy as np
import pandas as pd
import scipy
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats
import math
import datetime


---

## Test de Hipótesis

### Data

El dataset que usamos en esta parte contiene reportes de  [Federal Aviation Administration Wildlife Strike Database](http://wildlife.faa.gov/database.aspx) correspondientes a los años 2012 y 2013 en el estado de California, USA.

Usaremos los datos diarios de frecuencia de incidentes de golpes a fauna silvestre.

### Leemos los datos

In [None]:
# Load the data from a csv file. 
data_location = "../Data/wildlife.csv"
data = pd.read_csv(data_location)
data.head()


### Ejercicio: Preparación de los datos

Construyamos un dataset que tenga como columnas

* la fecha del incidente, de tipo datetime

Ayuda: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html

* la cantidad de incidentes en esa fecha, de tipo int 

Ayuda: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html


### Ejercicio: Preparación de los datos - continuación

Queremos que el DataFrame que creamos en el paso anterior tenga un registro por cada día del año 2012 y 2013.

Para eso vamos a: 

1) Asignar el valor del campo INCIDENT_DATE como índice del DataFrame construído en el punto anterior 

2) Crear un nuevo DataFrame que tenga sólo un índice y ninguna columna, que sea todas las fechas existentes durante los años 2012 y 2013 

Ayuda: `pandas.date_range` https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.date_range.html

3) Hacer un join entre los DataFrame 1) y 2). Con esto vamos a conseguir que en el DataFrame resultado haya valores null en el campo INCIDENT_COUNT para las fechas que no estaban en el DataFrame resultado del ejercicio anterior.

Ayuda: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html

4) Por último, completamos los valores nulos de INCIDENT_COUNT en el nuevo DataFrame con el valor cero

Ayuda: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html


### Ejercicio: Exploratorio

Usemos un gráficos de barras para representar los valores de frecuencia de accidentes en los años 2012 y 2013 (por separado)

Para eso, agregamos al DataFrame una columna de tipo int que indique el mes que corresponde al valor de index de cada registro.

Y usemos los valores de esta nueva columna como eje x.

In [None]:
# magia!
# https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#selection-by-label
data_2012 = data_2012_2013['2012']
data_2013 = data_2012_2013['2013']


### Ejercicio: Test de hipótesis

Asumamos que la Federal Aviation Administration lanzó en el 2013 un nuevo programa de prevención de incidentes con fauna silvestre.

Queremos saber si hay una baja significativa en el número diario de incidentes del año 2013 respecto del 2012.

Elegimos como nivel de significación (alfa) 0.05

Una probabilidad menor a 0.05 rechaza la hipótesis nula.

La hipótesis nula es que la media de incidentes del 2012 es la media poblacional y es igual a la media poblacional de incidentes del 2013.

La hipótesis alternativa es que la media de incidentes del 2013 es menor que la del 2012.

|Hypothesis|$\alpha = .05$|   |
|---|:---:|:---|
|Null|$H_0:$|$\mu = \bar{x}_{2013}$|
|Alternative|$H_a:$|$\mu \gt \bar{x}_{2013} $|

Calculemos la media de incidentes y desvío para los años 2012 y 2013

Notamos que la media de incidentes del 2013 es un poco menor que la del 2102.

Queremos saber si esta diferencia se debe a la variación normal de estos dato, es decir que la diferencia se puede adjudicar al azar. 

Para eso, calculemos el z-score y usemos un nivel de significación 0.05



Calculamos valores críticos:

Grafiquemos datos con distribución normal, la región de rechazo, y el valor de zscore obtenido

(Nota: Hay que modificar este código para que tome las variables a las que ustedes asignaron los resultados)

In [None]:
# Plot the normal distribution
samples = 100
x_plot = np.linspace(-3.5, 3.5, samples)
y_plot = stats.norm.pdf(x_plot, 0, 1)
plt.plot(x_plot, y_plot)

# Plot the critical region
x_crit = np.linspace(-3.5, critical_value, samples)
y_crit = stats.norm.pdf(x_crit, 0, 1)
# colorea la region de rechazo de H0:
plt.fill_between(x_crit,  y_crit, alpha=.5)

# Plot the z score, linea naranja:
plt.plot([zscore, zscore], [0, stats.norm.pdf(zscore)])

# Show legend
plt.legend(['critical region', 'z score'])
plt.show()

Como zscore no es menor que critical_value, no podemos rechazar H0.

Esto indica que podemos obtener por azar una media muestral con ese valor de la misma población real.

En otras palabras, no hay diferencia significativa en los promedios de incidentes en 2012 y 2013.


---

## A/B Testing

### Dataset

Los datos corresponden a las visitas de usuarios a un sitio web.

Este sitio tiene dos versiones de la landing: old_page y new_page

El campo "converted" indica si un usuario hizo click o no, idicados con 1 o 0 respectivamente, en la pagina que vio.

El objetivo es determinar si la nueva versión de la página tiene más proporción de clicks que la vieja.

https://www.kaggle.com/zhangluyuan/ab-testing

In [None]:
data_location = "../Data/ab_data.csv"
data = pd.read_csv(data_location, sep=",")
data.head()

Tenemos que eliminar todos los registros que sean 
* 'control' y 'new_page' 
* 'treatment' y 'old_page'

Miremos cuántos no están en esas condiciones

Eliminemos los registros detectados en el paso anterior

Eliminemos los registros duplicados

Calculemos la probabilidad de conversion independiente de la página

Calculemos la probabilidad de convertir si el usuario ve la página nueva

In [None]:
new_mask = data_ab.landing_page == 'new_page'
new_converted_mask = np.logical_and(new_mask, data_ab.converted == 1)
new_converted_mask.sum() / new_mask.sum()

Calculemos la probabilidad de convertir si si el usuario ve la página vieja

In [None]:
old_mask = data_ab.landing_page == 'old_page'
old_converted_mask = np.logical_and(old_mask, data_ab.converted == 1)
old_converted_mask.sum() / old_mask.sum()

Calculemos la probabilidad de ver la página nueva

In [None]:
new_mask.sum() / data_ab.shape[0]

Definimos una función que calcula los estimadores de los parámetros de una distribución de Bernoulli

In [None]:
def estimated_parameters(N, n):
    p = n/N
    sigma = math.sqrt(p*(1-p)/N)
    return p, sigma

Definimos una función que calcula el estadístico de un A/B Test

In [None]:
def a_b_test_statistic(N_A,n_A,N_B,n_B):
    p_A, sigma_A = estimated_parameters(N_A, n_A)
    p_B, sigma_B = estimated_parameters(N_B, n_B)
    return (p_B - p_A)/math.sqrt(sigma_A**2 + sigma_B**2)

Calculemos el valor del estadístico definido por esta función y los valores críticos y p-value para decidir si rechazamos H0 con un nivel de significación del 5%.

H0: p_new = p_old

H1: p_new != p_old

**Bonus track**:
    
Más adelante en este curso vamos ver la biblioteca statsmodels, que ahora vamos a mencionar porque nos permite calcular z-score y p-value para nuestro problema, y compararlo con los resultados que obtuvimos con nuestras funciones.

https://www.statsmodels.org/0.6.1/generated/statsmodels.stats.proportion.proportions_ztest.html

In [None]:
import statsmodels.api as sm

In [None]:
z_score, p_value = sm.stats.proportions_ztest([n_control_old, n_treatment_new], [N_control_old, N_treatment_new], 
                                              alternative='two-sided')
z_score, p_value

## Referencias

Test de Hipótesis
https://github.com/leonvanbokhorst/NoteBooks-Statistics-and-MachineLearning/blob/master/0014%20Hypothesis%20Testing%20with%20Bird%20Strike%20Incidents.ipynb

A/B testing
https://www.kaggle.com/shweta112/a-b-testing-analysis

A/B testing, un ejemplo (un poco más difícil) para analizar 

https://www.kaggle.com/tammyrotem/ab-tests-with-python
    
https://github.com/baumanab/udacity_ABTesting#summary
        
https://github.com/TammyRotem/A-B_Tests_with_Python/blob/master/AB_Testing_with_Python.ipynb        
