## Problema: Simulación a cholón

### Parte 1: La potencia de un test

En este ejercicio vamos a calcular la potencia de un test de hipótesis. Definimos la potencia del test $T$ como la probabilidad de obtener un resultado positivo (p.ej. un p-valor < 0.05) cuando verdaderamente hay efecto. Esto es, si $T$ contrasta la hipótesis nula $H_0$ contra la alternativa $H_1$ con un nivel de significación $\alpha$, la **potencia de $T$** es:
$$\mathrm{pow}(T):=P \left (p_T < \alpha | H_1 \mathrm{is\ true} \right )$$
Dicho de otro modo, nos mide la tasa de verdaderos positivos (y, por ende, la tasa de falsos positivos, que es la que se suele reportar más a menudo). Incluso cuando los datos subyacentes son normales, no hay una manera directa de obtener la potencia de un test, tal y como sí ocurre con la distribución del estadístico de contraste; así que no queda más remedio que aproximarla con un algoritmo de simulación.

Supón que quieres comparar la tasa de conversión (CR) de dos productos similares en una web de e-commerce. Tras realizar un test AB, se obtiene que la CR de A es 0.031 y la CR de B es 0.054. Si las conversiones siguen sendas distribuciones binomiales y hemos tenido 4568 y 5021 usuarios únicos viendo cada producto, calcula la potencia del test que compara las dos proporciones si rechazamos la hipótesis nula con un p-valor de 0.05.

*Indicación*: repite el test muchas veces, cada una simulando las dos binomiales aleatoriamente, y anota cuántas veces obtienes el p-valor deseado o mejor. Prueba con distinto número de iteraciones y comenta los resultados. Aquí tienes un snippet de código para generar muestras binomiales de probabilidad `p` y tamaño `k` a partir de repetir una Bernoulli.

In [12]:
import io
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from scipy.stats import bernoulli

# Modifica los valores y observa los resultados que obtienes en distintas pruebas

kA = 4568
pA = 0.031

kB = 5021
pB = 0.054

binom_sampleA = bernoulli.rvs(pA, size=kA)
binom_sampleB = bernoulli.rvs(pB, size=kB)
print(binom_sampleA)
print(binom_sampleB)
#CON UNA POTENCIA DEL 80% PARA UN NIVEL SIGNIFICACION DEL 5% 

[0 0 0 ... 0 0 0]
[0 0 0 ... 0 0 0]


In [8]:
def generate_permutation_samples(x, y, estimator, n_iter=None, two_sided=True,
                                 random_seed=None, verbose=False, **kwargs):
 
  if n_iter is None:
    n_iter = (len(x) + len(y)) * 10

  if random_seed is not None:
    np.random.seed(random_seed)

  conc_sample = list(x) + list(y)

  batch_1 = len(x)
  batch_2 = len(x) + len(y)
  
  samples = [estimator(x, **kwargs) - estimator(y, **kwargs)]
  for _ in np.arange(n_iter):
    perm_sample = np.random.choice(conc_sample, size=len(conc_sample))

    if verbose:
      print(perm_sample)
    
    this_sample = estimator(
        perm_sample[:batch_1], **kwargs) - estimator(
            perm_sample[batch_1:batch_2], **kwargs)
    samples.append(this_sample)

  if two_sided:
    samples = [np.abs(s) for s in samples]
  
  return samples

In [6]:
def get_pvalue(test, data, alpha=0.05):
  
  bootstrap_values = np.array(data)
  p_value = len(bootstrap_values[bootstrap_values < test]) / len(bootstrap_values)

  p_value = np.min([p_value, 1. - p_value])

  return [p_value, p_value < alpha] 

In [21]:
pvalores=[]
count = 0
total_its = 400

for i in range(total_its):

  binom_sampleA = bernoulli.rvs(pA, size=kA)
  binom_sampleB = bernoulli.rvs(pB, size=kB)
  muestras=generate_permutation_samples(binom_sampleA,
                                        binom_sampleB,
                                        estimator=np.mean,
                                        n_iter=1000)
  pvalor, _ = get_pvalue(0.023, muestras, alpha=0.05)
  pvalores.append(pvalor)

  if pvalor <= 1.e-10:
    count += 1
    print(count)

print(count / total_its)


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
0.52


### Parte 2: ¿Cuántos usuarios necesito para estar seguro de los resultados?

El tema de la potencia lleva al razonamiento siguiente: dado que un test podría no ser suficientemente potente, ello implica que es relativamente frecuente obtener p-valores bajos cuando en realidad no hay efecto. Esto debería suceder, sobre todo, cuando las tasas de conversión son bajas y disponemos de pocas muestras. En tal caso, ¿cuantos usuarios se necesitan para que los resultados del test sean fiables?

Esta no es una cuestión baladí, y la realidad es que a menudo es muy complicado reportar resultados de un test AB porque, o bien se desconoce el tamaño muestral necesario para hacerlo fiable, o bien dicho tamaño es tan grande que es imposible de alcanzar.

La norma no escrita en la industria es que, para reportar resultados de un test AB, se necesita un p-valor de 0.05 o inferior y que el test tenga una potencia de, al menos, 0.8 (80%). Fijadas estas dos cantidades, simula tests de proporciones con los datos de la parte 1. Comienza con pocas muestras por grupo (por ejemplo, 100 en cada variante) y ves aumentando los tamaños muestrales hasta que obtengas una N que dé un p-valor de 0.05 o menos y una potencia de 0.8 o más. ¿Qué tamaño muestral se necesita?

*Indicación*: A cada iteración de tamaño muestral necesitas simular los p-valores para saber la potencia; por lo tanto tendrás que hacer un loop de loops. Dependiendo de la CPU y la RAM de tu máquina esto puede ser bastante lento. Ten paciencia, deja la máquina varias horas calculando si es necesario. Tal cosa es habitual en entornos de trabajo y experimentación en Data Science.


POTENCIA (PARA CADA ITERACCION HAZME UN TEST DE BOOTSTRAP) 
NESTED LOOPS 
HACERLO EN EL CLOUD 

In [15]:
#El tamano muestral necesario para que pueda creer el p-value requerido. 
n_its = 10
max_its = 5000
ratio = 0.
total_its = 100
pow = 0.9
min_pval = 0.05

while ratio < pow or n_its > max_its:

  count = 0
  for i in range(total_its):

    binom_sampleA = bernoulli.rvs(pA, size=n_its)
    binom_sampleB = bernoulli.rvs(pB, size=n_its)
    muestras=generate_permutation_samples(binom_sampleA,
                                          binom_sampleB,
                                          estimator=np.mean,
                                          n_iter=1000)
    pvalor, _ = get_pvalue(0.023, muestras, alpha=min_pval)
    pvalores.append(pvalor)

    if pvalor <= min_pval:
      count += 1

  ratio = count / total_its
  n_its += 100
  print(ratio,n_its)
print(n_its-100)

0.52 110
0.0 210
0.0 310
0.0 410
0.05 510
0.14 610
0.71 710
0.98 810
710
