# TERA BOOTCAMP DSCSP
## Aula 13: Design de Experimentos & Teste A/B (Respostas)
### Instrutor: Raphael Ballet
---
Esse notebook é um complemento da aula sobre design de experimentos e teste A/B. Ele contém as respostas para os exercícios de aula.

In [1]:
# imports
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import scipy.stats as st

%matplotlib inline

---
# Case: Teste A/B

Todo teste A/B deve começar com um entendimento claro do problema que devemos atacar. Precisamos entender qual o objetivo que queremos atingir e que métricas vamos utilizar para verificar o sucesso.

Suponha o seguinte cenário para esse exercício: 
- Ao analisar os dados do TeraBuy, notamos que recebemos um bom tráfego de pessoas na nossa homepage, mas temos uma baixa taxa de pessoas que clicam (CTR: "click-through rate") no botão "compre já!" e, consequentemente, temos uma baixa taxa de conversão (proporção das pessoas que finalizam a compra). Ao levantar as possíveis hipóteses para esse fenômeno, a equipe de front-end sugeriu mudar a cor do botão (afinal, verde não é bonito). Mas, como cético que você é, você cria a sua hipótese inicial: "Será que a mudança da cor do botão mudaria o comportamento dos usuários?". Vamos realizar um teste A/B! (finalmente!)

Página do experimento:
![TeraBuy](../imagens/terabuy_experimento.png)

Agora podemos definir claramente nossos objetivos e métricas:

- **Objetivo**: Verificar variação na taxa de cliques do botão "compre já" na homepage do TeraBuy a partir da mudança de cor do mesmo.

- **Métricas**: Taxa de cliques no botão (CTR)
(Pergunta: Por que não utilizar a taxa de conversão como métrica?)

Detalhes técnicos (ir)relevantes: Cada usuário que entra no site recebe um identificador único, que é chamado de "cookie", e está associado ao seu ip. Dessa forma, podemos acompanhar o comportamento do cliente no site durante sua sessão. Quando realizamos um teste A/B, nós associamos aleatoriamente um dado cookie a um determinado "bucket" ("A" ou "B"). O cookie associado ao bucket "A" não perceberá qualquer variação no site, enquanto que o cookie associado ao bucket "B" visualizará o conteúdo de teste. Todos os cookies associados ao bucket "A" entram no que chamamos de "grupo de controle", enquanto que os outros estarão no "grupo de experimento".

#### Geração de dados do teste

A classe `ColorABTest` contém o dataframe com os dados do teste A/B realizado. Diferentemente do dataframe utilizado anteriormente, esse dataframe contém uma coluna chamada "bucket", que indica se o usuário viu ou não a nova funcionalidade. Ou seja, se bucket=1, o usuário viu o botão vermelho.

In [2]:
import gen_ab_test_data

# Gera um objeto da classe do teste A/B de cores do botão "compre já"
teste_ab = gen_ab_test_data.ColorABTest()

# Para acessar o dataframe do teste, acesse o atributo "df"
teste_ab.df.head(10)

Unnamed: 0,bucket,age,start_click,session_time,converted,ticket_price,shipping
0,1.0,36.0,0,9,0,0.0,0
1,1.0,30.0,1,7,1,93.538039,24
2,0.0,31.0,1,8,0,0.0,0
3,0.0,45.0,0,11,0,0.0,0
4,1.0,24.0,1,15,0,0.0,0
5,0.0,40.0,0,7,0,0.0,0
6,0.0,43.0,1,7,0,0.0,0
7,0.0,36.0,1,10,0,0.0,0
8,1.0,37.0,0,10,0,0.0,0
9,0.0,38.0,0,10,0,0.0,0


In [3]:
# Para encontrar o valor médio de uma coluna para um determinado valor de bucket, você pode utilizar o método "mean_bucket"
print("Média: ",teste_ab.mean_bucket(bucket=1, field='age'))

# O mesmo se aplica para o desvio padrão com o método "std_bucket"
print("Desvio padrão: ",teste_ab.std_bucket(bucket=1, field='age'))

Média:  34.95323741007194
Desvio padrão:  5.016313101551645


In [4]:
## TODO: Obter a taxa de CTR para o bucket 0 e 1
ctr_0 = teste_ab.mean_bucket(bucket=0, field='start_click')
ctr_1 = teste_ab.mean_bucket(bucket=1, field='start_click')

print('CTR_0: {:.2%}'.format(ctr_0))
print('CTR_1: {:.2%}'.format(ctr_1))

CTR_0: 38.86%
CTR_1: 44.53%


In [5]:
## TODO: Obter a taxa de conversão para o bucket 0 e 1
conv_rate_0 = teste_ab.mean_bucket(bucket=0, field='converted')
conv_rate_1 = teste_ab.mean_bucket(bucket=1, field='converted')

print('Conversion_rate_0: {:.2%}'.format(conv_rate_0))
print('Conversion_rate_1: {:.2%}'.format(conv_rate_1))

Conversion_rate_0: 7.56%
Conversion_rate_1: 9.11%


#### Teste de hipóteses

O objetivo do teste A/B é o de medir a variação entre duas proporções de sucesso entre duas populações diferentes (bucket "A": $p_A$ e bucket "B": $p_B$). Definiremos a hipótese nula indicando que os dois buckets são idênticos. Alternativamente, a hipótese alternativa indica uma variação significativa entre as proporções dos buckets.

$$H0: p_B - p_A = 0$$
$$H1: p_B - p_A \neq 0$$

Simplificações:
- assumiremos que cada evento associado ao sucesso ou não do clique é independente dos demais.
- assumiremos que as duas proporções possuem variância semelhante.
- modelaremos a proporção de cliques como uma distribuição binomial

A partir dessas simplificações, podemos iniciar os cálculos para nosso teste!

Primeiramente, vamos definir os parâmetros do teste de hipóteses e depois vamos calcular o número de dados que serão necessários.

Parâmetros escolhidos:
- $\alpha$ = 5%
- $1-\beta$ = 80%
- efeito mínimo ($e$) = 2% (significância prática) -> Não aceitaremos uma variação menor do que 2%
- número de direções ($d$) = 2

calculadora de tamanho de amostra: [link](http://www.evanmiller.org/ab-testing/sample-size.html)

Para esse teste, utilizaremos o teste Z agrupado para diferentes populações ([link](https://www.youtube.com/watch?v=hWYWHuH_zIw)). Esse teste é útil quando queremos medir variações entre proporções de sucesso entre amostras semelhantes (mesma variância).

Supondo que as duas populações possuem mesma proporção (hipótese nula), podemos calcular a **proporção agrupada** por:
$$\overline{p} = \frac{s_A + s_B}{N_A + N_B}$$
onde $s_X$ indica o número de sucessos do bucket X e $N_X$ é o numero total de usuários no bucket X. A proporção de sucesso de um bucket qualquer é calculado por: 
$$\hat{p}_X = \frac{s_X}{N_X}$$
(Note que o símbolo ^ indica que a proporção foi calculada empiricamente, ou seja, é apenas uma estimativa da proporção real da população)

O desvio padrão pode ser estimado utilizando a mesma hipótese de mesma proporção, onde obtém-se o **desvio padrão agrupado**:
$${se}(\hat{p}_B - \hat{p}_A) = \sqrt{\overline{p} (1-\overline{p}) (\frac{1}{N_A} + \frac{1}{N_B})}$$

Agora podemos calcular o "z-score" do teste, considerando que temos um tamanho de amostra suficientemente grande para aproximarmos a distribuição por uma normal.
$$Z = \frac{\hat{p}_B - \hat{p}_A}{{se}(\hat{p}_B - \hat{p}_A)}$$

Podemos também calcular o "z-score" para o nível de significância $\alpha$. Como utilizamos o teste bilateral, utilizaremos, na verdade, o z-score de $\frac{\alpha}{2}$. Esse valor pode ser calculado a partir de um software ou por uma tabela ([link](http://www.stat.ufl.edu/~athienit/Tables/Ztable.pdf)) (Por exemplo, para um $\frac{\alpha}{2}$=0.025, temos um z-score de 1.96)

Finalmente, o intervalo de confiança do nosso teste será:
$${I.C.} = \hat{p}_B - \hat{p}_A \pm Z_\frac{\alpha}{2} {se}(\hat{p}_B - \hat{p}_A)$$

In [6]:
# parametros teste A/B
alpha = 0.05
directions = 2

s_A = len(teste_ab.df[(teste_ab.df['bucket']==0) & (teste_ab.df['start_click']==1)])
N_A = len(teste_ab.df[teste_ab.df['bucket']==0])

s_B = len(teste_ab.df[(teste_ab.df['bucket']==1) & (teste_ab.df['start_click']==1)])
N_B = len(teste_ab.df[teste_ab.df['bucket']==1])
effect_size = 0.02

In [7]:
## TODO: calcule a proporção agrupada do teste A/B
p_pool = (s_A + s_B)/(N_A + N_B)

print('Probabilidade agrupada: {:.2}'.format(p_pool))

# calcule o erro padrão agrupado
se_pool = np.sqrt(p_pool*(1-p_pool)*(1/N_A+1/N_B))

print('Erro padrão agrupado: {:.2}'.format(se_pool))

# calcule o z-score do teste
p_diff = s_B/N_B - s_A/N_A
z_test = (p_diff)/se_pool

print('Diferença proporções: {:.2%}'.format(p_diff))

print('Z-score (teste) = {:.2}'.format(z_test))

Probabilidade agrupada: 0.42
Erro padrão agrupado: 0.007
Diferença proporções: 5.67%
Z-score (teste) = 8.1


In [8]:
# Calcular z_alpha/2
z_alpha2 = st.norm.ppf(1-alpha/2)

print('Z-score (alpha/2) = {:.4}'.format(z_alpha2))
# Inverso: st.norm.cdf(z_alpha2)

Z-score (alpha/2) = 1.96


In [9]:
# TODO: calcule o intervalo de confiança
ic_min = p_diff - z_alpha2*se_pool
ic_max = p_diff + z_alpha2*se_pool

ic = [ic_min, ic_max]
print('Intervalo de confiança: [{:.4f} - {:.4f}]'.format(ic_min, ic_max))

Intervalo de confiança: [0.0431 - 0.0704]


In [10]:
# TODO: calcule o p-valor do resultado
p_value = 1-st.norm.cdf(z_test)
print('P-valor = {:.4}'.format(p_value))

P-valor = 2.22e-16


In [11]:
# veredito:
if p_value < alpha/directions:
    print('Teste estatisticamente significativo! =)')
    if ic_min > effect_size:
        print('Teste significativo na prática! =)))')
    else:
        print('Efeito mínimo não alcançado. O que fazer? =|')
else:
    print('Teste não é estatisticamente significativo! =(')

Teste estatisticamente significativo! =)
Teste significativo na prática! =)))


In [12]:
# Teste para taxa de conversão:
s_A = len(teste_ab.df[(teste_ab.df['bucket']==0) & (teste_ab.df['converted']==1)])
N_A = len(teste_ab.df[teste_ab.df['bucket']==0])

s_B = len(teste_ab.df[(teste_ab.df['bucket']==1) & (teste_ab.df['converted']==1)])
N_B = len(teste_ab.df[teste_ab.df['bucket']==1])

p_pool = (s_A + s_B)/(N_A + N_B)
print('Probabilidade agrupada: {:.2}'.format(p_pool))

se_pool = np.sqrt(p_pool*(1-p_pool)*(1/N_A+1/N_B))
print('Erro padrão agrupado: {:.2}'.format(se_pool))

p_diff = s_B/N_B - s_A/N_A
print('Diferença proporções: {:.2%}'.format(p_diff))

z_test = (p_diff)/se_pool
print('Z-score (teste) = {:.2}'.format(z_test))

ic_min = p_diff - z_alpha2*se_pool
ic_max = p_diff + z_alpha2*se_pool
print('Intervalo de confiança: [{:.4f} - {:.4f}]'.format(ic_min, ic_max))

p_value = 1-st.norm.cdf(z_test)
print('P-valor = {:.4}'.format(p_value))

# veredito:
if p_value < alpha/directions:
    print('Teste estatisticamente significativo! =)')
    if ic_min > effect_size:
        print('Teste significativo na prática! =)))')
    else:
        print('Efeito mínimo não alcançado. O que fazer? =|')
else:
    print('Teste não é estatisticamente significativo! =(')

Probabilidade agrupada: 0.083
Erro padrão agrupado: 0.0039
Diferença proporções: 1.55%
Z-score (teste) = 4.0
Intervalo de confiança: [0.0078 - 0.0232]
P-valor = 3.623e-05
Teste estatisticamente significativo! =)
Efeito mínimo não alcançado. O que fazer? =|
