# 0.0 Imports

In [3]:
import pandas as pd
import numpy as np

from statsmodels.stats.gof import chisquare_effectsize
from statsmodels.stats.power import TTestIndPower
from statsmodels.sandbox.stats.multicomp import multipletests

from scipy import stats
from itertools import combinations
from IPython.display import Image

## 0.1 Loading Data

In [4]:
d = {'variant': ['interact', 'connect', 'learn', 'help', 'services'],
     'visits': [10283, 2742, 2747, 3180, 2064],
     'clicks_all': [3714, 1587, 1652, 1717, 1348],
     'clicks_link': [42, 53, 21, 38, 45]}

data = pd.DataFrame(d)
data['conversion'] = data['clicks_link']/data['clicks_all']

data

Unnamed: 0,variant,visits,clicks_all,clicks_link,conversion
0,interact,10283,3714,42,0.011309
1,connect,2742,1587,53,0.033396
2,learn,2747,1652,21,0.012712
3,help,3180,1717,38,0.022132
4,services,2064,1348,45,0.033383


# 1.0 Design do experimento

- H0: Não há diferença na métrica escolhida nas variantes
- H1: Há diferença na métrica escolhida nas variantes
- Métrica de avaliação: CTR (Click-Through Rate) -> 'conversion'

In [5]:
# Nível de significância
significance = 0.05

# Nível de confiança
confidence = 0.95

# Poder estatístico
power = 0.80

k = len(data['clicks_all'])

# Distribuição da probabilidade na hipotese nula
expected_dist = [1/k]*k 
expected_dist

[0.2, 0.2, 0.2, 0.2, 0.2]

In [6]:
# Distribuição da probabilidade atual
actual_dist = data['clicks_link']/data['clicks_link'].sum()
actual_dist

0    0.211055
1    0.266332
2    0.105528
3    0.190955
4    0.226131
Name: clicks_link, dtype: float64

In [11]:
# tamanho do efeito - Efeito Qui Quadrado
effect_size = chisquare_effectsize(expected_dist, actual_dist)

# Tamanho da amostra para uma variante
sample_size = TTestIndPower().solve_power(
    effect_size=effect_size,
    power=power,
    alpha=significance
)

sample_size = np.ceil(sample_size).astype(int)

print(f'Tamanho de Amostra Mínimo por Variante: {sample_size}')
print(f'Tamanho de Amostra Total: {sample_size * 5}')

Tamanho de Amostra Mínimo por Variante: 222
Tamanho de Amostra Total: 1110


# 2.0 Método Chi-Squared

In [12]:
# calculando clicks que não foram no link
data['no_clicks_link'] = data['clicks_all'] - data['clicks_link']
df = data[['variant', 'no_clicks_link', 'clicks_link']]

# criando a tabela de contingência
df = df.set_index('variant')

In [13]:
chi2, pvalue, dof, expected = stats.chi2_contingency(df)
print(f'Chi-Squared: {chi2} - p-value: {pvalue}')

Chi-Squared: 46.33660181942126 - p-value: 2.0959498129984563e-09


- Visto o p-valor extremamente pequeno, é válido afirmar que há diferença entre as variantes e a hipótese nula é rejeitada.

# 3.0 Post-hoc Testing

In [14]:
all_combinations = list(combinations(df.index, 2))
p_values = []

# Aplicando o teste de qui quadrado para cada combinação possivel
for comb in all_combinations:
    new_df = df[(df.index == comb[0]) | (df.index == comb[1])]
    chi2, pvalue, dof, ex = stats.chi2_contingency(new_df)
    p_values.append(pvalue)
    
# Corrigindo o p-valor pela Correção de Bonferroni
reject_list, corret_p_values = multipletests(p_values, method='bonferroni')[:2]

In [15]:
frame = {'combinations': all_combinations,
         'original_pvalue': p_values,
         'correted_pvalue': corret_p_values,
         'reject': reject_list}

# tabela com os p-valores originais e corrigidos de todas as combinações
pd.DataFrame(frame)

Unnamed: 0,combinations,original_pvalue,correted_pvalue,reject
0,"(interact, connect)",5.367677e-08,5.367677e-07,True
1,"(interact, learn)",0.7616981,1.0,False
2,"(interact, help)",0.003103059,0.03103059,True
3,"(interact, services)",1.798089e-07,1.798089e-06,True
4,"(connect, learn)",0.0001329287,0.001329287,True
5,"(connect, help)",0.06144184,0.6144184,False
6,"(connect, services)",1.0,1.0,False
7,"(learn, help)",0.05089582,0.5089582,False
8,"(learn, services)",0.0002037404,0.002037404,True
9,"(help, services)",0.07301999,0.7301999,False


Há diferença significativa entre a página atual (Interact) e as páginas:
- Connect
- Help
- Services

Porém, comparando as variantes que apresentaram diferença, vemos que não há diferença significativa entre as variantes.

Assim, a recomendação para mudança da página segue a ordem de maior conversão e menor p-valor:

- Connect
- Services
- Help