## Navegação WebPage - Teste A/B

Na expectativa de aumentar o acesso dos usuários da webpage para uma pagina especifica, os profissionais de TI da Universidade de Montana constataram que a pagina atual poderia estar causando confundiomento nos usuários, então resolveram estudar a possibilidade de muda-la. Para isso foram realizado coleta de dados através do Google Analytics e pesquisas para saber qual o nome mais indicado para colocar no botão que direciona o usuário para pagina desejada. Os nomes selecionados para substituir o botão "Interact" foram: "Connect", "Help", "Services" e "Request".

Gostariamos de descobrir se a mudança referente a alterações de algum dos botões são estatisticamente relevantes. Para isso será utilizado uma técnica conhecida como Test A/Bn.

O objetivo do estudo de caso foi entender qual título de categoria comunicou seu conteúdo de forma mais clara aos usuários e qual título de categoria resultou em usuários seguindo mais adiante no site da biblioteca. Três principais métricas baseadas na web foram usadas para este experimento: taxa de cliques para a página inicial, taxa de desistência para as páginas da categoria e taxa de retorno da página inicial para as páginas da categoria.

**Conversão:**<br>
0 - O usuário acessou a pagina mas não comprou um produto.<br>
1 - O usuário acessou a pagina e comprou um produto.

In [1]:
### Python Libraries
import seaborn as sns
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
import pandas as pd
from datetime import datetime, time, date
import scipy.stats as stats
import statsmodels.stats.api as sms
from math import ceil
from scipy.stats import norm

In [2]:
FILEPATH = r'data/MSU-Library-Pages-20130529-20130618.xlsx'
FILEPATH_INTERACT = r'data/Element list Homepage Version 1 - Interact, 5-29-2013.csv'
FILEPATH_CONNECT = r'data/Element list Homepage Version 2 - Connect, 5-29-2013.csv'
FILEPATH_LEARN = r'data/Element list Homepage Version 3 - Learn, 5-29-2013.csv'
FILEPATH_HELP = r'data/Element list Homepage Version 4 - Help, 5-29-2013.csv'
FILEPATH_SERVICES = r'data/Element list Homepage Version 5 - Services, 5-29-2013.csv'

In [3]:
df_raw =  pd.read_excel(FILEPATH, sheet_name='Dataset1') #header=4, usecols='C:J',
df_interact_raw =  pd.read_csv(FILEPATH_INTERACT)
df_connect_raw =  pd.read_csv(FILEPATH_CONNECT)
df_learn_raw =  pd.read_csv(FILEPATH_LEARN)
df_help_raw =  pd.read_csv(FILEPATH_HELP)
df_services_raw =  pd.read_csv(FILEPATH_SERVICES)

  warn("Workbook contains no default style, apply openpyxl's default")


### HINTS

index.php - INTERACT <br>
index2.php - CONNECT <br>
index3.php - LEARN <br>
index4.php - HELP <br>
index5.php - SERVICES <br>

In [4]:
df_interact = df_interact_raw.loc[df_interact_raw['Visible?'] == True]
df_connect = df_connect_raw.loc[df_connect_raw['Visible?'] == True]
df_learn = df_learn_raw.loc[df_learn_raw['Visible?'] == True]
df_help = df_help_raw.loc[df_help_raw['Visible?'] == True]
df_services = df_services_raw.loc[df_services_raw['Visible?'] == True]

In [5]:
df_connect.head(50)

Unnamed: 0,Element ID,Tag name,Name,No. clicks,Visible?,Snapshot information
0,74,a,FIND,502,True,Homepage Version 2 - Connect • http://www....
1,66,input,s.q,357,True,created 5-29-2013 • 20 days 7 hours 34 min...
2,72,a,lib.montana.edu/find/,171,True,
4,103,a,Hours,74,True,
5,83,a,REQUEST,57,True,
6,92,a,CONNECT,53,True,
7,67,button,Search,47,True,
8,81,a,lib.montana.edu/request/,31,True,
9,101,a,News,31,True,
10,127,a,Contact Us,18,True,


In [6]:
interact_total = df_interact['No. clicks'].sum()
interact_clicks = (df_interact['No. clicks'].loc[(df_interact.Name == 'INTERACT') | (df_interact.Name == 'lib.montana.edu/interact/')]).sum()
interact_ctr = interact_clicks/interact_total

interact_total, interact_clicks, interact_ctr

(2389, 69, 0.02888237756383424)

In [7]:
connect_total = df_connect['No. clicks'].sum()
connect_clicks = (df_connect['No. clicks'].loc[(df_connect.Name == 'CONNECT') | (df_connect.Name == 'lib.montana.edu/interact/')]).sum()
connect_ctr = connect_clicks/connect_total

connect_total, connect_clicks, connect_ctr

(1487, 62, 0.04169468728984533)

In [8]:
learn_total = df_learn['No. clicks'].sum()
learn_clicks = (df_learn['No. clicks'].loc[(df_learn.Name == 'LEARN') | (df_learn.Name == 'lib.montana.edu/interact/')]).sum()
learn_ctr = learn_clicks/learn_total

learn_total, learn_clicks, learn_ctr

(1530, 28, 0.018300653594771243)

In [9]:
help_total = df_help['No. clicks'].sum()
help_clicks = (df_help['No. clicks'].loc[(df_help.Name == 'HELP') | (df_help.Name == 'lib.montana.edu/interact/')]).sum()
help_ctr = help_clicks / help_total

help_total, help_clicks, help_ctr

(1577, 45, 0.028535193405199746)

In [10]:
services_total = df_services['No. clicks'].sum()
services_clicks = (df_services['No. clicks'].loc[(df_services.Name == 'SERVICES') | (df_services.Name == 'lib.montana.edu/interact/')]).sum()
services_ctr = services_clicks/services_total

services_total, services_clicks, services_ctr

(1292, 63, 0.048761609907120744)

In [12]:
feat = [[interact_clicks, interact_ctr, interact_total, 0.4013, ],
            [connect_clicks, connect_ctr, connect_total, 0.4314, ],
            [learn_clicks, learn_ctr, learn_total, 0.4690, ],
            [help_clicks, help_ctr, help_total, 0.5033, ],
            [services_clicks, services_ctr, services_total, 0.4844, ]]

df = pd.DataFrame(feat, columns=['Clicks', 'CTR', 'PageAccess', 'BounceRate'], index=['Interact','Connect','Learn','Help','Services'])
df

Unnamed: 0,Clicks,CTR,PageAccess,BounceRate
Interact,69,0.028882,2389,0.4013
Connect,62,0.041695,1487,0.4314
Learn,28,0.018301,1530,0.469
Help,45,0.028535,1577,0.5033
Services,63,0.048762,1292,0.4844


In [36]:
df_clicks = df[['Clicks']]
df_clicks['No-Clicks'] = df['PageAccess'] - df['Clicks']
df_clicks

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ctr['No-Clicks'] = df['PageAccess'] - df['Clicks']


Unnamed: 0,Clicks,No-Clicks
Interact,69,2320
Connect,62,1425
Learn,28,1502
Help,45,1532
Services,63,1229


### Hipotese

$H_{0}:\mu_{old} = \mu_{new}$ , a taxa de clicks no botão antigo é igual a taxa de clicks no botão novo<br>
$H_{1}:\mu_{old} \neq \mu_{new}$ , a taxa de clicks no botão antigo é diferente a taxa de clicks no botão novo

Nivél de significância: 0,05.

### Teste de Normalidade

Como não possuímos os registros das paginas diarios assumesse que a distribuição é normal

### Assumptions:

**A distribuição é continua ou discreta?**
* Discreta, pois os clicks assumem apenas valores discretos.

**As distribuições são dependentes ou independentes?** 
* Independendes, pois um mesmo usuário acessa apenas uma unica pagina uma unica vez.
  
**A distribuição é normal?** 
* Sim, pois...
  
**A variancia é a mesma?** 
*  

**Quantos grupos?** 
* Cinco

Seguindo o diagrama o teste de hipoteses escolhido será o **Chi Squared** para amostras independentes, paramétricas, com cinco grupos.

In [58]:
effect_size = sms.proportion_effectsize(0.030, 0.050)    # Choen d

# baseline_rate = conversions_control / total_users_control
# practical_significance = 0.02 #user defined
# effect_size = sms.proportion_effectsize(baseline_rate, baseline_rate + practical_significance)


# Calcula o numero de amostras necessárias 
required_n = sms.NormalIndPower().solve_power(
    effect_size, 
    power=0.8, # 1 - Beta >> Comumente o Beta é escolhido como 0.2
    alpha=0.05, 
    ratio=1
    )                                                  

# arredonta o numero para cima e o mantém como inteiro 
required_n = ceil(required_n)                                                  

print(f"Serão necessárias {required_n} amostras para cada grupo, para um incremento de aproximadamente 2%")

Serão necessárias 1484 amostras para cada grupo, para um incremento de aproximadamente 2%


In [57]:
crit, p_value, dof, exp_values = stats.chi2_contingency(df_ctr)

print(f"p-value =  {p_value:.8f}")
print(f"Critical Value =  {crit:.2f}")
print(f"Expected Values = \n{exp_values}\n")
if p_value <0.05:
    print("Rejeita H0, a taxa de clicks no botão antigo é diferente a taxa de clicks no botão novo")
else:
    print("Aceita H0, a taxa de clicks no botão antigo é a mesma do botão novo")

p-value =  0.00002364
Critical Value =  26.63
Expected Values = 
[[  77.08314199 2311.91685801]
 [  47.97933535 1439.02066465]
 [  49.36676737 1480.63323263]
 [  50.88326284 1526.11673716]
 [  41.68749245 1250.31250755]]

Rejeita H0, a taxa de clicks no botão antigo é diferente a taxa de clicks no botão novo


Observe que os as paginas com botões Connect e Service apresentaram mais acessos que o esperado no teste Chi Squared e que também são os botões com maior CTR.

Outra caracteristica interessante é que o bounce rate da pagina com o botão Interact é o menor o que indica que a mudança nos botões também gerou algum confundimento nos usuários da pagina