### O que é teste A/B?

O teste A/B é uma forma específica de teste de hipóteses que compara duas versões (A e B) de uma variável para determinar qual delas é mais eficaz. É amplamente utilizado em marketing digital, design de produto e outros campos para melhorar a tomada de decisões com base em dados.

### Configuração do Teste

Suponha que você seja um cientista de dados analisando a taxa de conversão de uma página web. Você introduziu uma alteração no design (por exemplo, a posição de um botão de compra) e quer verificar se essa alteração resultou em um aumento nas conversões.

1. **Grupo de Controle e Grupo de Teste**:
   - **Grupo A (Controle)**: Este grupo é exposto ao design original.
   - **Grupo B (Teste)**: Este grupo experimenta a nova variação.

2. **Coleta de Dados**:
   - Você coleta dados sobre uma métrica relevante, como o valor médio da compra, de ambos os grupos. Por exemplo, você pode ter coletado dados de 80 clientes no grupo A e 20 no grupo B.

3. **Hipóteses do Teste**:
   - **Hipótese Nula (H0)**: Não há diferença nos valores médios de compra entre os grupos A e B.
   - **Hipótese Alternativa (H1)**: O valor médio de compra no grupo B é maior que no grupo A.

4. **Nível de Significância (Alpha)**:
   - Define-se um nível de significância (usualmente, 0.05), que é a probabilidade de rejeitar a hipótese nula quando ela é verdadeira (erro tipo I).

### Implementação do Teste A/B:

O teste t para duas amostras é utilizado para determinar se as médias de dois grupos são estatisticamente diferentes. Neste contexto, avaliamos se a mudança no design do website resultou em uma melhoria significativa nas conversões.

In [5]:
import numpy as np
from scipy.stats import t, ttest_ind, chi2_contingency, norm

# Dados simulados
np.random.seed(42)
data_a = np.random.normal(loc=50, scale=10, size=80)  # Grupo A: média = $50, desvio padrão = $10
data_b = np.random.normal(loc=55, scale=15, size=20)  # Grupo B: média = $55, desvio padrão = $15

# Médias amostrais e desvios padrão
mean_a = np.mean(data_a)
mean_b = np.mean(data_b)
std_a = np.std(data_a, ddof=1)
std_b = np.std(data_b, ddof=1)

# Tamanho das amostras
n_a = len(data_a)
n_b = len(data_b)

# Cálculo do t-estatístico e do valor-p para um teste de duas amostras independentes
t_statistic, p_value = ttest_ind(data_a, data_b, equal_var=False)

# Exibição dos resultados
print(f"Média do Grupo A: {mean_a:.2f}")
print(f"Média do Grupo B: {mean_b:.2f}")
print(f"T-estatístico: {t_statistic:.4f}")
print(f"Valor-p: {p_value:.4f}")

# Decisão com base no nível de significância alpha = 0.05
alpha = 0.05
if p_value < alpha:
    print("Rejeitar a hipótese nula: Há uma diferença estatisticamente significativa entre os grupos.")
else:
    print("Não rejeitar a hipótese nula: Não há diferença estatisticamente significativa entre os grupos.")

Média do Grupo A: 48.76
Média do Grupo B: 54.64
T-estatístico: -2.3039
Valor-p: 0.0290
Rejeitar a hipótese nula: Há uma diferença estatisticamente significativa entre os grupos.


### Dados do Teste

- **Grupo A**: Versão antiga do website.
- **Grupo B**: Nova versão proposta do website.

Neste exemplo, consideramos que:
- O Grupo A teve 80 visitantes, dos quais 20 realizaram uma compra.
- O Grupo B teve 20 visitantes, dos quais 8 realizaram uma compra.

### Hipóteses

- **Hipótese Nula (H0)**: As taxas de conversão entre o Grupo A e o Grupo B são iguais.
- **Hipótese Alternativa (H1)**: A taxa de conversão do Grupo B é maior que a do Grupo A.

### Teste Estatístico

Para testar as hipóteses, usamos um teste qui-quadrado para independência, que é adequado para comparar proporções em dados categóricos. Este teste verifica se há uma relação estatística significativa entre as duas variáveis categóricas (grupo e resultado de compra).

### Cálculo do Teste

- A matriz de contingência é formada com os dados de compra e não compra dos dois grupos:
  ```
  [[20, 60],  # Compras e não compras no Grupo A
   [8, 12]]   # Compras e não compras no Grupo B
  ```
- Aplicamos o teste qui-quadrado sem correção de continuidade (Yates' correction) para obter o valor de chi-quadrado, o valor-p, os graus de liberdade e as contagens esperadas se H0 fosse verdadeira.

### Interpretação dos Resultados

- **Valor-p**: Fornece a probabilidade de observar os dados coletados, ou mais extremos, se a hipótese nula fosse verdadeira. Um valor-p baixo (menor que o nível de significância, geralmente 0.05) indica que devemos rejeitar a hipótese nula.
- **Chi-quadrado**: Quanto maior o valor, maior a evidência contra a hipótese nula.
- **Contagens esperadas**: Mostram o número de sucessos e fracassos esperados em cada grupo se a hipótese nula fosse verdadeira.

### Decisão

- Se o valor-p é menor que o nível de significância (0.05), rejeitamos a hipótese nula e concluímos que há uma diferença estatística significativa entre as taxas de conversão dos dois grupos.
- Se o valor-p é maior, não há evidência suficiente para rejeitar a hipótese nula.

In [4]:
# Dados de exemplo
# Grupo A: 80 visitantes, 20 compras
# Grupo B: 20 visitantes, 8 compras
data = np.array([[20, 60],  # 20 compras, 60 não compras em Grupo A
                 [8, 12]])  # 8 compras, 12 não compras em Grupo B

# Realizando o teste de chi-quadrado para independência
chi2, p_value, dof, expected = chi2_contingency(data, correction=False)

# Exibição dos resultados
print(f"Chi-quadrado: {chi2:.4f}")
print(f"Valor-p: {p_value:.4f}")
print(f"Graus de liberdade: {dof}")
print("Contagens esperadas:")
print(expected)

# Decisão baseada no nível de significância alpha = 0.05
alpha = 0.05
if p_value < alpha:
    print("Rejeitar a hipótese nula: As taxas de conversão são estatisticamente diferentes.")
else:
    print("Não rejeitar a hipótese nula: Não há evidência suficiente para afirmar que as taxas de conversão diferem.")

# Proporções observadas
prop_a = 20 / 80
prop_b = 8 / 20
print(f"Proporção de conversão em Grupo A: {prop_a:.2f}")
print(f"Proporção de conversão em Grupo B: {prop_b:.2f}")

Chi-quadrado: 1.7857
Valor-p: 0.1814
Graus de liberdade: 1
Contagens esperadas:
[[22.4 57.6]
 [ 5.6 14.4]]
Não rejeitar a hipótese nula: Não há evidência suficiente para afirmar que as taxas de conversão diferem.
Proporção de conversão em Grupo A: 0.25
Proporção de conversão em Grupo B: 0.40


**Coleta de Dados**:
   - Grupo A (design antigo): 80 visitantes, dos quais 20 converteram.
   - Grupo B (novo design): 20 visitantes, dos quais 8 converteram.

**Cálculo das Proporções**:
   - Proporção de conversões no Grupo A (`p_A`): 20/80 = 0.25 (25%)
   - Proporção de conversões no Grupo B (`p_B`): 8/20 = 0.40 (40%)

**Hipótese Nula e Alternativa**:
   - **Hipótese Nula (H0)**: As taxas de conversão para ambos os designs são iguais. Matematicamente, isso implica que a diferença entre as proporções é zero.
   - **Hipótese Alternativa (H1)**: A taxa de conversão para o novo design (Grupo B) é maior que a do design antigo (Grupo A).

**Combinação das Proporções e Cálculo do Desvio Padrão**:
   - Proporção combinada (`p_combinada`): Calculada somando as conversões de ambos os grupos e dividindo pelo total de visitantes dos dois grupos. Isso nos dá uma estimativa da taxa de conversão sob a hipótese nula.
   - Desvio padrão combinado (`std_combinada`): Calculado sob a suposição de que as taxas de conversão são iguais sob a hipótese nula. Ele é usado para estimar o erro padrão da diferença entre as duas proporções.

**Cálculo da Estatística de Teste (Z)**:
   - A estatística Z é calculada pela diferença entre as duas proporções dividida pelo desvio padrão combinado. Isso nos dá uma medida de quantos desvios padrões a proporção observada no Grupo B está da proporção combinada sob a hipótese nula.

**Cálculo do Valor-p**:
   - O valor-p é calculado como a probabilidade de obter uma estatística de teste tão extrema quanto a observada (ou mais), assumindo que a hipótese nula é verdadeira. No caso de um teste unilateral à direita, isso corresponde à área sob a curva da distribuição normal padrão à direita da nossa estatística Z calculada.

**Decisão**:
   - Comparamos o valor-p com o nível de significância estabelecido (α = 0.05). Se o valor-p for menor que 0.05, rejeitamos a hipótese nula em favor da hipótese alternativa, indicando que há evidências estatísticas suficientes para afirmar que a taxa de conversão no Grupo B é maior do que no Grupo A.

In [6]:
# Dados do grupo A (design antigo)
n_A = 80
conversoes_A = 20
p_A = conversoes_A / n_A

# Dados do grupo B (novo design)
n_B = 20
conversoes_B = 8
p_B = conversoes_B / n_B

# Calcular a proporção combinada sob H0 (taxas de conversão iguais)
p_combinada = (conversoes_A + conversoes_B) / (n_A + n_B)

# Calcular o desvio padrão combinado para a diferença entre proporções
std_combinada = np.sqrt(p_combinada * (1 - p_combinada) * (1/n_A + 1/n_B))

# Calcular a estatística Z
z_stat = (p_B - p_A) / std_combinada

# Calcular o valor-p para o teste unilateral à direita
p_value = 1 - norm.cdf(z_stat)

# Exibir resultados
print(f"Z-statistic: {z_stat:.3f}")
print(f"P-value: {p_value:.4f}")

if p_value < 0.05:
    print("Rejeitar H0: A taxa de conversão para o novo design é significativamente maior.")
else:
    print("Não rejeitar H0: Não há evidência suficiente de que a taxa de conversão para o novo design é maior.")

Z-statistic: 1.336
P-value: 0.0907
Não rejeitar H0: Não há evidência suficiente de que a taxa de conversão para o novo design é maior.
