In [0]:
# Teste t para verificar significância estatística entre o grupo controle e target utilizando o ticket médio e a frequência
from scipy.stats import t
import math

def teste_ab_resumido(media1, std1, n1, media2, std2, n2, alpha=0.05, nome_metrica=""):
    """
    Realiza um teste t de Welch com média, desvio padrão e tamanho das amostras.
    """
    # Estatística t
    t_stat = (media1 - media2) / math.sqrt((std1**2 / n1) + (std2**2 / n2))
    
    # Graus de liberdade aproximados
    df = ((std1**2 / n1 + std2**2 / n2) ** 2) / \
         (((std1**2 / n1) ** 2) / (n1 - 1) + ((std2**2 / n2) ** 2) / (n2 - 1))
    
    # P-valor (bilateral)
    p_valor = 2 * t.sf(abs(t_stat), df)

    # Resultado
    print(f"\n Resultado para: {nome_metrica}")
    print(f"Estatística t: {t_stat:.4f}")
    print(f"Graus de liberdade: {df:.2f}")
    print(f"P-valor: {p_valor:.4f}")
    
    if p_valor < alpha:
        print("Rejeitamos H0: há diferença significativa entre os grupos.")
    else:
        print("Não rejeitamos H0: não há diferença significativa entre os grupos.")

        #1ª 
        #H0 = Não há diferença significativa entre o controle e o target no ticket médio por cliente
        #H1 = Há diferença significativa entre o controle e o target no ticket médio por cliente 

        #2ª 
        #H0 = Não há diferença significativa entre o controle e o target na frequência
        #H1 = Há diferença significativa entre o controle e o target na frequência


# Variáveis de entrada
media_target = 47.8973 # 2.6337 # 47.8973
std_target = 46.7112 # 2.9219 # 46.7112
n_target = 381475

media_controle = 48.0488 # 2.7969 # 48.0488
std_controle = 126.4620 # 3.5780 # 126.4620
n_controle = 359219

teste_ab_resumido(
    media1=media_target, std1=std_target, n1=n_target,
    media2=media_controle, std2=std_controle, n2=n_controle,
    nome_metrica= "Ticket Médio" #'Frequência' #"Ticket Médio"
)



In [0]:
# Código para rodar o teste ANOVA - Plataforma de Origem
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Carregando em PySpark
# Seleção de colunas que vou utilizar no modelo. Já desempacotando utilizando o '*'
selected_cols = ['origin_platform','frequencia','ticket_medio','is_target'] 
df = spark.table("gold.abtest_platform").select(*selected_cols)

# Transformando em Pandas
df_pd = df.toPandas()

# Modelo ANOVA Two-Way com interação
modelo_ticket_medio = ols('ticket_medio ~ C(is_target) + C(origin_platform) + C(is_target):C(origin_platform)', data=df_pd).fit()
modelo_frequencia = ols('frequencia ~ C(is_target) + C(origin_platform) + C(is_target):C(origin_platform)', data=df_pd).fit()

# Tabela ANOVA
anova_tabela_tm = sm.stats.anova_lm(modelo_ticket_medio, typ=2)
anova_tabela_freq = sm.stats.anova_lm(modelo_frequencia, typ=2)

# Resultado
#print(anova_tabela_tm)
print(anova_tabela_freq)
anova_tabela_freq.display()

In [0]:
# Código para rodar o teste ANOVA - Faixa de preço
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Carregando em PySpark
# Seleção de colunas que vou utilizar no modelo. Já desempacotando utilizando o '*'
selected_cols = ['price_range','frequencia','ticket_medio','is_target'] 
df = spark.table("gold.abtest_price_range").select(*selected_cols)

# Transformando em Pandas
df_pd = df.toPandas()

# Modelo ANOVA Two-Way com interação
modelo_ticket_medio = ols('ticket_medio ~ C(is_target) + C(price_range) + C(is_target):C(price_range)', data=df_pd).fit()
modelo_frequencia = ols('frequencia ~ C(is_target) + C(price_range) + C(is_target):C(price_range)', data=df_pd).fit()

# Tabela ANOVA
anova_tabela_tm = sm.stats.anova_lm(modelo_ticket_medio, typ=2)
anova_tabela_freq = sm.stats.anova_lm(modelo_frequencia, typ=2)

# Resultado
anova_tabela_tm.display()
#anova_tabela_freq.display()

In [0]:
# Código para rodar o teste ANOVA - Valor mínimo
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Carregando em PySpark
# Seleção de colunas que vou utilizar no modelo. Já desempacotando utilizando o '*'
selected_cols = ['minimum_order_value_class','frequencia','ticket_medio','is_target'] 
df = spark.table("gold.abtest_minimum_value").select(*selected_cols)

# Transformando em Pandas
df_pd = df.toPandas()

# Modelo ANOVA Two-Way com interação
modelo_ticket_medio = ols('ticket_medio ~ C(is_target) + C(minimum_order_value_class) + C(is_target):C(minimum_order_value_class)', data=df_pd).fit()
modelo_frequencia = ols('frequencia ~ C(is_target) + C(minimum_order_value_class) + C(is_target):C(minimum_order_value_class)', data=df_pd).fit()

# Tabela ANOVA
anova_tabela_tm = sm.stats.anova_lm(modelo_ticket_medio, typ=2)
anova_tabela_freq = sm.stats.anova_lm(modelo_frequencia, typ=2)

# Resultado
#anova_tabela_tm.display()
anova_tabela_freq.display()

In [0]:
# Código para rodar o teste ANOVA - Tempo entrega
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Carregando em PySpark
# Seleção de colunas que vou utilizar no modelo. Já desempacotando utilizando o '*'
selected_cols = ['delivery_time_class','frequencia','ticket_medio','is_target'] 
df = spark.table("gold.abtest_delivery_time").select(*selected_cols)

# Transformando em Pandas
df_pd = df.toPandas()

# Modelo ANOVA Two-Way com interação
modelo_ticket_medio = ols('ticket_medio ~ C(is_target) + C(delivery_time_class) + C(is_target):C(delivery_time_class)', data=df_pd).fit()
modelo_frequencia = ols('frequencia ~ C(is_target) + C(delivery_time_class) + C(is_target):C(delivery_time_class)', data=df_pd).fit()

# Tabela ANOVA
anova_tabela_tm = sm.stats.anova_lm(modelo_ticket_medio, typ=2)
anova_tabela_freq = sm.stats.anova_lm(modelo_frequencia, typ=2)

# Resultado
#anova_tabela_tm.display()
anova_tabela_freq.display()

In [0]:
# Código para rodar o teste ANOVA - Região
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Carregando em PySpark
# Seleção de colunas que vou utilizar no modelo. Já desempacotando utilizando o '*'
selected_cols = ['delivery_region','frequencia','ticket_medio','is_target'] 
df = spark.table("gold.abtest_region").select(*selected_cols)

# Transformando em Pandas
df_pd = df.toPandas()

# Modelo ANOVA Two-Way com interação
modelo_ticket_medio = ols('ticket_medio ~ C(is_target) + C(delivery_region) + C(is_target):C(delivery_region)', data=df_pd).fit()
modelo_frequencia = ols('frequencia ~ C(is_target) + C(delivery_region) + C(is_target):C(delivery_region)', data=df_pd).fit()

# Tabela ANOVA
anova_tabela_tm = sm.stats.anova_lm(modelo_ticket_medio, typ=2)
anova_tabela_freq = sm.stats.anova_lm(modelo_frequencia, typ=2)

# Resultado
anova_tabela_tm.display()
#anova_tabela_freq.display()

In [0]:
# Código para rodar o teste ANOVA - Cluster
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Carregando em PySpark
# Seleção de colunas que vou utilizar no modelo. Já desempacotando utilizando o '*'
selected_cols = ['cluster','frequencia','ticket_medio','is_target'] 
df = spark.table("gold.abtest_cluster").select(*selected_cols)

# Transformando em Pandas
df_pd = df.toPandas()

# Modelo ANOVA Two-Way com interação
modelo_ticket_medio = ols('ticket_medio ~ C(is_target) + C(cluster) + C(is_target):C(cluster)', data=df_pd).fit()
modelo_frequencia = ols('frequencia ~ C(is_target) + C(cluster) + C(is_target):C(cluster)', data=df_pd).fit()

# Tabela ANOVA
anova_tabela_tm = sm.stats.anova_lm(modelo_ticket_medio, typ=2)
anova_tabela_freq = sm.stats.anova_lm(modelo_frequencia, typ=2)

# Resultado
#anova_tabela_tm.display()
anova_tabela_freq.display()