# Análise Completa - Case Ifood: Teste A/B Estratégia de Cupons

Notebook único para orquestrar as tarefas de execução de *setup*, **ETL** e análise dos dados, integrando os diferentes módulos do repositório de origem:

- Clona/atualiza o repositório do projeto, com as dependências, no Colab
- Instala dependências e faz o **download** dos dados brutos
- Sobe Spark e executa o **ETL** (orders/consumers/restaurants + mapa A/B)
- Mantém `orders_silver` e `users_silver` em memória
- Realiza a análise exploratória dos dados


## Configuração do Ambiente e Preparação dos Dados

### Configuração de Ambiente e Download de Dados Brutos

In [None]:
import os, sys, subprocess
from pathlib import Path

GITHUB_USER = "silvaniacorreia"
REPO_NAME   = "ifood-case-cupons"
REPO_URL    = f"https://github.com/{GITHUB_USER}/{REPO_NAME}.git"

def run(cmd):
    print(">", " ".join(cmd))
    subprocess.check_call(cmd)

# 1) clonar/atualizar repositório
ROOT = Path("/content")
PROJECT_DIR = ROOT / REPO_NAME
if not PROJECT_DIR.exists():
    run(["git", "clone", REPO_URL, str(PROJECT_DIR)])
else:
    os.chdir(PROJECT_DIR)
    run(["git", "fetch", "--all"])
    run(["git", "checkout", "main"])
    run(["git", "pull", "--rebase", "origin", "main"])
os.chdir(PROJECT_DIR)

# 2) deps + download programático
run([sys.executable, "-m", "pip", "install", "-r", "requirements.txt", "--no-cache-dir"])
run([sys.executable, "scripts/download_data.py"])

# 3) sys.path
if str(PROJECT_DIR) not in sys.path:
    sys.path.insert(0, str(PROJECT_DIR))
print("✔️ Bootstrap concluído. Projeto:", PROJECT_DIR)


### Iniciando o Spark

In [None]:
from src.utils import load_settings, get_spark

s = load_settings()
spark = get_spark(
    app_name=s.runtime.spark.app_name,
    shuffle_partitions=s.runtime.spark.shuffle_partitions,
    extra_conf=getattr(s.runtime.spark, "conf", {}) 
)
print("✔️ Spark ativo - versão:", spark.version)

# checagem rápida
spark.range(5).show()


### Análises Pré-Flight

In [None]:
## Checagens dados brutos
from src.checks import preflight
from pprint import pprint

rep = preflight(s.data.raw_dir, strict=False)
print("Pré-flight (resumo):")
pprint({
    "raw_dir": rep["raw_dir"],
    "orders_format_guess": rep["orders_format_guess"],
    "files": {k: {kk: vv for kk, vv in v.items() if kk in ("exists","size_bytes","gzip_ok","tar_ok")} for k, v in rep["files"].items()},
    "ab_csv_candidates": rep["ab_csv_candidates"][:3],
})


### ETL (Extração, Transformação e Carga)

In [None]:
from src import etl, checks
from pyspark.sql import functions as F
import os

def _get_exp_window(s):
    """
    Lê a janela do experimento a partir das configurações. Caso não exista, utiliza inferência automática.

    Parâmetros:
        s: Objeto de configurações carregado.

    Retorna:
        Tuple[str, str, bool]: Data de início, data de fim e flag de inferência automática.
    """
    win = getattr(s.analysis, "experiment_window", None)
    if isinstance(win, dict):
        start = win.get("start")
        end   = win.get("end")
    else:
        start = None
        end   = None
    auto = bool(getattr(s.analysis, "auto_infer_window", True))
    return start, end, auto

start, end, auto = _get_exp_window(s)

# 1) Leitura dos dados brutos
orders, consumers, restaurants, abmap = etl.load_raw(spark, s.data.raw_dir)
checks.profile_loaded(orders, consumers, restaurants, abmap, n=5)

# 2) Limpeza e conformidade dos dados
# Inclui normalização de timezone e aplicação de janela experimental
# Utiliza quantis para robustez contra outliers
df = etl.clean_and_conform(
    orders, consumers, restaurants, abmap,
    business_tz=getattr(s.analysis, "business_tz", "America/Sao_Paulo"),
    treat_is_target_null_as_control=getattr(s.analysis, "treat_is_target_null_as_control", False),
    experiment_start=start,
    experiment_end=end,
    auto_infer_window=auto,
    use_quantile_window=True,     # janela robusta a outliers
    verbose=True
)

# 3) Ajustes finais e agregações para análise
orders_silver = etl.build_orders_silver(df)
orders_silver = etl.enrich_orders_for_analysis(orders_silver)
users_silver  = etl.build_user_aggregates(orders_silver)

# 4) Cálculo de recência com base no último timestamp observado
ref_ts = orders_silver.agg(F.max("event_ts_utc")).first()[0]
users_silver = users_silver.withColumn("recency", F.datediff(F.lit(ref_ts), F.col("last_order")))

# 5) Salvar resultados em formato Parquet (opcional)
SAVE_PARQUET = False
if SAVE_PARQUET:
    (
        orders_silver
        .write
        .mode("overwrite")
        .partitionBy("event_date_brt")
        .parquet(f"{s.data.processed_dir}/orders_silver.parquet")
    )
    users_silver.write.mode("overwrite").parquet(f"{s.data.processed_dir}/users_silver.parquet")

# 6) Contagem de linhas para validação
print("orders_silver:", orders_silver.count(), "linhas")
print("users_silver :", users_silver.count(), "linhas")

# 7) Exibição de amostras para validação
try:
    from IPython.display import display
    display(orders_silver.limit(5).toPandas())
    display(users_silver.limit(5).toPandas())
except Exception as e:
    print("Aviso: toPandas falhou, mostrando via Spark .show()")
    orders_silver.show(5, truncate=False)
    users_silver.show(5, truncate=False)

### Checagem dos Dados

Foram investigadas duplicatas semânticas na fato (IDs diferentes com mesmo cliente/loja/tempo/valor). Como apenas 1 caso foi encontrado, o que gera efeito desprezível, não foi aplicada a deduplicação adicional.

In [None]:
from pyspark.sql import functions as F

def check_post_etl(
    orders_silver,
    users_silver,
    *,
    light: bool = True,
    key_cols: list[str] | None = None,
    sample_frac: float = 0.001,
    preview_rows: int = 5,
    use_pandas_preview: bool = False,
    check_semantic_dups: bool = True,
):
    """
    Executa checagens leves pós-ETL para registro no Colab.
    - light=True: nulos apenas em colunas-chave e previews por sample.
    - light=False: nulos em todas as colunas (lento).
    - check_semantic_dups: investiga duplicatas semânticas na fato (lento moderado).
    """
    if key_cols is None:
        key_cols = [
            "order_id", "customer_id", "merchant_id",
            "event_ts_utc", "order_total_amount",
            "is_target", "price_range", "language", "active",
            "delivery_time_imputed", "minimum_order_value_imputed",
        ]
    key_cols = [c for c in key_cols if c in orders_silver.columns]

    print("Faixa de datas (UTC) em orders_silver:")
    orders_silver.agg(
        F.min("event_ts_utc").alias("min_utc"),
        F.max("event_ts_utc").alias("max_utc"),
    ).show(truncate=False)

    print("Split A/B (users):")
    users_silver.groupBy("is_target").count().orderBy("is_target").show()

    # --- Nulos em orders_silver ---
    def nulls_by_col(df, cols):
        exprs = [F.sum(F.col(c).isNull().cast("int")).alias(c) for c in cols]
        return df.select(exprs)

    if light:
        print(f"Nulos (colunas-chave): {key_cols}")
        nulls_by_col(orders_silver, key_cols).show(truncate=False)
    else:
        print("Nulos (todas as colunas) — operação pesada:")
        nulls_by_col(orders_silver, orders_silver.columns).show(truncate=False)

    # --- Duplicatas semânticas (order_ids diferentes com mesmo cliente/restaurante/ts/valor) ---
    if check_semantic_dups:
        print("\nPossíveis duplicatas sistêmicas (mesmo cliente/restaurante/ts/valor, order_id distinto):")
        dups = (
            orders_silver
            .groupBy("customer_id", "merchant_id", "event_ts_utc", "order_total_amount")
            .agg(
                F.countDistinct("order_id").alias("n_orders"),
                F.collect_set("order_id").alias("order_ids"),
            )
            .filter(F.col("n_orders") > 1)
        )
        total_dups = dups.count()
        print(f"Total de combinações com múltiplos order_id: {total_dups}")
        if total_dups > 0:
            dups.select("customer_id","merchant_id","event_ts_utc","order_total_amount","n_orders","order_ids")\
                .orderBy(F.col("n_orders").desc())\
                .show(10, truncate=False)

    # --- Previews rápidos ---
    print("\nPreview orders_silver (sample leve):")
    orders_preview_cols = [c for c in [
        "price_range","order_id","customer_id","merchant_id",
        "event_ts_utc","order_total_amount","origin_platform",
        "is_target","language","active"
    ] if c in orders_silver.columns]
    preview_df = orders_silver.sample(False, sample_frac, seed=42).select(*orders_preview_cols)
    if preview_df.rdd.isEmpty():
        preview_df = orders_silver.select(*orders_preview_cols).limit(preview_rows)
    preview_df.show(preview_rows, truncate=False)

    print("\nPreview users_silver (primeiras linhas):")
    users_preview_cols = [c for c in [
        "customer_id","last_order","frequency","monetary","is_target","recency"
    ] if c in users_silver.columns]
    users_silver.select(*users_preview_cols).show(preview_rows, truncate=False)

    if use_pandas_preview:
        try:
            from IPython.display import display
            display(orders_silver.limit(preview_rows).toPandas())
            display(users_silver.limit(preview_rows).toPandas())
        except Exception:
            pass

# --- Executar em modo leve ---
check_post_etl(orders_silver, users_silver, light=True, check_semantic_dups=True)


## A/B de cupons

### Importações e Configurações

In [None]:
from pyspark.sql import functions as F
from src.analysis_ab import (
    compute_ab_summary,
    compute_robust_metrics,
    collect_user_level_for_tests,
    run_ab_tests,
    run_nonparam_tests,
    financial_viability
)
from src.utils import load_settings
settings = load_settings("config/settings.yaml")


### Visualizações

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

users_pdf = collect_user_level_for_tests(users_silver)

# Boxplots
fig, axes = plt.subplots(1, 3, figsize=(18, 5))
sns.boxplot(x="is_target", y="monetary", data=users_pdf, ax=axes[0])
axes[0].set_title("GMV por Usuário")
axes[0].set_xticklabels(["Controle", "Tratamento"])

sns.boxplot(x="is_target", y="frequency", data=users_pdf, ax=axes[1])
axes[1].set_title("Pedidos por Usuário")
axes[1].set_xticklabels(["Controle", "Tratamento"])

sns.boxplot(x="is_target", y="aov_user", data=users_pdf, ax=axes[2])
axes[2].set_title("AOV (Ticket Médio por Usuário)")
axes[2].set_xticklabels(["Controle", "Tratamento"])

plt.tight_layout()
plt.show()

# Barras comparando médias
metrics_means = users_pdf.groupby("is_target")[["monetary","frequency","aov_user"]].mean().reset_index()
metrics_means["is_target"] = metrics_means["is_target"].map({0:"Controle",1:"Tratamento"})

metrics_means.plot(x="is_target", kind="bar", figsize=(10,6))
plt.title("Médias por Grupo (GMV, Pedidos, AOV)")
plt.ylabel("Valor médio")
plt.show()

# Histograma de pedidos por usuário
plt.figure(figsize=(10,6))
sns.histplot(users_pdf[users_pdf["is_target"]==0]["frequency"], bins=30, color="blue", label="Controle", stat="density", alpha=0.5)
sns.histplot(users_pdf[users_pdf["is_target"]==1]["frequency"], bins=30, color="red", label="Tratamento", stat="density", alpha=0.5)
plt.legend()
plt.title("Distribuição de Pedidos por Usuário")
plt.show()


### Métricas por grupo

Premissas:
* Valor do cupom: R$ 10,00
    *  Pago integralmente pelo iFood
* Taxa de conversão: 25%
* Take rate: 23%

Dada a distribuição assimétrica dos dados, com muitos outliers, evidenciada pelos gráficos, optou-se por utilizar métricas robustas (medianas, p95, heavy users) para a análise de impacto. Métricas robustas ajudam a evitar decisões enviesadas por outliers, garantindo que o ROI/LTV:CAC seja interpretado à luz do comportamento da maioria dos usuários. Métricas baseadas em médias também são apresentadas para comparação, mas com cautela, pois podem ser influenciadas por valores extremos. O relatório final incluirá somente métricas robustas e testes estatísticos apropriados.

In [None]:
# Resumo por grupo (descrição em Spark)
ab_summary_spark = compute_ab_summary(users_silver)
ab_summary_spark.show(truncate=False)

# Métricas robustas (mediana, p95, heavy)
robust_df = compute_robust_metrics(users_pdf, heavy_threshold=3)
display(robust_df)



### Testes de significância

In [None]:
# Teste paramétrico
ttest_out = run_ab_tests(users_pdf) 

# Teste não-paramétrico
mw_out    = run_nonparam_tests(users_pdf)  

print("Welch t-test:", ttest_out)
print("Mann–Whitney:", mw_out)

### Viabilidade financeira

In [None]:
finance = financial_viability(
    users_pdf,
    take_rate=0.23,
    coupon_cost=10.0,
    redemption_rate=0.30, 
)
finance