### Crit√©rios de segmenta√ß√£o

Para segmenta√ß√£o dos usu√°rios, ser√£o usados os seguintes crit√©rios:
| Segmento                              | Crit√©rio t√©cnico (coluna e regra)                                                  | Racional                                                                                       |
| ------------------------------------- | ---------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- |
| **Perfil de consumo por restaurante** | `price_range`:<br>1 ‚Üí Baixo valor<br>2 ‚Üí Intermedi√°rio<br>3 ou mais ‚Üí Alto valor   | Identifica o tipo de restaurante que o usu√°rio consome ‚Äî restaurantes baratos ou premium       |
| **Localiza√ß√£o do pedido (estado)**    | `delivery_address_state` agrupado como coluna categ√≥rica                           | Detecta diferen√ßas de comportamento por regi√£o geogr√°fica (ex: SP vs. RJ vs. outros)           |
| **Ticket m√©dio do usu√°rio**           | `avg_ticket_per_user`:<br>< R\$ 40 ‚Üí Baixo<br>R\$ 40‚Äì60 ‚Üí M√©dio<br>> R\$ 60 ‚Üí Alto | Mede a propens√£o do usu√°rio a gastar mais por pedido ‚Äî pode reagir de forma diferente ao cupom |
| **Frequ√™ncia de pedidos do usu√°rio**  | `orders_per_user`:<br>1 ‚Üí Baixa<br>2‚Äì4 ‚Üí M√©dia<br>5+ ‚Üí Alta                        | Indica engajamento pr√©vio. O cupom pode ter mais impacto em quem pede pouco                    |


In [0]:
import pyspark.sql.functions as f

from constants import SILVER_LAYER_PATH

import pandas as pd
from scipy.stats import chi2_contingency, ttest_ind, mannwhitneyu, shapiro
from statsmodels.stats.proportion import proportions_ztest

import matplotlib.pyplot as plt
import seaborn as sns

In [0]:
def plot_segment_distribution(
    df, column, title=None, order=None, figsize=(6, 4), rotation=15
):
    """
    Gera um gr√°fico de barras (countplot) para um segmento categ√≥rico.

    Par√¢metros:
    - df: DataFrame Pandas
    - column: nome da coluna categ√≥rica
    - title: t√≠tulo do gr√°fico
    - order: ordem dos r√≥tulos no eixo X (opcional)
    - figsize: tamanho do gr√°fico
    - rotation: rota√ß√£o do eixo X
    """
    plt.figure(figsize=figsize)
    sns.countplot(x=column, data=df, order=order)
    plt.title(title or f"Distribui√ß√£o de {column}")
    plt.ylabel("N√∫mero de usu√°rios")
    plt.xlabel("Segmento")
    plt.xticks(rotation=rotation)
    plt.tight_layout()
    plt.show()

def plot_multiple_segment_distributions(
    df,
    columns_info,
    figsize=(18, 5),
    rotation=15,
    label_fontsize=9,
    margin_factor=1.20
):
    """
    Plota m√∫ltiplos gr√°ficos de barras com propor√ß√µes (%) lado a lado.

    Par√¢metros:
    - df: DataFrame Pandas
    - columns_info: lista de dicion√°rios com:
        - 'column': nome da coluna a plotar
        - 'title': t√≠tulo do gr√°fico
        - 'order': ordem opcional dos r√≥tulos
    - figsize: tamanho total da figura
    - rotation: rota√ß√£o dos r√≥tulos no eixo X
    """
    n_cols = len(columns_info)
    fig, axes = plt.subplots(1, n_cols, figsize=figsize)

    for i, info in enumerate(columns_info):
        col = info['column']
        title = info.get('title', f"Distribui√ß√£o de {col}")
        order = info.get('order')

        # Calcula propor√ß√µes
        counts = df[col].value_counts(normalize=True)
        if order:
            counts = counts.reindex(order)
        counts = counts.dropna()

        sns.barplot(x=counts.index, y=counts.values * 100, ax=axes[i])
        axes[i].set_title(title)
        axes[i].set_ylabel("Propor√ß√£o (%)")
        axes[i].set_xlabel("")
        axes[i].tick_params(axis='x', rotation=rotation)

        # Define limite do eixo Y com margem para r√≥tulo
        max_y = counts.values.max() * 100
        axes[i].set_ylim(0, max_y * margin_factor)

        # Adiciona r√≥tulos
        for bar, value in zip(axes[i].patches, counts.values):
            height = bar.get_height()
            axes[i].text(
                bar.get_x() + bar.get_width() / 2,
                height + max_y * 0.02,
                f"{value*100:.1f}%",
                ha='center',
                va='bottom',
                fontsize=label_fontsize
            )

    plt.subplots_adjust(top=0.85, bottom=0.15)
    plt.show()

def plot_segment_comparison_by_group(
    df,
    segment_col,
    group_col='is_target',
    title=None,
    order=None,
    labels={True: 'Target', False: 'Controle'},
    figsize=(6, 5),
    rotation=15,
    show_stats=True
):
    """
    Compara propor√ß√µes de um segmento entre dois grupos (ex: target vs controle).

    Par√¢metros:
    - df: DataFrame Pandas
    - segment_col: nome da coluna com a segmenta√ß√£o (ex: 'segment_ticket')
    - group_col: coluna bin√°ria de grupos (default: 'is_target')
    - title: t√≠tulo do gr√°fico
    - order: ordem das categorias da segmenta√ß√£o (opcional)
    - labels: dicion√°rio com os nomes dos grupos (ex: {True: 'Target', False: 'Controle'})
    """
    contingency = pd.crosstab(df[segment_col], df[group_col])
    chi2, p, dof, expected = chi2_contingency(contingency)

    if show_stats:
        print(f"üìä Teste Qui-Quadrado entre {segment_col} e {group_col}")
        print(f"Chi¬≤ = {chi2:.2f}, p-value = {p:.5f}")
        if p < 0.05:
            print("‚úÖ Diferen√ßa estatisticamente significativa (p < 0.05)")
        else:
            print("‚ùå Diferen√ßa N√ÉO significativa (p >= 0.05)")

    # Propor√ß√µes por grupo
    prop_df = (
        df.groupby([group_col, segment_col])
        .size()
        .groupby(level=0, group_keys=False)
        .apply(lambda x: x / x.sum())
        .reset_index(name='proportion')
    )

    # Map labels
    prop_df[group_col] = prop_df[group_col].map(labels)

    # Plot
    plt.figure(figsize=figsize)
    sns.barplot(
        data=prop_df,
        x=segment_col,
        y='proportion',
        hue=group_col,
        order=order
    )

    plt.title(title or f"{segment_col} por grupo (p = {p:.3f})")
    plt.ylabel("Propor√ß√£o (%)")
    plt.xlabel("")
    plt.xticks(rotation=rotation)
    plt.ylim(0, prop_df['proportion'].max() * 1.2)

    # Add labels on bars
    for bar in plt.gca().patches:
        height = bar.get_height()
        plt.gca().text(
            bar.get_x() + bar.get_width() / 2,
            height + 0.01,
            f"{height*100:.1f}%",
            ha='center',
            va='bottom',
            fontsize=9
        )

    plt.legend(title="Grupo")
    plt.tight_layout()
    plt.show()

def plot_kpi_boxplot_by_segment_and_group(
    df,
    segment_col,
    group_col,
    kpi_col,
    order=None,
    group_labels={True: 'Target', False: 'Controle'},
    title=None,
    figsize=(8, 5)
):
    """
    Gera um boxplot do KPI por grupo dentro de cada segmento.
    """
    df_plot = df.copy()
    df_plot[group_col] = df_plot[group_col].map(group_labels)

    plt.figure(figsize=figsize)
    sns.boxplot(
        data=df_plot,
        x=segment_col,
        y=kpi_col,
        hue=group_col,
        order=order,
        showfliers=False 
    )

    plt.title(title or f"{kpi_col} por grupo dentro de {segment_col}")
    plt.ylabel(kpi_col.replace("_", " ").title())
    plt.xlabel("")
    plt.xticks(rotation=15)
    plt.legend(title="Grupo")
    plt.tight_layout()
    plt.show()

def test_kpi_significance_by_segment(
    df,
    segment_col,
    group_col,
    kpi_col,
    group_labels={True: "Target", False: "Controle"},
    normality_threshold=0.05,
    min_sample_for_ttest=30
):
    """
    Compara um KPI entre grupos dentro de cada segmento, escolhendo automaticamente entre t-test e Mann-Whitney.
    """
    results = []

    for segment in sorted(df[segment_col].dropna().unique()):
        data = df[df[segment_col] == segment]
        g1 = data[data[group_col] == True][kpi_col].dropna()
        g2 = data[data[group_col] == False][kpi_col].dropna()

        n1, n2 = len(g1), len(g2)
        mean1, mean2 = g1.mean(), g2.mean()
        pct_diff = 100 * (mean1 - mean2) / mean2 if mean2 else None

        # Definir teste
        test_used = None
        p_value = None

        if n1 < 5 or n2 < 5:
            test_used = "amostra insuficiente"
        elif n1 >= min_sample_for_ttest and n2 >= min_sample_for_ttest:
            stat, p_value = ttest_ind(g1, g2, equal_var=False)
            test_used = "t-test"
        else:
            # Verificar normalidade
            p1 = shapiro(g1)[1] if n1 >= 3 and n1 <= 5000 else 0  # fora do intervalo, assume n√£o normal
            p2 = shapiro(g2)[1] if n2 >= 3 and n2 <= 5000 else 0
            if p1 > normality_threshold and p2 > normality_threshold:
                stat, p_value = ttest_ind(g1, g2, equal_var=False)
                test_used = "t-test"
            else:
                stat, p_value = mannwhitneyu(g1, g2, alternative="two-sided")
                test_used = "mann-whitney"

        results.append({
            "Segmento": segment,
            "n_target": n1,
            "n_control": n2,
            "Media Target": mean1,
            "Media Controle": mean2,
            "Diferen√ßa (%)": f"{pct_diff:+.1f}%" if pct_diff is not None else "N/A",
            "p-valor": f"{p_value:.5f}" if p_value is not None else "N/A",
            "Significativo": "‚úÖ" if p_value is not None and p_value < 0.05 else "‚ùå",
            "Teste usado": test_used
        })

    return pd.DataFrame(results)

In [0]:
abt_final = spark.table(f"{SILVER_LAYER_PATH}.abt_final")
abt_final.printSchema()

In [0]:
user_metrics_df = (
    abt_final.groupBy("customer_id", "is_target")
    .agg(
        f.countDistinct("order_id").alias("orders_per_user"),
        f.sum("order_total_amount_capped").alias("total_spent_per_user"),
        f.sum("total_items_quantity").alias("total_items"),
        f.sum("total_items_discount").alias("total_discount"),
        f.min("days_since_signup").alias("days_since_signup"),
        f.first("price_range").alias("price_range"),
        f.first("delivery_address_state").alias("delivery_address_state")
    )
    .withColumn("avg_ticket_per_user", f.col("total_spent_per_user") / f.col("orders_per_user"))
    .withColumn("avg_items_per_order", f.col("total_items") / f.col("orders_per_user"))
    .withColumn("avg_discount_per_order", f.col("total_discount") / f.col("orders_per_user"))
    .withColumn("is_retained", f.when(f.col("orders_per_user") >= 2, 1).otherwise(0))
)

user_metrics_df.printSchema()

In [0]:
# freque√™ncia de pedidos do usu√°rio (engajamento)
user_metrics_df = user_metrics_df.withColumn(
    "segment_frequency",
    f.when(f.col("orders_per_user") == 1, "Baixa frequ√™ncia")
    .when((f.col("orders_per_user") >= 2) & (f.col("orders_per_user") <= 4), "M√©dia frequ√™ncia")
    .otherwise("Alta frequ√™ncia")
)

# ticket m√©dio do usu√°rio
user_metrics_df = user_metrics_df.withColumn(
    "segment_ticket",
    f.when(f.col("avg_ticket_per_user") < 40, "Baixo ticket")
    .when((f.col("avg_ticket_per_user") >= 40) & (f.col("avg_ticket_per_user") <= 60), "Ticket m√©dio")
    .otherwise("Alto ticket")
)

# perfil do restaurante
user_metrics_df = user_metrics_df.withColumn(
    "segment_restaurant",
    f.when(f.col("price_range") == 1, "Baixo valor")
    .when(f.col("price_range") == 2, "Valor intermedi√°rio")
    .otherwise("Alto valor")
)

# localiza√ß√£o do pedido
user_metrics_df = user_metrics_df.withColumnRenamed("delivery_address_state", "segment_state")

In [0]:
segments_pdf = user_metrics_df.select(
    "customer_id",  
    "is_target",  
    "segment_frequency",
    "segment_ticket",
    "segment_restaurant",
    "segment_state"
).toPandas()

In [0]:
plot_multiple_segment_distributions(
    df=segments_pdf,
    columns_info=[
        {
            "column": "segment_frequency",
            "title": "Frequ√™ncia de Uso",
            "order": ["Baixa frequ√™ncia", "M√©dia frequ√™ncia", "Alta frequ√™ncia"]
        },
        {
            "column": "segment_ticket",
            "title": "Ticket M√©dio",
            "order": ["Baixo ticket", "Ticket m√©dio", "Alto ticket"]
        },
        {
            "column": "segment_restaurant",
            "title": "Perfil de Restaurante",
            "order": ["Baixo valor", "Valor intermedi√°rio", "Alto valor"]
        }
    ]
)

In [0]:
plot_segment_distribution(
    df=segments_pdf,
    column="segment_state",
    title="Distribui√ß√£o por Estado",
    rotation=45,
    figsize=(10, 4)
)

### Frequ√™ncia de pedidos

In [0]:
user_metrics_pdf = user_metrics_df.toPandas()

In [0]:
plot_segment_comparison_by_group(
    df=segments_pdf,
    segment_col="segment_frequency",
    title="Distribui√ß√£o de Frequ√™ncia por Grupo",
    order=["Baixa frequ√™ncia", "M√©dia frequ√™ncia", "Alta frequ√™ncia"]
)

O teste de qui-quadrado avalia se h√° associa√ß√£o entre duas vari√°veis categ√≥ricas ‚Äî neste caso, entre o grupo do experimento (`is_target`) e a frequ√™ncia de pedidos dos usu√°rios (`segment_frequency`).

Como o p-value √© muito pequeno (< 0.05), a conclus√£o √©:
* Existe uma diferen√ßa real na distribui√ß√£o de frequ√™ncia entre os grupos target e controle.
Ou seja, a campanha n√£o foi aleatoriamente balanceada entre perfis de usu√°rios com frequ√™ncia baixa, m√©dia ou alta.
* Um bom teste A/B deve ter distribui√ß√£o semelhante de perfis entre os grupos, para isolar o efeito do tratamento.
* Como houve desequil√≠brio, √© poss√≠vel que parte do impacto observado nos KPIs venha do perfil de uso dos usu√°rios, e n√£o do cupom em si.

O que podemos fazer:
1. Controlar os efeitos de `segment_frequency` na an√°lise dos KPIs ‚Äî ex: comparar KPIs dentro de cada faixa de frequ√™ncia
2. Considerar reanalisar a aloca√ß√£o dos grupos (se estiver rodando em produ√ß√£o)
3. Usar modelos ajustados ou segmenta√ß√µes para entender o impacto real



In [0]:
df_test_result = test_kpi_significance_by_segment(
    df=user_metrics_pdf,
    segment_col="segment_frequency",
    group_col="is_target",
    kpi_col="total_spent_per_user"
)

display(df_test_result)

**Alta frequ√™ncia**:
J√° s√£o usu√°rios muito engajados ‚Äî o cupom n√£o foi suficiente para aumentar o gasto.

**Baixa frequ√™ncia**:
A campanha n√£o reativou usu√°rios menos engajados de forma significativa.

**M√©dia frequ√™ncia**:
Leve queda no gasto, mas n√£o significativa.

CONCLUS√ÉO:
A campanha n√£o teve impacto significativo no total gasto por usu√°rio, mesmo considerando o perfil de frequ√™ncia.

In [0]:
plot_kpi_boxplot_by_segment_and_group(
    df=user_metrics_pdf,
    segment_col="segment_frequency",
    group_col="is_target",
    kpi_col="total_spent_per_user",
    order=["Baixa frequ√™ncia", "M√©dia frequ√™ncia", "Alta frequ√™ncia"],
    title="Distribui√ß√£o do gasto total por grupo dentro de cada segmento"
)

In [0]:
df_test_result = test_kpi_significance_by_segment(
    df=user_metrics_pdf,
    segment_col="segment_frequency",
    group_col="is_target",
    kpi_col="orders_per_user"
)

display(df_test_result)

**Alta frequ√™ncia**:
Esses usu√°rios j√° pedem muito, possivelmente, o cupom n√£o alterou o h√°bito deles.

**Baixa frequ√™ncia**:
Imposs√≠vel calcular p-valor porque n√£o h√° varia√ß√£o: todos pediram apenas 1 vez.
Isso sugere que a campanha n√£o conseguiu estimular um segundo pedido neste grupo.

* Insight importante: o cupom n√£o gerou recorr√™ncia nos menos engajados.

**M√©dia frequ√™ncia**:
A campanha n√£o alterou a frequ√™ncia de pedidos neste grupo tamb√©m.

CONCLUS√ÉO:
1. O cupom n√£o teve impacto significativo no n√∫mero de pedidos por usu√°rio, em nenhum segmento de frequ√™ncia.

2. Mesmo onde havia espa√ßo para crescimento (baixa e m√©dia frequ√™ncia), o n√∫mero de pedidos n√£o se alterou.

3. √â poss√≠vel que o cupom tenha sido usado apenas em um √∫nico pedido e n√£o tenha incentivado recorr√™ncia.

In [0]:
plot_kpi_boxplot_by_segment_and_group(
    df=user_metrics_pdf,
    segment_col="segment_frequency",
    group_col="is_target",
    kpi_col="orders_per_user",
    order=["Baixa frequ√™ncia", "M√©dia frequ√™ncia", "Alta frequ√™ncia"],
    title="Distribui√ß√£o dos pedidos por usu√°rio por grupo dentro de cada segmento"
)

In [0]:
df_test_result = test_kpi_significance_by_segment(
    df=user_metrics_pdf,
    segment_col="segment_frequency",
    group_col="is_target",
    kpi_col="is_retained"
)

display(df_test_result)

O KPI `is_retained` n√£o apresentou variabilidade suficiente dentro dos segmentos para que um teste de signific√¢ncia fosse v√°lido.
Isso impede a detec√ß√£o de impacto da campanha sobre reten√ß√£o dentro desses grupos.

### Ticket M√©dio

In [0]:
plot_segment_comparison_by_group(
    df=segments_pdf,
    segment_col="segment_ticket",
    title="Distribui√ß√£o de Ticket m√©dio por Grupo",
    order=["Baixo ticket", "Ticket m√©dio", "Alto ticket"]
)

In [0]:
df_test_result = test_kpi_significance_by_segment(
    df=user_metrics_pdf,
    segment_col="segment_ticket",
    group_col="is_target",
    kpi_col="total_spent_per_user"
)

display(df_test_result)

O cupom teve impacto significativo no aumento do total gasto por usu√°rio em todos os segmentos de ticket m√©dio.

O efeito foi:
Consistente entre os grupos (entre +12% e +14%) e estatisticamente forte (p < 0.00001 em todos os casos)

**Baixo ticket**:
Maior impacto percentual (+14,3%)
Isso sugere que usu√°rios que normalmente gastam pouco foram estimulados a comprar mais

**Ticket m√©dio**:
Tamb√©m apresentou ganho expressivo de +12,6%
Esse grupo pode estar mais propenso a aproveitar cupons sem mudar tanto seu comportamento de compra

**Alto ticket**:
Mesmo usu√°rios que j√° gastavam muito gastaram ainda mais com o cupom
Isso indica que a campanha tamb√©m funcionou para clientes de alto valor

CONCLUS√ÉO:
O cupom funcionou bem em todos os perfis de usu√°rios com diferentes n√≠veis de gasto m√©dio.
Estrat√©gias futuras podem incluir cupons com valor m√≠nimo proporcional ao perfil de ticket m√©dio para otimizar ROI.

In [0]:
plot_kpi_boxplot_by_segment_and_group(
    df=user_metrics_pdf,
    segment_col="segment_ticket",
    group_col="is_target",
    kpi_col="total_spent_per_user",
    order=["Baixo ticket", "Ticket m√©dio", "Alto ticket"],
    title="Distribui√ß√£o do gasto total por grupo dentro de cada segmento"
)

In [0]:
df_test_result = test_kpi_significance_by_segment(
    df=user_metrics_pdf,
    segment_col="segment_ticket",
    group_col="is_target",
    kpi_col="orders_per_user"
)

display(df_test_result)

O cupom resultou em um n√∫mero significativamente maior de pedidos por usu√°rio em todos os segmentos de ticket m√©dio.
Isso refor√ßa que o aumento do gasto total se deve principalmente ao aumento na frequ√™ncia de pedidos, n√£o no valor por pedido

**Baixo ticket:**
Maior crescimento de frequ√™ncia de pedidos (+13,7%). Mostra que o cupom engajou at√© os usu√°rios com perfil de gasto menor, que voltaram para fazer novos pedidos

**Ticket m√©dio:**
Ganho de +12,7% comportamento muito pr√≥ximo ao dos outros segmentos. Indica que o cupom teve poder universal, sem restri√ß√£o ao perfil de gasto

**Alto ticket:**
Tamb√©m aumento claro de +13,3%. Mesmo os usu√°rios que j√° pedem de forma robusta foram estimulados a pedir mais vezes

**Rela√ß√£o com resultado anterior (total_spent_per_user)**:
O crescimento de gasto est√° fortemente ligado √† maior frequ√™ncia de pedidos. Isso confirma o comportamento esperado: o cupom incentivou recompra

In [0]:
plot_kpi_boxplot_by_segment_and_group(
    df=user_metrics_pdf,
    segment_col="segment_ticket",
    group_col="is_target",
    kpi_col="orders_per_user",
    order=["Baixo ticket", "Ticket m√©dio", "Alto ticket"],
    title="Distribui√ß√£o dos pedidos por usu√°rio por grupo dentro de cada segmento"
)

In [0]:
df_test_result = test_kpi_significance_by_segment(
    df=user_metrics_pdf,
    segment_col="segment_ticket",
    group_col="is_target",
    kpi_col="is_retained"
)

display(df_test_result)

A campanha de cupom teve impacto claro e positivo na reten√ß√£o dos usu√°rios, em todas as faixas de ticket m√©dio.
O efeito √© forte e consistente, com aumento da taxa de reten√ß√£o entre 18% e 22,5% e o p-valor muito pequeno (< 0.00001) indica que a probabilidade de isso ser ao acaso √© praticamente nula.

**Baixo ticket:**
A maior diferen√ßa percentual (+22,5% de reten√ß√£o), ou seja, o cupom foi especialmente eficaz para trazer de volta usu√°rios com menor poder de compra

**Ticket m√©dio:**
Ligeiramente menor (+18,2% de reten√ß√£o), mas ainda muito relevante, refor√ßando que usu√°rios ‚Äúintermedi√°rios‚Äù tamb√©m responderam positivamente √† campanha

**Alto ticket:**
Mostra que o cupom tamb√©m fortalece o v√≠nculo com clientes de alto valor (+21,8% de reten√ß√£o)

### Perfil restaurante

In [0]:
plot_segment_comparison_by_group(
    df=segments_pdf,
    segment_col="segment_restaurant",
    title="Distribui√ß√£o de perfil do restaurante por Grupo",
    order=["Baixo valor", "Valor intermedi√°rio", "Alto valor"]
)

A distribui√ß√£o dos perfis de restaurante entre os grupos target (que receberam cupom) e controle n√£o √© significativamente diferente.
Os usu√°rios dos dois grupos t√™m distribui√ß√£o semelhante nos tipos de restaurante que costumam consumir. Isso indica que a randomiza√ß√£o foi bem feita para essa vari√°vel.

Como os grupos est√£o balanceados, qualquer diferen√ßa nos KPIs dentro dos perfis de restaurante pode ser atribu√≠da com mais confian√ßa √† campanha de cupom, e n√£o a vi√©s de aloca√ß√£o.

In [0]:
df_test_result = test_kpi_significance_by_segment(
    df=user_metrics_pdf,
    segment_col="segment_restaurant",
    group_col="is_target",
    kpi_col="total_spent_per_user"
)

display(df_test_result)

O cupom aumentou significativamente o total gasto por usu√°rio em todos os perfis de restaurante ‚Äî com impacto entre +13% e +14%, altamente significativo.

**Baixo valor:**
O cupom foi eficaz mesmo para usu√°rios que costumam consumir de restaurantes mais baratos

**Valor intermedi√°rio:**
Reflete que esse p√∫blico pode estar mais sens√≠vel ao benef√≠cio do cupom sem comprometer a margem

**Alto valor:**
Mostra que mesmo usu√°rios com ticket mais elevado ampliaram seu consumo

CONCLUS√ÉO: A campanha funcionou de forma consistente para todos os perfis de restaurante, ampliando o total gasto por usu√°rio com impacto relevante e estatisticamente robusto.

In [0]:
plot_kpi_boxplot_by_segment_and_group(
    df=user_metrics_pdf,
    segment_col="segment_restaurant",
    group_col="is_target",
    kpi_col="total_spent_per_user",
    order=["Baixo valor", "Valor intermedi√°rio", "Alto valor"],
    title="Distribui√ß√£o do gasto total por grupo dentro de cada segmento"
)

In [0]:
df_test_result = test_kpi_significance_by_segment(
    df=user_metrics_pdf,
    segment_col="segment_restaurant",
    group_col="is_target",
    kpi_col="orders_per_user"
)

display(df_test_result)

O cupom levou os usu√°rios a fazerem mais pedidos independentemente do perfil de restaurante em que costumam consumir. A diferen√ßa foi uniforme, com crescimento de ~13% em todos os segmentos.

Isso refor√ßa que o aumento no total gasto vem principalmente da maior frequ√™ncia de compra, e n√£o de aumento no ticket m√©dio.

**Baixo valor:**
P√∫blico sens√≠vel a pre√ßo, mas o cupom foi um forte incentivo √† recompra

**Valor intermedi√°rio:**
Mostra um comportamento equilibrado e previs√≠vel. Pode ser um dos segmentos com maior elasticidade ao incentivo

**Alto valor:**
O cupom √© eficaz mesmo para quem j√° tem alta propens√£o de consumo

**Coer√™ncia com total_spent_per_user:**
O aumento em pedidos por usu√°rio se reflete diretamente no maior gasto total

Isso confirma a coer√™ncia interna dos KPIs

**Conclus√£o**:
A campanha aumentou a frequ√™ncia de pedidos em todos os perfis de restaurante, mantendo consist√™ncia de impacto com robustez estat√≠stica.

In [0]:
plot_kpi_boxplot_by_segment_and_group(
    df=user_metrics_pdf,
    segment_col="segment_restaurant",
    group_col="is_target",
    kpi_col="orders_per_user",
    order=["Baixo valor", "Valor intermedi√°rio", "Alto valor"],
    title="Distribui√ß√£o dos pedidos por usu√°rio por grupo dentro de cada segmento"
)

In [0]:
df_test_result = test_kpi_significance_by_segment(
    df=user_metrics_pdf,
    segment_col="segment_restaurant",
    group_col="is_target",
    kpi_col="is_retained"
)

display(df_test_result)

A campanha de cupom teve um impacto positivo altamente significativo na reten√ß√£o dos usu√°rios, independentemente do perfil de restaurante.
O aumento na propor√ß√£o de usu√°rios retidos foi de ~21% em todos os segmentos

O p-valor praticamente nulo indica que a chance desse efeito ser aleat√≥rio √© desprez√≠vel.

**Baixo valor**
Mostra que o cupom √© muito eficaz para reter consumidores mais sens√≠veis ao pre√ßo

**Valor intermedi√°rio**
Refor√ßa que esse p√∫blico responde bem a incentivos e pode manter comportamento de longo prazo

**Alto valor**
Usu√°rios com alto valor de pedido foram mais fidelizados, o que aumenta o LTV (Lifetime Value)

**Coer√™ncia com demais KPIs:**
Esses resultados est√£o completamente alinhados com os de:

`total_spent_per_user` e `orders_per_user`

Ou seja, a campanha n√£o apenas aumentou o consumo, mas tamb√©m estimulou comportamentos de longo prazo

CONCLUS√ÉO:
A campanha de cupom teve impacto positivo, consistente e significativo em todos KPIs
E isso ocorreu de forma homog√™nea em todos os perfis de restaurante (baixo valor, intermedi√°rio e alto valor).

### Localidade

In [0]:
def build_state_analysis_table(df, state_col="segment_state"):
    states = df[state_col].dropna().unique()
    result_rows = []

    for state in sorted(states):
        subset = df[df[state_col] == state]

        # Gasto total
        tgt_spent = subset[subset["is_target"] == True]["total_spent_per_user"].dropna()
        ctl_spent = subset[subset["is_target"] == False]["total_spent_per_user"].dropna()
        mean_tgt_spent = tgt_spent.mean()
        mean_ctl_spent = ctl_spent.mean()
        p_spent = None
        spent_diff_pct = None
        if len(tgt_spent) >= 5 and len(ctl_spent) >= 5:
            stat_spent, p_spent = ttest_ind(tgt_spent, ctl_spent, equal_var=False)
            if mean_ctl_spent != 0:
                spent_diff_pct = 100 * (mean_tgt_spent - mean_ctl_spent) / mean_ctl_spent

        # Pedidos por usu√°rio
        tgt_orders = subset[subset["is_target"] == True]["orders_per_user"].dropna()
        ctl_orders = subset[subset["is_target"] == False]["orders_per_user"].dropna()
        mean_tgt_orders = tgt_orders.mean()
        mean_ctl_orders = ctl_orders.mean()
        p_orders = None
        orders_diff_pct = None
        if len(tgt_orders) >= 5 and len(ctl_orders) >= 5:
            stat_orders, p_orders = ttest_ind(tgt_orders, ctl_orders, equal_var=False)
            if mean_ctl_orders != 0:
                orders_diff_pct = 100 * (mean_tgt_orders - mean_ctl_orders) / mean_ctl_orders

        # Reten√ß√£o
        tgt_ret = subset[subset["is_target"] == True]["is_retained"].dropna()
        ctl_ret = subset[subset["is_target"] == False]["is_retained"].dropna()
        p_ret = None
        ret_diff_pct = None
        rate_tgt = tgt_ret.mean() if len(tgt_ret) > 0 else None
        rate_ctl = ctl_ret.mean() if len(ctl_ret) > 0 else None
        if len(tgt_ret) >= 30 and len(ctl_ret) >= 30:
            count = [tgt_ret.sum(), ctl_ret.sum()]
            nobs = [len(tgt_ret), len(ctl_ret)]
            stat_ret, p_ret = proportions_ztest(count, nobs)
            if rate_ctl != 0:
                ret_diff_pct = 100 * (rate_tgt - rate_ctl) / rate_ctl

        # Interpreta√ß√µes
        def interpret(p, pct, tipo):
            if p is None:
                return f"Dados insuficientes para {tipo}"
            if p < 0.05:
                if pct > 0:
                    return f"A campanha aumentou o {tipo.lower()} significativamente."
                else:
                    return f"O {tipo.lower()} caiu no grupo com cupom ‚Äî poss√≠vel efeito negativo."
            else:
                return f"Sem impacto significativo no {tipo.lower()}."

        def recommend(p_gasto, pct_gasto, p_retencao, pct_retencao, p_orders, pct_orders):
            if (
                (p_gasto is not None and p_gasto < 0.05 and pct_gasto > 5) or
                (p_retencao is not None and p_retencao < 0.05 and pct_retencao > 5) or
                (p_orders is not None and p_orders < 0.05 and pct_orders > 5)
            ):
                return "Ampliar a a√ß√£o nesse estado."
            elif (p_gasto is not None and p_gasto >= 0.05) and \
                 (p_retencao is not None and p_retencao >= 0.05) and \
                 (p_orders is not None and p_orders >= 0.05):
                return "Testar alternativas (cupom menos atrativo, frete, etc)."
            else:
                return "Manter com ajustes ou reavaliar."

        result_rows.append({
            "Estado": state,
            "Œî Gasto (%)": f"{spent_diff_pct:+.1f}%" if spent_diff_pct is not None else "N/A",
            "p-valor Gasto": f"{p_spent:.5f}" if p_spent is not None else "N/A",
            "Significativo Gasto": "‚úÖ" if p_spent is not None and p_spent < 0.05 else "‚ùå",
            "Œî Pedidos (%)": f"{orders_diff_pct:+.1f}%" if orders_diff_pct is not None else "N/A",
            "p-valor Pedidos": f"{p_orders:.5f}" if p_orders is not None else "N/A",
            "Significativo Pedidos": "‚úÖ" if p_orders is not None and p_orders < 0.05 else "‚ùå",
            "Œî Reten√ß√£o (%)": f"{ret_diff_pct:+.1f}%" if ret_diff_pct is not None else "N/A",
            "p-valor Reten√ß√£o": f"{p_ret:.5f}" if p_ret is not None else "N/A",
            "Significativo Reten√ß√£o": "‚úÖ" if p_ret is not None and p_ret < 0.05 else "‚ùå",
            "Interpreta√ß√£o Gasto": interpret(p_spent, spent_diff_pct, "Gasto"),
            "Interpreta√ß√£o Pedidos": interpret(p_orders, orders_diff_pct, "Pedidos"),
            "Interpreta√ß√£o Reten√ß√£o": interpret(p_ret, ret_diff_pct, "Reten√ß√£o"),
            "Recomenda√ß√£o Final": recommend(p_spent, spent_diff_pct, p_ret, ret_diff_pct, p_orders, orders_diff_pct)
        })

    return pd.DataFrame(result_rows)

In [0]:
segment_state_table = build_state_analysis_table(user_metrics_pdf)

pd.set_option("display.max_colwidth", None)
display(segment_state_table)

### An√°lise por Segmenta√ß√£o
A an√°lise por segmenta√ß√µes permitiu avaliar a efetividade da campanha de cupom em diferentes perfis de usu√°rios e contextos de consumo. Foram exploradas segmenta√ß√µes com base na frequ√™ncia de pedidos, no ticket m√©dio e no perfil de restaurante consumido, permitindo identificar como o impacto da campanha varia (ou n√£o) entre os grupos.

#### 1. Segmenta√ß√£o por frequ√™ncia de pedidos (segment_frequency)
Os usu√°rios foram agrupados em baixa, m√©dia e alta frequ√™ncia de pedidos.

Entretanto, por constru√ß√£o, os grupos apresentaram pouca ou nenhuma variabilidade nos KPIs relacionados √† frequ√™ncia e reten√ß√£o, tornando as an√°lises estat√≠sticas inconclusivas ou inv√°lidas.

A segmenta√ß√£o revelou que o cupom n√£o teve impacto em aumentar a frequ√™ncia de pedidos entre os usu√°rios de baixa frequ√™ncia, o que indica que a campanha pode n√£o ter sido suficiente para gerar recorr√™ncia nos menos engajados.

Como esperado, usu√°rios de alta frequ√™ncia j√° eram retidos, o que torna o impacto incremental mais dif√≠cil de observar nesse grupo.

##### ‚úÖ Insight 
O cupom n√£o alterou a frequ√™ncia de quem menos pedia ‚Äî talvez seja necess√°rio um incentivo mais agressivo ou de outro tipo para esse p√∫blico.

#### 2. Segmenta√ß√£o por ticket m√©dio (segment_ticket)
Os usu√°rios foram classificados em faixas de baixo, m√©dio e alto ticket.

Os resultados foram consistentes e altamente positivos em todas as faixas

O cupom funcionou em todos os n√≠veis de gasto, desde os consumidores mais econ√¥micos at√© os de maior poder aquisitivo.

A reten√ß√£o foi especialmente impactada, com ganhos acima de 18% em todos os segmentos, mostrando que o benef√≠cio gerou engajamento duradouro.

##### ‚úÖ Insight 
A campanha foi eficaz em todos os perfis de consumo por valor, com impacto relevante no h√°bito de compra e fideliza√ß√£o.

#### 3. Segmenta√ß√£o por perfil de restaurante (segment_restaurant)
A distribui√ß√£o dos grupos (target vs. controle) foi estatisticamente equilibrada (p = 0.106), o que confere credibilidade √† an√°lise dos efeitos por segmento.

Mais uma vez, o impacto do cupom foi forte e uniforme.

O cupom foi altamente eficaz independentemente do tipo de restaurante consumido ‚Äî funcionando tanto para quem consome restaurantes mais populares quanto para quem consome restaurantes de ticket mais elevado.

##### ‚úÖ Insight 
O comportamento do consumidor frente ao cupom n√£o depende do perfil do restaurante, o que aumenta o potencial de escalabilidade da campanha.




#### Conclus√£o Geral
A an√°lise segmentada refor√ßa que a campanha de cupom foi amplamente eficaz, com impactos positivos e estatisticamente significativos nos principais KPIs (gasto, frequ√™ncia e reten√ß√£o) em todos os segmentos de valor e perfil de consumo.

A campanha gerou aumento consistente de ~13% em pedidos e gasto total por usu√°rio e um aumento expressivo de ~21% na reten√ß√£o, mesmo ap√≥s o uso do cupom.

Esses efeitos foram transversais a diferentes tipos de usu√°rio, evidenciando que a a√ß√£o tem alto potencial de impacto em larga escala.

A √∫nica limita√ß√£o observada foi entre usu√°rios de baixa frequ√™ncia, onde n√£o houve est√≠mulo √† recorr√™ncia