In [0]:
%load_ext autoreload
%autoreload 2

In [0]:
import pandas as pd
import sys
import json
#%pip install --disable-pip-version-check pycaret
sys.path.append("../src")
from funcoes import *
import seaborn as sns
from funcoes_ import perfil_base_conversao,plot_safra_conversion_rate,detectar_tipos,target_balance,resumo_missing,resumo_numericas,correlacao_numericas,chi2_categoricas,woe_iv_todas,matriz_correlacao,build_missing_plan,fit_missing_prep,apply_missing_prep,aplicar_dtypes,eliminacao_progressiva_por_importancia,grid_search_inteligente_lgbm_gini,_detectar_categoricas,_padronizar_categorias_para_fit,_alinhar_colunas_para_predict,_aplicar_categorias_salvas,avaliar_modelo_roc,plot_ks_prob_side_by_side,avaliar_por_limiar,plot_confusion_from_metrics,treinar_e_salvar_modelo_lgbm,aplicar_modelo_pkl,plot_ks_prob_side_by_side
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

In [0]:
!pip freeze > requirements.txt

###1- Train & Test

####1.1 - General Checks

In [0]:
#Após recebermos uma base enriquecida precisamos dividir entre Treino e Teste, para evitar Data Leakage.
#Data Leakage é uma falha que acontece durante os testes de um modelo de machine learning,
#no qual informações são compartilhadas entre um conjunto de dados usado no treinamento
#e outro conjunto de dados que é usado para validar essa modelagem, também chamado de dataset de testes.
#

In [0]:
base_modelagem = pd.read_csv("../data/processed/base_modelagem.csv", sep=",")

In [0]:
base_modelagem.head()

In [0]:
#A função perfil_base auxilia na verificação de métricas básicas da base de dados
resultado = perfil_base_conversao(base_modelagem, id_col='ID', target_col='target_sucesso', safra_col='time_since_test_start')

In [0]:
base_modelagem["time_since_test_start"] = base_modelagem["time_since_test_start"].astype(float).astype("int")
safra_br = plot_safra_conversion_rate(base_modelagem, safra_col="time_since_test_start", conversao_col="target_sucesso", conv_rate_min=0, conv_rate_max=0.8)

In [0]:
safra_br

In [0]:
#verificando a tipagem das variáveis
base_modelagem.dtypes.to_frame().value_counts(0)

In [0]:
#verificando a quantidade de safras e ofertas
base_modelagem[['time_since_test_start','offer_id']].value_counts().to_frame().reset_index().sort_values('time_since_test_start')


####1.2 - Train Test Division

In [0]:
#Apesar da visão de "safras" vamos resolver esse problema apenas comm Treino e Teste OOS
#Isso porque estamos falando de apenas um mes de campanha com novos disparos consecutivos
#As variáveis nao devem perder poder preditivo em um período de tempo tão curto.

In [0]:
base_modelagem.shape

In [0]:
#A base de treino deve ser dividida em Desenvolvimento e validação (train test)
#Para que possamos avaliar os modelos dentro do mesmo contexto temporal do treinamento OOS
# A base -> treino precisa ser dividida em train, test oos (testar a performance nas safras conhecidas)
# 30% da base é o teste oos.
train, test_oos = train_test_split(base_modelagem, test_size=0.3, stratify=base_modelagem['target_sucesso'], random_state=42)
train.shape, test_oos.shape

In [0]:
#verificando as taxas de conversao
train['target_sucesso'].value_counts()/len(train)*100

In [0]:
test_oos['target_sucesso'].value_counts()/len(test_oos)*100

In [0]:
#Salvando as bases. A partir daqui todas as análises e transformacoes serao realizadas no conjunto de treino
#E aplicada quando necessário no conjunto de testes
train.to_csv("../data/processed/train.csv",sep=",",index=False,header=True)
test_oos.to_csv("../data/processed/test_oos.csv",sep=",",index=False,header=True)

### 2 - Exploratory Data Analysis (EDA)

In [0]:
train= pd.read_csv("../data/processed/train.csv",sep=",")

In [0]:
train.head()

In [0]:
#Analisar os dados!! Quais variáveis vamos manter? descartar? transformar ou criar? Quais os Insights?
target = "target_sucesso"

####2.1 - Types

In [0]:
target = "target_sucesso"

num_cols, cat_cols = detectar_tipos(
    train,
    target=target,
    exclude_cols=["ID","cliente_id","offer_id","time_since_test_start"],  # não classificar esses
    force_cat=["genero","offer_type","safra_registro","recebeu_email","recebeu_mobile","recebeu_social","recebeu_web",
        "social","web","mobile","email"],                   # garantir que fiquem categóricas
    force_num=[
        "canais_recebidos_total","discount_value","duration","min_value",
        "n_instancias_anteriores_mesma_oferta","qtd_ofertas_completas_validas",
        
    ],
    int_low_card_as_cat=False  # não transformar ints de baixa cardinalidade em categorias
)

print("Categóricas:", cat_cols)
print("Numéricas (amostra):", num_cols[:10], " ... total:", len(num_cols))


In [0]:
num_cols

In [0]:
cat_cols

In [0]:
for col in cat_cols:
    if col in train.columns:
        train[col] = train[col].astype('category')

In [0]:
train.dtypes

In [0]:
tipagem = train.dtypes.reset_index()
dicionario_tipagem = dict(zip(tipagem["index"], tipagem[0]))

In [0]:
dicionario_tipagem

####2.2 - Target

In [0]:
target_balance(train, target)

####2.3 - Missing

In [0]:
#avaliacao rapida de missings na base, posteriormente vamos filtrar os campos com mais de 40% de missing
drop_missing = ["dias_desde_ultima_conversao_valida_mesma",
"dias_desde_ultima_oferta_mesma",
"n_conversoes_validas_anteriores_mesma",
"tempo_medio_conversao",
"dias_desde_ultima_conversao_valida",
"tempo_medio_visualizacao"]

resumo_missing(train).head(20)

####2.4 - Variables

In [0]:
num_cols

In [0]:
#Essas variáveis possuem problemas de inconsistencia devemos rever o conceito no book
drop_inconsistencia = ["mobile_ratio_historico","social_ratio_historico","dias_desde_ultima_conversao_valida_mesma","mobile_ratio_historico","social_ratio_historico","tempo_medio_conversao","web_ratio_historico","dias_desde_ultima_transacao.1"]

resumo_numericas(train, num_cols)

In [0]:
#p_valor baixo, vamos manter todas
chi2_categoricas(train, cat_cols, target)

In [0]:
# 5) Correlação + pares fortes
corr, pares_fortes = correlacao_numericas(train, num_cols)
display(pares_fortes)

In [0]:
#remover variaveis com alto colinearidade
drop_alta_colinearidade = pares_fortes["var2"].tolist()

In [0]:
drop_alta_colinearidade

In [0]:
# 7) WoE/IV (ranking)
#IV/WOE → mede capacidade de discriminação da variável para um problema binário.
#A variável ["n_conversoes_validas_anteriores_mesma"] tem um IV absurdo provavelmente algum problema na construcao da variavel (leakeage)
#Devemos remover ou consertar o conceito
#Vale lembrar que estamos falando de correlacoes lineares, portanto nao vamos nos livrar 
#de variaveis que apenas tem iv baixo.
drop_iv_absurdo = ["n_conversoes_validas_anteriores_mesma"]
display(woe_iv_todas(train, num_cols + cat_cols, target, n_bins=10, metodo="quantile"))

In [0]:
drop_missing

In [0]:
remover_vars = list(set(drop_inconsistencia+drop_missing+drop_alta_colinearidade+drop_iv_absurdo))

In [0]:
resumo_missing(train)

In [0]:
train.columns

In [0]:
train.dtypes

In [0]:
remover_vars

In [0]:
vars_sobreviventes = [x for x in train if x not in remover_vars]

In [0]:
vars_sobreviventes

In [0]:
#Sobraram 49 variáveis!!
len(vars_sobreviventes)

In [0]:
train_selecionado = train[vars_sobreviventes]

In [0]:
ids_ =["ID","time_since_test_start","offer_id","cliente_id"]
target="target_sucesso"

In [0]:
#correlacao maxima de 0.8
matriz_correlacao(train_selecionado.drop(ids_,axis=1).iloc[:, 1:15])

###3 - Data Prep

In [0]:
#Nesta fase seguimos garantindo a qualidade dos dados que serao utilizados para treinar nosso modelo
#Nesta fase seguimos garantindo a qualidade dos dados que serao utilizados para treinar nosso modelo

In [0]:
#Nesta fase seguimos garantindo a qualidade dos dados que serao utilizados para treinar nosso modelo

####3.1 - Handling Missing Values

In [0]:
# Nesta etapa importante vamos verificar nossas variáveis e propor um tratamento adequado para os valores faltantes:

In [0]:
train_selecionado.head()

In [0]:
train_selecionado.dtypes

In [0]:
missing_plan_df = build_missing_plan()
missing_plan_df

In [0]:
train_selecionado

In [0]:
#A variável idade é um tanto complicada, nao sabemos o real motivo dela estar faltando mas vamos 
#partir da premissa que se trata de um missing aleatório.
#Para tentar capturar quando o missing ocorreu vamos criar uma flag_missing, para que o modelo tenha chance de
#aprender quando o missing ocorreu.
train_selecionado["idade_missing"] = train_selecionado["idade"].isna().astype(int)

In [0]:
train_selecionado["idade"].count()

In [0]:
train_selecionado["idade_missing"].value_counts()

In [0]:
#Definindo o plano de imputação
plan = build_missing_plan()

prep = fit_missing_prep(train_selecionado, plan)

#salvar e dar load no prep
with open("../model_artefacts/missing_plan.json", "w", encoding="utf-8") as f:
    json.dump(prep, f, ensure_ascii=False, indent=4)

#ler arquivo
with open("../model_artefacts/missing_plan.json", "r", encoding="utf-8") as f:
    prep = json.load(f)


train_tratado = apply_missing_prep(train_selecionado, prep, copy=True)

# Para o teste:
# test_tratado = apply_missing_prep(test, prep, copy=True)


In [0]:
train_tratado.head()

In [0]:
#As variáveis de oferta permaneceram, muito bom para a nossa estratégia de escoragem
#variar as ofertas para o cliente e verificar maior probabilidade de conversao!
variaveis_de_oferta = ["offer_id","offer_type","discount_value","min_value","duration","web","email","mobile","social"]
resumo_missing(train_tratado).head(20)

In [0]:
# Dicionário de tipos
dtypes_dict = {
    "ID": "object",
    "target_sucesso": "int64",
    "cliente_id": "object",
    "offer_id": "object",
    "time_since_test_start": "int64",
    "idade": "float64",
    "genero": "category",
    "limite_credito": "float64",
    "safra_registro": "category",
    "historico_conversao": "float64",
    "dias_desde_ultima_transacao": "float64",
    "media_tempo_entre_transacoes": "float64",
    "transacoes_distintas_dias": "float64",
    "qtd_ofertas_anteriores": "float64",
    "qtd_ofertas_visualizadas": "float64",
    "qtd_ofertas_completas_validas": "int64",
    "taxa_visualizacao": "float64",
    "taxa_conversao": "float64",
    "offer_type": "category",
    "discount_value": "int64",
    "min_value": "int64",
    "duration": "int64",
    "web": "category",
    "email": "category",
    "mobile": "category",
    "social": "category",
    "dias_desde_ultima_oferta_recebida": "float64",
    "dias_desde_ultima_oferta_visualizada": "float64",
    "qtd_transacoes_7d": "float64",
    "qtd_transacoes_14d": "float64",
    "qtd_ofertas_recebidas_14d": "float64",
    "qtd_ofertas_visualizadas_14d": "float64",
    "qtd_conversoes_validas_14d": "float64",
    "canais_recebidos_total": "int64",
    "recebeu_web": "category",
    "recebeu_email": "category",
    "recebeu_mobile": "category",
    "recebeu_social": "category",
    "canais_preferidos": "float64",
    "email_ratio_historico": "float64",
    "taxa_visualizacao_historica_tipo": "float64",
    "taxa_conversao_historica_tipo": "float64",
    "taxa_visualizacao_historica_oferta": "float64",
    "taxa_conversao_historica_canal_social": "float64",
    "afinidade_canais_conv": "float64",
    "taxa_conversao_historica_bucket_duracao": "float64",
    "taxa_conversao_historica_bucket_desconto": "float64",
    "taxa_conversao_historica_bucket_minimo": "float64",
    "n_instancias_anteriores_mesma_oferta": "int64",
    "idade_missing": "int64"
}


In [0]:
#Salvando o dicionario de tipos para usarmos posteriormente
import json
# Salvar
with open("../model_artefacts/train_dtypes.json", "w", encoding="utf-8") as f:
    json.dump(dtypes_dict, f, ensure_ascii=False, indent=4)

In [0]:
# Carregar dicionario de tipos
with open("../model_artefacts/train_dtypes.json", "r", encoding="utf-8") as f:
    dtypes_dict = json.load(f)

df = aplicar_dtypes(train_tratado, dtypes_dict)
print(df.dtypes)

####3.2 - Other treatments

**Normalização**:<br>
Alguns modelos são sensíveis a magnitude, das variáveis, <br>
mas não é o caso do modelo de lightGBM que vamos treinar.<br>
Deixar de normalizar mantém as variáveis, sendo mais fácil de interpretar.<br>

**Outliers**:<br>
O modelo também nao é sensível a outliers.<br>
Os outliers proveniente de erros, foram observados em etapoas anteriores.<br>

**One Hot Enconding**:<br>
Sem necessidade, cria um monte de coluna desnecessária.<br>
Nosso modelo agrupa estatisticamente as categorias (ordena pelo target e busca splits).<br> 

Agora podemos seguir em paz

In [0]:
#Salvando base treino_tratada
#train_tratado.to_csv("../data/processed/train_tratado.csv", sep=",",header=True,index=False)

###4 - Variable Selection

Na verdade estamos selecionando variáveis desde nosso passo de EDA.<br>
Mas aqui o foco é de fato nas variáveis que podem nos ajudar a prever o comportamento do cliente ao receber uma oferta.

####4.1 - Recursive Feature Elimination (RFE)

In [0]:

#Carregando base treino_tratada
#Inferindo o schema
train_tratado = pd.read_csv("../data/processed/train_tratado.csv", sep=",")
train_tratado = aplicar_dtypes(train_tratado, dtypes_dict)

In [0]:
train_tratado.dtypes

In [0]:
colunas_id = ['ID', 'cliente_id', 'offer_id', 'time_since_test_start']
target = 'target_sucesso'

resultados_df, figs = eliminacao_progressiva_por_importancia(
    df, colunas_id, target,
    min_features=5,   # pare quando restarem 5 variáveis
    max_steps=None,   # ou limite por número de etapas, ex: 20
    plot=True
)


In [0]:
#A Etapa número 9 é uma boa opçao para seguirmos,
#Mantém a performance e diminui o tempo de treinamento
pd.set_option('display.max_colwidth', 50)
resultados_df

In [0]:
figs['gini']

In [0]:
figs['ks']

###5 - Model Train

####5.1 - Grid Search

In [0]:
#Agora que já tratamos o dado e selecionamos as variáveis, vamos fazer uma modelagem mais robusta,
#GridSearch para procurar os melhores hiperparâmetros para nosso modelo
#Vamos procurar recursivamente para diversos experimentos possíveis:
param_grid = {
        # taxa de aprendizado: menor -> mais árvores, maior estabilidade; maior -> converge rápido, risco overfit
        'learning_rate': [0.01, 0.05, 0.1],
        # controle do tamanho das folhas: mais folhas capturam interações complexas, mas podem overfit
        'num_leaves': [30, 63, 127],
        # profundidade máxima: -1 = ilimitado; valores moderados ajudam a regularizar
        'max_depth': [3, 6, 8, 10],
        # amostra mínima por folha: maior -> mais suave/regularizado
        'min_child_samples': [20, 50, 100],
        # amostragem de linhas por árvore (bagging): <1 ajuda a reduzir variância
        'subsample': [0.7, 0.9, 1.0],
        # amostragem de colunas por árvore: <1 ajuda a reduzir correlação entre árvores
        'colsample_bytree': [0.7, 0.9, 1.0],
        # L1 e L2, penalizações que ajudam a controlar complexidade
        'reg_alpha': [0.0, 0.1, 0.5],
        'reg_lambda': [0.0, 0.1, 0.5],
        # ganho mínimo para dividir (split) — aumenta a exigência para criar novas folhas
        'min_split_gain': [0.0, 0.1]
    }

In [0]:
#Vamos carregar nossa base de dados novamente, para nao dependermos de rodar o notebook todo.
# Carregar dicionario de tipos
with open("../model_artefacts/train_dtypes.json", "r", encoding="utf-8") as f:
    dtypes_dict = json.load(f)

train_tratado = pd.read_csv("../data/processed/train_tratado.csv", sep=",")
train_tratado = aplicar_dtypes(train_tratado, dtypes_dict)

In [0]:
explicativas_selecionadas = resultados_df.iloc[9].tolist()[4]
explicativas_selecionadas

In [0]:
explicativas_selecionadas = ['idade',
 'genero',
 'limite_credito',
 'safra_registro',
 'historico_conversao',
 'dias_desde_ultima_transacao',
 'media_tempo_entre_transacoes',
 'transacoes_distintas_dias',
 'qtd_ofertas_anteriores',
 'qtd_ofertas_visualizadas',
 'qtd_ofertas_completas_validas',
 'taxa_visualizacao',
 'taxa_conversao',
 'offer_type',
 'discount_value',
 'min_value',
 'duration',
 'social',
 'dias_desde_ultima_oferta_recebida',
 'dias_desde_ultima_oferta_visualizada',
 'qtd_transacoes_7d',
 'qtd_transacoes_14d',
 'qtd_ofertas_recebidas_14d',
 'qtd_ofertas_visualizadas_14d',
 'qtd_conversoes_validas_14d',
 'canais_recebidos_total',
 'email_ratio_historico',
 'taxa_visualizacao_historica_tipo',
 'taxa_conversao_historica_tipo',
 'taxa_visualizacao_historica_oferta',
 'taxa_conversao_historica_canal_social',
 'afinidade_canais_conv',
 'taxa_conversao_historica_bucket_duracao',
 'taxa_conversao_historica_bucket_desconto',
 'taxa_conversao_historica_bucket_minimo',
 'n_instancias_anteriores_mesma_oferta']

In [0]:
train_tratado = train_tratado[['ID', 'offer_id', 'cliente_id','time_since_test_start']+[target]+explicativas_selecionadas]

In [0]:
train_tratado.head()

In [0]:
variaveis_de_oferta = ["offer_id","offer_type","discount_value","min_value","duration","web","email","mobile","social"]

In [0]:
#verificando se todas as variáveis de ofertas sobreviveram
[x for x in variaveis_de_oferta if x not in train_tratado.columns]

In [0]:
best_params, historico = grid_search_inteligente_lgbm_gini(
    df=train_tratado.drop(["ID","offer_id","cliente_id","time_since_test_start"], axis=1),
    target='target_sucesso',   # troque pelo nome do seu alvo
    categorical_cols=None,     # ou passe a lista, ex.: ['genero','offer_type',...]
    cv_splits=5,
    early_stopping_rounds=100,
    max_combinations=60,
    random_state=42,
    verbose=1
)


In [0]:
print(historico.head(10))
print("\nBest params:\n", best_params)

In [0]:
parametros_escolhidos = {'objective': 'binary', 'boosting_type': 'gbdt', 'random_state': 42, 'n_jobs': -1, 'learning_rate': 0.01, 'num_leaves': 63, 'max_depth': 5, 'min_child_samples': 20, 'subsample': 1.0, 'colsample_bytree': 0.9, 'reg_alpha': 0.5, 'reg_lambda': 0.1, 'min_split_gain': 0.0, 'n_estimators': 1340}

In [0]:
parametros_escolhidos

####5.2 - Final Model

In [0]:
id_cols = ["ID","offer_id","cliente_id","time_since_test_start"]

importance_df, train_escorado, modelo_pkl = treinar_e_salvar_modelo_lgbm(
    parametros_escolhidos=parametros_escolhidos,
    train_tratado=train_tratado,     # base ORIGINAL sem dropar
    target='target_sucesso',
    path='../model_artefacts/',
    score_col='score_modelo',
    id_cols=id_cols                  # <--- agora aqui!
)

In [0]:
train_escorado.head()

In [0]:
importance_df.head()

In [0]:
train_escorado.head()

In [0]:
importance_df

###6 - Model Testing

In [0]:
#Agora que já treinamos nosso modelo vamos escorar no dataset de Testes
#Precisamos aplicar todas as transformaçoes feitas no treino

In [0]:
#Ler base de testes
teste_oos = pd.read_csv("../data/processed/test_oos.csv", sep=",")
teste_oos.shape

#Adicionar a coluna idade_missing
teste_oos["idade_missing"] = teste_oos["idade"].isna().astype(int)

#resgatando colunas necessarias
colunas = pd.read_csv("../data/processed/train_tratado.csv", sep=",", nrows=0).columns
teste_oos = teste_oos[colunas]

#Resgatando os dtypes e Tipando a base de testes
with open("../model_artefacts/train_dtypes.json", "r", encoding="utf-8") as f:
    dtypes_dict = json.load(f)

teste_oos_tratado = aplicar_dtypes(teste_oos, dtypes_dict)

#Imputar os Missings
#ler arquivo
with open("../model_artefacts/missing_plan.json", "r", encoding="utf-8") as f:
    prep = json.load(f)

teste_oos_tratado = apply_missing_prep(teste_oos_tratado, prep, copy=True)


In [0]:
#Agora podemos escorar o conjunto de testes
teste_escorado = aplicar_modelo_pkl(
    df_teste=teste_oos_tratado,              # df apenas com explicativas
    path='../model_artefacts/',
    score_col='score_modelo'
)

In [0]:
teste_escorado.head()

In [0]:
teste_escorado.to_csv("../model_artefacts/teste_escorado.csv",sep=",",index=False)

###7 - Model Evaluation

Vamos avaliar o modelo com algumas métricas para verificar se ele está performando bem:<br>

**Acurácia**: “% que acertei no geral”<br>
**Precisão**: “Quando digo que é positivo, acerto quantas vezes?”<br>
**Recall**: “Entre todos os positivos, quantos consegui pegar?”<br>
**F1**: “Equilíbrio entre precisão e recall”<br>
**AUC / Gini**: “Quão bem separo as classes no geral”<br>
**KS**:“Distância máxima entre as curvas de acerto e erro”

In [0]:
train_escorado.head()

In [0]:
#Ler as bases escoradas para iniciarmos a avaliaçao
train_escorado = pd.read_csv("../model_artefacts/train_escorado.csv",sep=",")
teste_escorado = pd.read_csv("../model_artefacts/teste_escorado.csv",sep=",")
ids_ = ["ID","cliente_id","offer_id","time_since_test_start"]
target = "target_sucesso"

In [0]:
metrics = avaliar_modelo_roc(
    df_train=train_escorado,  # df com colunas score & target
    df_test=teste_escorado,
    score_col="score_modelo",
    target_col="target_sucesso",
    title="ROC - LGBM"
)

In [0]:
info = plot_ks_prob_side_by_side(
    df_train=train_escorado,
    df_test=teste_escorado,
    score_col="score_modelo",
    target_col="target_sucesso",
    title="KS por Probabilidade — LGBM"
)

In [0]:
# o KS é máximo quando a prob de conversao é 0.44
#Entao vou utilizar esse corte para avaliar
metricas = avaliar_por_limiar(
    df_train=train_escorado,
    df_test=teste_escorado,
    score_col="score_modelo",
    target_col="target_sucesso",
    limiar=0.44
)


In [0]:
#Quando o modelo diz que é uma conversao, ele acerta 78%.
#Entre todas as conversoes quantas o modelo acertou? 85%
metricas

In [0]:
plot_confusion_from_metrics(metricas)

In [0]:
#O modelo generaliza bem, pois as métricas de treino e teste são próximas.
#Alta AUC e KS indicam ótima separação entre positivos e negativos.
#O recall alto é importante para capturar o maior número de conversoes.
#Precisão também está boa, evitando muitas predições erradas positivas.
#Overfitting praticamente inexistente pois a performance caiu pouco de treino para teste.
#Pode ser usado em produção com segurança.

###8 - Model Inference

####8.1 - Offer Recomendation

Vamos transformar o modelo (treinado na granularidade cliente‑oferta) em um motor de recomendação que,<br>
na hora da escoragem, testa todas as opções de oferta para cada cliente e devolve uma tabela de **melhor oferta por cliente**<br>

In [0]:
#Essas sao as informações que variam conforme a ofera
variaveis_de_oferta = ["offer_id","offer_type","discount_value","min_value","duration","web","email","mobile","social"]

In [0]:
offers = pd.read_csv("../data/processed/processed_offers.csv",sep=',') 

In [0]:
#Essas sao as ofertas disponíveis
offers

In [0]:
#Tratando a base de testes

In [0]:
#Ler base de testes
teste_oos = pd.read_csv("../data/processed/test_oos.csv", sep=",")
teste_oos.shape

#Adicionar a coluna idade_missing
teste_oos["idade_missing"] = teste_oos["idade"].isna().astype(int)

#resgatando colunas necessarias
colunas = pd.read_csv("../data/processed/train_tratado.csv", sep=",", nrows=0).columns
teste_oos = teste_oos[colunas]

#Resgatando os dtypes e Tipando a base de testes
with open("../model_artefacts/train_dtypes.json", "r", encoding="utf-8") as f:
    dtypes_dict = json.load(f)

teste_oos_tratado = aplicar_dtypes(teste_oos, dtypes_dict)

#Imputar os Missings
#ler arquivo
with open("../model_artefacts/missing_plan.json", "r", encoding="utf-8") as f:
    prep = json.load(f)

teste_oos_tratado = apply_missing_prep(teste_oos_tratado, prep, copy=True)

In [0]:
teste_oos_tratado.shape

In [0]:
teste_oos_tratado.head()

In [0]:
import pandas as pd

VARIAVEIS_DE_OFERTA = [
    "offer_id","offer_type","discount_value","min_value","duration",
    "web","email","mobile","social"
]

def expandir_cenarios_ofertas(teste_oos_tratado: pd.DataFrame,
                              df_ofertas: pd.DataFrame,
                              variaveis_de_oferta=VARIAVEIS_DE_OFERTA,
                              add_id_cenario: bool = True) -> pd.DataFrame:
    """
    Para cada linha do teste, cria uma linha para cada oferta,
    substituindo SOMENTE as variáveis de oferta.
    Retorna um DF ~9x maior (cliente × oferta).
    """
    base = teste_oos_tratado.copy()
    ofertas = df_ofertas.copy()

    # checagens
    faltantes = [c for c in variaveis_de_oferta if c not in ofertas.columns]
    if faltantes:
        raise ValueError(f"df_ofertas está sem colunas: {faltantes}")

    # ---- cross join seguro ----
    try:
        # pandas >= 1.2
        cross = base.merge(ofertas, how="cross", suffixes=("", "_of"))
    except TypeError:
        # fallback: chave artificial __k SEM sufixar
        base["__k"] = 1
        ofertas["__k"] = 1
        cross = base.merge(ofertas, on="__k", how="inner", suffixes=("", "_of"))
        cross.drop(columns="__k", inplace=True)

    # ---- substituir apenas variáveis de oferta pelas versões _of ----
    # após o merge, as colunas que existem nos dois lados recebem sufixo "_of" no lado das ofertas
    for c in variaveis_de_oferta:
        c_of = f"{c}_of"
        if c_of in cross.columns:
            cross[c] = cross[c_of]
            cross.drop(columns=[c_of], inplace=True)
        # se não existe c_of, é porque não havia essa coluna no base e ela veio só do catálogo (ok)

    # ---- ordem de colunas: manter as do teste primeiro ----
    cols_orig = list(teste_oos_tratado.columns)
    cols_final = [c for c in cols_orig if c in cross.columns] + [c for c in cross.columns if c not in cols_orig]

    # ---- ID de cenário opcional ----
    if add_id_cenario and ("cliente_id" in cross.columns) and ("offer_id" in cross.columns):
        cross["ID_cenario"] = cross["cliente_id"].astype(str) + "_" + cross["offer_id"].astype(str)
        if "ID_cenario" not in cols_final:
            cols_final.append("ID_cenario")

    cross = cross[cols_final].reset_index(drop=True)
    return cross



In [0]:
expanded_oos = expandir_cenarios_ofertas(
    teste_oos_tratado=teste_oos_tratado,
    df_ofertas=offers,
    variaveis_de_oferta=VARIAVEIS_DE_OFERTA,
    add_id_cenario=True
)


In [0]:
expanded_oos.head(10)

In [0]:
expanded_oos.shape

In [0]:
#Agora podemos escorar o conjunto de testes
expanded_oos_ = aplicar_modelo_pkl(
    df_teste=expanded_oos[teste_oos_tratado.columns],              # df apenas com explicativas
    path='../model_artefacts/',
    score_col='score_modelo'
)

In [0]:
expanded_oos_[["ID","cliente_id","offer_id","score_modelo","time_since_test_start"]].head(10)

In [0]:
expanded_oos_.columns

In [0]:
melhor_offer_por_cliente_time = expanded_oos_[['cliente_id', 'offer_id','score_modelo',"time_since_test_start"]].sort_values(["cliente_id","time_since_test_start","score_modelo"],ascending=[True,True,False])

In [0]:
melhor_offer_por_cliente_time.head(10)


In [0]:
melhor_offer_por_cliente_time_ = melhor_offer_por_cliente_time.loc[
    melhor_offer_por_cliente_time.groupby(['cliente_id', 'time_since_test_start'])['score_modelo'].idxmax()
]


In [0]:
melhor_offer_por_cliente_time_.head()

In [0]:
#Ranking das ofertas que mais sao consideradas "melhores"
#A oferta aaa5 ficou em último, se parece muito com a c2a4 que é a mais votada, 
# isso faz com que o algoritmo priorize a oferta com maior duracao e com mais canais de midia!!
melhor_offer_por_cliente_time_.value_counts(['offer_id']).reset_index(name='qtd').merge(offers,on="offer_id",how="left").sort_values("qtd",ascending=False).head(10)


In [0]:
melhor_offer_por_cliente_time.shape

In [0]:
#Se tivéssemos escorado o cliente a77  no dia 7, a melhor oferta seria a 0b1e1539f2cc45b7b9fa7c272da2e1d7 com 75% de probabilidade de conversao
#E assim por diante!
#Note que conforme o tempo passa, a probabilidade diminui, mas a melhor oferta ainda se mantém
melhor_offer_por_cliente_time_.head(10)

In [0]:
#Note que neste cenário o cliente pode mudar de "melhor oferta" ao longo do tempo
#O cliente 26d tem 4 ofertas diferentes possiveis dependendo do momento da campanha!
melhor_offer_por_cliente_time_.groupby("cliente_id")["offer_id"].nunique().reset_index().sort_values("offer_id",ascending=False).head(5)


In [0]:
#Olhando amis de perto podemos ver que a oferta muda de acordo com o comportamento histórico do cliente ao longo do tempo
#Quanto mais o tempo passa mais conhecemos o comportamento do cliente!!
melhor_offer_por_cliente_time_[melhor_offer_por_cliente_time_["cliente_id"]=="f025969500b04e45803332ad0937a26d"]

In [0]:
#Agora vamos comparar a base com as ofertas originais, com as ofertas propostas em cada
teste_escorado = pd.read_csv("../model_artefacts/teste_escorado.csv",sep=",")


In [0]:
teste_escorado.head()

In [0]:
#Se tivéssemos escorado o cliente a77 no dia 7, a melhor oferta seria a 0b1e1539f2cc45b7b9fa7c272da2e1d7
melhor_offer_por_cliente_time_.head()

In [0]:

comparar_ofertas = teste_escorado.merge(
    melhor_offer_por_cliente_time_,
    on=["cliente_id", "time_since_test_start"],
    how="left"
)

In [0]:
comparar_ofertas.shape

In [0]:
comparar_ofertas.head()

In [0]:
comparar_ofertas_ = comparar_ofertas[["offer_id_x","score_modelo_x","offer_id_y","score_modelo_y","target_sucesso","time_since_test_start"]]
comparar_ofertas_ = comparar_ofertas_.rename(columns={"offer_id_x":"offer_id_original","score_modelo_x":"score_modelo_original","offer_id_y":"offer_id_proposta","score_modelo_y":"score_modelo_proposta","target_sucesso":"target_sucesso_real"})



In [0]:
#Agora vamos tentar medir o impacto do modelo, caso outras decisoes fossem tomadas no momento da oferta
comparar_ofertas_

In [0]:
#nao sabemos se a oferta proposta n seria aceita, devemos focar nos casos onde
#a oferta X nao foi aceita porem o modelo teria ofertado a Y (com maior probabilidade)
propostas_nao_convertidas = comparar_ofertas_[(comparar_ofertas_["target_sucesso_real"] == 0) &
                (comparar_ofertas_["offer_id_proposta"] != comparar_ofertas_["offer_id_original"])]

In [0]:
#verificando propostas nao convertidas
propostas_nao_convertidas.head()

In [0]:
#Alem disso precisamos definir o limiar de corte do score, 
#Consideramos o corte no KS max.Quando for acima de 0.44 consideramos uma possivel conversao!
#Lembrando que a precisäo do modelo é 78% (quando ele diz que é uma conversao acerta 78% das vezes)\

propostas_nao_convertidas["target_sucesso_modelo"] = [1 if x >= 0.44 else 0 for x in propostas_nao_convertidas["score_modelo_proposta"]]


In [0]:
#A lógica aí vira uma estimativa potencial de recuperação de conversões perdidas.
propostas_nao_convertidas.head()

####8.2 - Final Results

**Recapitulando**:

1 - Escoramos o modelo para todo público de testes.<br>
2 - Simulamos o cenário onde as 10 ofertas foram oferecidas para todos os clientes do teste em todas as campanhas.<br>
3 - Selecionamos as ofertas simuladas com maior score.<br>
4 - Tomamos todos os casos onde nâo obtivemos sucesso na conversão.<br>
5 - Comparamos a oferta original com a oferta proposta.<br>
6 - Agora vamos avaliar o ganho potencial da solução.

In [0]:
#Estamos avaliando 18987 ofertas no total
comparar_ofertas_.shape

In [0]:
comparar_ofertas_["target_sucesso_real"].value_counts().reset_index()["count"][0]

In [0]:
#Propostas não convertidas onde oferta proposta é diferente da proposta original
analise_ganho = propostas_nao_convertidas["target_sucesso_modelo"].value_counts().reset_index()

In [0]:
#
analise_ganho

In [0]:
total_casos_sem_conversao = comparar_ofertas_["target_sucesso_real"].value_counts().reset_index()["count"][0]
total_casos_avaliados = analise_ganho['count'].sum()
print(f"Casos sem conversão: {total_casos_sem_conversao}")
print(f"Casos avaliados: {total_casos_avaliados}")
print(f"Casos convertidos_simulados: {analise_ganho['count'][1]}")
print(f"Considerando a Precisao de 78%:")
casos_convertidos = int(round(analise_ganho['count'][1]*0.78,0))
print(f"Casos convertidos: {casos_convertidos}")
print(f"Gerando uma 'Taxa de repescagem' de :{round(100*casos_convertidos/total_casos_sem_conversao,1)}% ")

**Considerações Finais**

**Premissas adotadas na simulação**:<br>
O modelo foi treinado na granularidade cliente–oferta, prevendo a probabilidade de aceitação da oferta.<br>
O ganho estimado (“taxa de repescagem” de 29,4%) considera casos sem conversão<br>
onde o modelo indicaria outra oferta com maior probabilidade de aceitação.<br>

Consideramos que clientes que receberam oferta “X” poderiam aceitar “Y” caso fosse recomendada.<br>
Não avaliamos conversões sem oferta associada.<br>

Assumimos que conversão = aceitação da oferta enviada.<br>

**Limitações**:<br>
O cliente pode ter realizado uma transação sem utilizar a oferta, mas isso não é capturado no target_sucesso.<br>
Não medimos impacto direto no faturamento, apenas aumento potencial na aceitação de ofertas.<br>

**O que seria necessário para medir impacto real**:<br>
Taxa histórica de conversão espontânea (compras sem oferta).<br>
Receita média por transação com e sem oferta.<br>
Margem de contribuição por tipo de oferta.<br>
Capacidade de simular cenários considerando baseline e efeito incremental da oferta.

