# MRO - Modelo de Recomendação de Ofertas



## Bibliotecas

In [1]:
# Manipulação de dados
import pandas as pd
import numpy as np

# Datas
from datetime import datetime
import calendar

# Visualização
import matplotlib.pyplot as plt
import seaborn as sns

# Estatística
from scipy.stats import f_oneway

# Pré-processamento
from sklearn.preprocessing import (
    LabelEncoder, 
    OneHotEncoder, 
    OrdinalEncoder, 
    StandardScaler
)

# Modelagem
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier

# Avaliação de modelos
from sklearn.metrics import (
    classification_report, 
    precision_score, 
    recall_score, 
    f1_score
)

# Validação cruzada e otimização
from sklearn.model_selection import (
    train_test_split, 
    GridSearchCV
)

# Agrupamento
from sklearn.cluster import KMeans

# Pipeline
from sklearn.pipeline import Pipeline

# Salvamento de modelos
import joblib


## Funções

In [2]:
# Função para ajustar datas de registro no perfil ---
def ajustar_data(data_str):
    ano = int(data_str[:4])
    dia = int(data_str[6:8])
    mes_atual = datetime.now().month

    # Corrigir dia para o último dia válido do mês atual
    _, ultimo_dia = calendar.monthrange(ano, mes_atual)
    dia_corrigido = min(dia, ultimo_dia)

    return datetime(year=ano, month=mes_atual, day=dia_corrigido)

# Função para calcular diferença em meses entre duas datas
def meses_de_diferenca(inicio, fim):
    return (fim.year - inicio.year) * 12 + (fim.month - inicio.month)


# Função para preencher valores ausentes por média de grupo
def preencher_media_grupo(df, col, grupo):
    media = df.groupby(grupo)[col].transform('mean')
    return df[col].fillna(media)

# Função para treinar o KMeans, salvar artefatos e gerar resumo comportamental por cluster
def treinar_kmeans(produto, X_train):
    print(f'\nTreinando modelo para: {produto}')
    
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X_train)

    # Encontrar melhor k pelo método do cotovelo
    inertia = []
    for k in range(2, 10):
        kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
        kmeans.fit(X_scaled)
        inertia.append(kmeans.inertia_)

    plt.plot(range(2, 10), inertia, 'bx-')
    plt.title(f'Método do cotovelo - {produto}')
    plt.xlabel("Número de Clusters")
    plt.ylabel("Inércia")
    plt.show()

    # Determinar o melhor k (ponto de maior curvatura)
    diff = np.diff(inertia)
    diff2 = np.diff(diff)
    best_k = np.argmin(diff2) + 2
    
    print(f'Melhor k Real: {best_k}')
    
    #forçando
    best_k = 3
    
    print(f'Melhor k: {best_k}')

    # Treinar modelo final
    modelo_final = KMeans(n_clusters=best_k, random_state=42, n_init=10)
    modelo_final.fit(X_scaled)
    X_train_clusterizado = X_train.copy()
    X_train_clusterizado['cluster'] = modelo_final.labels_

    # Salvar modelo e scaler
    os.makedirs('modelos', exist_ok=True)
    with open(f'modelos/{produto}_kmeans.pkl', 'wb') as f:
        pickle.dump(modelo_final, f)
    with open(f'modelos/{produto}_scaler.pkl', 'wb') as f:
        pickle.dump(scaler, f)

    # Salvar centróides
    centroides = modelo_final.cluster_centers_
    pd.DataFrame(centroides, columns=X_train.columns).to_csv(f'{produto}_centroides.csv', index=False)

    # Calcular e salvar raio máximo por cluster
    distancias = np.linalg.norm(X_scaled - modelo_final.cluster_centers_[modelo_final.labels_], axis=1)
    raio_max = pd.Series(distancias).groupby(X_train_clusterizado['cluster']).max()
    raio_max.to_csv(f'modelos/{produto}_raio_max.csv')

    # Gerar descritivo comportamental por grupo com % da base
    resumo = X_train_clusterizado.groupby('cluster').mean().round(2)
    contagem = X_train_clusterizado['cluster'].value_counts(normalize=True).sort_index() * 100
    resumo['perc_base'] = contagem.round(2)

    resumo.to_csv(f'{produto}_resumo_cluster.csv')
    print("Resumo comportamental dos clusters salvo como CSV.")

    print("Modelo, centróides, raios e resumo salvos com sucesso.")
    
    return modelo_final, scaler, centroides, raio_max, resumo


# Função para mostrar a importância das variáveis para o melhor modelo
def mostrar_importancia_variaveis(modelo, X):
    if hasattr(modelo.named_steps['clf'], 'feature_importances_'):
        importancias = modelo.named_steps['clf'].feature_importances_
    elif hasattr(modelo.named_steps['clf'], 'coef_'):
        # Para LogisticRegression (multiclasse): pegar a média absoluta dos coeficientes por feature
        importancias = np.mean(np.abs(modelo.named_steps['clf'].coef_), axis=0)
    else:
        print("Modelo não suporta feature_importances_ ou coef_")
        return
    
    # Criar dataframe para exibir importâncias
    df_importancias = pd.DataFrame({
        'feature': X.columns,
        'importance': importancias
    }).sort_values(by='importance', ascending=False)
    
    print(df_importancias)
    
    # Plotar as importâncias
    plt.figure(figsize=(10,6))
    plt.barh(df_importancias['feature'], df_importancias['importance'])
    plt.gca().invert_yaxis()
    plt.title("Importância das Variáveis")
    plt.show()


# --- Função de aprendizado supervisionado ajustada para multi-classes (offer_id) ---
def aprendizado_supervisionado(X_train, X_test, y_train, y_test, df_metricas_por_grupo, X_test_geral):
    modelos = {
        'LogisticRegression': (
            LogisticRegression(max_iter=1000, random_state=42, solver='lbfgs'),
            {'clf__C': [0.1, 1, 10]}
        ),
        'DecisionTree': (
            DecisionTreeClassifier(random_state=42),
            {'clf__max_depth': [None, 5, 10, 20], 'clf__min_samples_split': [2, 5, 10]}
        ),
        'RandomForest': (
            RandomForestClassifier(random_state=42),
            {'clf__n_estimators': [100, 200], 'clf__max_depth': [None, 5, 10]}
        ),
        'XGBClassifier': (
            XGBClassifier(eval_metric='mlogloss', tree_method='hist', random_state=42),
            {'clf__n_estimators': [100, 200], 'clf__max_depth': [3, 6], 'clf__learning_rate': [0.05, 0.1]}
        )
    }

    melhores_modelos = {}
    lista_metricas_por_grupo = []
    
    # DataFrame para salvar probabilidades (probabilidades para cada classe)
    df_probabilidades = pd.DataFrame()
    if 'num_telefone' in X_test_geral.columns:
        df_probabilidades['num_telefone'] = X_test_geral['num_telefone']
    df_probabilidades['true_offer_id'] = y_test.reset_index(drop=True)

    for nome, (modelo, parametros) in modelos.items():
        pipeline = Pipeline([
            ('scaler', StandardScaler()),
            ('clf', modelo)
        ])

        grid = GridSearchCV(pipeline, param_grid=parametros, scoring='f1_weighted', cv=3, n_jobs=-1)
        grid.fit(X_train, y_train)

        melhores_modelos[nome] = grid.best_estimator_

        # Prever classes e probabilidades
        y_pred = grid.predict(X_test)
        y_pred_proba = grid.predict_proba(X_test)

        # Relatório por classe
        relatorio = classification_report(y_test, y_pred, target_names=le.classes_, output_dict=True, zero_division=0)
        df_relatorio = pd.DataFrame(relatorio).transpose()
        
        print(f'Relatório de métricas por classe para {nome}:')
        print(df_relatorio)


        # Adicionar colunas de probabilidade para cada classe no df_probabilidades
        for idx, classe in enumerate(grid.classes_):
            col_name = f'proba_{nome}_{classe}'
            df_probabilidades[col_name] = y_pred_proba[:, idx]

        # Métricas multi-classe
        precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)
        recall = recall_score(y_test, y_pred, average='weighted', zero_division=0)
        f1 = f1_score(y_test, y_pred, average='weighted', zero_division=0)

        print(f'ALGORITMO: {nome} | Precision: {precision:.4f} | Recall: {recall:.4f} | F1-Score: {f1:.4f}')

        lista_metricas_por_grupo.append({
            'metodo': f'SUP. MULTI ({nome})',
            'precision': round(precision, 4),
            'recall': round(recall, 4),
            'f1': round(f1, 4)
        })

    # Salvar probabilidades
    df_probabilidades.to_csv('probabilidades_por_algoritmo_multiclasse.csv', index=False, sep=';')
    print(f"💾 Probabilidades salvas em: bases/probabilidades_por_algoritmo_multiclasse.csv")

    # Salvar o melhor modelo baseado na F1 score
    melhor_modelo = max(lista_metricas_por_grupo, key=lambda x: x['f1'])
    nome_melhor = melhor_modelo['metodo'].split('(')[-1].replace(')', '')
    modelo_para_salvar = melhores_modelos[nome_melhor]
    joblib.dump(modelo_para_salvar, 'melhor_modelo_f1_multiclasse.pkl')

    # Concatenar métricas ao df original
    df_novos = pd.DataFrame(lista_metricas_por_grupo)
    df_metricas_por_grupo = pd.concat([df_metricas_por_grupo, df_novos], ignore_index=True)
        
    print(f"\n✅ Melhor modelo salvo: {nome_melhor} com F1-score {melhor_modelo['f1']:.4f}")


    # Depois de selecionar o melhor modelo, chame:
    mostrar_importancia_variaveis(modelo_para_salvar, X_train_clean)
    
    return df_metricas_por_grupo

## Engenharia de Dados

In [8]:
# --- 1. Definindo caminho base para os arquivos JSON ---
caminho_arquivo = r'C:\Users\F8090385\ifood\raw\\'

# --- 2. Carga arquivos JSON em DataFrames ---
offers = pd.read_json(caminho_arquivo + 'offers.json')
profile = pd.read_json(caminho_arquivo + 'profile.json')
transactions = pd.read_json(caminho_arquivo + 'transactions.json')

# --- 3. Normalizando nomes das colunas para consistência entre dataframes ---
offers.rename(columns={'id': 'offer_id'}, inplace=True)
profile.rename(columns={'id': 'account_id'}, inplace=True)

# --- 4. Expandir coluna 'value' no dataframe transactions em múltiplas colunas ---
value_df = transactions['value'].apply(pd.Series)

# --- 5. Processar transactions

# Substituir coluna 'value' pelas colunas expandidas (ex: offer_id, reward, etc.)
transactions_v2 = pd.concat([transactions.drop(columns=['value']), value_df], axis=1)

# Corrigir inconsistência: quando 'offer_id' estiver vazio, usar 'offer id'
transactions_v2['offer_id'] = transactions_v2['offer id'].combine_first(transactions_v2['offer_id'])

# Remover a coluna antiga 'offer id'
transactions_v2.drop(columns=['offer id'], inplace=True)

# --- 6. Processar canais (channels) no dataframe offers

# Se coluna 'channels' estiver em formato string, convertê-la para lista (separada por vírgulas)
offers['channels'] = offers['channels'].apply(
    lambda x: x.split(',') if isinstance(x, str) else x
)

# "Explodir" a lista de canais para uma linha por canal (transforma lista em múltiplas linhas)
offers_expanded = offers.explode('channels')

# Criar variáveis dummies (colunas binárias) para cada canal
channels_dummies = pd.get_dummies(offers_expanded['channels'])

# Agrupar de volta por oferta somando dummies e limitando valores para 1 (evita duplicatas)
channels_summary = channels_dummies.groupby(offers_expanded.index).sum().clip(upper=1)

# Anexar variáveis dummy no dataframe original de ofertas
offers = offers.join(channels_summary)


# --- 7. Calcular tempo de casa (profile)

# Garantir que 'registered_on' seja string para evitar erros de parsing
profile['registered_on'] = profile['registered_on'].astype(str)

# Obter mês e ano atuais para cálculo do tempo de casa
mes_atual = datetime.now().month
ano_atual = datetime.now().year

# Aplicar função para criar coluna com datas ajustadas
profile['data_ajustada'] = profile['registered_on'].apply(ajustar_data)

# Calcular tempo de casa em meses, do registro até hoje
hoje = datetime.now()
profile['tempo_de_casa'] = profile['data_ajustada'].apply(lambda x: meses_de_diferenca(x, hoje))

# 🔍 Visualizar resultado parcial
print(profile[['registered_on', 'data_ajustada', 'tempo_de_casa']].head())



# --- 8. Selecionar transações e eventos relevantes

# Transações (compras feitas)
transacoes = transactions_v2.query("event == 'transaction'")[['account_id', 'time_since_test_start', 'amount']].copy()

# Ofertas recebidas
ofertas_recebidas = transactions_v2.query("event == 'offer received'")[['account_id', 'offer_id', 'time_since_test_start']].copy()

# Ofertas completadas
ofertas_completas = transactions_v2.query("event == 'offer completed'")[['account_id', 'offer_id', 'time_since_test_start']].copy()



# --- 10. Relacionar transações com as ofertas recebidas
# --- 10. Relacionar transações com as ofertas recebidas e verificar se foram utilizadas

# 10.1: Filtrar apenas clientes que receberam ofertas
clientes_com_oferta = ofertas_recebidas['account_id'].unique()

# 10.2: Filtrar transações apenas desses clientes
transacoes_com_oferta = transacoes[transacoes['account_id'].isin(clientes_com_oferta)].copy()

# 10.3: Adicionar duração da oferta recebida
ofertas_recebidas = ofertas_recebidas.merge(
    offers[['offer_id', 'duration']],
    on='offer_id',
    how='left'
)

# 10.4: Renomear e calcular validade da oferta
ofertas_recebidas.rename(columns={'time_since_test_start': 'offer_start'}, inplace=True)
ofertas_recebidas['offer_end'] = ofertas_recebidas['offer_start'] + ofertas_recebidas['duration']

# 10.5: Juntar transações com as ofertas recebidas por cliente
trans_com_oferta = transacoes_com_oferta.merge(
    ofertas_recebidas,
    on='account_id',
    how='left'
)

# 10.6: Manter apenas transações dentro do período de validade da oferta
trans_com_oferta = trans_com_oferta[
    (trans_com_oferta['time_since_test_start'] >= trans_com_oferta['offer_start']) &
    (trans_com_oferta['time_since_test_start'] <= trans_com_oferta['offer_end'])
]

# 10.7: Renomear coluna de conclusão da oferta
ofertas_completas.rename(columns={'time_since_test_start': 'completion_time'}, inplace=True)

# 10.8: Verificar se a transação está associada a uma oferta completada
trans_com_oferta = trans_com_oferta.merge(
    ofertas_completas,
    on=['account_id', 'offer_id'],
    how='left'
)

# 10.9: Criar coluna indicando se a oferta foi utilizada (completada após a transação)
trans_com_oferta['oferta_utilizada'] = (
    trans_com_oferta['completion_time'].notna() &
    (trans_com_oferta['time_since_test_start'] <= trans_com_oferta['completion_time'])
)

# 10.10: Preencher valores nulos com False (não completadas)
trans_com_oferta['oferta_utilizada'] = trans_com_oferta['oferta_utilizada'].fillna(False)

# 10.11: Selecionar colunas finais
transacoes_final = trans_com_oferta[[
    'account_id',
    'time_since_test_start',
    'amount',
    'offer_id',
    'oferta_utilizada'
]].copy()

# --- 15. Cruzar com dados do perfil dos usuários

# Juntar com perfil do cliente
base_final_filtrada = transacoes_final.merge(
    profile,
    on='account_id',
    how='left'  # Use 'inner' para manter apenas quem tem perfil
)

base_final_filtrada.to_csv(r'C:\Users\F8090385\ifood\processed\data_processed.csv', index = False, sep = ';' )
# Exemplo de visualização final
#print(base_final_filtrada.head())


  registered_on data_ajustada  tempo_de_casa
0      20170212    2017-09-12             96
1      20170715    2017-09-15             96
2      20180712    2018-09-12             84
3      20170509    2017-09-09             96
4      20170804    2017-09-04             96


## Análise Exploratória de Dados

In [None]:
# Colunas categóricas (exemplo)
categorical_cols = ['oferta_utilizada', 'gender']

for col in categorical_cols:
    print(f"Coluna: {col}")
    print(base_final_filtrada[col].value_counts(dropna=False))
    print('-'*40)

In [None]:
print('PRECISÃO ATUAL:', len(base_final_filtrada[base_final_filtrada['oferta_utilizada']==True])/len(base_final_filtrada))

In [None]:
numerical_cols = ['time_since_test_start', 'amount', 'age', 'credit_card_limit', 'tempo_de_casa']

for col in numerical_cols:
    plt.figure(figsize=(8, 3))
    sns.histplot(base_final_filtrada[col].dropna(), kde=True)
    plt.title(f'Distribuição de {col}')
    plt.show()

## Engenharia de Features

In [None]:
ofertas_recebidas

In [None]:
# --- 17. Criando novas variáveis a partir da média da transação e desconto.

# Primeiro, garantir que 'offer_start' está no dataframe de ofertas_recebidas
# Já tem em seu código: ofertas_recebidas['offer_start']
# 1. Expandir ofertas_recebidas para repetir para cada transação do cliente
transacoes_expand = transactions_v2[['account_id', 'time_since_test_start', 'amount', 'reward']].copy()

# 2. Fazer merge para juntar transações com ofertas por account_id
merged = transacoes_expand.merge(
    ofertas_recebidas[['account_id', 'offer_id', 'offer_start']],
    on='account_id',
    how='inner'
)

# 3. Filtrar transações que aconteceram antes (ou no dia) da oferta
mask = merged['time_since_test_start'] <= merged['offer_start']
merged_filtrado = merged[mask]

# 4. Calcular média por account_id e offer_id
medias = merged_filtrado.groupby(['account_id', 'offer_id'])[['amount', 'reward']].mean().reset_index()

# 5. Renomear colunas para não confundir
medias.rename(columns={
    'amount': 'mean_amount_ate_oferta',
    'reward': 'mean_reward_ate_oferta'
}, inplace=True)

# 6. Juntar as médias no dataframe original de ofertas_recebidas
ofertas_recebidas = ofertas_recebidas.merge(
    medias,
    on=['account_id', 'offer_id'],
    how='left'
)

# 7. Agora junte essa informação ao base_final_filtrada conforme você já fazia
base_final_com_media = base_final_filtrada.merge(
    ofertas_recebidas[['account_id', 'offer_id', 'mean_amount_ate_oferta', 'mean_reward_ate_oferta']],
    on=['account_id', 'offer_id'],
    how='left'
)



# --- 18. Aplica a média em variáveis númericas que possuem nan.

# Selecionar as colunas numéricas
numericas = base_final_com_media.select_dtypes(include=['number']).columns

#Limitar a idade, 118 é bem estranho.
#base_final_com_media['age'] = base_final_com_media['age'].clip(upper=100)

# Preencher os NaNs com a média de cada coluna
for col in numericas:
    media_col = base_final_com_media[col].mean()
    base_final_com_media[col].fillna(media_col, inplace=True)


# --- 19. Criando novas variáveis 

# Usar o DataFrame que contém as médias por cliente
df = base_final_com_media.copy()

df['gender'] = df['gender'].fillna('O')

# Substituir zeros por NaN para evitar divisão por zero
df['tempo_de_casa'] = df['tempo_de_casa'].replace(0, np.nan)
df['mean_amount_ate_oferta'] = df['mean_amount_ate_oferta'].replace(0, np.nan)
df['mean_reward_ate_oferta'] = df['mean_reward_ate_oferta'].replace(0, np.nan)

# 1. 'tempo_desde_registro':  
#    Diferença entre o tempo da transação (em dias desde o início do teste) 
#    e o tempo que o cliente está registrado na base (em dias).  
#    Indica quanto tempo se passou desde o registro do cliente até a transação.
df['tempo_desde_registro'] = df['time_since_test_start'] - df['tempo_de_casa'] * 30

# 2. 'amount_por_tempo_de_casa':  
#    Gasto médio mensal do cliente. Calculado dividindo o gasto médio por transação ('mean_amount') 
#    pelo tempo de casa (em meses).  
#    Indica o quanto o cliente costuma gastar por mês, em média.
df['amount_por_tempo_de_casa'] = df['mean_amount_ate_oferta'] / df['tempo_de_casa']

# 3. 'reward_por_amount':  
#    Eficiência da oferta para o cliente. Calculado pela média de recompensas ('mean_reward') 
#    dividida pela média de gastos ('mean_amount').  
#    Indica quanto de recompensa o cliente gera proporcionalmente ao valor gasto.
df['reward_por_amount'] = df['mean_reward_ate_oferta'] / df['mean_amount_ate_oferta']

# 5. 'faixa_etaria':  
#    Faixa etária categorizada do cliente, para segmentação mais clara.  
#    Categoriza a idade em intervalos predefinidos.
# Calcular os quartis (incluindo mínimo e máximo)
quartis = df['age'].quantile([0, 0.25, 0.5, 0.75, 1]).values

# Criar labels dinâmicas com base nos valores dos quartis
labels = [f'{int(quartis[i])}-{int(quartis[i+1]-1)}' for i in range(len(quartis)-1)]

# Criar a faixa etária usando os quartis e os labels gerados
df['faixa_etaria'] = pd.cut(df['age'], bins=quartis, labels=labels, include_lowest=True)


In [None]:
sns.countplot(data=df, x='faixa_etaria', hue='gender')
plt.title('Contagem por faixa_etaria e gênero')
plt.show()

sns.countplot(data=df[df['age']<100], x='faixa_etaria', hue='gender')
plt.title('Contagem por faixa_etaria e gênero')
plt.show()

In [None]:
#Dois comportamentos estranho genero O muito concetrado acima de 117. Além disso, muito fora da curva ter muitos clientes com mais de 117 anos. Diante disso, esses dados serão excluídos.
df = df[df['age'] <= 100]

#recalcula as faixas:

# Calcular os quartis (incluindo mínimo e máximo)
quartis = df['age'].quantile([0, 0.25, 0.5, 0.75, 1]).values

# Criar labels dinâmicas com base nos valores dos quartis
labels = [f'{int(quartis[i])}-{int(quartis[i+1]-1)}' for i in range(len(quartis)-1)]

# Criar a faixa etária usando os quartis e os labels gerados
df['faixa_etaria'] = pd.cut(df['age'], bins=quartis, labels=labels, include_lowest=True)

sns.countplot(data=df, x='faixa_etaria', hue='gender')
plt.title('Contagem por faixa_etaria e gênero')
plt.show()

## Correlação de Variáveis

In [None]:
variaveis_numericas = df.select_dtypes(include='number').columns

# Remover 'amount' e 'time_since_test_start' da lista, variaveis após refletem diretamente o evento
variaveis_numericas = [col for col in variaveis_numericas if col not in ['amount', 'time_since_test_start', 'tempo_desde_registro', 'amount_por_tempo_de_casa']]

# Correlação Bi-variada
plt.figure(figsize=(6, 4))
sns.heatmap(df[variaveis_numericas].corr(), annot=True, fmt='.2f', cmap='coolwarm')
plt.title('Mapa de correlação das variáveis numéricas')
plt.show()

# Calcular matriz de correlação
corr = df[variaveis_numericas].corr()

# Mostrar a matriz com valores numéricos
print(corr.round(2))

In [None]:
#Correlação com variável resposta

# Calcular ANOVA para cada variável numérica vs offer_id
resultados_anova = {}
for var in variaveis_numericas:
    grupos = [grupo[var].dropna() for _, grupo in df.groupby('offer_id')]
    if all(len(grupo) > 1 for grupo in grupos):  # precisa de mais de 1 valor por grupo
        stat, p = f_oneway(*grupos)
        resultados_anova[var] = p

# Mostrar ordenado por p-valor (quanto menor, mais significativa a diferença entre grupos)
pd.Series(resultados_anova).sort_values()


In [None]:
for var in variaveis_numericas:
    plt.figure(figsize=(8, 4))
    sns.boxplot(data=df, x='offer_id', y=var)
    plt.title(f'{var} por offer_id')
    plt.show()

## Treinamento dos Resultados e Avaliação dos Resultados

In [None]:
# --- Pré-processamento e divisão ---

# Supondo que seu dataframe principal seja df, com target 'offer_id' e num_telefone em X (se não, ajuste)

# 2. Tratar target 'offer_id' com LabelEncoder
le = LabelEncoder()

df['offer_id_encoded'] = le.fit_transform(df['offer_id'].astype(str))


# OneHotEncoder para gender
ohe = OneHotEncoder(drop='first', sparse_output=False)
gender_encoded = ohe.fit_transform(df[['gender']])

# Extraindo categorias únicas de faixa_etaria
unique_categories = list(df['faixa_etaria'].unique())



# Nomes das colunas para gender_encoded
gender_encoded_cols = ohe.get_feature_names_out(['gender'])

# Criar df para codificações
df_gender_encoded = pd.DataFrame(gender_encoded, columns=gender_encoded_cols, index=df.index)

# Concatenar com as numéricas
X = pd.concat([df[variaveis_numericas], df_gender_encoded], axis=1)

# Target
y = df['offer_id_encoded']

# Selecionar features e target
#X = df[variaveis_numericas]
#y = df['offer_id_encoded']

# Dividir em treino e teste (por exemplo, 80% treino, 20% teste)
X_train_clean, X_test_clean, y_train_clean, y_test_clean = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f'Tamanho treino: {X_train_clean.shape[0]}')
print(f'Tamanho teste: {X_test_clean.shape[0]}')

# 5. Preparar dataframe vazio para métricas
df_metricas_por_grupo = pd.DataFrame()

# 6. Chamada da função
df_metricas_por_grupo = aprendizado_supervisionado(
    X_train_clean,
    X_test_clean,
    y_train_clean,
    y_test_clean,
    df_metricas_por_grupo,
    X_test_clean
) 

In [None]:
import os
import pickle

# 5 aqui corresponde ao ni
print(df[['offer_id', 'offer_id_encoded']].drop_duplicates( keep = 'last'))

X_cluster = X_train_clean[y_train_clean!= 5].copy()
X_cluster = X_cluster.reset_index(drop=True)

modelo, scaler, centroides, raio_max, resumo = treinar_kmeans(
    produto='ifood_oferta',
    X_train=X_cluster[variaveis_numericas]
)

In [None]:
df[['offer_id', 'offer_id_encoded']].drop_duplicates( keep = 'last')

In [None]:
variaveis_numericas

In [None]:
'age',
 'credit_card_limit',
 'tempo_de_casa',
 'mean_amount',
 'mean_reward',
 'tempo_desde_registro',
 'amount_por_tempo_de_casa',
 'reward_por_amount, 
gender

In [None]:
# Selecionar features e target
X = df[variaveis_numericas]
y = df['offer_id']

# Dividir em treino e teste (por exemplo, 80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f'Tamanho treino: {X_train.shape[0]}')
print(f'Tamanho teste: {X_test.shape[0]}')

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import precision_score, recall_score, f1_score
import joblib

# --- Função de aprendizado supervisionado ajustada para multi-classes (offer_id) ---
def aprendizado_supervisionado(X_train, X_test, y_train, y_test, df_metricas_por_grupo, X_test_geral):
    modelos = {
        'LogisticRegression': (
            LogisticRegression(max_iter=1000, random_state=42, solver='lbfgs'),
            {'clf__C': [0.1, 1, 10]}
        ),
        'DecisionTree': (
            DecisionTreeClassifier(random_state=42),
            {'clf__max_depth': [None, 5, 10, 20], 'clf__min_samples_split': [2, 5, 10]}
        ),
        'RandomForest': (
            RandomForestClassifier(random_state=42),
            {'clf__n_estimators': [100, 200], 'clf__max_depth': [None, 5, 10]}
        ),
        'XGBClassifier': (
            XGBClassifier(eval_metric='mlogloss', tree_method='hist', random_state=42),
            {'clf__n_estimators': [100, 200], 'clf__max_depth': [3, 6], 'clf__learning_rate': [0.05, 0.1]}
        )
    }

    melhores_modelos = {}
    lista_metricas_por_grupo = []
    
    # DataFrame para salvar probabilidades (probabilidades para cada classe)
    df_probabilidades = pd.DataFrame()
    if 'num_telefone' in X_test_geral.columns:
        df_probabilidades['num_telefone'] = X_test_geral['num_telefone']
    df_probabilidades['true_offer_id'] = y_test.reset_index(drop=True)

    for nome, (modelo, parametros) in modelos.items():
        pipeline = Pipeline([
            ('scaler', StandardScaler()),
            ('clf', modelo)
        ])

        grid = GridSearchCV(pipeline, param_grid=parametros, scoring='f1_weighted', cv=3, n_jobs=-1)
        grid.fit(X_train, y_train)

        melhores_modelos[nome] = grid.best_estimator_

        # Prever classes e probabilidades
        y_pred = grid.predict(X_test)
        y_pred_proba = grid.predict_proba(X_test)

        # Adicionar colunas de probabilidade para cada classe no df_probabilidades
        for idx, classe in enumerate(grid.classes_):
            col_name = f'proba_{nome}_{classe}'
            df_probabilidades[col_name] = y_pred_proba[:, idx]

        # Métricas multi-classe
        precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)
        recall = recall_score(y_test, y_pred, average='weighted', zero_division=0)
        f1 = f1_score(y_test, y_pred, average='weighted', zero_division=0)

        print(f'ALGORITMO: {nome} | Precision: {precision:.4f} | Recall: {recall:.4f} | F1-Score: {f1:.4f}')

        lista_metricas_por_grupo.append({
            'metodo': f'SUP. MULTI ({nome})',
            'precision': round(precision, 4),
            'recall': round(recall, 4),
            'f1': round(f1, 4)
        })

    # Salvar probabilidades
    df_probabilidades.to_csv('probabilidades_por_algoritmo_multiclasse.csv', index=False, sep=';')
    print(f"💾 Probabilidades salvas em: bases/probabilidades_por_algoritmo_multiclasse.csv")

    # Salvar o melhor modelo baseado na F1 score
    melhor_modelo = max(lista_metricas_por_grupo, key=lambda x: x['f1'])
    nome_melhor = melhor_modelo['metodo'].split('(')[-1].replace(')', '')
    modelo_para_salvar = melhores_modelos[nome_melhor]
    joblib.dump(modelo_para_salvar, 'melhor_modelo_f1_multiclasse.pkl')

    # Concatenar métricas ao df original
    df_novos = pd.DataFrame(lista_metricas_por_grupo)
    df_metricas_por_grupo = pd.concat([df_metricas_por_grupo, df_novos], ignore_index=True)
        
    print(f"\n✅ Melhor modelo salvo: {nome_melhor} com F1-score {melhor_modelo['f1']:.4f}")
    return df_metricas_por_grupo


# --- Pré-processamento e divisão ---

# Supondo que seu dataframe principal seja df, com target 'offer_id' e num_telefone em X (se não, ajuste)

# 2. Tratar target 'offer_id' com LabelEncoder
le = LabelEncoder()
df['offer_id_encoded'] = le.fit_transform(df['offer_id'].astype(str))

# Selecionar features e target
X = df[variaveis_numericas]
y = df['offer_id_encoded']


print(f'Tamanho treino: {X_train.shape[0]}')
print(f'Tamanho teste: {X_test.shape[0]}')

# Dividir em treino e teste (por exemplo, 80% treino, 20% teste)
X_train_clean, X_test_clean, y_train_clean, y_test_clean = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# 5. Preparar dataframe vazio para métricas
df_metricas_por_grupo = pd.DataFrame()

# 6. Chamada da função
df_metricas_por_grupo = aprendizado_supervisionado(
    X_train_clean[variaveis_numericas],
    X_test_clean[variaveis_numericas],
    y_train_clean,
    y_test_clean,
    df_metricas_por_grupo,
    X_test_clean
) 

In [None]:
df.columns

In [None]:
transactions_v2.columns - Index(['event', 'account_id', 'time_since_test_start', 'amount', 'offer_id',
       'reward'],

verificar se todas offer completed possuem transaction

In [None]:
import pandas as pd

# 1. Filtrar eventos principais
transacoes = transactions_v2[transactions_v2['event'] == 'transaction'][['account_id', 'time_since_test_start', 'amount']].copy()

ofertas_recebidas = transactions_v2[transactions_v2['event'] == 'offer received'][['account_id', 'offer_id', 'time_since_test_start']].copy()

# Juntar 'ofertas_recebidas' com 'offers' usando a chave 'offer_id'
ofertas_recebidas = pd.merge(
    ofertas_recebidas,
    offers[['offer_id', 'duration']],
    on='offer_id',
    how='left'
)

ofertas_completas = transactions_v2[transactions_v2['event'] == 'offer completed'][['account_id', 'offer_id', 'time_since_test_start']].copy()

# 2. Renomear colunas para clareza
ofertas_recebidas.rename(columns={'time_since_test_start': 'offer_start'}, inplace=True)
ofertas_recebidas['offer_end'] = ofertas_recebidas['offer_start'] + ofertas_recebidas['duration']
ofertas_completas.rename(columns={'time_since_test_start': 'completion_time'}, inplace=True)

# 3. Juntar transações com as ofertas recebidas do mesmo cliente
trans_com_oferta = transacoes.merge(ofertas_recebidas, on='account_id', how='left')

# 4. Manter apenas transações dentro da janela da oferta
trans_com_oferta = trans_com_oferta[
    (trans_com_oferta['time_since_test_start'] >= trans_com_oferta['offer_start']) &
    (trans_com_oferta['time_since_test_start'] <= trans_com_oferta['offer_end'])
]

# 5. Juntar com ofertas completadas para saber se contribuíram
trans_com_oferta = trans_com_oferta.merge(
    ofertas_completas,
    on=['account_id', 'offer_id'],
    how='left'
)

# 6. Marcar se a transação ocorreu antes ou igual à conclusão
trans_com_oferta['contribuiu_para_oferta'] = (
    trans_com_oferta['time_since_test_start'] <= trans_com_oferta['completion_time']
).fillna(False)

# 7. Selecionar apenas transações que realmente contribuíram
trans_contribuintes = trans_com_oferta[trans_com_oferta['contribuiu_para_oferta']].copy()

# 8. Selecionar colunas de interesse
trans_contribuintes = trans_contribuintes[['account_id', 'time_since_test_start', 'amount', 'offer_id', 'contribuiu_para_oferta']]

# 9. Unir com todas as transações originais (incluir também as que NÃO contribuíram)
transacoes_final = transacoes.merge(
    trans_contribuintes,
    on=['account_id', 'time_since_test_start', 'amount'],
    how='left'
)

# 10. Preencher valores nulos
transacoes_final['contribuiu_para_oferta'] = transacoes_final['contribuiu_para_oferta'].fillna(False)
transacoes_final['offer_id'] = transacoes_final['offer_id'].fillna(pd.NA)

# ✅ Resultado: todas as transações com info se contribuíram ou não
print(transacoes_final.head())

# Para cada transação, pegar a oferta completada (se houver)
trans_com_oferta = transacoes_final.copy()

# Filtrar apenas as transações que contribuíram para alguma oferta
trans_com_oferta_valid = trans_com_oferta[trans_com_oferta['contribuiu_para_oferta']]

# Escolher a oferta que mais contribuiu por transação (exemplo: primeira ou maior reward)
# Se quiser, pode agrupar por (account_id, time_since_test_start) e escolher a oferta

melhores_ofertas = trans_com_oferta_valid.groupby(
    ['account_id', 'time_since_test_start', 'amount']
)['offer_id'].first().reset_index()

# Juntar com a base original para ter todas as transações
base_modelo = transacoes.merge(
    melhores_ofertas,
    on=['account_id', 'time_since_test_start', 'amount'],
    how='left'
)

# Marca se houve ou não oferta
base_modelo['teve_oferta'] = base_modelo['offer_id'].notna()

print(base_modelo.head())

base_modelo.loc[base_modelo['offer_id'].isna(), 'offer_id'] = 'NI'

# Cruzar profile com base_modelo usando account_id
base_final = pd.merge(
    base_modelo,
    profile,
    on='account_id',
    how='left'  # ou 'inner' se quiser manter apenas os que têm perfil
)

In [None]:
Informação de temporal de quando a transação ocorreu, oq considerar?
time_since_test_start (int): tempo desde o começo do teste em dias (t=0), oq seria teste aqui?
Estou assumindo a premissa de que dada todas as transações quais foram tiveram ou ofertas, além disso, pode ser que um determinada oferta possa sido recebida e usada mais de uma vez
Está correta a premissa abaixo: 

ofertas_recebidas.rename(columns={'time_since_test_start': 'offer_start'}, inplace=True)
ofertas_recebidas['offer_end'] = ofertas_recebidas['offer_start'] + ofertas_recebidas['duration']
ofertas_completas.rename(columns={'time_since_test_start': 'completion_time'}, inplace=True)

trans_com_oferta = trans_com_oferta[
    (trans_com_oferta['time_since_test_start'] >= trans_com_oferta['offer_start']) &
    (trans_com_oferta['time_since_test_start'] <= trans_com_oferta['offer_end'])
]

Estou assumindo premissas e gasntando mais tempo com a engenharia de dados por não conhecer a fundo o informacional


In [None]:
#base_modelo.groupby(['offer_id']).count()

base_modelo[base_modelo['offer_id'] != 'NI']

In [None]:
# 1. Todas as transações
transacoes = transactions_v2[transactions_v2['event'] == 'transaction'][['account_id', 'time_since_test_start', 'amount', 'offer_id']].copy()

# 2. Ofertas recebidas (tempo início e duração)
ofertas_recebidas = transactions_v2[transactions_v2['event'] == 'offer received'][['account_id', 'offer_id', 'time_since_test_start']].copy()
ofertas_recebidas.rename(columns={'time_since_test_start': 'offer_start'}, inplace=True)

# Importante: pegar duração da oferta no df offers e juntar
ofertas_recebidas = ofertas_recebidas.merge(
    offers[['offer_id', 'duration']],
    on='offer_id',
    how='left'
)

ofertas_recebidas['offer_end'] = ofertas_recebidas['offer_start'] + ofertas_recebidas['duration']
ofertas_completas = transactions_v2[transactions_v2['event'] == 'offer completed'][['account_id', 'offer_id']]


In [None]:
p

In [None]:
import pandas as pd






# 3. Ofertas completadas 
ofertas_completas = transactions_v2[transactions_v2['event'] == 'offer completed'][['account_id', 'offer_id']]

# 4. Juntar transações com ofertas recebidas pelo cliente e offer_id para pegar janela válida
transacoes_com_oferta = transacoes.merge(
    ofertas_recebidas,
    on=['account_id', 'offer_id'],
    how='left'
)

# 5. Filtrar transações que estão dentro da janela da oferta
transacoes_com_oferta = transacoes_com_oferta[
    (transacoes_com_oferta['time_since_test_start'] >= transacoes_com_oferta['offer_start']) &
    (transacoes_com_oferta['time_since_test_start'] <= transacoes_com_oferta['offer_end'])
]

# 6. Marcar se a oferta foi completada
transacoes_com_oferta = transacoes_com_oferta.merge(
    ofertas_completas.assign(oferta_completa=True),
    on=['account_id', 'offer_id'],
    how='left'
)

transacoes_com_oferta['oferta_completa'] = transacoes_com_oferta['oferta_completa'].fillna(False)

# 7. Transações fora do período da oferta: não tem oferta completa
transacoes_sem_oferta = transacoes.merge(
    transacoes_com_oferta[['account_id', 'time_since_test_start', 'offer_id']],
    on=['account_id', 'time_since_test_start', 'offer_id'],
    how='left',
    indicator=True
)

# Transações que não entraram na janela da oferta
transacoes_fora_janela = transacoes_sem_oferta[transacoes_sem_oferta['_merge'] == 'left_only'].copy()
transacoes_fora_janela['oferta_completa'] = False

# 8. Juntar tudo (dentro da janela + fora da janela)
resultado_final = pd.concat([transacoes_com_oferta, transacoes_fora_janela[transacoes.columns.tolist() + ['oferta_completa']]], ignore_index=True)

print(resultado_final.head())
print(f"Total transações: {len(resultado_final)}")
print(f"Transações com oferta completa: {resultado_final['oferta_completa'].sum()}")


In [None]:
print(f"Transações totais: {len(transacoes)}")
print(f"Ofertas recebidas: {len(ofertas_recebidas)}")
print(f"Ofertas completas: {len(ofertas_completas)}")

print("\nExemplo ofertas recebidas:")
print(ofertas_recebidas.head())

print("\nExemplo transações com oferta após merge:")
print(transacoes_com_oferta.head())

print(transactions_v2.groupby(['event']).count())

In [None]:
import pandas as pd

# 1. Filtrar eventos de "offer received" com os dados relevantes
offers = base_treino[base_treino['event'] == 'offer received'][['id', 'offer_id', 'time_since_test_start', 'duration']].copy()
offers.rename(columns={'time_since_test_start': 'offer_start'}, inplace=True)

# 2. Calcular o fim da validade da oferta
offers['offer_end'] = offers['offer_start'] + offers['duration']

# 3. Filtrar eventos de "offer completed"
completions = base_treino[base_treino['event'] == 'offer completed'][['id', 'offer_id', 'time_since_test_start']].copy()
completions.rename(columns={'time_since_test_start': 'completion_time'}, inplace=True)

# 4. Merge: combinar ofertas recebidas com completadas (por id + offer_id)
merged = pd.merge(offers, completions, on=['id', 'offer_id'], how='left')

# 5. Verificar se completou dentro da validade
merged['completed_on_time'] = (
    (merged['completion_time'] >= merged['offer_start']) &
    (merged['completion_time'] <= merged['offer_end'])
).fillna(False).astype(int)

# Agora você tem um dataframe com uma coluna binária indicando se completou a oferta no tempo:
# 1 = completou dentro do prazo
# 0 = não completou

# Exemplo de saída:
print(merged[['id', 'offer_id', 'offer_start', 'offer_end', 'completion_time', 'completed_on_time']].head())


In [None]:
merged[merged['completed_on_time']==1]

In [None]:
import pandas as pd

# 1. Transações
transacoes = base_treino[base_treino['event'] == 'transaction'].copy()
transacoes = transacoes[['id', 'time_since_test_start', 'amount']]  # Adicione mais colunas se quiser

# 2. Ofertas recebidas
ofertas_recebidas = base_treino[base_treino['event'] == 'offer received'][['id', 'offer_id', 'time_since_test_start', 'duration']].copy()
ofertas_recebidas.rename(columns={'time_since_test_start': 'offer_start'}, inplace=True)
ofertas_recebidas['offer_end'] = ofertas_recebidas['offer_start'] + ofertas_recebidas['duration']

# ✅ Verificação extra para garantir que 'offer_id' está presente
assert 'offer_id' in ofertas_recebidas.columns, "Coluna 'offer_id' ausente em ofertas_recebidas"

# 3. Ofertas completadas
ofertas_completas = base_treino[base_treino['event'] == 'offer completed'][['id', 'offer_id', 'time_since_test_start']].copy()
ofertas_completas.rename(columns={'time_since_test_start': 'completion_time'}, inplace=True)

# 4. Juntar transações com as ofertas recebidas (mesmo cliente)
trans_com_oferta = pd.merge(
    transacoes,
    ofertas_recebidas,
    on='id',
    how='left'
)

# ✅ Garantir que 'offer_id' está presente após merge
assert 'offer_id' in trans_com_oferta.columns, "Coluna 'offer_id' ausente após merge com ofertas_recebidas"

# 5. Manter transações que ocorreram durante a validade da oferta
trans_com_oferta = trans_com_oferta[
    (trans_com_oferta['time_since_test_start'] >= trans_com_oferta['offer_start']) &
    (trans_com_oferta['time_since_test_start'] <= trans_com_oferta['offer_end'])
].copy()

# 6. Juntar com ofertas completadas (id + offer_id)
trans_com_oferta = pd.merge(
    trans_com_oferta,
    ofertas_completas,
    on=['id', 'offer_id'],
    how='left'
)

# 7. Marcar se transação contribuiu para a conclusão da oferta
trans_com_oferta['transacao_contribuiu'] = (
    trans_com_oferta['time_since_test_start'] <= trans_com_oferta['completion_time']
).fillna(False).astype(int)

# 8. Resultado
print(trans_com_oferta[['id', 'offer_id', 'time_since_test_start', 'amount', 'completion_time', 'transacao_contribuiu']].head())
print(f"Total de transações com match a ofertas válidas: {len(trans_com_oferta)}")


In [None]:
trans_com_oferta

In [None]:
# 1. Filtrar todas as transações
transacoes = base_treino[base_treino['event'] == 'transaction'].copy()
transacoes = transacoes[['id', 'time_since_test_start', 'amount']]

# 2. Ofertas recebidas (com duração)
ofertas_recebidas = base_treino[base_treino['event'] == 'offer received'][['id', 'offer_id', 'time_since_test_start', 'duration']].copy()
ofertas_recebidas.rename(columns={'time_since_test_start': 'offer_start'}, inplace=True)
ofertas_recebidas['offer_end'] = ofertas_recebidas['offer_start'] + ofertas_recebidas['duration']

# 3. Ofertas completadas
ofertas_completas = base_treino[base_treino['event'] == 'offer completed'][['id', 'offer_id', 'time_since_test_start']].copy()
ofertas_completas.rename(columns={'time_since_test_start': 'completion_time'}, inplace=True)

# 4. Juntar transações com as ofertas recebidas do mesmo cliente
# --> Isso pode gerar várias linhas por transação (uma para cada oferta recebida pelo cliente)
transacoes_com_ofertas = pd.merge(transacoes, ofertas_recebidas, on='id', how='left')

# 5. Marcar se a transação caiu no período de alguma oferta (nova coluna)
transacoes_com_ofertas['dentro_da_oferta'] = (
    (transacoes_com_ofertas['time_since_test_start'] >= transacoes_com_ofertas['offer_start']) &
    (transacoes_com_ofertas['time_since_test_start'] <= transacoes_com_ofertas['offer_end'])
)

# 6. Juntar com as ofertas completadas (id + offer_id)
transacoes_com_ofertas = pd.merge(
    transacoes_com_ofertas,
    ofertas_completas,
    on=['id', 'offer_id'],
    how='left'
)

# 7. Marcar se a transação ocorreu antes da conclusão da oferta
transacoes_com_ofertas['transacao_contribuiu'] = (
    transacoes_com_ofertas['time_since_test_start'] <= transacoes_com_ofertas['completion_time']
) & (transacoes_com_ofertas['dentro_da_oferta'])

# 8. Substituir NaNs (casos sem match com oferta)
transacoes_com_ofertas['transacao_contribuiu'] = transacoes_com_ofertas['transacao_contribuiu'].fillna(False).astype(int)

# ✅ Resultado final com todas as transações (inclusive sem oferta)
print(transacoes_com_ofertas[['id', 'time_since_test_start', 'amount', 'offer_id', 'dentro_da_oferta', 'completion_time', 'transacao_contribuiu']].head())

trans_com_oferta = transacoes_com_ofertas.merge(
    base_treino[['id', 'time_since_test_start', 'age', 'gender', 'credit_card_limit']],  # adicione o que quiser
    on=['id', 'time_since_test_start'],
    how='left'
)

In [None]:
trans_com_oferta

In [None]:
base_treino.groupby(['event']).count()

In [None]:
base_treino

In [None]:
#desconsiderar transaction

base_treino = profile_v2.copy()

#base_treino = profile_v2[profile_v2['event'] != 'transaction']

#base_treino.loc[base_treino['event'] != 'offer completed', 'target'] = 0
#base_treino.loc[base_treino['event'] == 'offer completed', 'target'] = 1

In [None]:
base_treino.groupby(['event']).count()

In [None]:
base_treino.columns

In [None]:
import pandas as pd

# 1. Filtrar eventos de transação
transacoes = base_treino[base_treino['event'] == 'transaction'].copy()
transacoes['amount'] = pd.to_numeric(transacoes['amount'], errors='coerce')
transacoes = transacoes.dropna(subset=['amount'])

# Remover possíveis NaNs em time_since_test_start (chave)
transacoes = transacoes.dropna(subset=['time_since_test_start'])

# Ordenar e resetar índice
transacoes = transacoes.sort_values(['id', 'time_since_test_start']).reset_index(drop=True)

# Criar cumulativos
transacoes['transaction_count_cum'] = 1
transacoes['transaction_count_cum'] = transacoes.groupby('id')['transaction_count_cum'].cumsum()
transacoes['total_transacted_cum'] = transacoes.groupby('id')['amount'].cumsum()
transacoes['avg_transaction_cum'] = transacoes['total_transacted_cum'] / transacoes['transaction_count_cum']

# 2. Filtrar eventos de oferta recebida ou completada
base_modelo = base_treino[base_treino['event'].isin(['offer received', 'offer completed'])].copy()

# Remover NaNs em time_since_test_start (chave) na base_modelo
base_modelo = base_modelo.dropna(subset=['time_since_test_start'])

# Ordenar e resetar índice
base_modelo = base_modelo.sort_values(['id', 'time_since_test_start']).reset_index(drop=True)

# 3. Merge asof — juntar cumulativos até momento da oferta
merged = pd.merge_asof(
    base_modelo,
    transacoes[['id', 'time_since_test_start', 'transaction_count_cum', 'total_transacted_cum', 'avg_transaction_cum']],
    on='time_since_test_start',
    by='id',
    direction='backward'
)

# 4. Renomear colunas
merged.rename(columns={
    'transaction_count_cum': 'transaction_count_before',
    'total_transacted_cum': 'total_transacted_before',
    'avg_transaction_cum': 'avg_transaction_before'
}, inplace=True)

# 5. Preencher valores nulos
merged[['transaction_count_before', 'total_transacted_before', 'avg_transaction_before']] = \
    merged[['transaction_count_before', 'total_transacted_before', 'avg_transaction_before']].fillna(0)

# 6. Criar last_transaction_time: o tempo da última transação anterior à oferta
# Podemos fazer um merge separado para pegar o último tempo da transação, mas uma solução simples:
# Usar merge_asof para capturar tempo da última transação
last_trans_time = transacoes[['id', 'time_since_test_start']].rename(columns={'time_since_test_start': 'last_transaction_time'})

merged = pd.merge_asof(
    merged.sort_values(['id', 'time_since_test_start']),
    last_trans_time.sort_values(['id', 'last_transaction_time']),
    left_on='time_since_test_start',
    right_on='last_transaction_time',
    by='id',
    direction='backward'
)

# Preencher NaNs de last_transaction_time com -1 (sem transações anteriores)
merged['last_transaction_time'] = merged['last_transaction_time'].fillna(-1)

# 7. Base final pronta
base_modelo = merged

print(base_modelo[['id', 'offer_id', 'event', 'time_since_test_start', 
                  'transaction_count_before', 'total_transacted_before', 
                  'avg_transaction_before', 'last_transaction_time']].head())


In [None]:
import pandas as pd
import numpy as np

# Exemplo fictício de criação dos DataFrames base_modelo e transacoes
# (substitua pela sua leitura real)
# base_modelo = pd.read_csv('base_modelo.csv')
# transacoes = pd.read_csv('transacoes.csv')

# --- Passo 1: ordenar ambos os DataFrames por ['id', 'time_since_test_start']
base_modelo = base_modelo.sort_values(['id', 'time_since_test_start']).reset_index(drop=True)
transacoes = transacoes.sort_values(['id', 'time_since_test_start']).reset_index(drop=True)

# --- Passo 2: verificar duplicatas na chave que será usada no merge
duplicatas_base = base_modelo.duplicated(subset=['id', 'time_since_test_start'], keep=False)
duplicatas_trans = transacoes.duplicated(subset=['id', 'time_since_test_start'], keep=False)

print(f"Duplicatas em base_modelo na chave ['id', 'time_since_test_start']: {duplicatas_base.sum()}")
print(f"Duplicatas em transacoes na chave ['id', 'time_since_test_start']: {duplicatas_trans.sum()}")

# --- Passo 3: se houver duplicatas, ajustar para evitar erro no merge_asof
def ajustar_duplicatas(df):
    # Para cada grupo id, adiciona um pequeno incremento cumulativo para garantir unicidade dos timestamps
    def adjust_group(g):
        # Identificar duplicados no grupo
        dup_mask = g.duplicated(subset=['time_since_test_start'], keep=False)
        if dup_mask.any():
            # Para os duplicados, acrescentar um pequeno incremento incremental
            increments = np.arange(len(g)) * 1e-9  # incremento minúsculo para ordenar sem alterar valores significativamente
            g.loc[:, 'time_since_test_start'] = g['time_since_test_start'] + increments
        return g

    df = df.groupby('id', group_keys=False).apply(adjust_group)
    return df

if duplicatas_base.sum() > 0:
    base_modelo = ajustar_duplicatas(base_modelo)
if duplicatas_trans.sum() > 0:
    transacoes = ajustar_duplicatas(transacoes)

# --- Passo 4: ordenar novamente para garantir ordenação após ajuste
base_modelo = base_modelo.sort_values(['id', 'time_since_test_start']).reset_index(drop=True)
transacoes = transacoes.sort_values(['id', 'time_since_test_start']).reset_index(drop=True)

# --- Passo 5: verificar monotonicidade da coluna time_since_test_start (deve ser True)
print("base_modelo time_since_test_start is monotonic increasing?", base_modelo['time_since_test_start'].is_monotonic_increasing)
print("transacoes time_since_test_start is monotonic increasing?", transacoes['time_since_test_start'].is_monotonic_increasing)

# --- Passo 6: executar merge_asof
merged = pd.merge_asof(
    base_modelo,
    transacoes[['id', 'time_since_test_start', 'transaction_count_cum', 'total_transacted_cum', 'avg_transaction_cum']],
    on='time_since_test_start',
    by='id',
    direction='backward'
)

# --- Passo 7: renomear colunas cumulativas para nomes desejados
merged.rename(columns={
    'transaction_count_cum': 'transaction_count_before',
    'total_transacted_cum': 'total_transacted_before',
    'avg_transaction_cum': 'avg_transaction_before'
}, inplace=True)

# --- Passo 8: preencher valores NaN se necessário (exemplo: zeros)
merged['transaction_count_before'].fillna(0, inplace=True)
merged['total_transacted_before'].fillna(0, inplace=True)
merged['avg_transaction_before'].fillna(0, inplace=True)

# --- Resultado final
print(merged.head())


In [None]:
base_treino.groupby(['event']).count()[['id']]

In [None]:
base_treino[['age', 'gender', 'credit_card_limit',
      'tempo_de_casa', 'event', 'time_since_test_start', 'offer_id']]

Normalmente, uma oferta só é considerada “completada” se a transação relacionada ocorreu — ou seja, o evento offer completed costuma vir associado a uma transação que validou a conclusão daquela oferta.

In [None]:
# Supondo que base_treino é o DataFrame original

# 1. Ofertas recebidas (com dados necessários)
offers = base_treino[base_treino['event'] == 'offer received'][['id', 'offer_id', 'time_since_test_start', 'offer_duration']]
offers = offers.rename(columns={'time_since_test_start': 'offer_start'})

# 2. Calcular o fim da validade da 


offers['offer_end'] = offers['offer_start'] + offers['offer_duration']

# 3. Transações
transacoes = base_treino[base_treino['event'] == 'transaction'][['id', 'time_since_test_start', 'amount']].copy()
transacoes['amount'] = pd.to_numeric(transacoes['amount'], errors='coerce')
transacoes = transacoes.dropna(subset=['amount'])

# 4. Merge para relacionar transações às ofertas do mesmo cliente
merged = pd.merge(transacoes, offers, on='id', how='inner')

# 5. Filtrar só transações que ocorreram entre o início e fim da oferta
merged = merged[(merged['time_since_test_start'] >= merged['offer_start']) & 
                (merged['time_since_test_start'] <= merged['offer_end'])]

# 6. Agora, para cada oferta recebida, verificar se teve transação (ou seja, foi completada)
# Criar flag de oferta completada
merged['offer_completed'] = 1

# 7. Agregar para ter oferta e se foi completada (1 ou 0)
completed_flag = merged.groupby(['id', 'offer_id', 'offer_start']).agg({'offer_completed': 'max'}).reset_index()

# 8. Juntar com a tabela original de ofertas para garantir todas, preencher 0 para não completadas
final_offers = pd.merge(offers, completed_flag, on=['id', 'offer_id', 'offer_start'], how='left')
final_offers['offer_completed'] = final_offers['offer_completed'].fillna(0).astype(int)

# final_offers tem a variável target pronta para modelagem
print(final_offers.head())


In [None]:
offers

In [None]:
df