# 🧠 Classificação: Predição de Conversão de Ofertas

Este notebook tem como objetivo construir um modelo de classificação que auxilie o iFood a **prever se um cliente completará uma oferta recebida**. Essa predição pode ser usada para **personalizar campanhas**, **priorizar canais de comunicação** e **aumentar a taxa de conversão das promoções**.

## 🧩 Problema

Dado um conjunto de dados com informações sobre clientes, características das ofertas e eventos registrados durante a campanha (como *"offer received"*, *"offer viewed"*, *"offer completed"*, *"transaction"*, etc), o objetivo é:

> **Prever se uma oferta será completada pelo cliente após ter sido recebida.**

---

## 📚 Etapas da modelagem

1. **Seleção e preparação dos dados**
   - Filtragem de eventos do tipo `"offer received"`
   - Enriquecimento com dados do cliente e detalhes da oferta
   - Criação da variável alvo: `completed` (1 para ofertas completadas, 0 caso contrário)

2. **Engenharia de atributos**
   - Conversão de variáveis categóricas para numéricas (One-Hot Encoding ou Label Encoding)
   - Transformação de datas
   - Criação de grupos etários e faixas de limite de crédito

3. **Divisão dos dados**
   - Separação entre conjunto de treino e teste (ex: 80/20)

4. **Treinamento de modelos**
   - Modelos como `RandomForestClassifier`, `LogisticRegression` e `XGBoost` podem ser utilizados
   - Ajuste de hiperparâmetros (opcional)

5. **Avaliação**
   - Métricas: *Accuracy*, *Precision*, *Recall*, *F1-score*
   - Análise de matriz de confusão e balanceamento das classes

6. **Análise dos resultados**
   - Interpretação de importância dos atributos
   - Discussão sobre viabilidade de uso do modelo em campanhas reais

---

## 🎯 Resultado Esperado

O modelo será capaz de auxiliar o time de marketing a **decidir qual cliente deve receber determinada oferta**, maximizando o retorno das campanhas promocionais.

In [1]:
import sys
import os

# Obtém o caminho absoluto do diretório 'src'
src_path = os.path.abspath("../")

if src_path not in sys.path:
    sys.path.append(src_path)

In [2]:
import pandas as pd

## 1. Leitura, seleção e preparação dos dados

In [3]:
# Leitura do arquivo parquet gerado pelo Spark
df = pd.read_parquet("../data/processed/full_data")

In [4]:
df.head()

Unnamed: 0,account_id,event,time_since_test_start,value_amount,value_reward,offer_id,age,credit_card_limit,gender,registered_on,...,age_group,credit_limit_bucket,discount_value,duration,min_value,offer_type,channels_mobile,channels_email,channels_social,channels_web
0,78afa995795e4d85b5d9ceeca43f5fef,offer received,0.0,,,9b98b8c7a33c4b65b9aebfe6a799e6d9,75,100000.0,F,20170509,...,Boomers (60+),Very High (> 60k),5.0,7.0,5.0,bogo,1.0,1.0,0.0,1.0
1,a03223e636434f42ac4c3df47e8bac43,offer received,0.0,,,0b1e1539f2cc45b7b9fa7c272da2e1d7,118,63000.0,unknown,20170804,...,Boomers (60+),Very High (> 60k),5.0,10.0,20.0,discount,0.0,1.0,0.0,1.0
2,e2127556f4f64592b11af22de27a7932,offer received,0.0,,,2906b810c7d4411798c6938adc9daaa5,68,70000.0,M,20180426,...,Boomers (60+),Very High (> 60k),2.0,7.0,10.0,discount,1.0,1.0,0.0,1.0
3,8ec6ce2a7e7949b1bf142def7d0e0586,offer received,0.0,,,fafdcd668e3743c1bb461111dcafc2a4,118,63000.0,unknown,20170925,...,Boomers (60+),Very High (> 60k),2.0,10.0,10.0,discount,1.0,1.0,1.0,1.0
4,68617ca6246f4fbc85e91a2a49552598,offer received,0.0,,,4d5c57ea9a6940dd891ad53e9dbe8da0,118,63000.0,unknown,20171002,...,Boomers (60+),Very High (> 60k),10.0,5.0,10.0,bogo,1.0,1.0,1.0,1.0


In [5]:
df.shape

(306534, 21)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 306534 entries, 0 to 306533
Data columns (total 21 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   account_id             306534 non-null  object 
 1   event                  306534 non-null  object 
 2   time_since_test_start  306534 non-null  float64
 3   value_amount           138953 non-null  float64
 4   value_reward           33579 non-null   float64
 5   offer_id               167581 non-null  object 
 6   age                    306534 non-null  int64  
 7   credit_card_limit      306534 non-null  float64
 8   gender                 306534 non-null  object 
 9   registered_on          306534 non-null  object 
 10  birth_year             306534 non-null  int64  
 11  age_group              306534 non-null  object 
 12  credit_limit_bucket    306534 non-null  object 
 13  discount_value         167581 non-null  float64
 14  duration               167581 non-nu

### 1.1 Seleção das ofertas recebidas e completadas e criação da label (target)

In [7]:
offers_df = df[df["event"].isin(["offer received", "offer completed"])].copy()

In [8]:
offers_df["label"] = (offers_df["event"] == "offer completed").astype(int)

### 1.2 Verificação do balanceamento dos dados

In [9]:
pd.concat([offers_df['label'].value_counts(), 
          offers_df['label'].value_counts(normalize=True)*100], axis=1)

Unnamed: 0_level_0,count,proportion
label,Unnamed: 1_level_1,Unnamed: 2_level_1
0,76277,69.433622
1,33579,30.566378


### 1.3 Seleção das features

In [10]:
list(offers_df.columns)

['account_id',
 'event',
 'time_since_test_start',
 'value_amount',
 'value_reward',
 'offer_id',
 'age',
 'credit_card_limit',
 'gender',
 'registered_on',
 'birth_year',
 'age_group',
 'credit_limit_bucket',
 'discount_value',
 'duration',
 'min_value',
 'offer_type',
 'channels_mobile',
 'channels_email',
 'channels_social',
 'channels_web',
 'label']

In [11]:
# 🧱 Mantém apenas colunas relevantes
features = [
    "age", "gender", "credit_card_limit",
    "birth_year", "age_group", "credit_limit_bucket", "offer_type",
    "discount_value", "duration", "min_value", "channels_email",
    "channels_mobile", "channels_social", "channels_web"
]
extra_columns = [col for col in df.columns if col not in features]
print("❌ Colunas extras:", extra_columns)

❌ Colunas extras: ['account_id', 'event', 'time_since_test_start', 'value_amount', 'value_reward', 'offer_id', 'registered_on']


## 2. Divisão dos dados em treino e teste

In [12]:
from sklearn.model_selection import train_test_split

In [13]:
# Separando variáveis preditoras e alvo
X = offers_df[features]
y = offers_df["label"]

# Separação treino/teste (80/20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

# Verificação de tamanhos
print(f"🔹 Treino: {len(X_train)} amostras")
print(f"🔹 Teste:  {len(X_test)} amostras")


🔹 Treino: 87884 amostras
🔹 Teste:  21972 amostras


## 3. Pipeline de treinamento preparação dos dados (dados categoricos e dados numericos)

In [14]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer

In [15]:
# Listas de colunas
categorical_features = ['gender', 'age_group', 'credit_limit_bucket', 'offer_type']
numerical_features = ['age', 'credit_card_limit', 'duration', 'min_value', 'discount_value']

categorical_features = X.select_dtypes(include="object").columns.tolist()
numerical_features = X.select_dtypes(include=["int64", "float64"]).columns.tolist()

In [16]:
# 🔧 Preprocessadores
numeric_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler())
])

categorical_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("encoder", OneHotEncoder(handle_unknown="ignore"))
])

preprocessor = ColumnTransformer([
    ("num", numeric_pipeline, numerical_features),
    ("cat", categorical_pipeline, categorical_features)
])


## 4. Definição dos modelos e parâmetros

| Algoritmo           | Justificativa de Escolha                                                                                         | Pontos Fortes                                                                                         | Pontos Fracos                                                                                      |
|---------------------|-------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------|
| Logistic Regression | Serve como baseline simples e interpretável. Permite entender a influência de cada variável no comportamento.     | Interpretação fácil, rápido, boa generalização com regularização.                                      | Supõe linearidade entre variáveis, pode ser limitado em problemas complexos.                     |
| Random Forest       | Algoritmo robusto e versátil, adequado para conjuntos de dados com muitas variáveis e relações não lineares.      | Lida bem com outliers e variáveis categóricas, baixa chance de overfitting.                           | Pode ser lento para grandes volumes e menos eficiente em ranqueamento de top-K.                  |
| XGBoost             | Estado da arte para problemas com desbalanceamento. Muito eficaz para previsão de eventos raros como conversão.   | Alta performance, controle fino dos parâmetros, bom para ensembles e dados desbalanceados.             | Risco de overfitting, exige mais tuning e sensível à qualidade de dados.                         |
| CatBoost            | Otimizado para variáveis categóricas e possui bom desempenho geral sem tanto ajuste.                              | Funciona bem com dados tabulares, excelente tratamento de dados categóricos sem muita engenharia.     | Mais difícil de interpretar, ainda sensível ao desbalanceamento se `class_weights` não ajustado. |


In [33]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from catboost import CatBoostClassifier
from xgboost import XGBClassifier

from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression
from collections import Counter

In [34]:
# Calcular o peso para a classe 1
counter = Counter(y_train)
scale_pos_weight = counter[0] / counter[1]

models = {
    "LogisticRegression": (
        LogisticRegression(max_iter=2000, solver="liblinear"),
        {
            "model__C": [0.01, 0.1, 1, 10],
            "model__class_weight": [None, "balanced"]
        }
    ),
    "RandomForest": (
        RandomForestClassifier(random_state=42),
        {
            "model__n_estimators": [100, 200, 500],
            "model__max_depth": [10, 20, None],
            "model__class_weight": [None, "balanced"]
        }
    ),
    "XGBoost": (
        XGBClassifier(eval_metric="logloss",  
                      scale_pos_weight=scale_pos_weight,
                      random_state=42, 
                      verbosity=0),
        {
            "model__n_estimators": [100, 200, 500],
            "model__max_depth": [3, 5, 7],
            "model__learning_rate": [0.1, 0.01],
            "model__subsample": [0.8, 1.0],
            "model__colsample_bytree": [0.8, 1.0]
        }
    ),
    "CatBoost": (
        CatBoostClassifier(verbose=0, random_state=42),
        {
            "model__iterations": [100, 200, 500],
            "model__depth": [6, 10],
            "model__learning_rate": [0.1, 0.05],
            "model__l2_leaf_reg": [1, 3, 5]
        }
    )
}

## 5. Avaliação dos modelos

✅ Qual a vantagem de usar precision?
- custo alto de falso positivo ()
- Se você prever que um cliente vai completar uma oferta e ele não completa (falso positivo), você pode gastar uma verba de marketing à toa.

✅ Qual a vantagem de usar recall?
- Custo alto de falso negativo
- Se você não prever que o cliente completaria (falso negativo), você perde uma oportunidade de engajamento.

🎯 **F1 Score – A melhor candidata para este caso (equilibra o precision e recall)**

✅ Por que F1 Score?
- F1 Score = 2 × (Precision × Recall) / (Precision + Recall)
- Ele equilibra os dois, sendo especialmente útil em bases desbalanceadas.

In [35]:
from src.ml.metrics import precision_at_k, recall_at_k, f1_at_k

In [36]:
os.makedirs("../reports", exist_ok=True)

In [None]:
# 🔍 Treinamento e avaliação com Top-K
results = {}
k = 10  # ou int(0.05 * len(y_test))

for name, (model, param_grid) in models.items():
    print(f"\n🔍 Treinando modelo: {name}")
    
    pipe = Pipeline([
        ("preprocessor", preprocessor),
        ("model", model)
    ])

    grid = GridSearchCV(
        pipe, 
        param_grid, 
        scoring="f1", 
        cv=5, 
        n_jobs=-1,
        verbose=1
    )
    
    grid.fit(X_train, y_train)

    print(f"✅ Melhores parâmetros ({name}): {grid.best_params_}")

    # Predições
    test_pred = grid.predict(X_test)
    test_probs = grid.predict_proba(X_test)[:, 1]

    # 🎯 Avaliações Top-K
    precision_topk = precision_at_k(y_test, test_probs, k)
    recall_topk = recall_at_k(y_test, test_probs, k)
    f1_topk = f1_at_k(y_test, test_probs, k)

    print("\n📊 Avaliação no TESTE:")
    print(classification_report(y_test, test_pred))
    print(f"🎯 Precision@{k}: {precision_topk:.2%}")
    print(f"🎯 Recall@{k}: {recall_topk:.2%}")
    print(f"🎯 F1@{k}: {f1_topk:.2%}")

    # Salvar resultados
    results[name] = {
        "best_estimator": grid.best_estimator_,
        "test_report": classification_report(y_test, test_pred, output_dict=True),
        "accuracy": grid.score(X_test, y_test),
        "precision": precision_topk,
        "recall": recall_topk,
        "f1_score": f1_topk,
        f"precision_at_{k}": precision_topk,
        f"recall_at_{k}": recall_topk,
        f"f1_at_{k}": f1_topk
    }



🔍 Treinando modelo: LogisticRegression
Fitting 5 folds for each of 8 candidates, totalling 40 fits
✅ Melhores parâmetros (LogisticRegression): {'model__C': 0.1, 'model__class_weight': 'balanced'}

📊 Avaliação no TESTE:
              precision    recall  f1-score   support

           0       0.87      0.46      0.60     15256
           1       0.41      0.84      0.55      6716

    accuracy                           0.58     21972
   macro avg       0.64      0.65      0.57     21972
weighted avg       0.73      0.58      0.59     21972

🎯 Precision@10: 70.00%
🎯 Recall@10: 0.10%
🎯 F1@10: 0.21%

🔍 Treinando modelo: RandomForest
Fitting 5 folds for each of 18 candidates, totalling 90 fits




✅ Melhores parâmetros (RandomForest): {'model__class_weight': 'balanced', 'model__max_depth': 10, 'model__n_estimators': 200}

📊 Avaliação no TESTE:
              precision    recall  f1-score   support

           0       0.88      0.42      0.57     15256
           1       0.40      0.87      0.55      6716

    accuracy                           0.56     21972
   macro avg       0.64      0.65      0.56     21972
weighted avg       0.73      0.56      0.56     21972

🎯 Precision@10: 10.00%
🎯 Recall@10: 0.01%
🎯 F1@10: 0.03%

🔍 Treinando modelo: XGBoost
Fitting 5 folds for each of 72 candidates, totalling 360 fits




✅ Melhores parâmetros (XGBoost): {'model__colsample_bytree': 0.8, 'model__learning_rate': 0.1, 'model__max_depth': 3, 'model__n_estimators': 500, 'model__subsample': 0.8}

📊 Avaliação no TESTE:
              precision    recall  f1-score   support

           0       0.88      0.45      0.59     15256
           1       0.41      0.86      0.55      6716

    accuracy                           0.57     21972
   macro avg       0.64      0.65      0.57     21972
weighted avg       0.74      0.57      0.58     21972

🎯 Precision@10: 30.00%
🎯 Recall@10: 0.04%
🎯 F1@10: 0.09%

🔍 Treinando modelo: CatBoost
Fitting 5 folds for each of 36 candidates, totalling 180 fits




In [30]:
# Salva os resultados em CSV
df_results = pd.DataFrame(results).T
df_results.to_csv("../reports/classification_result.csv", index=False, sep=';')
print("\n✅ Resultados salvos em: ../reports/classification_result.csv")


✅ Resultados salvos em: ../reports/classification_result.csv


### 📊 6. Comparativo de Modelos – Resultados e Discussão

### 🔍 Conclusões

- **Logistic Regression** entrega o melhor **equilíbrio entre métricas clássicas e Top-K**, mesmo sendo um modelo linear.
- **Random Forest** acerta muitos casos de conversão, mas **não consegue priorizar bem os top leads**.
- **XGBoost** e **CatBoost** parecem fortemente enviesados pela maioria (classe 0). Isso **reflete na baixa capacidade de prever classe 1**.
- Para o negócio do iFood, **maximizar Precision@K e Recall@K** é fundamental — e apenas o modelo logístico entrega resultados relevantes nisso.
