In [1]:
import sys 
sys.path.append("..")

import numpy as np
import pandas as pd
import torch
import torch.nn as nn
from tqdm import tqdm
from torch.utils.data import Dataset, DataLoader, random_split
from sklearn.preprocessing import MinMaxScaler, LabelEncoder

from WideDeep.data import get_criteo_data_dict  # 针对性修改
from Tools.utils.data import DataGenerator
from Tools.models.ranking import WideDeep, DeepFM, DCN
# from Tools.models.ranking import WideDeep, DeepFM, DCN, DCNv2, FiBiNet, EDCN, DeepFFM, FatDeepFFM
from Tools.trainers import CTRTrainer

dataset_path = '../data/criteo.csv'
model_name='widedeep'
epoch = 10
learning_rate = 1e-3
batch_size=2048
weight_decay=1e-3
save_dir='./'
seed=2023
# device='cpu'
device = torch.device("cuda")

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# 数据处理
torch.manual_seed(seed)
dense_feas, sparse_feas, x, y = get_criteo_data_dict(dataset_path)

dg = DataGenerator(x, y)
train_dataloader, val_dataloader, test_dataloader = dg.generate_dataloader(split_ratio=[0.7, 0.1], batch_size=batch_size)

data load finished


100%|████████████████████████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  9.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 39/39 [00:00<00:00, 39.44it/s]

the samples of train : val : test are  70000 : 10000 : 20000





In [3]:
model = WideDeep(wide_features=sparse_feas, deep_features=dense_feas, mlp_params={"dims": [256, 128], "dropout": 0.2, "activation": "relu"})
# model = DeepFM(deep_features=dense_feas, fm_features=sparse_feas, mlp_params={"dims": [256, 128], "dropout": 0.2, "activation": "relu"})
# model = DCN(features=dense_feas + sparse_feas, n_cross_layers=3, mlp_params={"dims": [256, 128]})

In [4]:
ctr_trainer = CTRTrainer(model, optimizer_params={"lr": learning_rate, "weight_decay": weight_decay}, n_epoch=epoch, earlystop_patience=10, device=device, model_path=save_dir)
#scheduler_fn=torch.optim.lr_scheduler.StepLR,scheduler_params={"step_size": 2,"gamma": 0.8},
ctr_trainer.fit(train_dataloader, val_dataloader)
auc = ctr_trainer.evaluate(ctr_trainer.model, test_dataloader)
print(f'test auc: {auc}')

epoch: 0


train: 100%|█████████████████████████████████████████████████████████████| 35/35 [00:06<00:00,  5.38it/s, loss=0.507]
validation: 100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  5.04it/s]


epoch: 0 validation: auc: 0.7231835139586751
epoch: 1


train: 100%|█████████████████████████████████████████████████████████████| 35/35 [00:05<00:00,  6.84it/s, loss=0.491]
validation: 100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  5.12it/s]


epoch: 1 validation: auc: 0.7406176682783154
epoch: 2


train: 100%|█████████████████████████████████████████████████████████████| 35/35 [00:04<00:00,  7.41it/s, loss=0.471]
validation: 100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.77it/s]


epoch: 2 validation: auc: 0.7541240533165524
epoch: 3


train: 100%|██████████████████████████████████████████████████████████████| 35/35 [00:04<00:00,  7.47it/s, loss=0.46]
validation: 100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  5.13it/s]


epoch: 3 validation: auc: 0.7620147308000232
epoch: 4


train: 100%|█████████████████████████████████████████████████████████████| 35/35 [00:04<00:00,  7.08it/s, loss=0.458]
validation: 100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.66it/s]


epoch: 4 validation: auc: 0.7689109627166737
epoch: 5


train: 100%|█████████████████████████████████████████████████████████████| 35/35 [00:04<00:00,  7.30it/s, loss=0.453]
validation: 100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.92it/s]


epoch: 5 validation: auc: 0.7721655605950506
epoch: 6


train: 100%|█████████████████████████████████████████████████████████████| 35/35 [00:04<00:00,  7.40it/s, loss=0.454]
validation: 100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  5.08it/s]


epoch: 6 validation: auc: 0.772526404852637
epoch: 7


train: 100%|█████████████████████████████████████████████████████████████| 35/35 [00:04<00:00,  7.43it/s, loss=0.442]
validation: 100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.80it/s]


epoch: 7 validation: auc: 0.7747105498442344
epoch: 8


train: 100%|█████████████████████████████████████████████████████████████| 35/35 [00:05<00:00,  6.79it/s, loss=0.444]
validation: 100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.08it/s]


epoch: 8 validation: auc: 0.7775881875423749
epoch: 9


train: 100%|█████████████████████████████████████████████████████████████| 35/35 [00:04<00:00,  7.11it/s, loss=0.445]
validation: 100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.77it/s]


epoch: 9 validation: auc: 0.7748450938079351


validation: 100%|████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  5.87it/s]

test auc: 0.7655021653502974



