本项目是论文《CAT-RFE:点击欺诈的集成检测框架》的实验代码。
├─ raw_data (数据集目录)
├─ train.csv (训练集)
├─ test.csv (测试集)
├─ initData.py (数据预处理)
├─ baseline_model.py (基线模型)
├─ voting_model.py (基于voting模型的RFE框架)
├─ train_baseline.py (基线模型训练文件)
├─ train_raw_ml.py (机器学习训练文件)
├─ train_cat_rfe.py (RFE框架训练文件)
├─ test.py (生成测试结果)
├─ requirements.txt (项目依赖)
以上列出了模型文件及主要的训练代码文件,其余未列出的文件均为项目基础文件,无需重点关注。
本项目使用的数据集是百度飞桨的数据集,原链接如下:
https://aistudio.baidu.com/aistudio/competition/detail/52
首先,拉取本项目到本地。
First, pull the project to the local.
$ git clone git@github.com:lyx199504/click-fraud-cat-rfe.git
接着,进入到项目中并安装本项目的依赖。但要注意,pytorch可能需要采取其他方式安装,安装完毕pytorch后可直接用如下代码安装其他依赖。
$ cd click-fraud-cat-rfe/
$ pip install -r requirements.txt
然后,执行initData.py进行数据预处理。
最后,执行train_*.py等文件即可训练相应模型。
本实验代码基于param-opt训练工具,原项目作者及出处如下:
作者: Yixiang Lu
项目: param-opt
若要引用本论文,可采用如下引用格式:
卢翼翔, 耿光刚, 延志伟, 朱效民, 张新常. CAT-RFE:点击欺诈的集成检测框架[J]. 网络与信息安全学报, 2022, 8(5): 158-166.
Yixiang LU, Guanggang GENG, Zhiwei YAN, Xiaomin ZHU, Xinchang ZHANG. CAT-RFE: ensemble detection framework for click fraud[J]. Chinese Journal of Network and Information Security, 2022, 8(5): 158-166.