Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
analysis		analysis
data		data
feature		feature
libs		libs
models		models
train		train
utils		utils
.DS_Store		.DS_Store
.gitignore		.gitignore
config.py		config.py
lgb_ensemable.py		lgb_ensemable.py
model_submit.py		model_submit.py
model_weight.py		model_weight.py
readme.md		readme.md

Repository files navigation

360机器写作与人类写作的巅峰对决

baseline队(3/589) | 赛题链接

任务：

根据上下文语法语义的一致性与连续性，判断文章是否为人类写作。

数据：

阶段	训练集	测试集
初赛Part1	20w(12w+, 8w-)	15w
初赛Part2	30w(6w+, 24w-)	25w
复赛	60w(24w+, 36w-)	40w

模型分数

模型	类型	分数
CNN	word	0.9014
CNN	postag+char	0.8982
HAN	word	0.9047
HCN	word	0.9056

code

目录说明

data 原始数据目录
cache 缓存文件路径
feature 传统方法样本特征代码
libs 引用的开源组件
models 模型代码
train 模型训练脚本
utils 数据处理及其他脚本

运行说明

## 预训练词向量
python3 ./utils/w2v.py
## 构建线下训练验证集，生成序列文件
python3 ./utils/data_preprocess.py
## 后续即可运行train目录下脚本训练模型

About

2017 360机器写作与人类写作的巅峰对决

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 70.0%
Jupyter Notebook 30.0%