Skip to content

leedaga/360

 
 

Repository files navigation

360机器写作与人类写作的巅峰对决

baseline队(3/589)  |  赛题链接

任务:

根据上下文语法语义的一致性与连续性,判断文章是否为人类写作。

数据:

阶段 训练集 测试集
初赛Part1 20w(12w+, 8w-) 15w
初赛Part2 30w(6w+, 24w-) 25w
复赛 60w(24w+, 36w-) 40w
模型分数
模型 类型 分数
CNN word 0.9014
CNN postag+char 0.8982
HAN word 0.9047
HCN word 0.9056

code

目录说明
  • data 原始数据目录
  • cache 缓存文件路径
  • feature 传统方法样本特征代码
  • libs 引用的开源组件
  • models 模型代码
  • train 模型训练脚本
  • utils 数据处理及其他脚本
运行说明
## 预训练词向量
python3 ./utils/w2v.py
## 构建线下训练验证集,生成序列文件
python3 ./utils/data_preprocess.py
## 后续即可运行train目录下脚本训练模型

About

2017 360机器写作与人类写作的巅峰对决

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 70.0%
  • Jupyter Notebook 30.0%