腾讯广告算法大赛2020参赛代码
运行环境:python3.5+, tensorflow2.0+
比赛链接:https://algo.qq.com/index.html
比赛说明:通过用户近90天广告点击信息预测用户性别和年龄,本质上可看作一个文本分类问题
最终成绩:1.418
备注:第一次参加文本分类相关的比赛,主要通过参与比赛对nlp相关知识有一定了解和实践,代码可供参考,还有待完善。
- data:用于存放数据
- model:用于保存模型
- result:用于输出提交结果
- 基于统计特征建模
- 基于文本特征建模
- user_seglist.ipynb:基于文本特征建模的数据预处理部分,输出用户各个id的分词序列,格式为csv
- model_tfidf.ipynb:基于tf-idf进行建模
- model_w2v.ipynb:基于word2vec进行建模,主要用于输出词向量
- model_nn_tf2.ipynb:基于深度学习模型进行建模,包含:dnn/textcnn/lstm/lstm+dnn/lstm+textcnn等模型,依赖model_w2v.ipynb训练出的词向量
源数据由腾讯官方提供,备份数据以及word2vec训练结果可通过如下渠道获得,下载后解压至对应目录即可
提取码:scfi