鸡你太美(初赛复赛均第三名)解决方案,包含全部代码、文档及答辩PPT
搜索中一个重要的任务是根据query和title预测query下doc点击率,本次大赛参赛队伍需要根据脱敏后的数据预测指定doc的点击率,结果按照指定的评价指标使用在线评测数据进行评测和排名,得分最优者获胜。
- 短文本匹配
- 点击率预估
train_data.sample
是官方给的训练样本示例,数据按列分割,分隔符为”,",为不带表头的CSV数据格式。数据格式如下:
列名 | 类型 | 示例 |
---|---|---|
query_id | int | 3 |
query | hash string,term空格分割 | 1 9 117 |
query_title_id | title在query下的唯一标识 | 2 |
title | hash string,term空格分割 | 3 9 120 |
label | int, 取值{0, 1} | 0 |
注意:提供的样本示例
train_data.sample
仅为帮助理解赛题以及调通代码,由于样本示例仅为两万行,因此构造的出来的特征意义不大(数据严重泄露)。
感兴趣就给个star吧:-D
最后感谢两位队友@Han和@hcccccccc