Skip to content

freelzy/Tencent_Social_Ads

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Tencent_Social_Ads

第一届腾讯社交广告高校算法大赛(全国14名)

队名:竟然有这种操作
最终成绩:0.101595 排名第14
特征维数:64
训练数据为:28,29两天
训练机器内存:16G
算法模型:lightGBM

文件说明:

doFeats_1.py:根据原始文件生成中间文件

doFeats_2.py:根据中间文件生成特征

train_cv.py:训练及预测(LGB相当的快,一组CV预测大概40分钟)

主要特征:

  • Trick特征:
    通过观察原始数据是不难发现的,有很多只有clickTime和label不一样的重复数据,按时间排序发现重复数据如果转化,label一般标在头或尾,少部分在中间,在训练集上出现的情况在测试集上也会出现,所以标记这些位置后onehot,让模型去学习,再就是时间差特征,关于trick我比赛分享的这篇文章有较详细的说明。比赛后期发现了几个和这个trick相类似的文章1文章2,可以参考。

  • 统计特征:
    原始特征主要三大类:广告特征、用户特征、位置特征,通过交叉组合算统计构造特征,由于机器限制,统计特征主要使用了转化率,丢掉了点击次数和转化次数。初赛利用了7天滑窗构造,决赛采用了周冠军分享的clickTime之前所有天算统计。三组合特征也来自周冠军分享的下载行为和网络条件限制,以及用户属性对app需求挖掘出。贝叶斯平滑user相关的特征特别废时间,初赛做过根据点击次数阈值来操作转化率,效果和平滑差不多但是阈值选择不太准。

  • 活跃数特征:
    特征构造灵感来自这里,比如某个广告位的app种数。

  • 均值特征:
    比如点击某广告的用户平均年龄

  • 平均回流时间特征:
    利用回流时间方式不对的话很容易造成leackage,这里参考了官方群里的分享,计算了每个appID的平均回流时间,没有回流的app用其所在类的平均回流时间代替

  • 用户流水和历史特征:
    利用installed文件关联user和app获得历史统计特征,利用actions进行7天滑动窗口获得用户和app流水特征。

特征筛选:

  在特征筛选上没太多经验,基本是参考lgb输出的特征的weight重要性和gain重要性来增删特征,weight是特征分裂次数,gain是分裂特征获得的信息增益总量,不过重要性只能做参考,一个比较好的特征选择方法是,每次构造的特征计算其在训练集和测试集上的均值和方差,保证分布相同,差不多则放入模型训练,如果结果比之前好那这个特征就基本可用。

模型与训练:

  由于队友比较忙,主要工作是自己来,整个特征构造与筛选的过程是利用lgb重要性,所以最后构造出的特征在其他模型上表现不好,模型融合阶段就处于很大的劣势,预测主要采用交叉预测,实际上是stacking第一层做的操作,然后利用不同折数加参数,特征,样本(随机数种子)扰动,再加权平均得到最终成绩.
  关于机器内存一个比较实用的方法是设置虚拟内存,会有比较大的改善,也是能用16G服务器跑下来的主要原因。

其他参考操作:

  • 冷启动特征;
  • 排序特征;
  • 用户点击数和转化数过于稀疏,可以分别LenbelEncoder,然后拼接后LabelEncoder;
  • 一天24小时以半小时为单位分箱;
  • 连续特征离散化,如分箱离散化、参考决策树分裂点离散化、或用XGB叶子号离散化,再拼接原始离散特征送入FFM;
  • 交叉验证方式构造统计特征防止leakage;
  • 用户转化序列(比如:0010);
  • 删除最后几天中平均回流时间长的某些appID或者advertiserID数据(考虑回流时间和广告主或app相关);
  • 多窗口统计(1分钟内、1小时内、1天内...),利用多窗口将样本转化为二维,送人CNN(很强的捕捉局部信息能力),不采用pooling,采用drop-out等;

不足与思考:

  由于缺乏比赛经验,在整个比赛的过程中有很多欠缺的地方,比如分工不明确,导致最后只有一个模型能达到比较好的效果,继而导致模型融合效果不理想,最后一天被挤出前十;又比如数据处理经验不足,对异常数据(19,20上午以及30号的label)基本没做什么处理;然后一个小小的客观原因,决赛的数据量比较大,其中一个文件有5.7亿条记录,而16G内存的机器也一定程度上影响了成绩。
  不过总体来说结果还是不错的,也非常感谢分享经验的各位大神,比赛过程中通过他们的分享,网上的博客,自己的努力等等,让我一个接触机器学习才1个月的小白感受到了ML的魅力,也让我一个连pandas都没用过的新手见识到了一系列神奇的操作,也很感谢腾讯能提供这个平台让我们学到更多。

About

第一届腾讯社交广告高校算法大赛(全国14名)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages