Skip to content

breakhearts/ctr

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ctr

experiments of ctr prediction algorithm

特征工程

数据的特征有以下trick:

  • site_id == '85f751fd'是APP数据
  • device_id == 'a99f214a'是匿名数据,用device_ip + device_model代替
  • app的数据和site的数据需要分开使用, 都有id、domain、category三个属性

最后采用的feature:

  • 媒体特征:pub_id、pub_domain、pub_category
  • 广告位特征:banner_pos
  • 用户特征:device_modeldevice_conn_type
  • 盲特征:C14、C17、C20、C21
  • 时间特征:hour
  • 统计特征:
    • device_ip_count 、device_id_count: > 1000时为值, 否则为出现的次数
    • smooth_user_hour_count: 当前小时user_id出现的次数, >30 次则统一一个数字
    • 如果用户出现总次数>30,取用户出现总次数user_count,不然取用户出现出user-count + user-click-historyuser-click-history去用户前一个小时最近4次的点击记录,例如0100(对比赛预测无用,会直接退化成user_count?)

About

experiments of ctr prediction algorithm

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages