notebook中包含三次提交的方案,最高得分0.85261
提交log:
次数 | 提交时间 | 任务一模型 | 任务二模型 | 改进 |
---|---|---|---|---|
第一次 | 2021-09-25 02:05:01 | KNN | 简单线性回归 | |
第二次 | 2021-10-08 01:39:11 | KNN | 简单线性回归 | ①根据tag_list,用KMeans将app分为20类②定义pre_index衡量用户的对应用的偏好 |
第三次 | 2021-10-10 22:13:19 | KNN | 多元线性回归 | 将年龄预测模型改为基于梯度下降的多元线性回归 |
一、赛事背景
对于移动设备厂商而言,获取当前手机用户的人口属性信息是非常困难的。基于用户的手机及日常使用应用程序的偏好准确地预测其人口属性信息是提升个性化体验、构建精准用户画像的基础。
需要说明的是,本赛事数据已获得个人用户的充分认可和同意,并已进行适当的匿名处理以保护隐私。由于保密,我们不会提供有关如何获得性别和年龄数据的详细信息。
二、赛事任务
本次比赛有两个任务,分别对移动设备(device_id)进行性别和年龄的预测,这里包含二分类和回归两个问题,最终会将两个部分的分数结合起来进行排名。
三、数据集
数据集比较大,建议打开赛题链接,注册后在左侧栏“赛题数据”下载。
需要的话可以帮忙传网盘。