COMP5565 Task2 背景:房地产营销中,企业需根据客户特征判断其购房意向,以便精准分配销售资源、提升转化效率。 目标:二分类预测问题 —— 根据客户特征,预测其是否会购房(标签 = 1)或不购房(标签 = 0)。 评估指标:Macro-F1 分数
设计:1.因为标签分布不是55分布,所以用StratifiedKFold:分层 K(5)折交叉验证,确保每个折中各类别的比例与原始数据一致(解决类别不平衡问题)。
标签 0(不购房):107,610 条
标签 1(购房):32,320 条
2.特征分为数值型和分类型,而且数值型数据大小不一,需要特征缩放;分类型用了OneHotEncoder编码
3.模型用的DNN,三层hidden layer,有dropout和早停
4.消融实验去掉了不同的component比较结果,优化发现:省略 class_weight='balanced' 参数后,平均 Macro-F1 分数从 0.9795 提升至 0.9871。 最终决策:因此,最终优化模型未使用类别权重,实证证据表明该参数对此特定数据集和模型配置反而不利。