Skip to content

liangyaorong/2016CCF_Sougou

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 

Repository files navigation

Df_sougou

大数据精准营销中搜狗用户画像挖掘
队伍名:我很抱歉
排名:初赛A榜 133/983

预处理

jieba分词,然后根据停用词表去掉高频率词

特征工程

词袋模型,TF-IDF加权,chi-square选取前二十万维特征(尝试过对词做组间组内方差加权,效果不好)

模型

线性SVC,BernoulliNB,MultinomialNB,逻辑回归四模型分别预测然后Voting
(SVC线性核可以到前五十,但是我的特征做得不好,导致SVC效果没有朴素贝叶斯好。特征还可以有很多优化。)

模型融合

看了前五的代码,原来是用Stacking融合多个模型,我只用个了原始的Voting...
要好好学一下集成学习

Releases

No releases published

Packages

No packages published

Languages