-
Notifications
You must be signed in to change notification settings - Fork 3
/
discussion
20 lines (18 loc) · 1.86 KB
/
discussion
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
写了一些想法,大家可以在文件下面补充。
数据预处理,删除NULL的数据,有一条新闻没有发表时间,手动删除了(已做)
数据分割: 新闻是3月份的,打算把25号之前的新闻分到一个文件里面(training.txt),用来做模型训练,之后的用来做预测(testing.txt)。
训练的部分,用我们usermodel中的三个类里面自己定义的方法进行训练,学习参数.
预测的方法是,依然是在上面的三个类中,定义一个推荐的方法,需要:
1:输入一个用户id
2:从后5天的新闻集合里面输入所有的新闻类(遍历),通过之前学习的参数,过滤新闻,获得
一个推荐列表,列表里面包含了推荐的新闻的ID;
3:这个推荐的ID列表和实际的后面5天的每个用户看的新闻ID列表做对比,利用公式计算各方面的指标。
输出结果:
用户id,预测指标(暂定值考虑 (|Recommend| and |read|)/|read|)
然后可以对后5天出现的这些用户取平均
CBR写了大概的框架了,晚点的时候接着补充
数据分隔的部分我来写,主要是固定文件名,都放在doc目录下,不要写多个不同版本了...
//shaoyiwen 12.24 17:04
用户数据特征:用户看过的新闻比较少,有些人只看过一条新闻,有些人看过2-4条新闻
新闻的时间分布,从2000年一直到2014年,并不是想文档里描述的那样,具体的分析放在data文件夹下了
数据按照用户分类,对每个用户读过的新闻按照时间排序,取前面一部分的数据作为训练,后面一部分的数据作为测试,这个工作已经完成了; training.txt用来训练,testing.txt用来测试