In [29]:
import random
import time
import math
import numpy as np
import pandas as pd
import operator

## 加载数据

### 读取数据

In [3]:
data = []

# 10w条数据 评分1-5，每个用户至少20部
for line in open('./data/ml-100k/u.data','r'):
    data_line = line.split(None)
    # 无上下文信息的隐性反馈数据
    userID = int(data_line[0])
    movieID = int(data_line[1])
    data.append([userID,movieID])

In [4]:
data

[[196, 242],
 [186, 302],
 [22, 377],
 [244, 51],
 [166, 346],
 [298, 474],
 [115, 265],
 [253, 465],
 [305, 451],
 [6, 86],
 [62, 257],
 [286, 1014],
 [200, 222],
 [210, 40],
 [224, 29],
 [303, 785],
 [122, 387],
 [194, 274],
 [291, 1042],
 [234, 1184],
 [119, 392],
 [167, 486],
 [299, 144],
 [291, 118],
 [308, 1],
 [95, 546],
 [38, 95],
 [102, 768],
 [63, 277],
 [160, 234],
 [50, 246],
 [301, 98],
 [225, 193],
 [290, 88],
 [97, 194],
 [157, 274],
 [181, 1081],
 [278, 603],
 [276, 796],
 [7, 32],
 [10, 16],
 [284, 304],
 [201, 979],
 [276, 564],
 [287, 327],
 [246, 201],
 [242, 1137],
 [249, 241],
 [99, 4],
 [178, 332],
 [251, 100],
 [81, 432],
 [260, 322],
 [25, 181],
 [59, 196],
 [72, 679],
 [87, 384],
 [290, 143],
 [42, 423],
 [292, 515],
 [115, 20],
 [20, 288],
 [201, 219],
 [13, 526],
 [246, 919],
 [138, 26],
 [167, 232],
 [60, 427],
 [57, 304],
 [223, 274],
 [189, 512],
 [243, 15],
 [92, 1049],
 [246, 416],
 [194, 165],
 [241, 690],
 [178, 248],
 [254, 1444],
 [293, 5],
 [127, 2

In [5]:
# 10w条数据，有多少用户对多少部电影进行了评分

### 数据处理

In [6]:
def compress(data,col):
    """
    处理data数据第col列的数据，保证此列数字是从0开始连续出现，中间不会有一个不存在此列的数字
    :param data: 二维列表数据
    :param col:处理的列
    :return:不同的个数
    """
    
    e_rows = dict()  # key是data数据中第col列数据，value是一个存放键出现在每一个行号的列表
    for i in range(len(data)):
        e = data[i][col]
        if e not in e_rows:
            e_rows[e] = []
        e_rows[e].append(i)
        
    for rows,i in zip(e_rows.values(),range(len(e_rows))):
        for row in rows:
            data[row][col] = i
    
    return len(e_rows)

In [9]:
num_user = compress(data,0)
num_user

943

In [10]:
num_item = compress(data,1)
num_item

1682

In [11]:
data

[[0, 0],
 [1, 1],
 [2, 2],
 [3, 3],
 [4, 4],
 [5, 5],
 [6, 6],
 [7, 7],
 [8, 8],
 [9, 9],
 [10, 10],
 [11, 11],
 [12, 12],
 [13, 13],
 [14, 14],
 [15, 15],
 [16, 16],
 [17, 17],
 [18, 18],
 [19, 19],
 [20, 20],
 [21, 21],
 [22, 22],
 [18, 23],
 [23, 24],
 [24, 25],
 [25, 26],
 [26, 27],
 [27, 28],
 [28, 29],
 [29, 30],
 [30, 31],
 [31, 32],
 [32, 33],
 [33, 34],
 [34, 17],
 [35, 35],
 [36, 36],
 [37, 37],
 [38, 38],
 [39, 39],
 [40, 40],
 [41, 41],
 [37, 42],
 [42, 43],
 [43, 44],
 [44, 45],
 [45, 46],
 [46, 47],
 [47, 48],
 [48, 49],
 [49, 50],
 [50, 51],
 [51, 52],
 [52, 53],
 [53, 54],
 [54, 55],
 [32, 56],
 [55, 57],
 [56, 58],
 [6, 59],
 [57, 60],
 [41, 61],
 [58, 62],
 [43, 63],
 [59, 64],
 [21, 65],
 [60, 66],
 [61, 40],
 [62, 17],
 [63, 67],
 [64, 68],
 [65, 69],
 [43, 70],
 [17, 71],
 [66, 72],
 [47, 73],
 [67, 74],
 [68, 75],
 [69, 76],
 [31, 77],
 [22, 76],
 [31, 78],
 [37, 79],
 [18, 22],
 [70, 80],
 [71, 81],
 [55, 82],
 [72, 83],
 [24, 84],
 [73, 85],
 [74, 86],
 [54, 87]

### 切分数据集

In [12]:
def split_data(data):
    """
    将数据进行随机划分8分，1份作为测试集，7份作为训练集
    return:训练集和测试集
    """
    
    test = []
    train = []
    for user,item in data:
        if random.randint(1,8) == 1:
            test.append([user,item]) # 测试集
        else:
            train.append([user,item]) # 训练集
        
    return train,test

In [13]:
train,test = split_data(data)

In [14]:
len(train),len(test)

(87546, 12454)

### 创建数据对象 类

In [43]:
class Data:
    
    def __init__(self,dataset='ml-100k'):
        """
        无上下文信息的隐性反馈
        :pram dataset: 数据集名字
        """
        print('开始读取数据')
        
        self.data = []
        
        for line in open('./data/ml-100k/u.data','r'):
            data_line = line.split(None)
            userID = int(data_line[0])
            movieID = int(data_line[1])
            self.data.append([userID,movieID])
            
        def compress(data,col):
            """
            处理data数据第col列的数据，保证此列数字是从0开始连续出现，中间不会有一个不存在此列的数字
            :param data: 二维列表数据
            :param col:处理的列
            :return:不同的个数
            """

            e_rows = dict()  # key是data数据中第col列数据，value是一个存放键出现在每一个行号的列表
            for i in range(len(data)):
                e = data[i][col]
                if e not in e_rows:
                    e_rows[e] = []
                e_rows[e].append(i)

            for rows,i in zip(e_rows.values(),range(len(e_rows))):
                for row in rows:
                    data[row][col] = i

            return len(e_rows)
    
        self.num_user = compress(self.data,0)
        self.num_item = compress(self.data,1)

        # 训练集和测试集
        self.train,self.test = self.__split_data()
        print('总共有{}条数据，训练集{}条，测试集{}条，用户{}个，电影{}部'.format(len(self.data),
                                                                                  len(self.train),len(self.test),
                                                                                  self.num_user,self.num_item))

    def __split_data(self):
        """
        将数据进行随机划分8分，1份作为测试集，7份作为训练集
        return:训练集和测试集
        """

        test = []
        train = []
        for user,item in self.data:
            if random.randint(1,8) == 1:
                test.append([user,item]) # 测试集
            else:
                train.append([user,item]) # 训练集

        return train,test

In [17]:
data = Data()

开始读取数据
总共有100000条数据，训练集87576条，测试集12424条，用户943个，电影1682部


## ItemCF

In [36]:
class ItemCF:
    
    def __init__(self,data):
        """
        基于物品的协同过滤算法
        :pama data：无上下文信息的隐性反馈数据集，包含训练集和测试集
        """
        self.data = data
        
        print('开始计算物品相似度矩阵')
        self.W = self.__item_similarity()
        
        self.K = None # 推荐时，选择与物品最相似的物品个数
        self.N = None # 每个用户最多推荐的物品个数
        
        self.recommendation = None # 每个用户的推荐列表
    
    def compute_recommendation(self,K=10,N=10):
        """
        计算推荐列表
        :param K:推荐时，选择与物品最相似的物品个数
        :param N:每个用户最多推荐的物品个数
        """
        self.N = N
        self.K = K
        
        print('开始计算推荐列表(K='+str(self.K)+',N='+str(self.N)+')')
        
        self.recommendation = self.__get_recommendation()
    
    
    
    def __item_similarity(self):
        """
        计算训练集的用户相似度
        return:存放两个用户之间相似度二维列表
        """
        #  train_user_items[i] 是用户i有过正反馈的所有物品列表
        train_user_items = [[] for u in range(self.data.num_user)]
        
        for user,item in self.data.train:
            train_user_items[user].append(item)
        
        print('统计每两个物品之间的共同有过正反馈的用户数量和每个物品又被正反馈的总量')
        
        # W[i][j] 物品i和物品j共同被正反馈的数量(j>i)
        W = [[0 for j in range(self.data.num_item)] for i in range(self.data.num_item)]
        
        N = [0 for i in range(self.data.num_item)] # N[i] 代表物品i有过正反馈的数量
        
        for items in train_user_items:
            for item in items:
                # 统计N
                N[item] += 1
                
                # 统计W
                for j in items:
                    if j > item:
                        W[item][j] += 1
                        
        print('计算每两个物品之间的相似度')
        
        for i in range(self.data.num_item - 1):
            for j in range(i+1,self.data.num_item):
                if W[i][j] != 0:
                    W[i][j] = W[i][j] / math.sqrt(N[i] * N[j])
                    W[j][i] = W[i][j]
                    
        return W
        
        
    def __get_recommendation(self):
        """
        得到所有用户的推荐物品列表
        return:推荐列表
        """
        
        # 每个用户所有有过正反馈的物品集合
        train_user_items = [set() for u in range(self.data.num_user)]
        for user,item in self.data.train:
            train_user_items[user].add(item)
            
        print('得到每个用户与最相近的K个物品集合')
        k_items = []
        
        for i in range(self.data.num_item):
            Wi = dict() # Wi[j] 是物品i与物品j之间的相似性
            for j in range(self.data.num_item):
                if self.W[i][j] != 0:
                    Wi[j] = self.W[i][j]
                    
            k_items.append(
                set(items[0] for items in sorted(Wi.items(),
                                                 key=operator.itemgetter(1),
                                                 reverse=True)[:self.K]))
                    
        print('计算每个用户推荐列表')
        
        recommendation = []
        for user_item_set in train_user_items:
            recommendation.append(self.__recommend(user_item_set,k_items))
        return recommendation
            
            
    def __recommend(self,user_item_set,k_items):
        """
        对每个用户没有正反馈的物品选取最相近的K个物品计算兴趣，给用户推荐最多N个物品
        
        :param user_item_set: 训练集用户所有正反馈的物品集合
        :param k_items: k_items[i] 是与物品i最相似的K个物品集合
        
        return: 推荐给用户的物品列表
        """
        
        rank = dict()
        
        for i in user_item_set:
            for j in k_items[i]:
                if j not in user_item_set:
                    rank[j] = rank.setdefault(j,0) + self.W[i][j]
        
        # 前十个推荐物品
        return [items[0] for items in sorted(rank.items(),
                                              key=operator.itemgetter(1),
                                              reverse=True)[:self.N]]
        

In [37]:
item = ItemCF(data)

开始计算物品相似度矩阵
统计每两个物品之间的共同有过正反馈的用户数量和每个物品又被正反馈的总量
计算每两个物品之间的相似度


In [38]:
item.compute_recommendation()

开始计算推荐列表(K=10,N=10)
得到每个用户与最相近的K个物品集合
计算每个用户推荐列表


In [39]:
print(item.recommendation)

[[247, 33, 166, 347, 191, 367, 49, 403, 57, 1], [136, 24, 456, 357, 82, 289, 98, 231, 52, 112], [82, 231, 256, 136, 118, 156, 191, 31, 24, 57], [347, 57, 136, 82, 31, 112, 179, 311, 25, 114], [157, 1, 117, 130, 274, 144, 357, 630, 491, 860], [347, 118, 140, 136, 166, 31, 231, 156, 26, 49], [247, 347, 112, 403, 24, 114, 476, 456, 758, 136], [101, 247, 161, 347, 191, 112, 118, 311, 31, 57], [191, 112, 311, 156, 217, 231, 209, 390, 201, 758], [161, 118, 403, 191, 347, 52, 29, 217, 53, 496], [49, 52, 31, 53, 758, 456, 77, 156, 29, 114], [247, 57, 191, 528, 231, 329, 201, 758, 31, 52], [82, 368, 112, 77, 476, 52, 166, 367, 56, 208], [347, 256, 53, 231, 179, 82, 136, 217, 114, 26], [247, 101, 161, 95, 166, 347, 403, 33, 60, 140], [758, 347, 31, 166, 476, 118, 23, 53, 329, 60], [101, 247, 367, 53, 320, 166, 161, 347, 33, 31], [161, 403, 311, 368, 102, 474, 258, 423, 9, 78], [161, 191, 25, 456, 367, 368, 256, 311, 33, 166], [101, 118, 403, 367, 49, 77, 456, 136, 307, 108], [24, 77, 112, 652, 1

In [40]:
len(item.recommendation)

943

## 评估指标

- 准确率和召回率
- R(u)表示的是根据训练数据给用户做出的推荐列表，T(u)表示用户根据测试集的数据给用户的推荐列表
- Recall = R(u) & T(u) / T(u) # 查全率
- Precision = R(u) & T(u) / R(u) # 查准率

In [48]:
class Evaluation:
    
    def __init__(self,recommend_algorithm):
        """
        对推荐算法计算各种评测指标
        
        :param :recommend_algorithm : ItemCF 
        """
        
        self.rec_alg = recommend_algorithm # 算法
        
        self.precision = None # 准确率
        self.recall = None # 召回率
    
    def evalute(self):
        """
        评估指标计算
        """
        # 准确率和召回率
        self.precision,self.recall = self.__precision_recall()
        print('准确率 = ' + str(self.precision * 100) + '% 召回率 = ' + str(self.recall * 100) + '%')
    
    
    def __precision_recall(self):
        """
        计算准确率和召回率
        
        return； 准确率和召回率
        """
        
        # 得到测试集用户与其他所有正反馈物品集合的映射
        test_user_items = dict()
        
        for user,item in self.rec_alg.data.test:
            if user not in test_user_items:
                test_user_items[user] = set()
                
            test_user_items[user].add(item)
            
        # 计算准确率和召回率
        
        hit = 0 # 分子
        all_ru = 0 # 分母
        all_tu = 0 # 分母
        
        for user, item in test_user_items.items():
            # 训练集数据给用户的推荐列表
            ru = set(self.rec_alg.recommendation[user])
            # 测试集数据给用户的推荐列表
            tu = item
            
            hit += len(ru & tu)
            all_ru += len(ru)
            all_tu += len(tu)
            
        return hit / all_ru, hit / all_tu
       

## 测试

In [50]:
if __name__ == '__main__':
    
    algorithms = [ItemCF]
    
    precisions = []
    recalls = []
    times = []
    
    data = Data()
    
    for algorithm in algorithms:
        
        startTime = time.time()
        recommend = algorithm(data)
        recommend.compute_recommendation()
        eva = Evaluation(recommend)
        eva.evalute()
        
        times.append('%.3fs'%(time.time()-startTime))
        precisions.append('%.3f%%'%(eva.precision * 100))
        recalls.append('%.3f%%'%(eva.recall * 100))
    
    df = pd.DataFrame()
    df['algorithm'] = [algorithm.__name__ for algorithm in algorithms]
    df['precision'] = precisions
    df['recall'] = recalls
    df['time'] = times
    
    print(df)

开始读取数据
总共有100000条数据，训练集87360条，测试集12640条，用户943个，电影1682部
开始计算物品相似度矩阵
统计每两个物品之间的共同有过正反馈的用户数量和每个物品又被正反馈的总量
计算每两个物品之间的相似度
开始计算推荐列表(K=10,N=10)
得到每个用户与最相近的K个物品集合
计算每个用户推荐列表
准确率 = 21.58576051779935% 召回率 = 15.830696202531646%
  algorithm precision   recall    time
0    ItemCF   21.586%  15.831%  4.298s
