In [4]:
# #####################################################
#
# 基于矩阵分解（Matrix Factorization，MF）的推荐算法
# 对数据集MovieLens-25m 进行探索，以及矩阵分解模型的探索
# 
# #####################################################

# 1、导入模块和包

In [1]:
# 这些模块和包都是在逐步的探索中所需要的，然后全部汇总到这里，
#    并不是一开始就知道了 ^_^ ^_^ ^_^
# 1、导入模块和包
import pandas as pd    # 加载并处理csv文件
import datetime        # 利用datetime处理时间戳
import _pickle as cPickle    # 数据以二进制进行高效的储存到文件
from collections import defaultdict     # 利用Python设置稀疏矩阵的NULL位置的默认值
import scipy.sparse as ss     # 利用scipy构建稀疏矩阵
import scipy.io as sio    # 利用scipy储存评分矩阵
import numpy as np    # 利用numpy创建指定长度或形状的矩阵以及矩阵运算
from numpy.random import random    # numpy.random中的randn函数生成一些正态分布的随机数据
import time    # 利用Python内置模块，计算训练时迭代的时间
import json    # 将模型参数保存为json文件，加载模型参数json文件

# 2、加载数据集

In [9]:
# 2、加载数据集

# 设置数据储存位置
data_path = "./dataset/BX-CSV-Dump/"

# pandas读取文件ratings.csv(两千五百多万行数据)
csv_file = pd.read_csv(data_path + "BX-Book-Ratings.csv", sep = ";", encoding = "ISO-8859-1")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 10: invalid start byte

In [8]:
# 计算用户数量和电影数量
unique_user = csv_file['User-ID'].unique()
unique_item = csv_file['ISBN'].unique()

user_num = unique_user.shape[0]
item_num = unique_item.shape[0]

print("the number of user:",user_num)
print("the number of movie:",item_num)

the number of user: 1210271
the number of movie: 249274


In [4]:
# 基本维度参数定义
print(csv_file.shape[0])
print(csv_file.shape[1])

25000095
4


In [7]:
# 查看数据维度（行，列）
csv_file.shape

(10000, 4)

In [8]:
# 将时间戳这个字段属性删除
csv_file = csv_file.drop(['timestamp'], axis=1)

# 查看数据维度（行，列）
csv_file.shape

(10000, 3)

In [9]:
# 数据集划分训练集和测试集

# shuffle = True ：Ture 为打乱数据集进行划分，False为不打乱数据集划分
def random_split (df, ratios, shuffle = True):
    
    # Function to split pandas DataFrame into train, validation and test
    #
    # Params:     
    #    df (pd.DataFrame): Pandas data frame to be split.
    #    ratios (list of floats): list of ratios for split. The ratios have to sum to 1.
    #
    # Returns: 
    #    list: List of pd.DataFrame split by the given specifications.
    # ###################################################################################   
    
    seed = 42                  # Set random seed
    if shuffle == True:
        df = df.sample(frac=1)     # Shuffle the data
    samples = df.shape[0]      # Number of samples
    
    # Converts [0.7, 0.2, 0.1] to [0.7, 0.9]
    split_ratio = np.cumsum(ratios).tolist()[:-1] # Get split index
    
    # Get the rounded integer split index
    split_index = [round(x * samples) for x in split_ratio]
    
    # split the data
    splits = np.split(df, split_index)
    
    # Add split index (this makes splitting by group more efficient).
    for i in range(len(ratios)):
        splits[i]["split_index"] = i

    return splits

# 划分数据集
train, test = random_split(csv_file, [0.8, 0.2])

# 保存数据集为训练集和测试集
# 利用pandas的 DataFrame的to_csv方法，将数据写到一个以逗号分隔的文件中
train.to_csv(data_path + "train.csv")
test.to_csv(data_path + "test.csv")

print(test.shape)
print(train.shape)
train.tail()

(2000, 4)
(8000, 4)


Unnamed: 0,userId,movieId,rating,split_index
8028,61,2606,2.0,0
4501,29,562,3.5,0
2053,12,2149,1.0,0
3551,19,93240,3.5,0
4122,23,2112,5.0,0


In [10]:
csv_file.tail()

Unnamed: 0,userId,movieId,rating
9995,75,736,4.0
9996,75,778,3.0
9997,75,783,3.0
9998,75,805,3.5
9999,75,832,3.0


# 3、数据处理——构建评分矩阵

In [11]:
# 3、数据处理——构建评分矩阵

# 计算用户数量和电影数量
unique_user = csv_file['userId'].unique()
unique_item = csv_file['movieId'].unique()

user_num = unique_user.shape[0]
item_num = unique_item.shape[0]

print("the number of user:",user_num)
print("the number of movie:",item_num)

the number of user: 75
the number of movie: 3287


In [12]:
# 建立用户和物品的索引表
# 本数据集中user_id和item_id都已经是索引了,可以减1，将从1开始编码变成从0开始的编码
# 下面的代码更通用，可对任意编码的用户和物品重新索引
user_index = dict()    # 使用字典索引 保存用户索引
item_index = dict()    # 保存电影索引

for index, user in enumerate(unique_user):
    user_index[user] = index
    
# 重新编码活动索引字典  
# 序列函数，Python有一些有用的序列函数。
# enumerate函数，迭代一个序列时， 你可能想跟踪当前项的序号。 
# 因为这么做很常见， Python内建了一个 enumerate 函数， 可以返回 (i, value) 元组序列：
# 当你索引数据时， 使用 enumerate 的一个好方法是计算序列（唯一的） dict 映射到位置的值：

# 重新编码活动索引字典 
for index, item in enumerate(unique_item):
    item_index[item] = index
    
# 保存重新索引的用户索引表
cPickle.dump(user_index, open(data_path + "user_index.pkl", 'wb'))
# 保存重新索引的电影索引表
cPickle.dump(item_index, open(data_path + "item_index.pkl", 'wb'))

# 查看数据保存的情况
#print(user_index.items())
#print("==============================")
#print(item_index.items())

In [13]:
item_users = defaultdict(set)
item_users

defaultdict(set, {})

In [14]:
# 默认值，下面的逻辑很常见：
# 关于设定值， 常见的情况是在字典的值是属于其它集合， 如列表。
# collections 模块有一个很有用的类， defaultdict ，可以传递类型或函数以生成每个位置的默认值
# setdefault 方法就正是干这个的,这两个有着异曲同工之妙

# 倒排表
# 统计每个用户打过分的电影   / 每个电影被哪些用户打过分
user_items = defaultdict(set)
item_users = defaultdict(set)

# 用户-物品关系矩阵R, 稀疏矩阵，记录用户对每个电影的打分
# user_num —— 代表m行， item_num —— 代表n列，构建 m*n 矩阵
user_item_score = ss.dok_matrix((user_num, item_num))

# 扫描数据，进行记录
for row in csv_file.index:    # csv_file.index > RangeIndex(start=0, stop=10000, step=1)
    # 获取数据的字段属性
    row_info = csv_file.iloc[row]
    
    user_id = row_info["userId"]
    item_id = row_info["movieId"]
    rating = row_info["rating"]
    
    # 当前用户索引，利用重新索引表
    current_user_index = user_index[user_id]
    # 当前电影索引，利用重新索引表
    current_item_index = item_index[item_id]
    
    # 倒排表
    user_items[current_user_index].add(current_item_index)    # 该用户对这个电影进行了打分
    item_users[current_item_index].add(current_user_index)    # 该电影被该用户打分
    
    # 当前用户对当前电影的评分
    user_item_score[current_user_index, current_item_index] = rating    


# 保存倒排表
# 每个用户打分的电影
cPickle.dump(user_items, open(data_path + "user_items.pkl", 'wb'))
# 对每个电影打过分的用户
cPickle.dump(item_users, open(data_path + "item_users.pkl", 'wb'))

# 保存评分矩阵，以便于后面使用
sio.mmwrite(data_path + "user_item_score", user_item_score)

# 查看数据保存的情况
#print(user_items)
#print("==============================")
#print(user_items)
#print("==============================")
#print(user_item_score)

# 4、模型探索

## 4.1、BiasSVD模型 r(ui) = average + bu + bi + Pu'T Qi

### 4.1.1、初始化BiasSVD模型参数


In [15]:
# 4、模型探索

# 4.1、BiasSVD模型 r(ui) = average + bu + bi + Pu'T Qi

# 4.1.1、初始化BiasSVD模型参数

# 隐含变量的维数 m*n = m*k * k*n
# 设置参数变量，可以随时调整模型参数值
k = 40

# Item和User的偏置项
# zeros和ones分别可以创建指定长度或形状的全0或全1数组。
bi = np.zeros((item_num, 1))    # n 行 1 列
bu = np.zeros((user_num, 1))    # m 行 1 列

# Item和User的隐含向量
qi = np.zeros((item_num, k))    # n 行 k 列    
pu = np.zeros((user_num, k))    # m 行 k 列

# 使用numpy.random中的randn函数生成一些正态分布的随机数据
# pu和qi，两个矩阵的初始化，可以使全为零
# 也可以符合正态分布（高斯分布），同时也隐向量的温度k的平方有关，故此可以初始化
for user_id in range(user_num):
    pu[user_id] = np.reshape(random((k, 1)) / 10 * np.sqrt(k), k)
       
for item_id in range(item_num):
    qi[item_id] = np.reshape(random((k, 1)) / 10 * np.sqrt(k), k)

# 所有用户的平均打分
average = csv_file['rating'].mean()


### 4.1.2、根据初始化BiasSVD模型参数进行预测评分


In [16]:
# 4.1.2、根据初始化BiasSVD模型参数进行预测评分
# 根据当前模型参数，预测用户对物品打分
def BiasSVD_prediction(user_id, item_id):  
    score = average + bi[item_id] + bu[user_id] + np.sum(qi[item_id] * pu[user_id]) 
    return score 

In [17]:
user_id = user_index[ csv_file.iloc [row] ['userId'] ]
user_id

74

In [18]:
item_id = csv_file.iloc [row] 
item_id

userId      75.0
movieId    832.0
rating       3.0
Name: 9999, dtype: float64

### 4.1.3、BiasSVD模型训练


In [19]:
# 4.1.3、BiasSVD模型训练

# BiasSVD模型超参数：gamma —— 学习率、Lambda —— 正则参数、steps —— 迭代次数
# 初始化BiasSVD模型超参数
steps = 5
gamma = 0.04
Lambda = 0.15

# 总的评分记录数目
total_records = csv_file.shape[0]

# 第一次迭代时间开始
time_start = time.time()

print("开始进行{}个step的训练".format(steps))

each_time_start = time_start
for step in range(steps):
    print('The {}-th  step is running'.format(step))
    rmse_sum = 0.0    # 真实评分与预测评分的差值的平方            
    
    # 利用numpy.random.permutation函数可以轻松实现对Series或DataFrame的列的排列工作permuting， 随机重排序）
    # 通过需要排列的轴的长度调用permutation， 可产生一个表示新顺序的整数数组
    # 将训练样本打散顺序 
    total_num = np.random.permutation(total_records)  
    for index in range(total_records):
        # 每次一个训练样本,即一条记录
        row = total_num[index]
        
        user_id = user_index[ csv_file.iloc [row] ['userId'] ]
        item_id = item_index[ csv_file.iloc [row] ['movieId'] ]
        rating = csv_file.iloc[row]['rating']
        
        # 目标函数构建
        # 预测残差
        eui = rating - BiasSVD_prediction(user_id, item_id)
        # residual sum of squares 残差平方和 
        rmse_sum += eui**2

        # 随机梯度下降，更新
        bu[user_id] += gamma * (eui - Lambda * bu[user_id])  
        bi[item_id] += gamma * (eui - Lambda * bi[item_id])
                
        temp = qi[item_id]  
        qi[item_id] += gamma * (eui * pu[user_id] - Lambda * qi[item_id])
        pu[user_id] += gamma * (eui * temp - Lambda * pu[user_id])
            
    # 学习率递减
    gamma = gamma * 0.93
    # Root Mean Square Error RMSE
    each_rmse = np.sqrt(rmse_sum / total_records)
    
    # 每次迭代时间结束
    each_time_tick = time.time()
    # 每次迭代消耗的时间
    each_cost_time = each_time_tick - each_time_start
    # 更新计算每次迭代的时间
    each_time_start = each_time_tick

    print("完成第{}个step的训练, rmse={}, 耗时{:.4f}秒".format(
        step + 1, each_rmse, each_cost_time))

# 计算训练数据集消耗的总时间
time_end = time.time()
total_cost_time = time_end - time_start
print("结束了{}个step的训练，总耗时{:.4f}秒".format(steps, total_cost_time))


开始进行5个step的训练
The 0-th  step is running
完成第1个step的训练, rmse=[1.1404187], 耗时15.5349秒
The 1-th  step is running
完成第2个step的训练, rmse=[0.88212268], 耗时15.1859秒
The 2-th  step is running
完成第3个step的训练, rmse=[0.82623763], 耗时14.4428秒
The 3-th  step is running
完成第4个step的训练, rmse=[0.78743791], 耗时14.5438秒
The 4-th  step is running
完成第5个step的训练, rmse=[0.75417417], 耗时14.4078秒
结束了5个step的训练，总耗时74.1162秒


In [20]:
import json    # 将模型参数保存为json文件，加载模型参数json文件
print(bi)
print(qi)

[[ 0.67576256]
 [ 0.23023437]
 [ 0.16621839]
 ...
 [ 0.14021747]
 [-0.10993499]
 [-0.13186611]]
[[0.10514672 0.10433964 0.21246684 ... 0.01330342 0.13103987 0.15793642]
 [0.25326122 0.54388725 0.17494823 ... 0.24567763 0.22499317 0.43867627]
 [0.18921225 0.26408512 0.16073564 ... 0.42450137 0.1446154  0.19650303]
 ...
 [0.10548351 0.3494358  0.48915359 ... 0.51669651 0.07883793 0.55501072]
 [0.47214483 0.59626442 0.54172038 ... 0.42103358 0.03210538 0.46993091]
 [0.27956149 0.06616051 0.54179079 ... 0.15729067 0.30033023 0.5293191 ]]


### 4.1.4、BiasSVD模型参数保存


In [21]:
# 4.1.4、BiasSVD模型参数保存

# 将 BiasSVD 模型参数保存为json， 键（模型参数） 和 值（模型参数值）
def BiasSVD_parameter_toJson(filepath):
    BiasSVD_parameter_dict = dict()
    BiasSVD_parameter_dict['average'] = average
    BiasSVD_parameter_dict['k'] = k
    
    # numpy.ndarray.map() 将列表转换为矩阵
    # numpy.ndarray.tolist() 将矩阵转换为列表
    BiasSVD_parameter_dict['bi'] = bi.tolist()
    BiasSVD_parameter_dict['bu'] = bu.tolist()
    
    BiasSVD_parameter_dict['qi'] = qi.tolist()
    BiasSVD_parameter_dict['pu'] = pu.tolist()

    # json.loads即可将JSON字符串转换成Python形式
    # json.dumps则将Python对象转换成JSON格式
    BiasSVD_parameter_toJsonTxt = json.dumps(BiasSVD_parameter_dict)
    with open(filepath, 'w') as file:
        file.write(BiasSVD_parameter_toJsonTxt)


In [22]:
# 4.1.5、BiasSVD模型参数加载

def BiasSVD_parameter_load_fromJson(filepath):
    with open(filepath, 'r') as file:
        BiasSVD_parameter_dict = json.load(file)

        average = BiasSVD_parameter_dict['average']
        K = BiasSVD_parameter_dict['k']

        # numpy.asarray 将数据转化为 ndarray 格式
        bi = np.asarray(BiasSVD_parameter_dict['bi'])
        bu = np.asarray(BiasSVD_parameter_dict['bu'])
    
        qi = np.asarray(BiasSVD_parameter_dict['qi'])
        pu = np.asarray(BiasSVD_parameter_dict['pu'])


In [23]:
# 4.1.4、BiasSVD模型参数保存
BiasSVD_parameter_toJson(data_path + 'BiasSVD_modelParameter.json')

# 4.1.5、BiasSVD模型参数加载
BiasSVD_parameter_load_fromJson(data_path + 'BiasSVD_modelParameter.json')

In [24]:
# 4.1.6、BiasSVD模型参数传递给预测函数

# 4.1.2、根据初始化BiasSVD模型参数进行预测评分
# 根据当前模型参数，预测用户对物品打分
#def BiasSVD_prediction(user_id, item_id):  
 #   score = average + bi[item_id] + bu[user_id] + np.sum(qi[item_id] * pu[user_id]) 
  #  return score 


In [25]:
# 4.1.7、BiasSVD模型读取测试集数据

#test_set_data = pd.read_csv(data_path + "test.csv")
#test_set_data = test_set_data.drop(['timestamp'], axis=1)
#test_set_data.head()


# Evaluation

## Prediction Metrics (Similiar to Regression Problem)
    - RMSE（均方根误差）
    - MSE（均方误差）
    - MAE（平均绝对误差）

### Hit Metrics (Similiar to Classification Metrics)
**Hit** 
- defined by relevancy, a hit usually means whether the recommended "k" items hit the "relevant" items by the user. 

For example, a user may have clicked, viewed, or purchased an item for many times, and a hit in the recommended items indicate that the recommender performs well. 
Metrics like "precision", "recall", etc. measure the performance of such hitting accuracy.

    - Precision@k（精确率）
    - Recall@k（召回率）
  

### Ranking Metrics

**Ranking** 
- ranking metrics give more explanations about, for the hitted items, whether they are ranked in a way that is preferred by the users whom the items will be recommended to.

Metrics like "mean average precision", "ndcg", etc., evaluate whether the relevant items are ranked higher than the less-relevant or irrelevant items. 

    - MeanReciprocalRank@k
    - MeanAveragePrecision@k
    - NDCG@k


### 4.1.6、BiasSVD模型评测指标


In [26]:
# 4.1.6、BiasSVD模型评测指标

# 数据集的总的样本空间数 T
# 真实的用户对物品的评分 rui
# 预测的用户对物品的评分 r`ui
# 真实评分与预测评分的差值 rss = rui - r`ui

# 对 rss 进行绝对值得到 rss_absolute
# 对 rss_absolute 进行求和得到 rss_absolute_sum
# MAE = rss_absolute_sum / T

# 对 rss 进行平方得到 rss_square
# 对 rss_square 进行求和得到 rss_square_sum
# RMSE = rss_square_sum / T
# MSE = rss_square / T

def calculate_MAE(dataset):
    mae_sum = 0.0    # 真实评分与预测评分的差值的绝对值之和
    T = dataset.shape[0]
    total_num = np.random.permutation(T)
    for index in range(T):
        # 每次计算一个样本,即一条记录
        row = total_num[index]
        rating = dataset.iloc[row]['rating']
        
        # 预测残差
        eui = rating - BiasSVD_prediction(user_id, item_id)
        # residual sum of squares 残差平方和 
        mae_sum += abs(eui)
            
    # Root Mean Square Error RMSE
    MAE = mae_sum / total_records
    return MAE
    

def calculate_RMSE(dataset):
    rmse_sum = 0.0    # 真实评分与预测评分的差值的平方和
    T = dataset.shape[0]
    total_num = np.random.permutation(T)
    for index in range(T):
        # 每次计算一个样本,即一条记录
        row = total_num[index]
        rating = dataset.iloc[row]['rating']
        
        # 预测残差
        eui = rating - BiasSVD_prediction(user_id, item_id)
        # residual sum of squares 残差平方和 
        rmse_sum += eui**2
            
    # Root Mean Square Error RMSE
    RMSE = np.sqrt(rmse_sum / total_records)
    return RMSE

# 训练集评测指标：RMSE、MAE
print("the MAE of the RS of the train set :", calculate_MAE(train))
print("the RMSE of the RS of the train set :", calculate_RMSE(train))
print("====================================================")
# 测试集评测指标：RMSE、MAE
#print("the MAE of the RS of the test set :", calculate_MAE(test))
#print("the RMSE of the RS of the test set :", calculate_RMSE(test))
#print("====================================================")

the MAE of the RS of the train set : [0.64297474]
the RMSE of the RS of the train set : [0.90521144]


In [27]:
train


Unnamed: 0,userId,movieId,rating,split_index
7502,59,1343,3.5,0
1332,8,180,4.0,0
3986,23,1094,5.0,0
2807,13,69844,3.5,0
6646,49,435,3.0,0
...,...,...,...,...
8028,61,2606,2.0,0
4501,29,562,3.5,0
2053,12,2149,1.0,0
3551,19,93240,3.5,0


# 4.2、Funk SVD模型


# 4.2.1、LFM模型



In [160]:
# 4.2.1、LMF模型

# ##########################
#
# 核心算法实现
#
# @输入参数
#     R —— M*N 评分矩阵
#     k —— 隐向量的维度
#     theta —— 迭代次数
#     alpha —— 步长（学习率）
#     lamda —— 正则化系数
#
# @输出参数
#     分解之后的 P，Q
#     P：初始化用户特征矩阵 M*K
#     Q：初始化物品特征矩阵 N*K
#
# ##########################

# 设定模型参数
K = 5
theta = 100
alpha = 0.0002
lamda = 0.004

# 核心算法
def LFM_grad_desc( R, K, theta, alpha, lamda ):
    # 基本维度参数定义
    M = R.shape[0]
    N = R.shape[1]
    
    # P,Q初始值，随机生成
    P = np.random.rand(M, K)
    Q = np.random.rand(N, K)
    Q = Q.T
    
    # 开始迭代
    for step in range(theta):
        print("开始第{}次迭代训练".format(step))
        # 对所有的用户u、物品i做遍历，对应的特征向量Pu、Qi梯度下降
        for u in range(M):
            for i in range(N):
                # 对于每一个大于0的评分，求出预测评分误差
                if R[u, i] > 0:
                    eui = np.dot( P[u,:], Q[:,i] ) - R[u, i]
                    
                    # 代入公式，按照梯度下降算法更新当前的Pu、Qi
                    for k in range(K):
                        P[u][k] = P[u][k] - alpha * ( 2 * eui * Q[k][i] + 2 * lamda * P[u][k] )
                        Q[k][i] = Q[k][i] - alpha * ( 2 * eui * P[u][k] + 2 * lamda * Q[k][i] )
        
        # u、i遍历完成，所有特征向量更新完成，可以得到P、Q，可以计算预测评分矩阵
        predR = np.dot( P, Q )
        
        # 计算当前损失函数
        cost = 0
        for u in range(M):
            for i in range(N):
                if R[u, i] > 0:
                    cost += ( np.dot( P[u,:], Q[:,i] ) - R[u, i] ) ** 2
                    # 加上正则化项
                    for k in range(K):
                        cost += lamda * ( P[u][k] ** 2 + Q[k, i] ** 2 )
        print("第{}次迭代结束".format(step))
        if cost < 0.0001:
            break
        
    return P, Q.T, cost

In [161]:
type(user_item_score)

scipy.sparse.dok.dok_matrix

In [162]:
import scipy
# todense() 转换为矩阵 numpy 
R = scipy.sparse.csc_matrix.todense(user_item_score)
type(R)

numpy.matrix

In [163]:
P, Q, ess = LFM_grad_desc( R, K, theta, alpha, lamda )

开始第0次迭代训练
第0次迭代结束
开始第1次迭代训练
第1次迭代结束
开始第2次迭代训练
第2次迭代结束
开始第3次迭代训练
第3次迭代结束
开始第4次迭代训练
第4次迭代结束
开始第5次迭代训练
第5次迭代结束
开始第6次迭代训练
第6次迭代结束
开始第7次迭代训练
第7次迭代结束
开始第8次迭代训练
第8次迭代结束
开始第9次迭代训练
第9次迭代结束
开始第10次迭代训练
第10次迭代结束
开始第11次迭代训练
第11次迭代结束
开始第12次迭代训练
第12次迭代结束
开始第13次迭代训练
第13次迭代结束
开始第14次迭代训练
第14次迭代结束
开始第15次迭代训练
第15次迭代结束
开始第16次迭代训练
第16次迭代结束
开始第17次迭代训练
第17次迭代结束
开始第18次迭代训练
第18次迭代结束
开始第19次迭代训练
第19次迭代结束
开始第20次迭代训练
第20次迭代结束
开始第21次迭代训练
第21次迭代结束
开始第22次迭代训练
第22次迭代结束
开始第23次迭代训练
第23次迭代结束
开始第24次迭代训练
第24次迭代结束
开始第25次迭代训练
第25次迭代结束
开始第26次迭代训练
第26次迭代结束
开始第27次迭代训练
第27次迭代结束
开始第28次迭代训练
第28次迭代结束
开始第29次迭代训练
第29次迭代结束
开始第30次迭代训练
第30次迭代结束
开始第31次迭代训练
第31次迭代结束
开始第32次迭代训练
第32次迭代结束
开始第33次迭代训练
第33次迭代结束
开始第34次迭代训练
第34次迭代结束
开始第35次迭代训练
第35次迭代结束
开始第36次迭代训练
第36次迭代结束
开始第37次迭代训练
第37次迭代结束
开始第38次迭代训练
第38次迭代结束
开始第39次迭代训练
第39次迭代结束
开始第40次迭代训练
第40次迭代结束
开始第41次迭代训练
第41次迭代结束
开始第42次迭代训练
第42次迭代结束
开始第43次迭代训练
第43次迭代结束
开始第44次迭代训练
第44次迭代结束
开始第45次迭代训练
第45次迭代结束
开始第46次迭代训练
第46次迭代结束
开始第47次迭代训练
第47次迭代结束
开始第48次迭代训练
第48次迭代结束
开始第49次迭代训练
第49次迭代结束
开始第50次迭代训练
第50次迭代结束


In [164]:
pred_R = np.dot( P, Q.T )

In [165]:
R

matrix([[5. , 3.5, 5. , ..., 0. , 0. , 0. ],
        [0. , 0. , 0. , ..., 0. , 0. , 0. ],
        [5. , 0. , 0. , ..., 0. , 0. , 0. ],
        ...,
        [0. , 0. , 0. , ..., 5. , 3. , 3. ],
        [4. , 0. , 0. , ..., 0. , 0. , 0. ],
        [3. , 0. , 0. , ..., 0. , 0. , 0. ]])

In [166]:
pred_R

array([[4.37959329, 4.0725477 , 4.18356673, ..., 4.69714686, 3.90617653,
        2.61912681],
       [4.59797716, 3.91564098, 4.48648135, ..., 4.42639821, 3.88860296,
        2.5100853 ],
       [4.68576784, 3.75297097, 4.38167271, ..., 4.61796773, 4.13431216,
        2.68262305],
       ...,
       [4.31799322, 3.48791513, 4.20280659, ..., 4.11376324, 3.7330166 ,
        2.41233162],
       [3.75739151, 2.34562796, 3.34480073, ..., 2.91062119, 2.70598974,
        1.6038933 ],
       [3.94888511, 2.8223501 , 3.44333452, ..., 3.7319565 , 3.33734725,
        2.12707708]])

In [167]:
# LFM模型评测指标
# RMSE 和 MAE

def calc_evaluation(R, pred_R):
    mae_sum = 0.0
    rmse_sum = 0.0
    # 基本维度参数定义
    M = R.shape[0]
    N = R.shape[1]
    T = 0
    
    for user in range(M):
        for item in range(N):
            if R[user, item] > 0:
                T += 1
                ess = R[user, item] - pred_R[user, item]
                mae_sum += abs(ess)
                rmse_sum += ess**2
    
    # 计算总的 MAE 指标
    MAE = mae_sum / T
    # Root Mean Square Error RMSE
    RMSE = np.sqrt(rmse_sum / T)
    return MAE, RMSE

In [168]:
MAE, RMSE = calc_evaluation(R, pred_R)
print("the MAE of LFM:", MAE)
print("the RMSE OF LFM:", RMSE) # 迭代次数为 100

the MAE of LFM: 0.6362259409159522
the RMSE OF LFM: 0.8156477605909996


In [158]:
MAE # 迭代次数为 10

1.2089128969454637

In [159]:
RMSE

1.492576522778719