In [1]:
# 这些模块和包都是在逐步的探索中所需要的，然后全部汇总到这里，
#    并不是一开始就知道了 ^_^ ^_^ ^_^
# 1、导入模块和包
import pandas as pd    # 加载并处理csv文件
import datetime        # 利用datetime处理时间戳
import _pickle as cPickle    # 数据以二进制进行高效的储存到文件
from collections import defaultdict     # 利用Python设置稀疏矩阵的NULL位置的默认值
import scipy.sparse as ss     # 利用scipy构建稀疏矩阵
import scipy.io as sio    # 利用scipy储存评分矩阵
import numpy as np    # 利用numpy创建指定长度或形状的矩阵以及矩阵运算
from numpy.random import random    # numpy.random中的randn函数生成一些正态分布的随机数据
import time    # 利用Python内置模块，计算训练时迭代的时间
import json    # 将模型参数保存为json文件，加载模型参数json文件
import scipy    # 将储存加载的稀疏评分矩阵转换为numpy矩阵形式

In [2]:
# 4.2.1、LMF模型

# ##########################
#
# 核心算法实现
#
# @输入参数
#     R —— M*N 评分矩阵
#     k —— 隐向量的维度
#     theta —— 迭代次数
#     alpha —— 步长（学习率）
#     lamda —— 正则化系数
#
# @输出参数
#     分解之后的 P，Q
#     P：初始化用户特征矩阵 M*K
#     Q：初始化物品特征矩阵 N*K
#
# ##########################

# 设定模型参数
K = 5
theta = 100
alpha = 0.0002
lamda = 0.004

# 核心算法
def LFM_grad_desc( R, K, theta, alpha, lamda ):
    # 基本维度参数定义
    M = R.shape[0]
    N = R.shape[1]
    
    # P,Q初始值，随机生成
    P = np.random.rand(M, K)
    Q = np.random.rand(N, K)
    Q = Q.T
    
    # 开始迭代
    for step in range(theta):
        print("开始第{}次迭代训练".format(step))
        # 对所有的用户u、物品i做遍历，对应的特征向量Pu、Qi梯度下降
        for u in range(M):
            for i in range(N):
                # 对于每一个大于0的评分，求出预测评分误差
                if R[u, i] > 0:
                    eui = np.dot( P[u,:], Q[:,i] ) - R[u, i]
                    
                    # 代入公式，按照梯度下降算法更新当前的Pu、Qi
                    for k in range(K):
                        P[u][k] = P[u][k] - alpha * ( 2 * eui * Q[k][i] + 2 * lamda * P[u][k] )
                        Q[k][i] = Q[k][i] - alpha * ( 2 * eui * P[u][k] + 2 * lamda * Q[k][i] )
        
        # u、i遍历完成，所有特征向量更新完成，可以得到P、Q，可以计算预测评分矩阵
        predR = np.dot( P, Q )
        
        # 计算当前损失函数
        cost = 0
        for u in range(M):
            for i in range(N):
                if R[u, i] > 0:
                    cost += ( np.dot( P[u,:], Q[:,i] ) - R[u, i] ) ** 2
                    # 加上正则化项
                    for k in range(K):
                        cost += lamda * ( P[u][k] ** 2 + Q[k, i] ** 2 )
        print("第{}次迭代结束".format(step))
        if cost < 0.0001:
            break
        
    return P, Q.T, cost

In [3]:
# 加载评分矩阵
data_path = "./dataset/ml-25m/"
user_item_score = sio.mmread(data_path + "user_item_score")
# todense() 转换为矩阵 numpy 
R = scipy.sparse.csc_matrix.todense(user_item_score)
type(R)

numpy.matrix

In [4]:
# 开始训练 LFM 模型
P, Q, ess = LFM_grad_desc( R, K, theta, alpha, lamda )

开始第0次迭代训练
第0次迭代结束
开始第1次迭代训练
第1次迭代结束
开始第2次迭代训练
第2次迭代结束
开始第3次迭代训练
第3次迭代结束
开始第4次迭代训练
第4次迭代结束
开始第5次迭代训练
第5次迭代结束
开始第6次迭代训练
第6次迭代结束
开始第7次迭代训练
第7次迭代结束
开始第8次迭代训练
第8次迭代结束
开始第9次迭代训练
第9次迭代结束
开始第10次迭代训练
第10次迭代结束
开始第11次迭代训练
第11次迭代结束
开始第12次迭代训练
第12次迭代结束
开始第13次迭代训练
第13次迭代结束
开始第14次迭代训练
第14次迭代结束
开始第15次迭代训练
第15次迭代结束
开始第16次迭代训练
第16次迭代结束
开始第17次迭代训练
第17次迭代结束
开始第18次迭代训练
第18次迭代结束
开始第19次迭代训练
第19次迭代结束
开始第20次迭代训练
第20次迭代结束
开始第21次迭代训练
第21次迭代结束
开始第22次迭代训练
第22次迭代结束
开始第23次迭代训练
第23次迭代结束
开始第24次迭代训练
第24次迭代结束
开始第25次迭代训练
第25次迭代结束
开始第26次迭代训练
第26次迭代结束
开始第27次迭代训练
第27次迭代结束
开始第28次迭代训练
第28次迭代结束
开始第29次迭代训练
第29次迭代结束
开始第30次迭代训练
第30次迭代结束
开始第31次迭代训练
第31次迭代结束
开始第32次迭代训练
第32次迭代结束
开始第33次迭代训练
第33次迭代结束
开始第34次迭代训练
第34次迭代结束
开始第35次迭代训练
第35次迭代结束
开始第36次迭代训练
第36次迭代结束
开始第37次迭代训练
第37次迭代结束
开始第38次迭代训练
第38次迭代结束
开始第39次迭代训练
第39次迭代结束
开始第40次迭代训练
第40次迭代结束
开始第41次迭代训练
第41次迭代结束
开始第42次迭代训练
第42次迭代结束
开始第43次迭代训练
第43次迭代结束
开始第44次迭代训练
第44次迭代结束
开始第45次迭代训练
第45次迭代结束
开始第46次迭代训练
第46次迭代结束
开始第47次迭代训练
第47次迭代结束
开始第48次迭代训练
第48次迭代结束
开始第49次迭代训练
第49次迭代结束
开始第50次迭代训练
第50次迭代结束


In [5]:
# 通过训练的 P和 Q 计算出预测评分矩阵
pred_R = np.dot( P, Q.T )

In [6]:
# 查看原始评分矩阵
print(R)

# 查看预测评分矩阵
print(pred_R)

[[2.  0.  0.  ... 0.  0.  0. ]
 [0.  5.  0.  ... 0.  0.  0. ]
 [0.  0.  3.5 ... 0.  0.  0. ]
 ...
 [0.  0.  0.  ... 0.  0.  0. ]
 [0.  0.  0.  ... 0.  0.  0. ]
 [0.  0.  0.  ... 0.  0.  0. ]]
[[1.81997774 3.70500913 2.7721907  ... 2.10210662 3.20071993 3.15244949]
 [1.72248078 3.14125531 2.82133126 ... 1.97295651 3.07101939 2.84086225]
 [1.91680913 3.51910495 3.01914877 ... 2.07485048 3.63611049 3.05844255]
 ...
 [1.52083798 2.9100801  2.10877275 ... 1.45359534 2.79854783 2.44302023]
 [1.7574392  3.17843482 3.13337157 ... 2.03826032 3.11554479 2.79861946]
 [1.47630212 3.02658913 2.1456578  ... 1.35490348 2.70056746 2.29415755]]


In [9]:
# 查看训练后的 P 和 Q 矩阵
print(P)
print("====================================================")
print(Q)

[[1.04522668 1.3098039  1.24531841 0.81362585 1.52680733]
 [1.01876636 1.27224132 0.88063744 1.03252428 1.22234485]
 [1.16098847 0.89530005 1.17037215 1.56074187 1.22290952]
 [1.23971922 1.03274127 1.16247168 1.18100652 1.44816497]
 [1.26048827 1.17150389 1.49481865 1.33771371 0.77582581]
 [1.32194358 1.07023759 1.51013497 1.22686157 1.04366229]
 [1.37788385 1.10266049 1.68152439 1.29946278 1.37681107]
 [1.3403602  1.37195972 1.16594337 1.36094134 1.75939818]
 [1.12573858 1.09733649 0.95856618 1.39120172 1.07279106]
 [1.09496704 0.97232826 1.31498484 1.26774867 1.12240342]
 [1.23585391 1.06813548 1.80357974 1.1588287  1.63855461]
 [1.44503199 1.20576606 1.5569306  1.17549262 1.30078182]
 [1.16273536 1.21696437 1.46575865 1.32124267 1.46035303]
 [1.47634636 1.17576498 0.77171321 0.78777255 1.33693378]
 [1.07751382 0.41127439 0.8667306  1.09307883 0.6896588 ]
 [0.7259751  1.61943646 1.60243843 1.28394903 1.16272287]
 [0.91150966 1.19914103 1.00925471 1.71029864 1.34552774]
 [1.45047092 1

In [10]:
# LFM模型评测指标
# RMSE 和 MAE

def calc_evaluation(R, pred_R):
    mae_sum = 0.0
    rmse_sum = 0.0
    # 基本维度参数定义
    M = R.shape[0]
    N = R.shape[1]
    T = 0
    
    for user in range(M):
        for item in range(N):
            if R[user, item] > 0:
                T += 1
                ess = R[user, item] - pred_R[user, item]
                mae_sum += abs(ess)
                rmse_sum += ess**2
    
    # 计算总的 MAE 指标
    MAE = mae_sum / T
    # Root Mean Square Error RMSE
    RMSE = np.sqrt(rmse_sum / T)
    return MAE, RMSE

In [11]:
MAE, RMSE = calc_evaluation(R, pred_R)
print("the MAE of LFM:", MAE)
print("the RMSE OF LFM:", RMSE) # 迭代次数为 100

the MAE of LFM: 0.6513055618392573
the RMSE OF LFM: 0.8312878250829656
