# Baseline：基准预测

偏置值（bias）：用户或物品高于或低于平均值的差值。

使用 Baseline 算法思想预测评分的步骤如下：

 - 计算所有电影的平均评分 μ，即全局平均评分。
 
 - 计算每个用户评分与平均评分 μ 的偏置值 bu 。
 
 - 计算每部电影所接受的评分与平均评分 μ 的偏置值 bi 。
 
 - 预测用户对电影的评分：
    
![image.png](attachment:image.png)


# 梯度下降优化Baseline损失

- 所有物品评分平均值

- 找到每一个用户对物品平均评分的偏值 bias ，即 bu

- 找到每一个物品的平均评分的偏值 bias，即 bi

- 预测得分 = mean + bu + bi，u 代表第 u 个用户，i 代表第 i 个物品

- 可以使用梯度下降来优化损失

In [30]:
import pandas as pd
import numpy as np


class BaselineCFBySGD(object): 
    
    """
    初始化
    """
    def __init__(self, number_epochs, alpha, reg, columns=["uid", "iid", "rating"]):
        self.number_epochs = number_epochs  # 梯度下降最高迭代次数
        self.alpha = alpha                  # 学习率
        self.reg = reg                      # 正则参数
        self.columns = columns              # 数据集中 user-item-rating 字段的名称
        
        
    """
    训练数据
    
    :param dataset: uid, movieId, rating
    :return:
    """
    def fit(self, dataset):
        self.dataset = dataset
        
        # 用户评分数据
        # 将数据按照 userId 分组，并使用聚合函数 agg 将结果存储为 list 类型数据
        self.user_ratings =  dataset.groupby(self.columns[0]).agg([list])
        # print(self.user_ratings.head())
        
        # 物品评分数据
        self.item_ratings = dataset.groupby(self.columns[1]).agg([list])
        
        # 计算全局评分
        # 等于 dataset[self.columns[2]].agg(['mean'])
        self.global_mean = self.dataset[self.columns[2]].mean()
        
        # 调用 sgd 方法训练模型参数
        self.bu, self.bi = self.sgd()
        
        
    """
    利用随机梯度下降，优化 bu bi 的值
    
    :return: bu,bi 
    """
    def sgd(self):
        # 初始化 bu bi 的值，全部设为 0
        bu = dict(zip(self.user_ratings.index, np.zeros(len(self.user_ratings))))
        bi = dict(zip(self.item_ratings.index, np.zeros(len(self.item_ratings))))
        
        for i in range(self.number_epochs):
            print("iter%d" % i)
            
            # itertuples：将DataFrame迭代成元组 
            # index=False 表示将 index 列过滤掉
            for uid, iid, real_rating in self.dataset.itertuples(index=False):
                
                # 获取偏值
                error = real_rating - (self.global_mean + bu[uid] + bi[iid])
                
                bu[uid] += self.alpha * (error - self.reg * bu[uid])
                bi[iid] += self.alpha * (error - self.reg * bi[iid])
                
        return bu,bi
    
    
    """
    预测评分
    """
    def predict(self, uid, iid):
        predict_rating = self.global_mean + self.bu[uid] + self.bi[iid]
        return predict_rating
    
        
        
if __name__ == "__main__":
    
    
    # 按照指定类型解析数据
    dtype = [("userId",np.int32), ("movieId",np.int32), ("rating",np.float32)]

    # # 加载数据
    # usecols：指定的列
    dataset = pd.read_csv("ml-latest-small/ratings.csv", usecols=range(3), dtype=dict(dtype))
    
    # 初始化类
    bcf = BaselineCFBySGD(10, 0.1, 0.1, ["userId", "movieId", "rating"])
    
    # 训练数据
    bcf.fit(dataset)
    
    while True:
        uid = int(input("uid: "))
        iid = int(input("iid: "))
        print(bcf.predict(uid, iid))

iter0
iter1
iter2
iter3
iter4
iter5
iter6
iter7
iter8
iter9


KeyboardInterrupt: 