# 关于 SVD 在推荐系统的使用

In [1]:
import pandas as pd
import numpy as np

比如现在有一份关于顾客对 11 个菜品的评分，打分表如下所示：

如何根据打分表为不同用户推荐菜品呢？

* 通过协同过滤的思路，通过其他用户的评价记录，衡量出这个菜品和该用户评价过的其他菜品的相似度，利用该用户对其他菜品的评分记录和菜品相似度，估计出用户会给这个未评分的菜品打出多少分

In [36]:
df = pd.read_excel('data1.xlsx')
# df.rename(columns = ['叉烧粉','手抓饭','四川火锅','烧鹅饭','大盘鸡面','饺子','辣子鸡','虾饺','芋头','拉面','羊排'])
df.columns = ['叉烧肠粉','手抓饭','四川火锅','粤式烧鹅饭','大盘鸡面','东北饺子','辣子鸡','虾饺','剁椒鱼头','拉面','烤羊排']
df

Unnamed: 0,叉烧肠粉,手抓饭,四川火锅,粤式烧鹅饭,大盘鸡面,东北饺子,辣子鸡,虾饺,剁椒鱼头,拉面,烤羊排
0,5,2,1,4,0,0,2,4,0,0,0
1,0,0,0,0,0,0,0,0,0,3,0
2,1,0,5,2,0,0,3,0,3,0,1
3,0,5,0,0,4,0,1,0,0,0,0
4,0,0,0,0,0,4,0,0,0,4,0
5,0,0,1,0,0,0,1,0,0,5,0
6,5,0,2,4,2,1,0,3,0,1,0
7,0,4,0,0,5,4,0,0,0,0,5
8,0,0,0,0,0,0,4,0,4,5,0
9,0,0,0,4,0,0,1,5,0,0,0


In [8]:
scoredata = df.values

## 计算菜品之间的相似度

余弦相似度计算公式：

![](./static/1.jpg)

余弦相似度的归一化处理，使其范围为[-1,1] ：

![](./static/2.jpg)


In [40]:
# 通过余弦相似度来计算两个菜品之间的相似度
def cosSim(vec_1,vec_2):
    dotPord = float(np.dot(vec_1.T,vec_2)) # 向量相乘
    normProd = np.linalg.norm(vec_1) * np.linalg.norm(vec_2)
    return 0.5 + 0.5 * (dotPord /normProd)

#### 现在生成一组数据来检测一下菜品之间的相似度

In [31]:
data = {'叉烧粉':[5,1,5,4],'火锅':[1,5,2,1],'烧鹅饭':[4,2,4,4]}
tmp_data = pd.DataFrame(columns=['叉烧粉','火锅','烧鹅饭'],data=data)
tmp_data

Unnamed: 0,叉烧粉,火锅,烧鹅饭
0,5,1,4
1,1,5,2
2,5,2,4
3,4,1,4


In [32]:
tmp_data = tmp_data.values

In [33]:
tmp_data[:,0]

array([5, 1, 5, 4], dtype=int64)

In [34]:
tmp_data[:,2]

array([4, 2, 4, 4], dtype=int64)

In [35]:
print(cosSim(tmp_data[:,0],tmp_data[:,1]))
print(cosSim(tmp_data[:,0],tmp_data[:,2]))
print(cosSim(tmp_data[:,1],tmp_data[:,2]))

0.7633073594246896
0.9913137569894804
0.8237880629013667


#### 可以看出 `叉烧粉` 和 `烧鹅饭` 之间的相似度最高，达到 `99%`

## 对稀疏矩阵的降维处理

计算余弦相似度，必须需要依靠已经对该菜品进行打分的顾客进行分析，虽然我们有18位顾客，但是并不是每位顾客都品尝过相同的菜品，所以存在大量的顾客对某些菜品的评分为0，接下来我们想要尝试：

__`能否通过实际的打分情况，按行对数据进行压缩，将其转化成一个低维的矩阵，再进行相似度处理，这样能有效避免稀疏矩阵的一些不足。`__

In [11]:
U ,sigma, VT = np.linalg.svd(scoredata)
print(sigma)

[18.00984878 13.34523472 11.52884033 10.1161419   7.13556169  5.86405759
  4.87893356  3.59711712  3.28710923  2.48996847  2.06103963]


可以看到这里 __从大到小依次获取了11个特征值__，为了达到压缩的目的，我们需要选取k个奇异值，这里我们采用主成分贡献率为90%的前k个奇异值（通过奇异值的平方和达到所有平方和的90%）。

In [14]:
sigmaSum = 0
for k in range(len(sigma)):
    sigmaSum = sigmaSum + sigma[k] * sigma[k]
    if float(sigmaSum)/float(np.sum(sigma**2)) > 0.9:
        print(sigma[:k+1])
        print('k为前：',k+1,'位奇异值')
        break

[18.00984878 13.34523472 11.52884033 10.1161419   7.13556169  5.86405759]
k为前： 6 位奇异值


这里我们知道通过前6位奇异值就可以达到主成分贡献率的90%，接下来开始将 18 维的数据降到 6 维

### 值得注意的是：

__虽然对行进行降维使用 np.dot(U.T[:6,:],scoredata) 即可，但是推荐算法中通常会乘上 `奇异值方阵` ，赋予对应的`权重` __

In [16]:
sigma_k = np.mat(np.eye(6) * sigma[:6])         # 通过获取到的奇异值将其转化成一个对角阵
scoreDataRC = sigma_k * U.T[:6,:] * scoredata   
scoreDataRC

matrix([[-112.4308753 , -112.87222698, -124.19623361, -105.3993477 ,
         -111.288632  ,  -73.59389971, -135.0414711 , -100.44297783,
          -64.70437823,  -40.78142832,  -36.26815254],
        [  72.48369701,  -41.51056586,   -2.73164141,   63.4068466 ,
          -80.85031966,  -74.17305344,   -5.56275757,   78.96337678,
           -0.5442874 ,  -22.36535334,  -43.68006783],
        [ -37.12342785,  -37.62324399,   48.30321076,  -12.27825448,
          -44.01558208,  -15.58603044,   61.15421157,  -29.1271841 ,
           51.75734522,   48.33639061,  -24.5927832 ],
        [  17.52124987,  -26.0972729 ,  -31.74323843,    6.7731707 ,
           -9.84514566,   43.42277156,  -20.38567072,   17.78646057,
           -3.58400334,   75.2486827 ,    6.44560751],
        [  -4.65216236,  -30.40184468,   14.31575194,    8.88222668,
           -3.18752866,   25.17373196,   -2.36071622,    3.80908229,
            0.60261906,  -21.93806491,   14.73475607],
        [  12.3915557 ,   -6.280643

## 评分估计

利用顾客已经评过的菜品来预测某个未评分的菜品，通过如下相似度加权的评分方式：

$$ score_x = \frac{score_a * sim_a + score_b * sim_b + score_c * sim_c}{sim_a + sim_b + sim_c}$$

$$ score_a score_b score_c 是该顾客已经评价过的菜品的评分 $$ 
$$ sim_a sim_b sim_c 是该菜品与 要预测的 x 的菜品的相似度 $$ 

通过上面这个公式我们可以估计出该顾客所有未买过的菜品的评分，然后取估计评分最高的几个来进行推荐

In [38]:
def estScore(user_index,item_index,scoredata,scoreDataRC):
    n = scoredata.shape[1]
    simsum = 0
    simsumscore = 0
    
    for i in range(n):
        userscore = scoredata[user_index,i]
        if userscore == 0 or item_index == i:   # 如果该菜品评分为0或者是我们要预估评分的菜品就跳过
            continue
        sim = cosSim(scoreDataRC[:,i],scoreDataRC[:,item_index])         # 根据降维得到的新矩阵来预测菜品之间的相似度
        simsum = float(simsum + sim)
        simsumscore = simsumscore + userscore * sim
    
    if simsum == 0:
        return 0
    
    return simsumscore/simsum    

## 开始预测菜品评分

In [41]:
n = scoredata.shape[1]
userindex = 17

for i in range(n):
    if scoredata[userindex,i] != 0:
        continue
    print("index:{},score:{}".format(i,estScore(userindex,i,scoredata,scoreDataRC)))

index:0,score:2.6347116715331174
index:4,score:2.9259893459771122
index:5,score:2.9337238848085874
index:8,score:2.965707317848274
index:9,score:2.9057073432965526
index:10,score:2.9263484655262877


## 小结

可以看出 index 为 8 的菜品（剁椒鱼头）的评分高，根据第 18 位顾客的其他评分来看，我们可以看出他对 四川火锅 和 辣子鸡 的得分较高，可以看出他可能喜欢偏辣的菜品，可以看出推荐较为合理。

同时 index = 0 的菜品（叉烧肠粉），评分最低，经过查表我们能发现对于粤菜，第 18 位顾客的评分普遍偏低，所以也合理。

### 以上，我们便完成了整个 协同过滤 的过程