### 利用SVD简化数据
##### SVD：Singular Value Decomposition
##### 奇异值分解：将一个矩阵划分为多个矩阵的乘积
##### A=U*Sigma*V.T，其中Sigma矩阵只有对角元素，这些对角元素称为奇异值，对应了原始数据的奇异值
##### 奇异值分解优点：简化数据、去除噪声、提高算法结果
##### 奇异值分解缺点：数据的转换难以理解；适用数据类型：数值型数据
##### 隐性语义索引：LSI；隐性语义分析：LSA
##### 推荐系统：简单版本的推荐系统能够计算item与person之间的相似度；更先进的则使用SVD

In [33]:
from numpy import *
from numpy import linalg as la

# 创建数据集
def loadExData():
    dataMat=[[0, 0, 0, 2, 2],
           [0, 0, 0, 3, 3],
           [0, 0, 0, 1, 1],
           [1, 1, 1, 0, 0],
           [2, 2, 2, 0, 0],
           [5, 5, 5, 0, 0],
           [1, 1, 1, 0, 0]]
    return dataMat

def dataInfo():
    dataMat=mat(loadExData())
    import pandas as pd
    data=pd.DataFrame()
    print('该矩阵中，每一个数字表示不同品菜师或者对不同菜品的打分情况（0~5分）')
    data['person']=['Ed','Peter','Tracy','Fan','Ming','Pachi','QinHsiu']
    data['鳗鱼饭']=dataMat[:,0]
    data['日式炸鸡排']=dataMat[:,1]
    data['寿司饭']=dataMat[:,2]
    data['烤牛肉']=dataMat[:,3]
    data['手撕猪肉']=dataMat[:,4]
    return data

dataInfo()
    

该矩阵中，每一个数字表示不同品菜师或者对不同菜品的打分情况（0~5分）


Unnamed: 0,person,鳗鱼饭,日式炸鸡排,寿司饭,烤牛肉,手撕猪肉
0,Ed,0,0,0,2,2
1,Peter,0,0,0,3,3
2,Tracy,0,0,0,1,1
3,Fan,1,1,1,0,0
4,Ming,2,2,2,0,0
5,Pachi,5,5,5,0,0
6,QinHsiu,1,1,1,0,0


In [7]:
print("SVD分解一个矩阵")
testMat=mat([[1,1],[7,7]])
U,Sigma,VT=la.svd(testMat)
# Sigma只返回对角上的元素
print("U：",U)
print("Sigma：",Sigma)
print("V转置：",VT)

SVD分解一个矩阵
U： [[-0.14142136 -0.98994949]
 [-0.98994949  0.14142136]]
Sigma： [1.00000000e+01 2.82797782e-16]
V转置： [[-0.70710678 -0.70710678]
 [ 0.70710678 -0.70710678]]


In [9]:
def loadExData2():
    return[[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],
           [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],
           [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],
           [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],
           [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],
           [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],
           [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],
           [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],
           [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],
           [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],
           [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]

def testSVD():
    data1=loadExData()
    U,Sigma,VT=la.svd(data1)
    #print("U：",U)
    print("Sigma：",Sigma)
    #print("V转置：",VT)
    data2=loadExData2()
    U,Sigma,VT=la.svd(data2)
    #print("U：",U)
    #print("Sigma：",Sigma)
    #print("V转置：",VT)
    
testSVD()

Sigma： [9.64365076e+00 5.29150262e+00 7.80307960e-16 4.02009206e-17
 1.38744823e-33]


##### 根据分解的矩阵重构原始矩阵


In [32]:
data=[[1,1,1,0,0],[2,2,2,0,0],[1,1,1,0,0],[5,5,5,0,0],[1,1,0,2,2],[0,0,0,3,3],[0,0,0,1,1]]
U,Sigma,VT=la.svd(data)
Sig3=eye(3)
for i in range(3):
    Sig3[i,i]=Sigma[i]
    
# print(Sigma[0])
mat(U[:,:3])*mat(Sig3)*mat(VT[:3,:])

matrix([[ 1.00000000e+00,  1.00000000e+00,  1.00000000e+00,
         -2.30650278e-16, -2.30650278e-16],
        [ 2.00000000e+00,  2.00000000e+00,  2.00000000e+00,
          1.16953595e-16,  1.16953595e-16],
        [ 1.00000000e+00,  1.00000000e+00,  1.00000000e+00,
          1.58903967e-15,  1.58903967e-15],
        [ 5.00000000e+00,  5.00000000e+00,  5.00000000e+00,
         -6.45930074e-17, -6.45930074e-17],
        [ 1.00000000e+00,  1.00000000e+00, -7.20106996e-16,
          2.00000000e+00,  2.00000000e+00],
        [ 1.10411002e-16,  1.37358370e-15, -1.33805337e-15,
          3.00000000e+00,  3.00000000e+00],
        [ 7.03369330e-17,  4.84455605e-16, -5.51120132e-16,
          1.00000000e+00,  1.00000000e+00]])

### 对于具体保留多少个奇异值的方法，有两种方法
##### 1.保留矩阵中90%的能量信息，总的能量信息等于奇异值平方求和，通过奇异值累加到90%即可
##### 2，对于较多（上万）奇异值时，可以采用保留前2000~3000个奇异值
### 基于协同过滤的推荐引擎
##### 通过将用户信息与其他用户进行比对来实现推荐
##### 相似度计算：第一种是欧氏距离，就是通过做差再平方求和之后开方，可以1/(1+k)将其固定在(0,1]
##### 第二种：皮尔逊相关系数：度量两个向量之间的相似度，其对用户的某些差异较大的数据不敏感,取值为[-1,1]
##### 第三种：余弦相似度：计算两个向量之间夹角的余弦值，如果两向量垂直，则相似度为0，方向相同则相似度为1

In [35]:
from numpy import *
from numpy import linalg as la


def ecludSim(inA,inB):
    return 1.0/(1.0 + la.norm(inA - inB))

def pearsSim(inA,inB):
    if len(inA) < 3 :
        return 1.0
    return 0.5+0.5*corrcoef(inA, inB, rowvar = 0)[0][1]

def cosSim(inA,inB):
    num = float(inA.T*inB)
    denom = la.norm(inA)*la.norm(inB)
    return 0.5+0.5*(num/denom)

def loadExData():
    dataMat=[[0, 0, 0, 2, 2],
           [0, 0, 0, 3, 3],
           [0, 0, 0, 1, 1],
           [1, 1, 1, 0, 0],
           [2, 2, 2, 0, 0],
           [5, 5, 5, 0, 0],
           [1, 1, 1, 0, 0]]
    return dataMat

def test():
    dataMat=mat(loadExData())
    fishRice=dataMat[:,0]
    pigMeat=dataMat[:,4]
    print("欧式距离计算相似度：", ecludSim(fishRice, pigMeat))
    print("皮尔逊系数计算相似度：", pearsSim(fishRice, pigMeat))
    print('向量余弦计算相似度：',cosSim(fishRice, pigMeat))
    
test()

欧式距离计算相似度： 0.12973190755680383
皮尔逊系数计算相似度： 0.20596538173840329
向量余弦计算相似度： 0.5


##### 基于物品的相似度与基于用户的相似度
##### 倾向于计算更少数据的相似度
##### 评价指标：RMSE（最小均方根误差）

### 推荐N个未品尝过的菜肴
##### 1，寻找用户未评级的菜品
##### 2，在未评级菜品中对于每一个物品预计一个评级分数，预测用户对其的打分
##### 3，对这些评级物品排序，返回前N个菜品

In [46]:
from numpy import *
from numpy import linalg as la

# 参数分别为：数据矩阵、用户编号、相似度计算方法、物品编号
def standEst(dataMat, user, simMeas, item):
    # 菜品数目
    n = shape(dataMat)[1]
    # 初始化
    simTotal = 0.0; ratSimTotal = 0.0
    # 对于每一个菜品
    for j in range(n):
        # 用户评级
        userRating = dataMat[user,j]
        if userRating == 0:
            continue
        # 寻找两个用户都评级的物品
        overLap = nonzero(logical_and(dataMat[:,item].A>0, \
                                      dataMat[:,j].A>0))[0]
        # 如果不存在都评价的物品，相似度为0
        if len(overLap) == 0: 
            similarity = 0
        else:
            similarity = simMeas(dataMat[overLap,item], \
                                   dataMat[overLap,j])
        # print('the %d and %d similarity is: %f' % (item, j, similarity))
        # 对相似度求和
        simTotal += similarity
        ratSimTotal += similarity * userRating
    if simTotal == 0:
        return 0
    else:
        return ratSimTotal/simTotal
    

def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst):
    unratedItems = nonzero(dataMat[user,:].A==0)[1]#find unrated items 
    if len(unratedItems) == 0: 
        return 'you rated everything'
    itemScores = []
    for item in unratedItems:
        estimatedScore = estMethod(dataMat, user, simMeas, item)
        itemScores.append((item, estimatedScore))
    return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[:N]

def test():
    myMat=mat(loadExData())
    myMat[0,1]=myMat[0,0]=myMat[1,0]=myMat[2,0]=4
    myMat[3,3]=2
    for i in range(shape(myMat)[0]):
        # ['ecludSim','pearsSim','cosSim']:
        info=recommend(myMat,i,simMeas=ecludSim)
        for k,v in info:
            print("用户: %d 可能对菜品：%d 的评级为：%.2f"%(i,k,v))
    
    
    
test()
    

用户: 0 可能对菜品：2 的评级为：3.60
用户: 1 可能对菜品：2 的评级为：3.67
用户: 1 可能对菜品：1 的评级为：3.61
用户: 2 可能对菜品：2 的评级为：3.00
用户: 2 可能对菜品：1 的评级为：2.83
用户: 3 可能对菜品：4 的评级为：1.65
用户: 4 可能对菜品：3 的评级为：2.00
用户: 4 可能对菜品：4 的评级为：2.00
用户: 5 可能对菜品：3 的评级为：5.00
用户: 5 可能对菜品：4 的评级为：5.00
用户: 6 可能对菜品：3 的评级为：1.00
用户: 6 可能对菜品：4 的评级为：1.00


### 利用SVD提高推荐效果
##### 计算奇异值，查看需要多少维特征

In [76]:
from numpy import *
from numpy import linalg as la

def test():
    dataMat=mat(loadExData2())
    U,Sigma,VT=la.svd(dataMat)
    print(Sigma)
    print("能量之和的百分之九十为：",sum(Sigma**2)*0.9)
    stand=sum(Sigma**2)*0.9
    temp=0
    index=0
    for i in Sigma**2:
        index +=1
        temp +=i
        if temp>=stand:
            print("前 %d 个元素之后不低于能量的 0.9 其能量之和为:  %.2f "%(index,temp))
            break
    
test()
    
    

[15.77075346 11.40670395 11.03044558  4.84639758  3.09292055  2.58097379
  1.00413543  0.72817072  0.43800353  0.22082113  0.07367823]
能量之和的百分之九十为： 487.7999999999997
前 3 个元素之后不低于能量的 0.9 其能量之和为:  500.50 


In [80]:
### 基于SVD的评分估计
def svdEst(dataMat, user, simMeas, item):
    n = shape(dataMat)[1]
    simTotal = 0.0; ratSimTotal = 0.0
    U,Sigma,VT = la.svd(dataMat)
    # 创建对角矩阵
    Sig4 = mat(eye(4)*Sigma[:4]) #arrange Sig4 into a diagonal matrix
    # 构建转换后的矩阵
    xformedItems = dataMat.T * U[:,:4] * Sig4.I  #create transformed items
    for j in range(n):
        userRating = dataMat[user,j]
        if userRating == 0 or j==item: continue
        similarity = simMeas(xformedItems[item,:].T,\
                             xformedItems[j,:].T)
        # print('the %d and %d similarity is: %f' % (item, j, similarity))
        simTotal += similarity
        ratSimTotal += similarity * userRating
    if simTotal == 0:
        return 0
    else: 
        return ratSimTotal/simTotal
    
def test():
    myMat=mat(loadExData())
    myMat[0,1]=myMat[0,0]=myMat[1,0]=myMat[2,0]=4
    myMat[3,3]=2
    for i in range(shape(myMat)[0]):
        # ['ecludSim','pearsSim','cosSim']:
        info=recommend(myMat,i,estMethod=svdEst)
        for k,v in info:
            print("用户: %d 可能对菜品：%d 的评级为：%.2f"%(i,k,v))
    
test()

用户: 0 可能对菜品：2 的评级为：3.16
用户: 1 可能对菜品：2 的评级为：3.42
用户: 1 可能对菜品：1 的评级为：3.33
用户: 2 可能对菜品：2 的评级为：2.25
用户: 2 可能对菜品：1 的评级为：1.99
用户: 3 可能对菜品：4 的评级为：1.34
用户: 4 可能对菜品：3 的评级为：2.00
用户: 4 可能对菜品：4 的评级为：2.00
用户: 5 可能对菜品：4 的评级为：5.00
用户: 5 可能对菜品：3 的评级为：5.00
用户: 6 可能对菜品：3 的评级为：1.00
用户: 6 可能对菜品：4 的评级为：1.00


### 构建推荐引擎的挑战
##### 一个挑战是在做SVD分解时，会降低程序运行速度
##### 矩阵的表示方法、以及冷启动问题（缺乏足够的数据时）
##### 冷启动问题的解决方案就是将推荐看成搜索问题
##### 可以为物品贴标签，将这些标签属性作为相似度计算所需要的数据（基于内容的推荐）
##### 另外在新增物品时，在协同过滤场景下，由于缺乏用户对新物品的使用以及评价信息，无法判断用户对其喜好，无法利用该商品

In [82]:
# 利用SVD实现对图像的降维处理
def printMat(inMat, thresh=0.8):
    for i in range(32):
        for k in range(32):
            if float(inMat[i,k]) > thresh:
                print(1,end=" ")
            else:
                print(0,end=" ")
        print('')

def imgCompress(numSV=3, thresh=0.8):
    myl = []
    for line in open(r'data/0_5.txt').readlines():
        newRow = []
        for i in range(32):
            newRow.append(int(line[i]))
        myl.append(newRow)
    myMat = mat(myl)
    print("****original matrix******")
    printMat(myMat, thresh)
    U,Sigma,VT = la.svd(myMat)
    SigRecon = mat(zeros((numSV, numSV)))
    for k in range(numSV):#construct diagonal matrix from vector
        SigRecon[k,k] = Sigma[k]
    reconMat = U[:,:numSV]*SigRecon*VT[:numSV,:]
    print("****reconstructed matrix using %d singular values******" % numSV)
    printMat(reconMat, thresh)
    
def test():
    imgCompress(numSV=3, thresh=0.8)
test()

****original matrix******
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 
0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 
0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 
0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 

### 本章小结
##### SVD是一种强大的降维工具，可以利用SVD来逼近矩阵并提取重要特征
##### 通过保留矩阵80%~90%的能量，就可以获得重要特征，并去掉噪声
##### 协同过滤是一种基于用户喜好或行为数据的推荐算法，其核心是相似度计算方法
##### 在大规模数据集上，可以采用离线的方式来进行SVD分解和相似度计算
