In [1]:
import numpy as np

## 使用numpy中的 linalg来进行svd分解
svd分解： $$ Data_{m \times n} = U_{m \times m} \Sigma_{m \times n} V^T_{n \times n} $$
其中 $ U_{m \times m} $ 中为左奇异向量，前 $ r $ 个即为所求， $ \Sigma_{m \times n} $ 中对角线上值为奇异值，其余值为0，一般对角线上的值按从大到小排序，且前 $ r $ 个奇异值之和占据整个奇异值之和的大部分，$ r $ 个之后的可置为0，视为噪声或冗余特征。

In [2]:
U, Sigma, VT = np.linalg.svd([[1,1],[7,7]])
print('U:', U)
print('Sigma:', Sigma)
print('VT:', VT)

U: [[-0.14142136 -0.98994949]
 [-0.98994949  0.14142136]]
Sigma: [1.00000000e+01 2.82797782e-16]
VT: [[-0.70710678 -0.70710678]
 [ 0.70710678 -0.70710678]]


In [3]:
def loadExData():
    '''加载数据'''
    return [[1,1,1,0,0],
            [2,2,2,0,0],
            [1,1,1,0,0],
            [5,5,5,0,0],
            [1,1,0,2,2],
            [0,0,0,3,3],
            [0,0,0,1,1]]

In [4]:
Data = loadExData()
U, Sigma, VT = np.linalg.svd(Data)
Sigma

array([9.72140007e+00, 5.29397912e+00, 6.84226362e-01, 4.11502614e-16,
       1.36030206e-16])

可以看到奇异值中前3个数值较大，而后两个太小。于是取前三个近似表示数据集矩阵 $ Data $:
$$ Data_{m \times n} \approx U_{m \times 3} \Sigma_{3 \times 3} V^T_{3 \times r} $$

尝试重构原始矩阵:

In [5]:
Sig3 = np.mat([[Sigma[0],0,0],[0,Sigma[1],0],[0,0,Sigma[2]]])
Data_s = U[:,:3] * Sig3 * VT[:3,:]
Data_s

matrix([[ 1.00000000e+00,  1.00000000e+00,  1.00000000e+00,
          7.75989921e-16,  7.71587483e-16],
        [ 2.00000000e+00,  2.00000000e+00,  2.00000000e+00,
          3.00514919e-16,  2.77832253e-16],
        [ 1.00000000e+00,  1.00000000e+00,  1.00000000e+00,
          2.18975112e-16,  2.07633779e-16],
        [ 5.00000000e+00,  5.00000000e+00,  5.00000000e+00,
          3.00675663e-17, -1.28697294e-17],
        [ 1.00000000e+00,  1.00000000e+00, -5.48397422e-16,
          2.00000000e+00,  2.00000000e+00],
        [ 3.21319929e-16,  4.43562065e-16, -3.48967188e-16,
          3.00000000e+00,  3.00000000e+00],
        [ 9.71445147e-17,  1.45716772e-16, -1.52655666e-16,
          1.00000000e+00,  1.00000000e+00]])

# 小例子：基于协同过滤的推荐引擎
利用用户的评价来进行物品之间相似度的计算。<br>
评价矩阵: $$ \begin{bmatrix} x_1^{(1)} & x_2^{(1)} & \cdots & x_n^{(1)} \\ x_1^{(2)} & x_2^{(2)} & \cdots & x_n^{(2)} \\ \vdots & \vdots & \ddots & \vdots \\ x_1^{(m)} & x_2^{(m)} & \cdots & x_n^{(m)} \\ \end{bmatrix}$$
其中 $ m $ 表示用户数， $ n $ 表示物品数
（1）欧氏距离(物品 $ x_i 与 x_j $ )
$$ dist = \sqrt{(x_i^{(1)} - x_j^{(1)})^2 + x_i^{(2)} - x_j^{(2)})^2 + ... + x_i^{(m)} - x_j^{(m)})^2} $$ 
（2）皮尔逊相关系数
使用numpy中的numpy.corrcoef()来计算，由于皮尔逊系数的取值在 $ [-1,1] $ 之间，因此用 $ 0.5 + 0.5*np.corrcoef() $ 将值映射到 $ [0,1] $
（3）余弦相似度
$$ \cos \theta = \frac{A \cdot B}{|| A || || B ||} $$
余弦相似度取值范围也是 $ [-1,1] $ ，因此使用2范数将值映射到 $ [0,1] $ 。 $ 向量[4,2,2]的 2范数=\sqrt{4^2 + 2^2 + 2^2} $

In [6]:
def euclidSim(inA, inB):
    '''欧氏距离'''
    return 1.0 / (1.0 + np.linalg.norm(inA - inB))

def pearsSim(inA, inB):
    '''皮尔逊相关系数'''
    # 二维或一维情况下，点A与点B可以确定一条直线
    if len(inA) < 3 : return 1.0
    print(np.corrcoef(inA, inB, rowvar = 0))
    return 0.5 + 0.5 * np.corrcoef(inA, inB, rowvar = 0)[0][1]

def cosSim(inA, inB):
    '''余弦相似度'''
    num = np.float(inA.T * inB)
    denom = np.linalg.norm(inA) * np.linalg.norm(inB)
    return 0.5 + 0.5 * (num / denom)

In [7]:
np.corrcoef?