In [1]:
import numpy as np
from numpy import linalg as la

# PCA

### example 1 
<reference> https://www.fun-coding.org/recommend_basic5.html

numpy.random.randint(low, high=None, size=None) 이용 
<br>변수(행)별로 평균을 0으로 centering한 행렬 X′를 만듬 (좌표계의 원점이 평균 벡터와 일치하도록 만듬)

In [2]:
n, p = 5, 3
X = np.random.randint(10, size = (n, p)).astype('float64')
print("* 원본 data")
print(X)

* 원본 data
[[5. 7. 4.]
 [6. 9. 7.]
 [0. 7. 8.]
 [3. 3. 0.]
 [2. 7. 2.]]


In [None]:
print("* 각 dimension 별 평균")
print(np.mean(X, axis=0))
X -= np.mean(X, axis=0)
print(X)

공분산행렬은 다음 식으로 만들 수 있음
$$Σ=cov(X)= X^T X/(n−1) \propto X^T X $$

In [3]:
C = np.cov(X, rowvar=False)
C

array([[ 5.7,  1.6, -0.3],
       [ 1.6,  4.8,  5.6],
       [-0.3,  5.6, 11.2]])

공분산행렬을 기반으로 고유값과 고유벡터 구하기

In [4]:
l, principal_axes = la.eig(C)
l, principal_axes

(array([ 1.04228723,  6.17355322, 14.48415955]),
 array([[-0.31421288,  0.9472554 ,  0.06306729],
        [ 0.82742512,  0.24068297,  0.50738485],
        [-0.46544381, -0.21161032,  0.8594086 ]]))

고유값을 높은 순으로 정렬하고, 이에 대응하는 고유벡터와 순서를 맞춤

In [5]:
idx = l.argsort()[::-1]
idx

array([2, 1, 0], dtype=int64)

In [6]:
l, principal_axes = l[idx], principal_axes[:, idx]
l, principal_axes

(array([14.48415955,  6.17355322,  1.04228723]),
 array([[ 0.06306729,  0.9472554 , -0.31421288],
        [ 0.50738485,  0.24068297,  0.82742512],
        [ 0.8594086 , -0.21161032, -0.46544381]]))

In [None]:
np.matmul(principal_axes.T, principal_axes) 

차원축소예 (고유값을 기준으로 가장 큰 d개의 고유 벡터 선택)

* principal axis(principal_compoents) 를 구함

In [7]:
# d = 2 
principal_axes[:, :2]

array([[ 0.06306729,  0.9472554 ],
       [ 0.50738485,  0.24068297],
       [ 0.8594086 , -0.21161032]])

* principal axis 를 기반으로 원본데이터 X에 대한 principal components 를 구함 
  <br>그리고 top 2 개의 components 들에 대해서 dimensionality reduction을 수행

In [8]:
mapped_data = X.dot(principal_axes)
mapped_data

array([[ 7.30466478e+00,  5.57461648e+00,  2.35913621e+00],
       [ 1.09607276e+01,  6.36840686e+00,  2.30344214e+00],
       [ 1.04269627e+01, -8.10176494e-03,  2.06842536e+00],
       [ 1.71135642e+00,  3.56381508e+00,  1.53963672e+00],
       [ 5.39664570e+00,  3.15607092e+00,  4.23266246e+00]])

In [9]:
mapped_data_reduced = X.dot(principal_axes[:, :2])
mapped_data_reduced

array([[ 7.30466478e+00,  5.57461648e+00],
       [ 1.09607276e+01,  6.36840686e+00],
       [ 1.04269627e+01, -8.10176494e-03],
       [ 1.71135642e+00,  3.56381508e+00],
       [ 5.39664570e+00,  3.15607092e+00]])

In [10]:
# 새로운 변수 z1 과 z2 (5개의 데이터에대한 각각의 dimension component를 갖고있는 vector)
z1 = mapped_data_reduced[:,0]
z2 = mapped_data_reduced[:,1]
print(z1)
print(z2)

[ 7.30466478 10.96072755 10.42696269  1.71135642  5.3966457 ]
[ 5.57461648  6.36840686 -0.00810176  3.56381508  3.15607092]


### example 2

In [11]:
n = 4 
d = 2

In [12]:
X = np.array([[0,-2],[3,-3],[2,0],[-1,1]]).astype('float64')
X

array([[ 0., -2.],
       [ 3., -3.],
       [ 2.,  0.],
       [-1.,  1.]])

In [13]:
# 각 row마다 빼진다. 알아서 broadcasting 되어 계산됨
X -= np.mean(X, axis=0)
X

array([[-1., -1.],
       [ 2., -2.],
       [ 1.,  1.],
       [-2.,  2.]])

$$ C =Σ=cov(X)= X^T X/(n−1) $$

In [14]:
C = np.cov(X, rowvar=False)
print(C)
print(C*(n-1))
np.matmul(X.T,X)

[[ 3.33333333 -2.        ]
 [-2.          3.33333333]]
[[10. -6.]
 [-6. 10.]]


array([[10., -6.],
       [-6., 10.]])

In [15]:
l, principal_axes = la.eig(C)
print(l)
print(principal_axes)

[5.33333333 1.33333333]
[[ 0.70710678  0.70710678]
 [-0.70710678  0.70710678]]


In [16]:
idx = l.argsort()[::-1]
l, principal_axes = l[idx], principal_axes[:, idx]
print(l)
print(principal_axes)

[5.33333333 1.33333333]
[[ 0.70710678  0.70710678]
 [-0.70710678  0.70710678]]


In [17]:
mapped_data = X.dot(principal_axes)
mapped_data

array([[-2.22044605e-16, -1.41421356e+00],
       [ 2.82842712e+00, -4.44089210e-16],
       [ 2.22044605e-16,  1.41421356e+00],
       [-2.82842712e+00,  4.44089210e-16]])

# SVD
<reference> 
<br> https://www.fun-coding.org/recommend_basic6.html
<br> https://en.wikipedia.org/wiki/Eigendecomposition_of_a_matrix
<br> https://twlab.tistory.com/54
$$ R=UΣV^T $$
* note that $RR^T$ 또는 $R^TR$은 symmetric matrix이므로, eigen decomposition이 가능 
* U는 $RR^T$ 즉, $R$의 공분산 행렬의 고유벡터
* V는 $R^TR$ 즉, $R^T$의 공분산 행렬의 고유벡터
* $ΣΣ^T$ 또는 $Σ^TΣ=λ$ 
  따라서, singular value (특이값) $σ = \sqrt{λ}$
    
> approach: 
  $RR^T$ 또는 $R^TR$ 은 symmetric square matrix 이므로 eigen decomposition이 가능하고,
  <br>이것을 이용하여, U, V, λ 를 구한다.

### example

In [18]:
user, item = 5, 3
R = np.random.randint(10, size = (user, item)).astype('float')
# user, item = 4, 2
# R = np.array([[2,3],[1,4],[0,0],[0,0]]).astype('float')
# R = np.array([[1,0,0,0,0],[0,0,2,0,3],[0,0,0,0,0],[0,2,0,0,0]])
print("* 원본 data")
print(R)
# print("* 각 dimension 별 평균")
# print(np.mean(R, axis=0))
# R -= np.mean(R, axis=0)
# print(R)

* 원본 data
[[7. 0. 9.]
 [1. 9. 9.]
 [6. 7. 2.]
 [2. 8. 7.]
 [6. 5. 2.]]


In [19]:
# we now perform singular value decomposition of X
# "economy size" (or "thin") SVD
# U, s, Vt = la.svd(R, full_matrices=True)
U, s, Vt = la.svd(R, full_matrices=False)
V = Vt.T
print(s)
S = np.diag(s)
print(U)
print(V)
print(S)

[21.1382289   8.18373463  7.08532049]
[[-0.41433905  0.85547047 -0.2918952 ]
 [-0.56736422 -0.40176078 -0.40797702]
 [-0.39009474 -0.04848456  0.64441775]
 [-0.4953958  -0.29891228 -0.16444909]
 [-0.32989405  0.12271615  0.55320358]]
[[-0.41528843  0.66401194  0.62179069]
 [-0.63626796 -0.70053058  0.32314081]
 [-0.65015275  0.26142886 -0.71341177]]
[[21.1382289   0.          0.        ]
 [ 0.          8.18373463  0.        ]
 [ 0.          0.          7.08532049]]


In [20]:
R

array([[7., 0., 9.],
       [1., 9., 9.],
       [6., 7., 2.],
       [2., 8., 7.],
       [6., 5., 2.]])

In [21]:
np.matmul(np.matmul(U, S), V.T)

array([[ 7.00000000e+00, -6.04388184e-15,  9.00000000e+00],
       [ 1.00000000e+00,  9.00000000e+00,  9.00000000e+00],
       [ 6.00000000e+00,  7.00000000e+00,  2.00000000e+00],
       [ 2.00000000e+00,  8.00000000e+00,  7.00000000e+00],
       [ 6.00000000e+00,  5.00000000e+00,  2.00000000e+00]])

Trancated SVD(즉 dimensionality reductino을 함): 

In [22]:
# d = 2 
np.matmul(np.matmul(U[:,:2], S[:2,:2]), V.T[:2,:])

array([[8.28596951, 0.66831046, 7.52454243],
       [2.79737801, 9.93408631, 6.93777773],
       [3.16096196, 5.52456936, 5.25737127],
       [2.72449469, 8.37651544, 6.16875077],
       [3.56281386, 3.73340933, 4.79630636]])

### numerical 하게 계산해봤다

In [23]:
print(np.matmul(R.T, R))
print(np.matmul(R, R.T))
C1 = np.matmul(R.T, R)
C2 = np.matmul(R, R.T)

[[126.  97. 110.]
 [ 97. 219. 161.]
 [110. 161. 219.]]
[[130.  88.  60.  77.  60.]
 [ 88. 163.  87. 137.  69.]
 [ 60.  87.  89.  82.  75.]
 [ 77. 137.  82. 117.  66.]
 [ 60.  69.  75.  66.  65.]]


In [24]:
# # C1 is a symmetric matrix and so it can be diagonalized:
l, principal_axes = la.eig(C1)
# sort results wrt. eigenvalues
idx = l.argsort()[::-1]
l, principal_axes = l[idx], principal_axes[:, idx]
# the eigenvalues in decreasing order
print ("eigenvalues = \n", l)
# a matrix of eigenvectors (each column is an eigenvector)
V = principal_axes
print ("eigenvectors, which is same with V = \n", V)
# principal_components = R.dot(principal_axes)
# print ("principal_components = \n", principal_components)

eigenvalues = 
 [446.82472096  66.97351257  50.20176648]
eigenvectors, which is same with V = 
 [[-0.41528843 -0.66401194 -0.62179069]
 [-0.63626796  0.70053058 -0.32314081]
 [-0.65015275 -0.26142886  0.71341177]]


$R = U\sum V^T$ 양변에 오른쪽에 $V$ 를 곱하면, 
<br> $RV = U\sum = [s_1 U_1, s_2 U_2,  ... ,s_r U_r] $ 인데 각 column마다 대응되는 singular value 를 나누어주면 
$U$ 를 구할 수 있다


In [25]:
singulars = np.sqrt(l)
print(singulars)
U = np.matmul(R, V)
# print(U)
for i, sing in enumerate(singulars):
    U[:,i] = U[:,i]/sing
print(U)

[21.1382289   8.18373463  7.08532049]
[[-0.41433905 -0.85547047  0.2918952 ]
 [-0.56736422  0.40176078  0.40797702]
 [-0.39009474  0.04848456 -0.64441775]
 [-0.4953958   0.29891228  0.16444909]
 [-0.32989405 -0.12271615 -0.55320358]]


In [26]:
S = np.diag(singulars)
S

array([[21.1382289 ,  0.        ,  0.        ],
       [ 0.        ,  8.18373463,  0.        ],
       [ 0.        ,  0.        ,  7.08532049]])

In [27]:
R

array([[7., 0., 9.],
       [1., 9., 9.],
       [6., 7., 2.],
       [2., 8., 7.],
       [6., 5., 2.]])

In [28]:
np.matmul(np.matmul(U, S), V.T)

array([[7.00000000e+00, 1.24779861e-15, 9.00000000e+00],
       [1.00000000e+00, 9.00000000e+00, 9.00000000e+00],
       [6.00000000e+00, 7.00000000e+00, 2.00000000e+00],
       [2.00000000e+00, 8.00000000e+00, 7.00000000e+00],
       [6.00000000e+00, 5.00000000e+00, 2.00000000e+00]])

일반적으로, 어떤 rating matrix R을 가지고, 추정한 SVD값과의 RMSE는 최소가 됨이 증명 되어있다. 
<br>하지만, R에 missing value 가 있을 때에는 SVD를 구할수 없어 prediction 된 U, S, V를 찾아야한다. 
따라서, 이 predication된 SVD 는 latent factor 모델을 이용한 추천시스템에 사용된다. 