In [1]:
import numpy as np
from numpy import linalg as la

# PCA

### example 1 
<reference> https://www.fun-coding.org/recommend_basic5.html

numpy.random.randint(low, high=None, size=None) 이용 
<br>변수(행)별로 평균을 0으로 centering한 행렬 X′를 만듬 (좌표계의 원점이 평균 벡터와 일치하도록 만듬)

In [2]:
user, item = 5, 3
X = np.random.randint(10, size = (user, item)).astype('float64')
print("* 원본 data")
print(X)
print("* 각 dimension 별 평균")
print(np.mean(X, axis=0))
X -= np.mean(X, axis=0)
print(X)

* 원본 data
[[8. 6. 1.]
 [6. 1. 8.]
 [4. 7. 5.]
 [9. 1. 4.]
 [8. 2. 8.]]
* 각 dimension 별 평균
[7.  3.4 5.2]
[[ 1.   2.6 -4.2]
 [-1.  -2.4  2.8]
 [-3.   3.6 -0.2]
 [ 2.  -2.4 -1.2]
 [ 1.  -1.4  2.8]]


공분산행렬은 다음 식으로 만들 수 있음
$$Σ=cov(X)= X^T X/(n−1) \propto X^T X $$

In [3]:
C = np.cov(X, rowvar=False)
C

array([[ 4.  , -3.  , -1.5 ],
       [-3.  ,  8.3 , -4.85],
       [-1.5 , -4.85,  8.7 ]])

공분산행렬을 기반으로 고유값과 고유벡터 구하기

In [4]:
l, principal_axes = la.eig(C)
l, principal_axes

(array([ 0.57805828,  6.950373  , 13.47156872]),
 array([[-0.69068378, -0.71360432,  0.11715285],
        [-0.55757097,  0.42233494, -0.71466623],
        [-0.46051117,  0.5589294 ,  0.68958494]]))

고유값을 높은 순으로 정렬하고, 이에 대응하는 고유벡터와 순서를 맞춤

In [5]:
idx = l.argsort()[::-1]
idx

array([2, 1, 0], dtype=int64)

In [6]:
l, principal_axes = l[idx], principal_axes[:, idx]
l, principal_axes

(array([13.47156872,  6.950373  ,  0.57805828]),
 array([[ 0.11715285, -0.71360432, -0.69068378],
        [-0.71466623,  0.42233494, -0.55757097],
        [ 0.68958494,  0.5589294 , -0.46051117]]))

In [7]:
np.matmul(principal_axes.T, principal_axes) 

array([[ 1.00000000e+00,  4.96782823e-18, -2.45175478e-17],
       [ 4.96782823e-18,  1.00000000e+00, -4.71036278e-16],
       [-2.45175478e-17, -4.71036278e-16,  1.00000000e+00]])

차원축소예 (고유값을 기준으로 가장 큰 d개의 고유 벡터 선택)

* principal axis(principal_compoents) 를 구함

In [8]:
# d = 2 
principal_axes[:, :2]

array([[ 0.11715285, -0.71360432],
       [-0.71466623,  0.42233494],
       [ 0.68958494,  0.5589294 ]])

* principal axis 를 기반으로 원본데이터 X에 대한 principal components 를 구함 
  <br>그리고 top 2 개의 components 들에 대해서 dimensionality reduction을 수행

In [9]:
mapped_data = X.dot(principal_axes)
mapped_data

array([[-4.6372361 , -1.96303696, -0.20622139],
       [ 3.52888393,  1.26500279,  0.73942283],
       [-3.06217396,  3.54943286,  0.1568981 ],
       [ 1.12200272, -3.11152777,  0.50941615],
       [ 3.04852341,  0.26012909, -1.19951569]])

In [10]:
mapped_data_reduced = X.dot(principal_axes[:, :2])
mapped_data_reduced

array([[-4.6372361 , -1.96303696],
       [ 3.52888393,  1.26500279],
       [-3.06217396,  3.54943286],
       [ 1.12200272, -3.11152777],
       [ 3.04852341,  0.26012909]])

In [11]:
# 새로운 변수 z1 과 z2 (5개의 데이터에대한 각각의 dimension component를 갖고있는 vector)
z1 = mapped_data_reduced[:,0]
z2 = mapped_data_reduced[:,1]
print(z1)
print(z2)

[-4.6372361   3.52888393 -3.06217396  1.12200272  3.04852341]
[-1.96303696  1.26500279  3.54943286 -3.11152777  0.26012909]


### example 2

In [12]:
n = 4 
d = 2

In [13]:
X = np.array([[0,-2],[3,-3],[2,0],[-1,1]]).astype('float64')
X

array([[ 0., -2.],
       [ 3., -3.],
       [ 2.,  0.],
       [-1.,  1.]])

In [14]:
# 각 row마다 빼진다. 알아서 broadcasting 되어 계산됨
X -= np.mean(X, axis=0)
X

array([[-1., -1.],
       [ 2., -2.],
       [ 1.,  1.],
       [-2.,  2.]])

$$ C =Σ=cov(X)= X^T X/(n−1) $$

In [15]:
C = np.cov(X, rowvar=False)
print(C)
print(C*(n-1))
np.matmul(X.T,X)

[[ 3.33333333 -2.        ]
 [-2.          3.33333333]]
[[10. -6.]
 [-6. 10.]]


array([[10., -6.],
       [-6., 10.]])

In [16]:
l, principal_axes = la.eig(C)
print(l)
print(principal_axes)

[5.33333333 1.33333333]
[[ 0.70710678  0.70710678]
 [-0.70710678  0.70710678]]


In [17]:
idx = l.argsort()[::-1]
l, principal_axes = l[idx], principal_axes[:, idx]
print(l)
print(principal_axes)

[5.33333333 1.33333333]
[[ 0.70710678  0.70710678]
 [-0.70710678  0.70710678]]


In [18]:
mapped_data = X.dot(principal_axes)
mapped_data

array([[-2.22044605e-16, -1.41421356e+00],
       [ 2.82842712e+00, -4.44089210e-16],
       [ 2.22044605e-16,  1.41421356e+00],
       [-2.82842712e+00,  4.44089210e-16]])

# SVD
<reference> 
<br> https://www.fun-coding.org/recommend_basic6.html
<br> https://en.wikipedia.org/wiki/Eigendecomposition_of_a_matrix
<br> https://twlab.tistory.com/54
$$ R=UΣV^T $$
* note that $RR^T$ 또는 $R^TR$은 symmetric matrix이므로, eigen decomposition이 가능 
* U는 $RR^T$ 즉, $R$의 공분산 행렬의 고유벡터
* V는 $R^TR$ 즉, $R^T$의 공분산 행렬의 고유벡터
* $ΣΣ^T$ 또는 $Σ^TΣ=λ$ 
  따라서, singular value (특이값) $σ = \sqrt{λ}$
    
> approach: 
  $RR^T$ 또는 $R^TR$ 은 symmetric square matrix 이므로 eigen decomposition이 가능하고,
  <br>이것을 이용하여, U, V, λ 를 구한다.

### example

In [19]:
user, item = 5, 3
R = np.random.randint(10, size = (user, item)).astype('float')
# user, item = 4, 2
# R = np.array([[2,3],[1,4],[0,0],[0,0]]).astype('float')
# R = np.array([[1,0,0,0,0],[0,0,2,0,3],[0,0,0,0,0],[0,2,0,0,0]])
print("* 원본 data")
print(R)
# print("* 각 dimension 별 평균")
# print(np.mean(R, axis=0))
# R -= np.mean(R, axis=0)
# print(R)

* 원본 data
[[6. 3. 1.]
 [5. 3. 6.]
 [9. 5. 1.]
 [4. 8. 5.]
 [2. 8. 0.]]


In [20]:
# we now perform singular value decomposition of X
# "economy size" (or "thin") SVD
# U, s, Vt = la.svd(R, full_matrices=True)
U, s, Vt = la.svd(R, full_matrices=False)
V = Vt.T
print(s)
S = np.diag(s)
print(U)
print(V)
print(S)

[18.03587182  6.3637499   5.49636379]
[[-0.34927953  0.3327991  -0.2461382 ]
 [-0.40524893  0.28764483  0.66170424]
 [-0.53347738  0.4367289  -0.47087212]
 [-0.538336   -0.39505085  0.38198955]
 [-0.37332741 -0.67801763 -0.36596028]]
[[-0.65553898  0.69602675 -0.29294266]
 [-0.67777592 -0.71334852 -0.17819569]
 [-0.33299918  0.08173526  0.93937793]]
[[18.03587182  0.          0.        ]
 [ 0.          6.3637499   0.        ]
 [ 0.          0.          5.49636379]]


In [21]:
R

array([[6., 3., 1.],
       [5., 3., 6.],
       [9., 5., 1.],
       [4., 8., 5.],
       [2., 8., 0.]])

In [22]:
np.matmul(np.matmul(U, S), V.T)

array([[ 6.00000000e+00,  3.00000000e+00,  1.00000000e+00],
       [ 5.00000000e+00,  3.00000000e+00,  6.00000000e+00],
       [ 9.00000000e+00,  5.00000000e+00,  1.00000000e+00],
       [ 4.00000000e+00,  8.00000000e+00,  5.00000000e+00],
       [ 2.00000000e+00,  8.00000000e+00, -2.03475917e-15]])

Trancated SVD(즉 dimensionality reductino을 함): 

In [23]:
# d = 2 
np.matmul(np.matmul(U[:,:2], S[:2,:2]), V.T[:2,:])

array([[5.6036881 , 2.75892527, 2.27085161],
       [6.06542285, 3.64809187, 2.58351327],
       [8.24183966, 4.53881451, 3.43118941],
       [4.61504879, 8.37413138, 3.02772577],
       [1.41076025, 7.64156814, 1.88951251]])

### numerical 하게 계산해봤다

In [24]:
print(np.matmul(R.T, R))
print(np.matmul(R, R.T))
C1 = np.matmul(R.T, R)
C2 = np.matmul(R, R.T)

[[162. 126.  65.]
 [126. 171.  66.]
 [ 65.  66.  63.]]
[[ 46.  45.  70.  53.  36.]
 [ 45.  70.  66.  74.  34.]
 [ 70.  66. 107.  81.  58.]
 [ 53.  74.  81. 105.  72.]
 [ 36.  34.  58.  72.  68.]]


In [25]:
# # C1 is a symmetric matrix and so it can be diagonalized:
l, principal_axes = la.eig(C1)
# sort results wrt. eigenvalues
idx = l.argsort()[::-1]
l, principal_axes = l[idx], principal_axes[:, idx]
# the eigenvalues in decreasing order
print ("eigenvalues = \n", l)
# a matrix of eigenvectors (each column is an eigenvector)
V = principal_axes
print ("eigenvectors, which is same with V = \n", V)
# principal_components = R.dot(principal_axes)
# print ("principal_components = \n", principal_components)

eigenvalues = 
 [325.29267231  40.49731276  30.21001494]
eigenvectors, which is same with V = 
 [[-0.65553898 -0.69602675 -0.29294266]
 [-0.67777592  0.71334852 -0.17819569]
 [-0.33299918 -0.08173526  0.93937793]]


$R = U\sum V^T$ 양변에 오른쪽에 $V$ 를 곱하면, 
<br> $RV = U\sum = [s_1 U_1, s_2 U_2,  ... ,s_r U_r] $ 인데 각 column마다 대응되는 singular value 를 나누어주면 
$U$ 를 구할 수 있다


In [26]:
singulars = np.sqrt(l)
print(singulars)
U = np.matmul(R, V)
# print(U)
for i, sing in enumerate(singulars):
    U[:,i] = U[:,i]/sing
print(U)

[18.03587182  6.3637499   5.49636379]
[[-0.34927953 -0.3327991  -0.2461382 ]
 [-0.40524893 -0.28764483  0.66170424]
 [-0.53347738 -0.4367289  -0.47087212]
 [-0.538336    0.39505085  0.38198955]
 [-0.37332741  0.67801763 -0.36596028]]


In [27]:
S = np.diag(singulars)
S

array([[18.03587182,  0.        ,  0.        ],
       [ 0.        ,  6.3637499 ,  0.        ],
       [ 0.        ,  0.        ,  5.49636379]])

In [28]:
R

array([[6., 3., 1.],
       [5., 3., 6.],
       [9., 5., 1.],
       [4., 8., 5.],
       [2., 8., 0.]])

In [29]:
np.matmul(np.matmul(U, S), V.T)

array([[ 6.00000000e+00,  3.00000000e+00,  1.00000000e+00],
       [ 5.00000000e+00,  3.00000000e+00,  6.00000000e+00],
       [ 9.00000000e+00,  5.00000000e+00,  1.00000000e+00],
       [ 4.00000000e+00,  8.00000000e+00,  5.00000000e+00],
       [ 2.00000000e+00,  8.00000000e+00, -7.12820696e-15]])

일반적으로, 어떤 rating matrix R을 가지고, 추정한 SVD값과의 RMSE는 최소가 됨이 증명 되어있다. 
<br>하지만, R에 missing value 가 있을 때에는 SVD를 구할수 없어 prediction 된 U, S, V를 찾아야한다. 
따라서, 이 predication된 SVD 는 latent factor 모델을 이용한 추천시스템에 사용된다. 