In [2]:
# https://wikidocs.net/24949

import numpy as np

# 1. Data

In [8]:
A = np.array([
    [0,0,0,1,0,1,1,0,0],
    [0,0,0,1,1,0,1,0,0],
    [0,1,1,0,2,0,0,0,0],
    [1,0,0,0,0,0,0,1,1]
])
print('A (shape) :', A.shape)

A (shape) : (4, 9)


# 2. Full SVD

In [10]:
U, s, VT = np.linalg.svd(A, full_matrices = True)

print("U (shape) :", U.shape)
print("sigma (shape) :", s.shape)
print("VT (shape) :", VT.shape)

U (shape) : (4, 4)
sigma (shape) : (4,)
VT (shape) : (9, 9)


In [20]:
# 직교행렬 U
U.round(2)

array([[ 0.24,  0.75,  0.  ,  0.62],
       [ 0.51,  0.44, -0.  , -0.74],
       [ 0.83, -0.49, -0.  ,  0.27],
       [ 0.  , -0.  ,  1.  , -0.  ]])

In [19]:
# 시그마
# 특잇값 벡터
# 대각 행렬로 변환
S = np.zeros((4, 9))
S[:4, :4] = np.diag(s)

S.round(2)

array([[2.69, 0.  , 0.  , 0.  , 0.  , 0.  , 0.  , 0.  , 0.  ],
       [0.  , 2.05, 0.  , 0.  , 0.  , 0.  , 0.  , 0.  , 0.  ],
       [0.  , 0.  , 1.73, 0.  , 0.  , 0.  , 0.  , 0.  , 0.  ],
       [0.  , 0.  , 0.  , 0.77, 0.  , 0.  , 0.  , 0.  , 0.  ]])

In [18]:
# 직교 행렬
VT.round(2)

array([[ 0.  ,  0.31,  0.31,  0.28,  0.8 ,  0.09,  0.28,  0.  ,  0.  ],
       [ 0.  , -0.24, -0.24,  0.58, -0.26,  0.37,  0.58, -0.  , -0.  ],
       [ 0.58, -0.  ,  0.  ,  0.  , -0.  ,  0.  , -0.  ,  0.58,  0.58],
       [-0.  ,  0.35,  0.35, -0.16, -0.25,  0.8 , -0.16,  0.  ,  0.  ],
       [-0.  , -0.78, -0.01, -0.2 ,  0.4 ,  0.4 , -0.2 ,  0.  ,  0.  ],
       [-0.29,  0.31, -0.78, -0.24,  0.23,  0.23,  0.01,  0.14,  0.14],
       [-0.29, -0.1 ,  0.26, -0.59, -0.08, -0.08,  0.66,  0.14,  0.14],
       [-0.5 , -0.06,  0.15,  0.24, -0.05, -0.05, -0.19,  0.75, -0.25],
       [-0.5 , -0.06,  0.15,  0.24, -0.05, -0.05, -0.19, -0.25,  0.75]])

In [24]:
# 원본 행렬 복구
A_hat = np.dot(np.dot(U, S), VT).round(2)

print("원본행렬과 동일 여부 :", np.allclose(A, A_hat))
A_hat

원본행렬과 동일 여부 : True


array([[ 0.,  0.,  0.,  1., -0.,  1.,  1.,  0.,  0.],
       [ 0., -0.,  0.,  1.,  1., -0.,  1., -0., -0.],
       [-0.,  1.,  1., -0.,  2.,  0., -0.,  0.,  0.],
       [ 1., -0.,  0.,  0., -0.,  0., -0.,  1.,  1.]])

# 3. Truncated SVD

In [28]:
size = 2

# 특잇값 대각 행렬인 시그마 축소
S = S[:size, :size]

S.round(2)

array([[2.69, 0.  ],
       [0.  , 2.05]])

In [29]:
# 직교 행렬 U 축소
U = U[:, :size]

U.round(2)

array([[ 0.24,  0.75],
       [ 0.51,  0.44],
       [ 0.83, -0.49],
       [ 0.  , -0.  ]])

In [30]:
# 전치 행렬 VT 축소
VT = VT[:size, :]

VT.round(2)

array([[ 0.  ,  0.31,  0.31,  0.28,  0.8 ,  0.09,  0.28,  0.  ,  0.  ],
       [ 0.  , -0.24, -0.24,  0.58, -0.26,  0.37,  0.58, -0.  , -0.  ]])

In [31]:
# 복구
A_prime = np.dot(np.dot(U, S), VT)
print(A)
print(A_prime.round(2))

[[0 0 0 1 0 1 1 0 0]
 [0 0 0 1 1 0 1 0 0]
 [0 1 1 0 2 0 0 0 0]
 [1 0 0 0 0 0 0 1 1]]
[[ 0.   -0.17 -0.17  1.08  0.12  0.62  1.08 -0.   -0.  ]
 [ 0.    0.2   0.2   0.91  0.86  0.45  0.91  0.    0.  ]
 [ 0.    0.93  0.93  0.03  2.05 -0.17  0.03  0.    0.  ]
 [ 0.    0.    0.    0.    0.    0.    0.    0.    0.  ]]


- 대체적으로 기존에 0인 값들은 0에 가까운 값이 나왔다.
- 제대로 복구되지 않은 구간도 존재한다.
- 해당 데이터는 문서의 topic count vectorize 데이터를 나타내던 행렬이다.
    - 즉, 행렬의 크기는 문서 수 X 토픽의 수
    - 이를 4 x 4 에서 4 x 2 로 줄여냈는데, 여기서 문서의 수는 유지되었지만, 토픽의 수는 줄어들었다.
    - 즉, 4개의 문서를 2개의 값으로 표현을 해내야 하는데, 이를 값으로 표현하면,
        - U (4 X 4 -> 4 X 2) : 잠재 의미를 표현하기 위한 각 각의 문서 벡터
        - VT (9 X 9 -> 2 X 9) : 잠재 의미를 표현하기 위한 각 각의 토픽 벡터
    -> 즉, 간단히 말하면 원래는 9개의 토픽으로 표현할 수 있던 문서 벡터를 2개의 토픽으로만 표현하여 잠재의미를 표현하는 것 이다.
    -> 위의 원본 행렬에서 마지막 문서벡터는 다른 문서 벡터와 완전히 반대되는 토픽을 가지고 있다. 
    -> 아래의 잠재의미 행렬에서 마지막 문서벡터는 복구되지 않았다. 행렬 분해에서는 행렬에서 강한 특징을 가지고 있는 값이 살아남는다.