# 단어 임베딩(Word Embeddiing)
## 잠재 의미분석(Latent Semantic Analysis)
### 202021224 주민찬

### 1) Full SVD

In [66]:
import numpy as np

In [67]:
# 4개의 문서와 8개의 단어
A = np.array([[0,0,0,1],[0,0,1,0],[0,0,1,0],[1,1,0,0],[0,1,2,0],[1,0,0,0],[1,1,0,0],[0,0,0,1]])
print('DTM의 크기(shape) :', np.shape(A))

DTM의 크기(shape) : (8, 4)


In [68]:
U, s, VT = np.linalg.svd(A, full_matrices = True)
print('행렬 U :')
print(U.round(2))
print('행렬 U의 크기(shape) :',np.shape(U))

행렬 U :
[[-0.    0.    0.71 -0.   -0.   -0.2  -0.2  -0.64]
 [-0.31 -0.24 -0.    0.35 -0.78  0.32 -0.1  -0.07]
 [-0.31 -0.24  0.    0.35 -0.01 -0.79  0.25  0.17]
 [-0.28  0.58  0.   -0.16 -0.2  -0.26 -0.61  0.28]
 [-0.8  -0.26 -0.   -0.25  0.4   0.24 -0.07 -0.05]
 [-0.09  0.37  0.    0.8   0.4   0.24 -0.07 -0.05]
 [-0.28  0.58  0.   -0.16 -0.2   0.03  0.68 -0.22]
 [-0.   -0.    0.71  0.    0.    0.2   0.2   0.64]]
행렬 U의 크기(shape) : (8, 8)


In [69]:
print('특이값 벡터 :')
print(s.round(2))
print('특이값 벡터의 크기(shape) :',np.shape(s))

특이값 벡터 :
[2.69 2.05 1.41 0.77]
특이값 벡터의 크기(shape) : (4,)


In [70]:
S = np.zeros((8, 4))

# 특이값을 대각행렬에 삽입
S[:4, :4] = np.diag(s)

print('대각 행렬 S :')
print(S.round(2))

print('대각 행렬의 크기(shape) :')
print(np.shape(S))

대각 행렬 S :
[[2.69 0.   0.   0.  ]
 [0.   2.05 0.   0.  ]
 [0.   0.   1.41 0.  ]
 [0.   0.   0.   0.77]
 [0.   0.   0.   0.  ]
 [0.   0.   0.   0.  ]
 [0.   0.   0.   0.  ]
 [0.   0.   0.   0.  ]]
대각 행렬의 크기(shape) :
(8, 4)


In [71]:
print('직교행렬 VT :')
print(VT.round(2))

print('직교 행렬 VT의 크기(shape) :')
print(np.shape(VT))

직교행렬 VT :
[[-0.24 -0.51 -0.83 -0.  ]
 [ 0.75  0.44 -0.49 -0.  ]
 [ 0.    0.   -0.    1.  ]
 [ 0.62 -0.74  0.27  0.  ]]
직교 행렬 VT의 크기(shape) :
(4, 4)


In [72]:
np.allclose(A, np.dot(np.dot(U,S), VT).round(2))

True

### 2) Truncated SVD

In [73]:
# 특이값 상위 2개만 보존
S = S[:2,:2]

print('대각 행렬 S :')
print(S.round(2))

대각 행렬 S :
[[2.69 0.  ]
 [0.   2.05]]


In [74]:
U = U[:,:2]
print('행렬 U :')
print(U.round(2))

행렬 U :
[[-0.    0.  ]
 [-0.31 -0.24]
 [-0.31 -0.24]
 [-0.28  0.58]
 [-0.8  -0.26]
 [-0.09  0.37]
 [-0.28  0.58]
 [-0.   -0.  ]]


In [75]:
VT = VT[:2,:]
print('직교행렬 VT :')
print(VT.round(2))

직교행렬 VT :
[[-0.24 -0.51 -0.83 -0.  ]
 [ 0.75  0.44 -0.49 -0.  ]]


In [76]:
A_prime = np.dot(np.dot(U,S), VT)
print(A)
print(A_prime.round(2))

[[0 0 0 1]
 [0 0 1 0]
 [0 0 1 0]
 [1 1 0 0]
 [0 1 2 0]
 [1 0 0 0]
 [1 1 0 0]
 [0 0 0 1]]
[[ 0.    0.    0.    0.  ]
 [-0.17  0.2   0.93  0.  ]
 [-0.17  0.2   0.93  0.  ]
 [ 1.08  0.91  0.03  0.  ]
 [ 0.12  0.86  2.05  0.  ]
 [ 0.62  0.45 -0.17 -0.  ]
 [ 1.08  0.91  0.03  0.  ]
 [-0.    0.    0.    0.  ]]


### 3) A행렬과 A_prime행렬의 유사도(Cosine Similarity)

In [77]:
import numpy as np
from numpy.linalg import norm

# 각 행렬을 벡터로 펼칩니다.
vector1 = A.reshape(1, -1)
vector2 = A_prime.round(2).reshape(1, -1)


# 두 벡터의 내적(Dot Product)을 계산합니다.
dot_product = np.dot(vector1, vector2.T)

# 각 벡터의 크기(norm)을 계산합니다.
norm_matrix1 = norm(vector1)
norm_matrix2 = norm(vector2)

# 코사인 유사도를 계산합니다.
cosine_similarity = (dot_product / (norm_matrix1 * norm_matrix2)*100).round(2)

# 코사인 유사도를 출력합니다.
print("코사인 유사도:", cosine_similarity)

코사인 유사도: [[90.27]]
