+ SVD là phương pháp phân tách ma trận.
    + A = U . Sigma . V^T
+ U là ma trận m x n , Sigma là ma trận đường chéo kích thước m x n và V^T là chuyển vị của ma trận n x n.

In [42]:
import numpy as np
from scipy.linalg import svd

In [43]:
A = np.array([[1,2], [3,4], [5,6]])
print(type(A))
print(A)


<class 'numpy.ndarray'>
[[1 2]
 [3 4]
 [5 6]]


# Phân giã ma trận thành các thành phần S,V,D

In [44]:
U, s, VT = svd(A)

In [45]:
print('Shape of U = ',U.shape)
print('U = ',U)

Shape of U =  (3, 3)
U =  [[-0.2298477   0.88346102  0.40824829]
 [-0.52474482  0.24078249 -0.81649658]
 [-0.81964194 -0.40189603  0.40824829]]


In [46]:
print('Shape of s = ',s.shape)
print('s = ',s)

Shape of s =  (2,)
s =  [9.52551809 0.51430058]


In [47]:
print('Shape of V^T = ',VT.shape)
print('V^T = ',VT)


Shape of V^T =  (2, 2)
V^T =  [[-0.61962948 -0.78489445]
 [-0.78489445  0.61962948]]


# Xây dựng lại ma trận SVD

In [48]:
Sigma = np.zeros((A.shape[0], A.shape[1]))
print(Sigma.shape)
print(Sigma)

(3, 2)
[[0. 0.]
 [0. 0.]
 [0. 0.]]


In [49]:
Sigma[:A.shape[1], :A.shape[1]] = np.diag(s)

In [50]:
B = U.dot(Sigma).dot(VT)
print(B)

[[1. 2.]
 [3. 4.]
 [5. 6.]]


# SVD để giảm kích thước
+ Dữ liệu mà có số cột nhiều hơn hàng có thể giảm xuống thành tập hợp các feature phù hợp để dự đoán. Kết quả là ma trận có thứ hạng thấp hơn để dự đoán gần đúng với ma trận ban đầu.
+ Chúng ta thao tác SVD trên dữ liệu gốc và chọn k giá trị lớn nhất trong Sigma. CÁc cột này có thể chọn từ Sigma và các hàng được chọn từ V^T.
+ Vector gần đúng B = U . Sigma_k . V^T_k


In [51]:
A = np.array([[1,2,3,4,5,6,7,8,9,10],
              [11,12,13,14,15,16,17,18,19,20],
              [21,22,23,24,25,26,27,28,29,30]])

print('A = ', A)

A =  [[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27 28 29 30]]


In [52]:
U, s, VT = svd(A)
print('U = ', U.shape)
print('s = ', s.shape)
print('VT = ', VT.shape)


U =  (3, 3)
s =  (3,)
VT =  (10, 10)


In [54]:
Sigma = np.zeros((A.shape[0], A.shape[1]))
Sigma[:A.shape[0], :A.shape[0]] = np.diag(s)
n_element = 2
Sigma = Sigma[:, :n_element]
VT = VT[:n_element,:]

In [56]:
print('U = ', U.shape)
print('Sigma = ', Sigma.shape)
print('VT = ', VT.shape)

U =  (3, 3)
Sigma =  (3, 2)
VT =  (2, 10)


In [55]:
B = U.dot(Sigma.dot(VT))
print(B)

[[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
 [11. 12. 13. 14. 15. 16. 17. 18. 19. 20.]
 [21. 22. 23. 24. 25. 26. 27. 28. 29. 30.]]


Ta giữ lại và làm việc với một tập hợp con mô tả của dữ liệu là T. Đây là bản tóm tắt của ma trận hoặc là một phép chiếu

In [31]:
T = U.dot(Sigma)
print(T)

[[-18.52157747   6.47697214]
 [-49.81310011   1.91182038]
 [-81.10462276  -2.65333138]]


Ta có thể sử dụng các phép tính toán và áp dụng cho ma trận gốc A như các ma trận khác

In [32]:
T = A.dot(VT.T)
print(T)

[[-18.52157747   6.47697214]
 [-49.81310011   1.91182038]
 [-81.10462276  -2.65333138]]


# Sử dụng Sklearn để giảm chiều SVD

In [33]:
from sklearn.decomposition import TruncatedSVD

In [35]:
svd = TruncatedSVD(n_components=2)
svd.fit(A)
result= svd.transform(A)
print(result)

[[18.52157747  6.47697214]
 [49.81310011  1.91182038]
 [81.10462276 -2.65333138]]
