---
### **BT thực hành 2.3.1: Phương pháp SINGULAR VALUE DECOMPOSITION - SVD**
- Ma trận VUÔNG
- Ma trận HÌNH CHỮ NHẬT (m > n)
- Ma trận HÌNH CHỮ NHẬT (m < n)

> Cập nhật: **11/2024**


---

In [2]:
## Thư viện
import numpy      as np
import warnings
warnings.filterwarnings('ignore')

from numpy        import array
from scipy.linalg import svd

In [6]:
## Các ma trận thử nghiệm A[m, n]
ma_tran_vuong = array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
ma_tran_hcn1  = array([[1, 2], [3, 4], [5, 6]])
ma_tran_hcn2  = array([[3, 1, 1], [-1, 3, 1]])

In [7]:
## Chọn 1 trong các ma trận thử nghiệm
A = ma_tran_vuong
m = A.shape[0]  # rows
n = A.shape[1]  # cols
k = np.min([m, n])
print('Ma trận A(', A.shape, ':\n', A)

Ma trận A( (3, 3) :
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


In [8]:
## Áp dụng SVD với các ma trận kết quả U[m, m], VT[n, n]
U, sglrValues, VT = svd(A)

In [10]:
A = array([[3,1,1],[-1,3,1]])



---


* **S**: ma trận đường chéo, các hệ số không âm → ma trận vuông, đường chéo là căn bậc 2 của trị riêng không âm (singular values - giá trị suy biến)
* **V**: ma trận trực giao (trực chuẩn, = 1 → nếu chọn vector đẹp), các cột (right-singular vectors)
* **U**: ma trận trực giao (Chuẩn), các cột (left-singular vectors)

1. Bước 1: Tạo ma trận P = A(T).A
2. Bước 2: Tạo ma trận đường chéo S và S(-1)
  - Ma trận đường chéo có tính chất: Nếu muốn lấy ma trận nghịch đảo thì chỉ cần nghịch đảo đường chéo
3. Bước 3: Tạo ma trận V(T)
  - Ghép theo dòng: Ma trận V
  - Ghép theo cột: Ma trận V(T)
4. Bước 4: Tạo ma trận U = A.V(T).S(-1)\



---


Nếu số dòng > số cột → A(T).A

Nếu số dòng < số cột → A.A(T)

In [9]:
## Ma trận U[m, m] (left-eigen vectors) ->
print('Ma trận U' , U.shape, ':\n', U)

## Ma trận S[m, n] chứa các real-non negative singular values
S = np.zeros(A.shape)
S[:k, :k] = np.diag(sglrValues)
print('\nMa trận S' , S.shape, ':\n', S)

## Ma trận V.T[n, n] (right-eigen vectors) -> thể hiện mối tương quan giữa tập hợp các bộ phim (hàng) với các latent feature (cột)
print('\nMa trận V.T', VT.shape, ':\n', VT)

## Tái tạo ma trận ban đầu ->
print('\nKiểm chứng lại phép phân rã:\n', np.rint(U @ S @ VT).astype(int))

Ma trận U (3, 3) :
 [[-0.21483724  0.88723069  0.40824829]
 [-0.52058739  0.24964395 -0.81649658]
 [-0.82633754 -0.38794278  0.40824829]]

Ma trận S (3, 3) :
 [[1.68481034e+01 0.00000000e+00 0.00000000e+00]
 [0.00000000e+00 1.06836951e+00 0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 4.41842475e-16]]

Ma trận V.T (3, 3) :
 [[-0.47967118 -0.57236779 -0.66506441]
 [-0.77669099 -0.07568647  0.62531805]
 [-0.40824829  0.81649658 -0.40824829]]

Kiểm chứng lại phép phân rã:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


In [None]:
## Áp dụng SVD với ma trận U[m, k], VT[k, n] với k = min(m, n)
A = ma_tran_hcn1
m = A.shape[0]  # rows
n = A.shape[1]  # cols
k = np.min([m, n])

U, sglrValues, VT = svd(A, full_matrices = False)

## Ma trận U[m, k] (left-eigen vectors)
print('Ma trận U' , U.shape, ':\n', U)

## Ma trận đường chéo S[k, k] chứa singular values
S = np.zeros(k * k).reshape((k, k))
S = np.diag(sglrValues)
print('\nMa trận S' , S.shape, ':\n', S)

## Ma trận V.T[k, n] (right-eigen vectors)
print('\nMa trận V.T', VT.shape, ':\n', VT)

## Tái tạo ma trận ban đầu
print('\nKiểm chứng lại phép phân rã:\n', np.rint(U @ S @ VT).astype(int))

Ma trận U (3, 2) :
 [[-0.2298477   0.88346102]
 [-0.52474482  0.24078249]
 [-0.81964194 -0.40189603]]

Ma trận S (2, 2) :
 [[9.52551809 0.        ]
 [0.         0.51430058]]

Ma trận V.T (2, 2) :
 [[-0.61962948 -0.78489445]
 [-0.78489445  0.61962948]]

Kiểm chứng lại phép phân rã:
 [[1 2]
 [3 4]
 [5 6]]


----
**COMPACT SVD** → Ma trận A(mxn)

**Truncated SVD** (Low-rank approximation) → Ma trận B(mxn) ⇒ Tìm được k đủ bé để sự chênh lệch giữa ma trận A và B là không đáng kể


In [None]:
## Áp dụng Compact SVD
S     = np.diag(sglrValues)
S_inv = np.diag(1 / sglrValues)
VT    = VT[:m, :n]
U     = A @ (VT.T) @ S_inv

print('\nMa trận U' , U.shape, ':\n', U)
print('\nMa trận S' , S.shape, ':\n', S)
print('\nMa trận V.T', VT.shape, ':\n', VT)

print('\nKiểm chứng lại phép phân rã:\n', np.rint(U @ S @ VT).astype(int))


Ma trận U (3, 2) :
 [[-0.2298477   0.88346102]
 [-0.52474482  0.24078249]
 [-0.81964194 -0.40189603]]

Ma trận S (2, 2) :
 [[9.52551809 0.        ]
 [0.         0.51430058]]

Ma trận V.T (2, 2) :
 [[-0.61962948 -0.78489445]
 [-0.78489445  0.61962948]]

Kiểm chứng lại phép phân rã:
 [[1 2]
 [3 4]
 [5 6]]


---
### **Nhận xét:**
- Sự khác biệt giữa 2 phương pháp được thể hiện đối với các ma trận hình chữ nhật
---

##**Principal Component Analysis (PCA)** → Giảm chiều dữ liệu

**Phân tích tương quan**
* TH1: 2 cột numerical → Pearson, Spearmam
* TH2: 2 cột categorical → Kiểm định CHI-SQUARED
* TH3: 1 cột numerical, 1 cột categorical


1. Bước 1: Lấy trọng tâm của tập dữ liệu **M = mean(A)**
  * Trung bình của mỗi cột → Vector trọng tâm của tập dữ liệu → Tọa độ trọng tâm của tập dữ liệu
2. Bước 2: Dời góc tọa độ về trọng tâm: ^X = A - M (Tọa độ mới của các phần tử trong không gian mới
3. Tính ma trận hiệp phương sai: V =covariance(^X)
4. Cắt ma trận chỉ lấy k cột → Tạo không gian mới có k chiều
  * Tính tọa độ của các phần từ trong không gian mới k chiều: ^A = B(T).A