# Matrix Decomposition
Khi làm việc với ML/DL thì chúng ta sẽ thường xuyên xử lý thông tin dữ liệu dưới dạng ma trận. Với các phép toán phức tạp trên ma trận sẽ rất khó để có thể giải quyết một cách hiệu quả khi số chiều của ma trận rất lớn. Vì vậy phương pháp phân ra ma trận (matrix decomposition) được tạo ra nhằm giúp giảm số lượng chiều từ ma trận từ đó giảm thiểu sự phức tạp của các phép toán. Đây cũng chính là tiền đề cho một số phương pháp nổi tiếng như SVD, PCA, ...

Matrix decomposition là một cách để giảm một ma trận thành các thành phần cấu thành của nó. Việc nó có thể đơn giản hóa các tính toán ma trận phức tạp bởi vì nó thực hiện các phép toán đó trên ma trận phân tách thay vì trên chính ma trận gốc. Chắc hẳn chúng ta cũng rất quen thuộc với bàn toán factor một số: (10 = 2 x 5) - tương tự vậy chúng ta có thể hiểu matrix decomposition là một bài toán factor ma trận. Vì lý do này, matrix decomposition còn được gọi là **matrix factorization**. Giống như factor các giá trị thức, chúng ta cũng có nhiều cách để phân tách một ma trận - trong đó hai phương pháp phân rã ma trận đơn giản được sử dụng rộng rãi là phân rã ma trận LU và phân rã ma trận QR.

## LU Decomposition
LU decomposition là một phương pháp phân rã dùng cho một ma trận vuông, nó phân tách ma trận thành các thành phần L và U. Công thức phân rã LU với ma trận A như sau:
$$
  A = L.U = LU
$$
Với L là ma trận tam giác dưới và U là ma trận tam giác trên.

Việc phân rã LU được thực hiện bằng cách sử dụng một quá trình số lặp và có thể thất bại đối với các ma trận không thể được phân tách. 

Chúng ta sẽ đi qua một ví dụ nhỏ để có thể hiểu về LU Decomposition hơn:
$$
A = 
\left(\begin{array}\
1 & 2 & 3 \\
2 & 3 & 4 \\
3 & 4 & 5
\end{array}\right) = LU
$$
Như đã nói ở trên L là ma trận tam giác dưới và U là ma trận tam giác trên nên ta sẽ có được hai ma trận L và U như sau:

$$
L = 
\left(\begin{array}\
1 & 0 & 0 \\
L_{21} & 1 & 0 \\
L_{31} & L_{32} & 1
\end{array}\right) 
$$

$$
U = 
\left(\begin{array}\
U_{11} & U_{12} & U_{13} \\
0 & U_{22} & U_{23} \\
0 & 0 & U_{33}
\end{array}\right) 
$$

Ta được $A = LU$ như sau:
$$
L = 
\left(\begin{array}\
U_{11} & U_{12} & U_{13} \\
L_{21}U_{11} & L_{21}U_{12}+U_{22} & L_{21}U_{13}+U_{23} \\
L_{31}U_{11} & L_{31}U_{12}+L_{32}U_{22} & L_{31}U_{13}+L_{32}U_{23}+U_{33}
\end{array}\right) = 
\left(\begin{array}\
1 & 2 & 3 \\
2 & 3 & 4 \\
3 & 4 & 5
\end{array}\right)
$$

Từ bước trên ta có: $U_{11}=1$, $U_{12}=2$ và $U_{13}=3$
Bây giờ ta thế 3 giá trị trên lần lượt vào từng vị trí còn lại trong ma trận ta có:
$$
L_{21}U_{11} = 2 =>L_{21} = 2
$$
$$
L_{21}U_{12}+U_{22} = 3 =>U_{22} = -1
$$
$$
L_{21}U_{13}+U_{23} = 4 =>U_{23} = -2
$$
$$
L_{31}U_{11} = 3 =>L_{31} = 3
$$
$$
L_{31}U_{12}+L_{32}U_{22} = 3 =>L_{32} = 3
$$
$$
L_{31}U_{13}+L_{32}U_{23}+U_{33} = 3 =>U_{33} = 0
$$

Cuối cùng ta được kết quả
$$
A = 
\left(\begin{array}\
1 & 2 & 3 \\
2 & 3 & 4 \\
3 & 4 & 5
\end{array}\right) = 
\left(\begin{array}\
1 & 0 & 0 \\
2 & 1 & 0 \\
3 & 3 & 1
\end{array}\right)
\left(\begin{array}\
1 & 2 & 3 \\
0 & -1 & -2 \\
0 & 0 & 0
\end{array}\right)
$$

Phân rã LU thường được sử dụng để đơn giản hóa việc giải các hệ phương trình tuyến tính, chẳng hạn như tìm các hệ số trong linear regression hay một số ứng dụng trong việc tính toán determinant và nghịch đảo ma trận. Bây giờ chúng ta sẽ làm quen code với numpy nhé ^^


In [2]:
import numpy as np
from scipy.linalg import lu

In [7]:
A = np.array([
      [1, 2, 3],
      [2, 3, 4],
      [3, 4, 5] 
])
print(A)

[[1 2 3]
 [2 3 4]
 [3 4 5]]


In [8]:
# fractorize
P, L, U = lu(A) 
print("L matrix: \n{}\n".format(L))
print("U matrix: \n{}".format(U))

L matrix: 
[[1.         0.         0.        ]
 [0.33333333 1.         0.        ]
 [0.66666667 0.5        1.        ]]

U matrix: 
[[3.         4.         5.        ]
 [0.         0.66666667 1.33333333]
 [0.         0.         0.        ]]


In [9]:
# reconstruct
B = P.dot(L).dot(U)
print(B)

[[1. 2. 3.]
 [2. 3. 4.]
 [3. 4. 5.]]


Với numpy hỗ trợ cách tính LU decomposition dựa trên phép phân rã LUP - đây là một biến thể của LU giúp ổn định hơn về mặt số để giải quyết trong thực tế hoặc có thể gọi là LU xoay vòng một phần (partial voting). Phép phân rã LUP được xây dựng bằng cách sắp xếp các dòng của ma trận gốc lại để đơn giản hóa quá trình phân tích và ma trận P bổ sung chỉ định một cách để hoán vị kết quả hoặc trả kết quả về thứ tự ban đầu.

Công thức: $A=L.U.P$

Các bạn có thể xem thêm về LUP qua video [**này**](https://www.youtube.com/watch?v=JSvxrHBZ8kE)

Việc phân tách ma trận A ban đầu thành ma trận tam giác trên và ma trận thành tam giác dưới đã vô tình biến nó thành nhược điểm của phép phân rã LU này đó chính là giới hạn nó trong việc xử lý ma trận vuông.  

## QR Decomposition
Phép phân rã QR cũng tương tự như LU nhưng dành cho phân rã ma trận n x m (không bị giới hạn ở ma trận vuông. QR decomposition phân rã ma trận thành các thành phần Q và R.

Công thức: $A = Q.R=QR$ 

Với Q là ma trận có kích thước m x m, R là ma trận tam giác trên có kích thước m x n.


In [10]:
from numpy.linalg import qr

In [11]:
A = np.array([
      [1, 2, 3],
      [2, 3, 4]
])

In [12]:
# factorize
Q, R = qr(A, 'complete')
print("Q matrix: \n{}\n".format(Q))
print("R matrix: \n{}".format(R))

Q matrix: 
[[-0.4472136  -0.89442719]
 [-0.89442719  0.4472136 ]]

R matrix: 
[[-2.23606798 -3.57770876 -4.91934955]
 [ 0.         -0.4472136  -0.89442719]]


In [13]:
# reconstruct 
B = Q.dot(R)
B

array([[1., 2., 3.],
       [2., 3., 4.]])

# Eigen Decomposition

Matrix Decomposition rất hữu ích cho việc giảm một ma trận thành các bộ phận cấu thành để đơn giản chuỗi các hoạt động trên nó sau đó. Một loại phân rã ma trận được sử dụng nhiều nhất hiên nay đó là Eigen decomposition - đâ là phép phân rã một ma trận thành các vector riêng (eigenvector) và các giá trị riêng (eigenvalue).

Eigen decomposition là một loại phân rã liên quan đến việc phân tách một ma trận vuông thành một tập hợp các eigenvector và eigenvalue. Một vector là một vector riêng của ma trận nếu nó thỏa mã công thức:
$$
A.v = \lambda.v
$$

Một vài lưu ý với eigenvector và eigenvalue:
- Một ma trận có thể có một eigenvector và eigenvalue cho mỗi chiều của ma trận gốc.
- Không phải tất cả các ma trận vuông có thể được phân tách thành các eigenvector và eigenvalue.
- Ma trận gốc có thể được hiển thị là một product của các eigenvector và eigenvalue.
- Công thức: $A = Q.\lambda.Q^T$ (Với Q là một ma trận bao gồm các eigenvector, $\lambda$ là ma trận đường chéo bao gồm các eigenvalue và $Q^T$ là ma trận hoán vị).
- Một chú ý rằng, một phép phân rã không nén ma trận. Giống như các phương pháp phân rã ma trận khác - eigendecomposition được sử dụng như một phần tử để đơn giản hóa việc tính toán ma trận phức tạp. 

## Eigenvector và Eigenvalue
Eigenvector là vector đơn vị, nghĩa là độ dài (độ lớn) của nó bằng 1 - thường được gọi là vector cột (vector phải, right-vector).

Eigenvalue là hệ số (coefficient) được áp dụng cho eigenvector để cho các vector có độ dài của chúng. VD: một negative eigenvalue có thể đảo ngược hướng của eigenvalue. Một ma trận chỉ có các positive eigenvalue được gọi là ma trận xác định dương (positive definite matrix), trong khi nếu các eigenvalue đều âm thì được gọi là ma trận xác định âm (negative definite matrix).

Cho một ma trận vuông $A \in R^{n x m}$, nếu số vô hướng $\lambda$ và vector $x \neq 0 \in R^n$ thỏa: $Ax=\lambda x $ thì $\lambda$ là một eigenvalue của A và x được gọi là eigenvector tương ứng với eigenvalue đó.

Bây giờ chúng ta sẽ thực hiện tính eigenvector và eigenvalue qua ví dụ sau:
$$
A = 
\left(\begin{array}\
4 & 2  \\
1 & 3 
\end{array}\right) 
$$

**Bước 1:** Từ định nghĩa trên ta có $ Ax=\lambda x <=> (A-\lambda I)x=0$. Với $x\neq0$, điều này yêu cầu null space của $A-\lambda I$ chứa nhiều hơn chỉ 0. Có nghĩa là ma trận kết quả $A-\lambda I$ không nghịch đảo được (invertible) vì vậy $det(A-\lambda I)=0$. Từ đó giải phương trình để tìm ra eigenvalues.

**Bước 2:** Tìm eigenvalues
$$
p_A(\lambda) = det(A-\lambda I) = det(
\left(\begin{array}\
4 & 2  \\
1 & 3 
\end{array}\right) - 
\left(\begin{array}\
\lambda & 0  \\
0 & \lambda 
\end{array}\right)
) = 
\begin{vmatrix}
4-\lambda & 2\\
1 & 3-\lambda 
\end{vmatrix} 
$$

Tiếp theo ta có:
$$
p(\lambda)=(4-\lambda)(3-\lambda)-2.1 = \lambda^2-7\lambda+10
$$
Giải phương trình trên ta có 2 nghiệm $\lambda_1=2$ và $\lambda_2=5$

**Bước 3:** Tìm eigenvectors với:
$$ 
\left(\begin{array}\
4-\lambda & 2  \\
1 & 3-\lambda 
\end{array}\right) x=0
$$
Xét $\lambda=2$ ta có:
$$ 
\left(\begin{array}\
2 & 2  \\
1 & 1 
\end{array}\right) 
\left(\begin{array}\
x_1  \\
x_2
\end{array}\right)=0 <=> x_1+x_2=0<=>x_1=-x_2
$$
**Kết luận:** với eigenvalue=2 thì eigenvector sẽ là $\left(\begin{array}\
1  \\
-1
\end{array}\right)$

Xét $\lambda=5$ ta có:
$$ 
\left(\begin{array}\
-1 & 2  \\
1 & -2 
\end{array}\right) 
\left(\begin{array}\
x_1  \\
x_2
\end{array}\right)=0 <=>
\left(\begin{array}\
-1 & 2  \\
0 & 0 
\end{array}\right) 
\left(\begin{array}\
x_1  \\
x_2
\end{array}\right)=0<=> -x_1+2x_2=0<=>x_1=2, x_2=1
$$
**Kết luận:** với eigenvalue=5 thì eigenvector sẽ là $\left(\begin{array}\
2  \\
1
\end{array}\right)$



Thực nghiệm một chút với numpy nhé ^^

In [21]:
A = np.array([
      [4, 2],
      [1, 3]
])
A

array([[4, 2],
       [1, 3]])

Với $\lambda=2$ là eigenvalue của eigenvector $\left(\begin{array}\
1  \\
-1
\end{array}\right)$


In [22]:
ld_1 = 2
v_1 = np.array([1, -1])

Kiểm tra $Ax=\lambda x $

In [23]:
print("VT: ", A.dot(v_1))
print("VP: ", v_1.dot(ld_1))

VT:  [ 2 -2]
VP:  [ 2 -2]


Với $\lambda=5$ là eigenvalue của eigenvector $\left(\begin{array}\
2  \\
1
\end{array}\right)$

In [25]:
ld_2 = 5
v_2 = np.array([2, 1])

Kiểm tra $Ax=\lambda x $

In [26]:
print("VT: ", A.dot(v_2))
print("VP: ", v_2.dot(ld_2))

VT:  [10  5]
VP:  [10  5]


Tìm eigenvector và eigenvalue với numpy

In [27]:
from numpy.linalg import eig 
A = np.array([
      [4, 2],
      [1, 3]
])
A

array([[4, 2],
       [1, 3]])

In [28]:
# factorize
values, vectors = eig(A)
print("values: \n{}\n".format(values))
print("vectors: \n{}".format(vectors))

values: 
[5. 2.]

vectors: 
[[ 0.89442719 -0.70710678]
 [ 0.4472136   0.70710678]]


Các eigenvector được trả về dưới dạng một ma trận có cùng kích thước với ma trận ban đầu, trong đó mỗi cột là một vector riêng. VD: eigenvector đầu tiên là vectors[:, 0].

In [29]:
A = np.array([
      [1, 2, 3],
      [2, 3, 4],
      [3, 4, 5]
])
values, vectors = eig(A)
print("values: \n{}\n".format(values))
print("vectors: \n{}".format(vectors))

values: 
[ 9.62347538e+00 -6.23475383e-01  9.06797114e-17]

vectors: 
[[-0.38508979 -0.82767094  0.40824829]
 [-0.55951021 -0.14241368 -0.81649658]
 [-0.73393063  0.54284358  0.40824829]]


In [30]:
vectors[:, 0]

array([-0.38508979, -0.55951021, -0.73393063])

Từ đó ta có thể kiểm tra lần lượt từng cặp eigenvalue và eigenvector như sau:


In [31]:
for index in range(len(values)):
  print("eigenvalue: {}\n".format(values[index]))
  print("eigenvector: {}\n".format(vectors[:, index]))
  print("######################\n")

eigenvalue: 9.623475382979803

eigenvector: [-0.38508979 -0.55951021 -0.73393063]

######################

eigenvalue: -0.6234753829797995

eigenvector: [-0.82767094 -0.14241368  0.54284358]

######################

eigenvalue: 9.067971139135149e-17

eigenvector: [ 0.40824829 -0.81649658  0.40824829]

######################



Có thể xây dựng lại ma trận gốc từ các eigenvector và eigenvalue. Đầu tiên, danh sách các eigenvector phải được lấy cùng nhau dưới dạng ma trận, trong đó mỗi vector là một dòng. Các eigenvalue cần được sắp xếp thành một ma trận đường chéo.

In [32]:
from numpy.linalg import inv
from numpy import diag 

In [33]:
# Tạo ma trận eigenvectors
matrix_eigenvectors = vectors 
# Tạo ma trận nghịch đảo
inv_matrix_eigenvectors = inv(matrix_eigenvectors)
# Tạo ma trận đường chéo các phần tử trên đường chéo chính lần lượt là các eigenvalue
diag_matrix_eigenvalues = diag(values)
print("inv_matrix: \n{}\n".format(inv_matrix_eigenvectors))
print("diag_matrix: \n{}\n".format(diag_matrix_eigenvalues))

inv_matrix: 
[[-0.38508979 -0.55951021 -0.73393063]
 [-0.82767094 -0.14241368  0.54284358]
 [ 0.40824829 -0.81649658  0.40824829]]

diag_matrix: 
[[ 9.62347538e+00  0.00000000e+00  0.00000000e+00]
 [ 0.00000000e+00 -6.23475383e-01  0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  9.06797114e-17]]



In [34]:
# reconstruct
B = matrix_eigenvectors.dot(diag_matrix_eigenvalues).dot(inv_matrix_eigenvectors)
B

array([[1., 2., 3.],
       [2., 3., 4.],
       [3., 4., 5.]])