# Khái niệm

Phân rã ma trận SVD
+ A = U * S * V.T

Toán học
+ U là ma trận gồm các vector cột là các vector riêng của A*A.T
+ S là ma trận đường chéo với các giá trị là singular value, sqrt(lambda) của gtr A*A.T (hay A.T*A)
+ V là ma trận gồm các vector cột là các vector riêng của A.T*A

# Tiếp cận

![Eigenvalue](img_svd/eigenvector.png)

Eigenvalue, eigenvector là sự biến đổi ma trận ban đầu sao cho sau biến đổi vẫn giữ nguyên hướng của vector.

![Phép chiếu](img_svd/proj.png)

Phép chiếu một vector lên một vector khác, nếu v là một vector đơn vị thì độ dài hình chiếu là w*v, vector chiếu là (w*v)*v.

![Phép chiếu](img_svd/avs.png)

Chiếu ma trận A, với mỗi hàng là một bản ghi độc lập lên một hệ cơ sở vector trực chuẩn, ta được S đại diện cho độ dài của các vector chiếu. Do V là trực chuẩn nên A = S * V.T.

![S2US](img_svd/s2us.png)

![SUW](img_svd/suw.png)

Mỗi cột của S đại diện cho hình chiếu của toàn bộ ma trận A lên một vector v, chuẩn hoá từng vector cột của S thành một vector đơn vị, ta được U. Sigma là độ lớn của các vector cột tương ứng của S.

# SVD

In [None]:
from sklearn.datasets import load_iris 
import pandas as pd 

iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target


df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [168]:
import numpy as np
A = df.iloc[:, :-1].values

# ma trận U gồm các vector riêng ứng với giá trị riêng lớn nhất của A*A^T
# U kích thước m x m với m là số bản ghi trong tập dữ liệu
ATA = np.dot(A, A.T)  
eigenvalues_U, eigenvectors_U = np.linalg.eigh(ATA)  
idx = np.argsort(eigenvalues_U)[::-1]
eigenvalues_U = eigenvalues_U[idx]
eigenvectors_U = eigenvectors_U[:, idx]
U = eigenvectors_U

m = A.shape[0]
n = A.shape[1]

# ma trận Sigma là ma trận đường chéo với các giá trị riêng của A*A^T
# Sigma kích thước m x n với m là số bản ghi trong tập dữ liệu và n là số thuộc tính
sigma_matrix = np.zeros((m, n))
sigma_value = np.sqrt(np.maximum(eigenvalues_U, 0))

for i in range(min(m, n)):
    sigma_matrix[i, i] = sigma_value[i]

Sigma = sigma_matrix

# ma trận V gồm các vector riêng ứng với giá trị riêng lớn nhất của A^T*A
AAT = np.dot(A.T, A)  
eigenvalues_V, eigenvectors_V = np.linalg.eigh(AAT)
idx = np.argsort(eigenvalues_V)[::-1]
eigenvalues_V = eigenvalues_V[idx]
eigenvectors_V = eigenvectors_V[:, idx]
V = eigenvectors_V

for i in range(V_t.shape[0]):
    # Nếu dấu của U[:, i] và V_t[i, :] không khớp với kết quả SVD thì đổi chiều
    if np.sign(U[0, i]) != np.sign(V_t[i, 0]):
        U[:, i] *= -1


In [169]:
U @ Sigma_matrix @ V_t


array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

# Sử dụng thư viện

In [None]:
u, sigma, vt = np.linalg.svd(A) 
Sigma = np.zeros((u.shape[1], vt.shape[0]))
sigma2 = np.fill_diagonal(Sigma, sigma)
print("Kích thước của U, Sigma, Vt:", u.shape, Sigma.shape, vt.shape)
b = u @ Sigma @ vt
c = u[:, :4] @ Sigma[:4, :] @ vt[:4, :4]
print("So sánh lấy 1 phần và toàn bộ:", np.allclose(b, c)) 
# do Sigma chỉ gồm 4 cột tương ứng với 4 singular value phần còn lại là 0

Kích thước của U, Sigma, Vt: (150, 150) (150, 4) (4, 4)
So sánh lấy 1 phần và toàn bộ: True


In [185]:
u, sigma2, vt = np.linalg.svd(A, full_matrices=False) 
sigma2 = np.diag(sigma2)
print(u.shape, sigma2.shape, vt.shape)
u @ sigma2 @ vt


(150, 4) (4, 4) (4, 4)


array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

## Ví dụ 2

In [125]:
A = np.array([[1,6,6], [0,3,1], [4,6,1], [5,7,7]])
# A = np.array([[4,2,0],[1,5,6]])
print("Ma trận A:\n", A)

eigenvalues, eigenvectors = np.linalg.eigh(np.dot(A, A.T))
index = np.argsort(eigenvalues)[::-1]

eigenvalues = eigenvalues[index]
eigenvectors = eigenvectors[:, index]
U = eigenvectors
print("Ma trận U:\n", U)

np.sqrt(eigenvalues)
Sigma = np.zeros((A.shape[0], A.shape[1]))
for i in range(np.min(A.shape)):
    Sigma[i, i] = np.sqrt(eigenvalues[i])
print("Ma trận Sigma:\n", Sigma)


eigenvalues_v, eigenvectors_v = np.linalg.eigh(np.dot(A.T, A))
index_v= np.argsort(eigenvalues_v)[::-1]
eigenvalues_v = eigenvalues_v[index_v]
eigenvectors_v = eigenvectors_v[:, index_v]
V = eigenvectors_v
V_t = V.T
# V_t[1:, :] = V_t[1:, :]*-1
print("Ma trận V_t:\n", V_t)


A_reconstructed = U @ Sigma @ V_t
print("Ma trận A tái tạo:\n", A_reconstructed)

Ma trận A:
 [[1 6 6]
 [0 3 1]
 [4 6 1]
 [5 7 7]]
Ma trận U:
 [[-0.53159604 -0.55109215 -0.4408708  -0.46833325]
 [-0.17943529  0.02901476 -0.62572822  0.75856794]
 [-0.41934812  0.82966761 -0.20911901 -0.30342717]
 [-0.71369165 -0.08430451  0.60857733  0.33640839]]
Ma trận Sigma:
 [[15.39072664  0.          0.        ]
 [ 0.          4.01229511  0.        ]
 [ 0.          0.          2.45499926]
 [ 0.          0.          0.        ]]
Ma trận V_t:
 [[-0.37538493 -0.73029771 -0.57074636]
 [-0.58471665 -0.2911963   0.75717313]
 [-0.71916104  0.61795628 -0.31770653]]
Ma trận A tái tạo:
 [[5.14253571 5.95007961 3.33929322]
 [2.07335568 1.033638   2.15239139]
 [0.84552295 3.42678851 6.36727661]
 [3.24663113 9.04352065 5.53842222]]


# SVD applicationss

In [188]:
import cv2
import numpy as np
img = cv2.imread('img_svd/dog.jfif')

In [189]:
def convert_to_gray(img, ratio):
    n, h, w = img.shape
    gray_img = np.zeros((n, h), dtype=np.uint8)
    for i in range(n):
        for j in range(h):
            gray_img[i, j] = int(np.sum(img[i, j, :] * ratio))

    return gray_img

In [190]:
cv2.imshow('Original Image', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

In [192]:
ratio = [0.2126, 0.7152, 0.0722]
gray_img = convert_to_gray(img, ratio)
cv2.imshow('Gray Image', gray_img)
cv2.waitKey(0)
cv2.destroyAllWindows()

In [13]:
def compute_cosince_similarity(A, B):
    numerator = A * B
    denominator = np.sqrt(np.sum(A**2)) * np.sqrt(np.sum(B**2))
    return np.sum(numerator) / denominator

In [14]:
A = np.array([[1, 2, 3], [4, 5, 6]])
B = np.array([[7, 8, 9], [10, 11, 12]]) 
similarity = compute_cosince_similarity(A, B)
print("Cosine Similarity:", similarity)

Cosine Similarity: 0.9621286203216846


In [15]:
def compute_rms_error(A, B):
    return np.sqrt(np.sum((A - B)**2) / A.size)

In [16]:
A = np.array([[1, 2, 3], [4, 5, 6]])
B = np.array([[7, 8, 9], [10, 11, 12]]) 
error = compute_rms_error(A, B) 
print("RMS Error:", error)

RMS Error: 6.0


In [23]:
def svd_decomposition(A):
    eigenvalues, eigenvectors = np.linalg.eigh(np.dot(A, A.T))
    index = np.argsort(eigenvalues)[::-1]   
    eigenvalues = eigenvalues[index]
    eigenvectors = eigenvectors[:, index]
    U = eigenvectors

    sigma = np.zeros((A.shape[0], A.shape[1]))
    for i in range(np.min(A.shape)):
        sigma[i, i] = np.sqrt(np.maximum(eigenvalues[i], 0))
    Sigma = sigma

    eigenvalues_v, eigenvectors_v = np.linalg.eigh(np.dot(A.T, A))
    index_v = np.argsort(eigenvalues_v)[::-1]
    eigenvalues_v = eigenvalues_v[index_v]
    eigenvectors_v = eigenvectors_v[:, index_v]
    V = eigenvectors_v
    V_t = V.T

    return U, Sigma, V_t

In [24]:
U, Sigma, V_t = svd_decomposition(gray_img)

In [40]:
U.shape

(194, 194)

## Sử dụng thư viện

In [196]:
U, Sigma, V_t = np.linalg.svd(gray_img, full_matrices=False)
Sigma_matrix = np.diag(Sigma)
new_img = U @ Sigma_matrix @ V_t
new_img
cv2.imshow('Reconstructed Image', new_img.astype(np.uint8))
cv2.waitKey(0)
cv2.destroyAllWindows()


In [199]:
U.shape, Sigma_matrix.shape, V_t.shape

((194, 194), (194, 194), (194, 260))

In [204]:
k = 100
U_k = U[:, :k]
Sigma_k = Sigma_matrix[:k, :]

print("Kích thước của U_k, Sigma_k, V_t:", U_k.shape, Sigma_k.shape, V_t.shape)
image = U_k @ Sigma_k @ V_t
image
cv2.imshow('Reconstructed Image', image.astype(np.uint8))
cv2.waitKey(0)
cv2.destroyAllWindows()

Kích thước của U_k, Sigma_k, V_t: (194, 100) (100, 194) (194, 260)
