In [1]:
import numpy as np
from numpy.linalg import svd

# Ma trận tương tác người-sản phẩm (User-Item Matrix)
R = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [1, 0, 0, 4],
    [0, 1, 5, 4],
])

print("Ma trận gốc R:")
print(R)

# Tách SVD
U, sigma, Vt = svd(R, full_matrices=False)

# In kết quả SVD
print("\nU (Users x Latent features):")
print(U)
print("\nSigma (Singular values):")
print(sigma)
print("\nVt (Latent features x Items):")
print(Vt)

# Giảm chiều (Top-2 latent features)
k = 2
U_k = U[:, :k]
sigma_k = np.diag(sigma[:k])
Vt_k = Vt[:k, :]

# Ma trận gần đúng R_hat
R_hat = np.dot(np.dot(U_k, sigma_k), Vt_k)
print("\nMa trận gần đúng R_hat (rank-2 approximation):")
print(np.round(R_hat, 2))


Ma trận gốc R:
[[5 3 0 1]
 [4 0 0 1]
 [1 1 0 5]
 [1 0 0 4]
 [0 1 5 4]]

U (Users x Latent features):
[[-0.43689593 -0.66924125  0.29627751 -0.48637475]
 [-0.29717498 -0.44308727  0.05015708  0.79591123]
 [-0.51589728  0.13631518 -0.54893193 -0.28612203]
 [-0.39999635  0.11077382 -0.48349385  0.20569271]
 [-0.54282768  0.5700326   0.61205501  0.0760895 ]]

Sigma (Singular values):
[9.03171974 6.22925557 3.77397038 1.83890217]

Vt (Latent features x Items):
[[-0.47488998 -0.26234348 -0.3005118  -0.78444124]
 [-0.78203025 -0.20891356  0.45754472  0.36801718]
 [ 0.17212379  0.25224247  0.81089006 -0.49920382]
 [ 0.36507752 -0.907692    0.20688838  0.00329281]]

Ma trận gần đúng R_hat (rank-2 approximation):
[[ 5.13  1.91 -0.72  1.56]
 [ 3.43  1.28 -0.46  1.09]
 [ 1.55  1.04  1.79  3.97]
 [ 1.18  0.8   1.4   3.09]
 [-0.45  0.54  3.1   5.15]]


Giải thích code nhanh:

R: ma trận người-sản phẩm (0 = chưa đánh giá).

svd(R): tách ma trận thành $$𝑅 =𝑈Σ𝑉^𝑇$$ 
k = 2: chọn 2 latent features, giảm chiều.

R_hat: dự đoán giá trị đánh giá bị thiếu dựa trên latent features.
10 câu hỏi lý thuyết + trả lời ngắn gọn

**SVD là gì**

Phân tích ma trận thành 3 ma trận: U,Σ,VT, dùng để giảm chiều và dự đoán giá trị ẩn trong RS.

**Tại sao chọn latent features nhỏ hơn số dòng/cột?**

Giảm nhiễu, tập trung thông tin chính, tiết kiệm tính toán.

**Nếu tăng k (latent features), kết quả sao?**

R_hat gần với R hơn nhưng dễ overfitting.

**Nếu giảm k quá nhỏ, có vấn đề gì?**

Mất nhiều thông tin, dự đoán kém chính xác.

**SVD có chạy được trên ma trận nhiều giá trị 0 không?**

Có thể chạy, nhưng kết quả kém nếu ma trận quá thưa.

**Nếu thay SVD bằng NMF (Non-negative Matrix Factorization), kết quả thay đổi ra sao?**

Tất cả giá trị dự đoán ≥ 0, dễ hiểu hơn cho đánh giá, nhưng mô hình kém linh hoạt hơn.

**Làm sao dự đoán giá trị chưa đánh giá?**

Dùng R_hat từ latent features: R_hat[i,j] là giá trị dự đoán cho user i và item j.

**Có thể dùng ma trận gần đúng R_hat để gợi ý item?**

Có, chọn các item có R_hat cao mà user chưa đánh giá.

**SVD có yêu cầu ma trận đầy đủ không?**

Không, nhưng ma trận thưa nhiều thì cần kỹ thuật bổ sung (imputation).

**Tại sao cần chuẩn hóa ma trận trước khi SVD?**

Loại bỏ bias cá nhân (user mean), cải thiện dự đoán chính xác.