In [7]:
import numpy as np
from scipy import sparse
from sklearn.decomposition import TruncatedSVD
import pickle

# Load dữ liệu TF-IDF
X_train_tfidf = sparse.load_npz('../../data_use/tf_idf/X_train_tfidf.npz')
X_test_tfidf = sparse.load_npz('../../data_use/tf_idf/X_test_tfidf.npz')
y_train = np.load('../../data_use/tf_idf/y_train.npy', allow_pickle=True)
y_test = np.load('../../data_use/tf_idf/y_test.npy', allow_pickle=True)

print(f"\nKích thước dữ liệu gốc:")
print(f"   ├─ Train: {X_train_tfidf.shape}")
print(f"   └─ Test: {X_test_tfidf.shape}")



Kích thước dữ liệu gốc:
   ├─ Train: (1774, 5000)
   └─ Test: (444, 5000)


In [8]:
# Thử nghiệm nhiều số chiều
n_components_list = [50, 100, 200, 300, 400, 500, 600]
lsa_results = {}

print("\nPhân tích explained variance cho các số chiều khác nhau:")
for n_comp in n_components_list:
    lsa = TruncatedSVD(n_components=n_comp, random_state=42, n_iter=10)
    lsa.fit(X_train_tfidf)
    explained_var = lsa.explained_variance_ratio_.sum()
    lsa_results[n_comp] = explained_var
    print(f"   ├─ {n_comp} chiều: {explained_var*100:.2f}% variance được giữ lại")

# Chọn số chiều tối ưu
n_components_lsa = 600
print(f"\nChọn số chiều LSA: {n_components_lsa}")

lsa = TruncatedSVD(n_components=n_components_lsa, random_state=42, n_iter=10)
X_train_lsa = lsa.fit_transform(X_train_tfidf)
X_test_lsa = lsa.transform(X_test_tfidf)

print(f"\nKích thước sau LSA:")
print(f"   ├─ Train: {X_train_lsa.shape}")
print(f"   └─ Test: {X_test_lsa.shape}")

print(f"\nVariance giữ lại: {lsa.explained_variance_ratio_.sum()*100:.2f}%")

# Lưu kết quả
np.save('../../data_use/lsa/X_train_lsa.npy', X_train_lsa)
np.save('../../data_use/lsa/X_test_lsa.npy', X_test_lsa)

with open('../../data_use/lsa/lsa_model.pkl', 'wb') as f:
    pickle.dump(lsa, f)

print("\nĐã lưu:")
print("   ├─ ../../data_use/lsa/X_train_lsa.npy")
print("   ├─ ../../data_use/lsa/X_test_lsa.npy")
print("   └─ ../../data_use/lsa/lsa_model.pkl")



Phân tích explained variance cho các số chiều khác nhau:
   ├─ 50 chiều: 18.62% variance được giữ lại
   ├─ 100 chiều: 27.48% variance được giữ lại
   ├─ 200 chiều: 40.56% variance được giữ lại
   ├─ 300 chiều: 50.68% variance được giữ lại
   ├─ 400 chiều: 59.01% variance được giữ lại
   ├─ 500 chiều: 66.02% variance được giữ lại
   ├─ 600 chiều: 72.00% variance được giữ lại

Chọn số chiều LSA: 600

Kích thước sau LSA:
   ├─ Train: (1774, 600)
   └─ Test: (444, 600)

Variance giữ lại: 72.00%

Đã lưu:
   ├─ ../../data_use/lsa/X_train_lsa.npy
   ├─ ../../data_use/lsa/X_test_lsa.npy
   └─ ../../data_use/lsa/lsa_model.pkl
