In [5]:
import numpy as np
from scipy import sparse
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import pickle

# Load dữ liệu TF-IDF
X_train_tfidf = sparse.load_npz('../../data_use/tf_idf/X_train_tfidf.npz')
X_test_tfidf = sparse.load_npz('../../data_use/tf_idf/X_test_tfidf.npz')
y_train = np.load('../../data_use/tf_idf/y_train.npy', allow_pickle=True)
y_test = np.load('../../data_use/tf_idf/y_test.npy', allow_pickle=True)

print(f"\nKích thước dữ liệu gốc:")
print(f"   ├─ Train: {X_train_tfidf.shape}")
print(f"   └─ Test: {X_test_tfidf.shape}")



Kích thước dữ liệu gốc:
   ├─ Train: (1774, 5000)
   └─ Test: (444, 5000)


In [6]:
X_train_dense = X_train_tfidf.toarray()
X_test_dense = X_test_tfidf.toarray()

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_dense)
X_test_scaled = scaler.transform(X_test_dense)

# Phân tích explained variance
n_components_list = [50, 100, 200, 300, 400, 500, 600]
print("\nPhân tích explained variance:")
for n_comp in n_components_list:
    pca = PCA(n_components=n_comp, random_state=42)
    pca.fit(X_train_scaled)
    print(f"   ├─ {n_comp} chiều: {pca.explained_variance_ratio_.sum()*100:.2f}% variance giữ lại")

# Áp dụng PCA
n_components_pca = 600
print(f"\nChọn số chiều PCA: {n_components_pca}")

pca = PCA(n_components=n_components_pca, random_state=42)
X_train_pca = pca.fit_transform(X_train_scaled)
X_test_pca = pca.transform(X_test_scaled)

print(f"\nKích thước sau PCA:")
print(f"   ├─ Train: {X_train_pca.shape}")
print(f"   └─ Test: {X_test_pca.shape}")

print(f"\nVariance giữ lại: {pca.explained_variance_ratio_.sum()*100:.2f}%")
# Lưu kết quả
np.save('../../data_use/pca/X_train_pca.npy', X_train_pca)
np.save('../../data_use/pca/X_test_pca.npy', X_test_pca)
with open('../../data_use/pca/pca_model.pkl', 'wb') as f:
    pickle.dump(pca, f)
with open('../../data_use/pca/scaler.pkl', 'wb') as f:
    pickle.dump(scaler, f)

print("\nĐã lưu:")
print("   ├─ X_train_pca.npy")
print("   ├─ X_test_pca.npy")
print("   ├─ pca_model.pkl")
print("   └─ scaler.pkl")

print("\n Hoàn thành PCA Reduction!")


Phân tích explained variance:
   ├─ 50 chiều: 14.20% variance giữ lại
   ├─ 100 chiều: 22.10% variance giữ lại
   ├─ 200 chiều: 33.97% variance giữ lại
   ├─ 300 chiều: 44.02% variance giữ lại
   ├─ 400 chiều: 52.63% variance giữ lại
   ├─ 500 chiều: 60.15% variance giữ lại
   ├─ 600 chiều: 66.72% variance giữ lại

Chọn số chiều PCA: 600

Kích thước sau PCA:
   ├─ Train: (1774, 600)
   └─ Test: (444, 600)

Variance giữ lại: 66.72%

Đã lưu:
   ├─ X_train_pca.npy
   ├─ X_test_pca.npy
   ├─ pca_model.pkl
   └─ scaler.pkl

 Hoàn thành PCA Reduction!
