In [1]:
import numpy as np
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score
from scipy import sparse
import pickle

# --- Load dữ liệu ---
X_train_tfidf = sparse.load_npz('../../data_use/tf_idf/X_train_tfidf.npz')
X_train_lsa = np.load('../../data_use/lsa/X_train_lsa.npy')
X_train_pca = np.load('../../data_use/pca/X_train_pca.npy')
y_train = np.load('../../data_use/tf_idf/y_train.npy', allow_pickle=True)

n_clusters = len(np.unique(y_train))
print(f"\nSố cụm (k): {n_clusters}")



Số cụm (k): 5


In [2]:
# --- Tập dữ liệu sử dụng ---
datasets = {
    'TF-IDF': X_train_tfidf.toarray(),
    'LSA': X_train_lsa,
    'PCA': X_train_pca
}

results = {}
for name, X in datasets.items():
    print(f"\ Đang huấn luyện K-Means trên {name}...")
    model = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)
    labels = model.fit_predict(X)

    # Lưu kết quả
    results[name] = {
        'model': model,
        'labels': labels,
        'silhouette': silhouette_score(X, labels),
        'davies_bouldin': davies_bouldin_score(X, labels),
        'calinski_harabasz': calinski_harabasz_score(X, labels)
    }

# --- In kết quả ---
print("\nKẾT QUẢ K-MEANS:")
for name, r in results.items():
    print(f"\n{name}:")
    print(f"   Silhouette Score      : {r['silhouette']:.4f}")
    print(f"   Davies-Bouldin Index  : {r['davies_bouldin']:.4f}")
    print(f"   Calinski-Harabasz     : {r['calinski_harabasz']:.4f}")

# --- Lưu model ---
with open('../../data_use/cluster/kmeans_results.pkl', 'wb') as f:
    pickle.dump(results, f)

print("\nĐã lưu kết quả tại: data_use/cluster/kmeans_results.pkl")

\ Đang huấn luyện K-Means trên TF-IDF...
\ Đang huấn luyện K-Means trên LSA...
\ Đang huấn luyện K-Means trên PCA...

KẾT QUẢ K-MEANS:

TF-IDF:
   Silhouette Score      : 0.0177
   Davies-Bouldin Index  : 6.9364
   Calinski-Harabasz     : 16.5913

LSA:
   Silhouette Score      : 0.0245
   Davies-Bouldin Index  : 5.8334
   Calinski-Harabasz     : 23.3411

PCA:
   Silhouette Score      : 0.0052
   Davies-Bouldin Index  : 6.9433
   Calinski-Harabasz     : 14.2155

Đã lưu kết quả tại: data_use/cluster/kmeans_results.pkl
