In [1]:
import os
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import classification_report

In [24]:
# Hàm đọc email từ thư mục (bao gồm cả thư mục con)
def load_emails_from_folder(folder):
    emails = []
    for root, dirs, files in os.walk(folder):   # duyệt cả thư mục con
        for filename in files:
            filepath = os.path.join(root, filename)
            try:
                with open(filepath, 'r', encoding='latin-1', errors='ignore') as f:
                    emails.append(f.read())
            except Exception as e:
                print("Không đọc được file:", filepath, e)
    return emails

In [25]:
# Đường dẫn gốc tới SpamAssassin
base_path = r"C:\Users\as\OneDrive - Tra Vinh University\Học_Tập\Do_an_co_so_nganh_2025\SpamAssassin"

# Đọc dữ liệu từ các thư mục con
easy_ham = load_emails_from_folder(os.path.join(base_path, "easy_ham"))
hard_ham = load_emails_from_folder(os.path.join(base_path, "hard_ham"))
spam = load_emails_from_folder(os.path.join(base_path, "spam_2"))

print("Số email easy_ham:", len(easy_ham))
print("Số email hard_ham:", len(hard_ham))
print("Số email spam:", len(spam))

Số email easy_ham: 5103
Số email hard_ham: 501
Số email spam: 2794


In [26]:
# Gộp dữ liệu và gán nhãn
texts = easy_ham + hard_ham + spam
labels = ["ham"] * (len(easy_ham) + len(hard_ham)) + ["spam"] * len(spam)

print("Tổng số email:", len(texts))

Tổng số email: 8398


In [27]:
# Vector hóa bằng TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(texts)

# Chia dữ liệu train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, labels, test_size=0.2, random_state=42
)

In [28]:
# Huấn luyện mô hình SVM
model = SVC(kernel='linear')
model.fit(X_train, y_train)

# Đánh giá mô hình
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

         ham       1.00      0.99      1.00      1134
        spam       0.99      0.99      0.99       546

    accuracy                           0.99      1680
   macro avg       0.99      0.99      0.99      1680
weighted avg       0.99      0.99      0.99      1680



In [29]:
# Thử nghiệm với email mới
sample_email = """Congratulations! You have won $10,000 cash.
Click here to claim your prize: http://exclusive-prize.com"""

sample_features = vectorizer.transform([sample_email])
prediction = model.predict(sample_features)
print("Phân loại email mới:", prediction[0])

Phân loại email mới: spam
