### Đọc dữ liệu ###

In [8]:
import os
import re
import pandas as pd

# Đường dẫn đến các thư mục chứa email
spam_folder = 'D:/xampp/htdocs/emailSpam/spam_2'
ham_folder = 'D:/xampp/htdocs/emailSpam/easy_ham_2'

# Danh sách các email và nhãn
emails = []
labels = []
senders = []
dates = []
subjects = []

# Hàm trích xuất thông tin từ email
def extract_info(email_content):
    sender = re.search(r'From: (.+?)\n', email_content)  # Tìm người gửi
    date = re.search(r'Date: (.+?)\n', email_content)  # Tìm ngày gửi
    subject = re.search(r'Subject: (.+?)\n', email_content)  # Tìm tiêu đề

    sender = sender.group(1) if sender else 'Unknown'
    date = date.group(1) if date else 'Unknown'
    subject = subject.group(1) if subject else 'No Subject'

    return sender, date, subject

# Đọc các tệp trong thư mục spam_2 và easy_ham_2
for folder, label in [(spam_folder, 'spam'), (ham_folder, 'ham')]:
    for filename in os.listdir(folder):
        file_path = os.path.join(folder, filename)
        if os.path.isfile(file_path):
            try:
                with open(file_path, 'r', encoding='latin-1') as f:
                    email_content = f.read()
                    emails.append(email_content)
                    labels.append(label)  # Gán nhãn 'spam' hoặc 'ham'
                    
                    # Trích xuất thông tin từ email
                    sender, date, subject = extract_info(email_content)
                    senders.append(sender)
                    dates.append(date)
                    subjects.append(subject)
            except Exception as e:
                print(f"Error reading file {filename}: {e}")

# Tạo DataFrame từ danh sách emails và labels
df = pd.DataFrame({
    'text': emails,
    'label': labels,
    'sender': senders,
    'date': dates,
    'subject': subjects
})

# Đặt tùy chọn hiển thị của pandas để hiển thị tất cả các dòng và cột
pd.set_option('display.max_rows', None)  # Hiển thị tất cả các dòng
pd.set_option('display.max_columns', None)  # Hiển thị tất cả các cột

# Hiển thị toàn bộ DataFrame
df


Unnamed: 0,text,label,sender,date,subject
0,From ilug-admin@linux.ie Tue Aug 6 11:51:02 ...,spam,"""Start Now"" <startnow2002@hotmail.com>","Fri, 02 Aug 2002 23:37:59 0530",[ILUG] STOP THE MLM INSANITY
1,From lmrn@mailexcite.com Mon Jun 24 17:03:24 ...,spam,lmrn@mailexcite.com,Mon May 13 04:46:13 2002,"Real Protection, Stun Guns! Free Shipping! Ti..."
2,From amknight@mailexcite.com Mon Jun 24 17:03...,spam,amknight@mailexcite.com,Wed May 15 08:58:23 2002,"New Improved Fat Burners, Now With TV Fat Abso..."
3,From jordan23@mailexcite.com Mon Jun 24 17:04...,spam,jordan23@mailexcite.com,Thu May 16 11:03:55 2002,"New Improved Fat Burners, Now With TV Fat Abso..."
4,From merchantsworld2001@juno.com Tue Aug 6 1...,spam,yyyy@pluriproj.pt,"Sun, 19 Oct 1980 10:55:16","Never Repay Cash Grants, $500 - $50,000, Secre..."
5,Received: from hq.pro-ns.net (localhost [127.0...,spam,3b3fke@ms10.hinet.net,"Fri, 23 Jul 1993 17:36:34",ÁÙ¦b¥Î20%ªº«H¥Î¥d´`Àô¶Ü??? Time:PM 05:36:34
6,From sales@outsrc-em.com Mon Jun 24 17:53:15 ...,spam,"""Outsource Sales"" <sales@outsrc-em.com>",Thu Jun 20 20:08:33 2002,New Product Announcement
7,From ormlh@imail.ru Sun Jul 15 04:56:31 2001\...,spam,ormlh@imail.ru,"Fri, 02 Jan 1998 04:30:44 -0400",FW:
8,From spamassassin-sightings-admin@lists.source...,spam,"""MR.DOUGLAS AND PRINCESS M."" <douglassmith200...","Mon, 5 Apr 1999 20:38:02 +0100",[SA] URGENT HELP..............
9,From fork-admin@xent.com Thu Aug 8 14:37:07 ...,spam,<dockut2@hotmail.com>,"Thu, 06 Jan 2000 12:44:53 +0200",Hello !


### Làm sạch dữ liệu ###

In [9]:
# Loại bỏ cột 'text' nếu không cần thiết
df_clean = df.drop(columns=['text'])

# Tiền xử lý cột 'subject' và 'sender'
df_clean['subject'] = df_clean['subject'].fillna('No Subject')  # Thay thế giá trị NaN
df_clean['sender'] = df_clean['sender'].fillna('Unknown')  # Thay thế giá trị NaN

# Chuyển đổi văn bản trong 'subject' thành vector sử dụng TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer

# Tạo vector hóa TF-IDF cho cột 'subject'
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(df_clean['subject'])

# Đặt tùy chọn hiển thị của pandas để hiển thị tất cả các dòng và cột
pd.set_option('display.max_rows', None)  # Hiển thị tất cả các dòng
pd.set_option('display.max_columns', None)  # Hiển thị tất cả các cột

# Hiển thị toàn bộ DataFrame
df_clean  # Đây sẽ hiển thị DataFrame dưới dạng bảng trong Jupyter Notebook


Unnamed: 0,label,sender,date,subject
0,spam,"""Start Now"" <startnow2002@hotmail.com>","Fri, 02 Aug 2002 23:37:59 0530",[ILUG] STOP THE MLM INSANITY
1,spam,lmrn@mailexcite.com,Mon May 13 04:46:13 2002,"Real Protection, Stun Guns! Free Shipping! Ti..."
2,spam,amknight@mailexcite.com,Wed May 15 08:58:23 2002,"New Improved Fat Burners, Now With TV Fat Abso..."
3,spam,jordan23@mailexcite.com,Thu May 16 11:03:55 2002,"New Improved Fat Burners, Now With TV Fat Abso..."
4,spam,yyyy@pluriproj.pt,"Sun, 19 Oct 1980 10:55:16","Never Repay Cash Grants, $500 - $50,000, Secre..."
5,spam,3b3fke@ms10.hinet.net,"Fri, 23 Jul 1993 17:36:34",ÁÙ¦b¥Î20%ªº«H¥Î¥d´`Àô¶Ü??? Time:PM 05:36:34
6,spam,"""Outsource Sales"" <sales@outsrc-em.com>",Thu Jun 20 20:08:33 2002,New Product Announcement
7,spam,ormlh@imail.ru,"Fri, 02 Jan 1998 04:30:44 -0400",FW:
8,spam,"""MR.DOUGLAS AND PRINCESS M."" <douglassmith200...","Mon, 5 Apr 1999 20:38:02 +0100",[SA] URGENT HELP..............
9,spam,<dockut2@hotmail.com>,"Thu, 06 Jan 2000 12:44:53 +0200",Hello !


### Chia dữ liệu thành 2 phần (tranning set và test set) ###

In [12]:
from sklearn.model_selection import train_test_split

# Chuyển nhãn từ 'spam' và 'ham' thành số (1 và 0)
y = df_clean['label'].map({'spam': 1, 'ham': 0})  

# Chia dữ liệu thành tập huấn luyện và kiểm tra (80% huấn luyện, 20% kiểm tra)
X_train, X_test, y_train, y_test = train_test_split(df_clean['subject'], y, test_size=0.2, random_state=42)

# Kiểm tra kích thước của các tập dữ liệu
print(f"Training data size: {X_train.shape[0]}")
print(f"Testing data size: {X_test.shape[0]}")


Training data size: 2239
Testing data size: 560


### Vector hóa dữ liệu văn bản ###

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Khởi tạo TF-IDF vectorizer
vectorizer = TfidfVectorizer(stop_words='english')  # Loại bỏ từ dừng (stop words)

# Chuyển đổi dữ liệu văn bản (subject) thành vector sử dụng TF-IDF
X_train_tfidf = vectorizer.fit_transform(X_train)  # Chuyển đổi tập huấn luyện
X_test_tfidf = vectorizer.transform(X_test)  # Chuyển đổi tập kiểm tra

# Kiểm tra kích thước của ma trận TF-IDF
print(X_train_tfidf.shape)  # In ra kích thước của X_train_tfidf
print(X_test_tfidf.shape)  # In ra kích thước của X_test_tfidf


(2239, 2779)
(560, 2779)


### Chọn mô hình học máy ###

In [5]:
from sklearn.naive_bayes import MultinomialNB

# Khởi tạo mô hình Naive Bayes
model = MultinomialNB()

# Huấn luyện mô hình với dữ liệu huấn luyện
model.fit(X_train_tfidf, y_train)

# Dự đoán nhãn trên tập kiểm tra
y_pred = model.predict(X_test_tfidf)

# Đánh giá mô hình
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Precision: {precision_score(y_test, y_pred)}")
print(f"Recall: {recall_score(y_test, y_pred)}")
print(f"F1-Score: {f1_score(y_test, y_pred)}")


Accuracy: 0.9071428571428571
Precision: 0.9425287356321839
Recall: 0.8692579505300353
F1-Score: 0.9044117647058824


In [6]:
from sklearn.model_selection import GridSearchCV

# Tìm tham số tốt nhất cho Naive Bayes
param_grid = {'alpha': [0.1, 0.5, 1.0, 2.0]}

# Sử dụng GridSearchCV để tìm kiếm tham số tốt nhất
grid_search = GridSearchCV(MultinomialNB(), param_grid, cv=5)
grid_search.fit(X_train_tfidf, y_train)

# In ra tham số tốt nhất và độ chính xác
print(f"Best Parameters: {grid_search.best_params_}")
print(f"Best Accuracy: {grid_search.best_score_}")


Best Parameters: {'alpha': 0.1}
Best Accuracy: 0.9164789069990412


### Save model ###

In [13]:
import joblib

# Lưu mô hình vào tệp
joblib.dump(model, 'spam_classifier_model.pkl')

# Lưu vectorizer vào tệp
joblib.dump(vectorizer, 'vectorizer.pkl')


['vectorizer.pkl']