In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
import nltk
import re



# Đọc dữ liệu từ tệp CSV
data = pd.read_csv('mail_data.csv')  # Thay 'mail_data.csv' bằng tên tệp của bạn
print(data.head())


In [None]:
# Tải stopwords từ nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

# Hàm làm sạch văn bản
def clean_text(text):
    text = re.sub(r'[^\w\s]', '', text)  # Loại bỏ dấu câu
    text = text.lower()  # Chuyển thành chữ thường
    text = ' '.join([word for word in text.split() if word not in stop_words])  # Loại bỏ từ dừng
    return text

# Áp dụng hàm làm sạch cho cột chứa email
data['Message'] = data['Message'].apply(clean_text)
print(data.head())


In [None]:
# Khởi tạo TF-IDF vectorizer
vectorizer = TfidfVectorizer(max_features=3000)

# Chuyển đổi văn bản thành đặc trưng
X = vectorizer.fit_transform(data['Message']).toarray()
y = data['Category'].apply(lambda x: 1 if x == 'spam' else 0)  # Chuyển đổi nhãn 'spam' thành 1, 'ham' thành 0


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
# Khởi tạo và huấn luyện mô hình Logistic Regression
model = LogisticRegression()
model.fit(X_train, y_train)


In [None]:
# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Tính độ chính xác và in báo cáo phân loại
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
print("Classification Report:\n", classification_report(y_test, y_pred))
