In [None]:
# 6. Triển khai Support Vector Machine (SVM)

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC # Import lớp SVM cho phân loại
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import sys
import os
import joblib # Dùng để lưu/tải mô hình

# --- Đảm bảo có thể import từ thư mục src ---
# Thêm thư mục gốc của dự án vào đường dẫn Python
module_path = os.path.abspath(os.path.join('..')) # Giả sử đang chạy từ notebooks hoặc tương tự
if module_path not in sys.path:
    sys.path.append(module_path)

# --- Import hàm tiền xử lý từ src ---
try:
    # Giả sử hàm tiền xử lý của bạn tên là clean_text_v1 trong file preprocess.py
    from src.preprocess import clean_text_v1
except ImportError:
    print("Lỗi: Không thể import hàm clean_text_v1 từ src/preprocess.py.")
    print("Hãy đảm bảo file tồn tại và chứa hàm cần thiết.")
    exit()
except Exception as e:
    print(f"Lỗi khác khi import hàm tiền xử lý: {e}")
    exit()

# --- 1. Đọc và Chuẩn bị Dữ liệu ---
print("Đang đọc dữ liệu...")
try:
    # Sử dụng đường dẫn tương đối nếu cần
    data_path = '../data/processed/spam_cleaned_columns.csv'
    df = pd.read_csv(data_path, encoding='latin-1')
except FileNotFoundError:
    print(f"Lỗi: Không tìm thấy file {data_path}")
    exit()



# --- 2. Áp dụng Tiền xử lý ---
print("Đang áp dụng tiền xử lý văn bản...")
df['Cleaned_Message'] = df['Message'].apply(clean_text_v1)
print("Tiền xử lý văn bản hoàn tất.")
print("5 dòng đầu với Cleaned_Message:")
print(df[['Message', 'Cleaned_Message', 'Category']].head())

# --- 3. Chuẩn bị Dữ liệu cho Mô hình ---
X = df['Cleaned_Message']
y = df['Category_Num']

# --- 4. Chia Dữ liệu Train/Test ---
# Sử dụng cùng random_state và stratify như khi làm Naive Bayes để đảm bảo tính nhất quán
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
print(f"\nĐã chia dữ liệu: {X_train.shape[0]} huấn luyện, {X_test.shape[0]} kiểm tra")

# --- 5. Vector hóa TF-IDF ---
# Sử dụng lại cài đặt TF-IDF giống như với Naive Bayes
print("Đang thực hiện vector hóa TF-IDF...")
tfidf_vectorizer = TfidfVectorizer(max_features=5000)
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)
print(f"Kích thước ma trận TF-IDF tập huấn luyện: {X_train_tfidf.shape}")
print(f"Kích thước ma trận TF-IDF tập kiểm tra: {X_test_tfidf.shape}")

# --- 6. Huấn luyện Mô hình SVM ---
print("\nBắt đầu huấn luyện mô hình SVM...")
# Khởi tạo mô hình SVM (SVC - Support Vector Classifier)
# kernel='linear': Thường hiệu quả cho dữ liệu văn bản.
# probability=True: Cho phép sử dụng predict_proba sau này (có thể làm chậm huấn luyện một chút).
# random_state=42: Để đảm bảo kết quả có thể lặp lại (nếu thuật toán có yếu tố ngẫu nhiên).
svm_model = SVC(kernel='linear', probability=True, random_state=42)

# Huấn luyện mô hình
svm_model.fit(X_train_tfidf, y_train)
print("Đã huấn luyện xong mô hình SVM.")

# --- 7. Dự đoán trên Tập Kiểm tra ---
y_pred_svm = svm_model.predict(X_test_tfidf)

# --- 8. Đánh giá Mô hình ---
print("\nKết quả đánh giá SVM (kernel='linear', C=mặc định):")
print("Accuracy:", accuracy_score(y_test, y_pred_svm))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred_svm))
# target_names giúp hiển thị tên lớp 'ham', 'spam' thay vì 0, 1
print("\nClassification Report:\n", classification_report(y_test, y_pred_svm, target_names=['ham', 'spam']))

# --- (Tùy chọn) Lưu mô hình và vectorizer ---
# print("\nĐang lưu mô hình và vectorizer...")
# output_dir = '../results/trained_models/'
# os.makedirs(output_dir, exist_ok=True) # Tạo thư mục nếu chưa có
# joblib.dump(svm_model, os.path.join(output_dir, 'svm_linear_model.pkl'))
# joblib.dump(tfidf_vectorizer, os.path.join(output_dir, 'tfidf_vectorizer.pkl'))
# print("Đã lưu mô hình và vectorizer vào thư mục results/trained_models/")

# --- (Tùy chọn) Lấy xác suất dự đoán ---
# y_pred_proba_svm = svm_model.predict_proba(X_test_tfidf)
# print("\nXác suất dự đoán cho 5 mẫu đầu tiên:\n", y_pred_proba_svm[:5])

Đang đọc dữ liệu...
Đang áp dụng tiền xử lý văn bản...
Tiền xử lý văn bản hoàn tất.
5 dòng đầu với Cleaned_Message:
                                             Message  \
0  Go until jurong point, crazy.. Available only ...   
1                      Ok lar... Joking wif u oni...   
2  Free entry in 2 a wkly comp to win FA Cup fina...   
3  U dun say so early hor... U c already then say...   
4  Nah I don't think he goes to usf, he lives aro...   

                                     Cleaned_Message Category  
0  go jurong point crazy available bugis n great ...      ham  
1                            ok lar joking wif u oni      ham  
2  free entry wkly comp win fa cup final tkts st ...     spam  
3                u dun say early hor u c already say      ham  
4        nah dont think goes usf lives around though      ham  

Đã chia dữ liệu: 4457 huấn luyện, 1115 kiểm tra
Đang thực hiện vector hóa TF-IDF...
Kích thước ma trận TF-IDF tập huấn luyện: (4457, 5000)
Kích thước ma trận TF-I

In [2]:
# -*- coding: utf-8 -*-
# Cell mới: Tạo Test Case và Dự đoán bằng mô hình SVM đã huấn luyện

# --- Giả định các biến sau đã tồn tại từ cell trước ---
# svm_model: Đối tượng mô hình SVC đã được .fit()
# tfidf_vectorizer: Đối tượng TfidfVectorizer đã được .fit_transform() trên tập train
# clean_text_v1: Hàm tiền xử lý văn bản đã được định nghĩa hoặc import

# --- Định nghĩa các tin nhắn mới cần dự đoán ---
new_messages_for_test = [
    "URGENT! Claim your FREE £1000 prize now! Click http://spamlink.com", # Tin nhắn có vẻ là SPAM
    "Hey, wondering if you're free for coffee later today?", # Tin nhắn có vẻ là HAM
    "Meet singles in your area, text DATE to 88888 T&Cs apply 18+", # Tin nhắn có vẻ là SPAM
    "Remember to buy bread and eggs on your way back.", # Tin nhắn có vẻ là HAM
    "Limited time offer! Exclusive discount just for you!", # Tin nhắn có vẻ là SPAM
    "50 percent discount this Friday only!"
]

print("--- Bắt đầu Test Case ---")
print(f"Số lượng tin nhắn thử nghiệm: {len(new_messages_for_test)}")

# --- 1. Tiền xử lý các tin nhắn mới ---
# Áp dụng hàm tiền xử lý đã có (cần đảm bảo hàm clean_text_v1 đã được định nghĩa/import ở cell trước)
try:
    cleaned_test_messages = [clean_text_v1(msg) for msg in new_messages_for_test]
    print("\nTin nhắn sau khi tiền xử lý:")
    for i, msg in enumerate(cleaned_test_messages):
        print(f"{i+1}: {msg}")
except NameError:
    print("\nLỗi: Hàm 'clean_text_v1' chưa được định nghĩa hoặc import.")
    print("Vui lòng chạy cell định nghĩa/import hàm này trước.")
    # Dừng thực thi cell này nếu hàm chưa có
    raise

# --- 2. Vector hóa các tin nhắn mới ---
# *** Quan trọng: Dùng đối tượng tfidf_vectorizer đã fit từ cell trước, chỉ gọi .transform() ***
try:
    new_messages_tfidf_test = tfidf_vectorizer.transform(cleaned_test_messages)
    print(f"\nĐã vector hóa {len(cleaned_test_messages)} tin nhắn thành ma trận TF-IDF kích thước: {new_messages_tfidf_test.shape}")
except NameError:
    print("\nLỗi: Biến 'tfidf_vectorizer' chưa được định nghĩa.")
    print("Vui lòng chạy cell huấn luyện TF-IDF Vectorizer trước.")
    raise

# --- 3. Dự đoán ---
print("\nĐang thực hiện dự đoán bằng mô hình SVM...")
try:
    # Dự đoán nhãn (0 hoặc 1)
    predictions_test = svm_model.predict(new_messages_tfidf_test)
    # Dự đoán xác suất (P(ham), P(spam))
    # Lưu ý: svm_model phải được khởi tạo với probability=True ở cell huấn luyện
    probabilities_test = svm_model.predict_proba(new_messages_tfidf_test)
except NameError:
    print("\nLỗi: Biến 'svm_model' chưa được định nghĩa.")
    print("Vui lòng chạy cell huấn luyện mô hình SVM trước.")
    raise
except AttributeError:
     print("\nLỗi: Không thể lấy xác suất.")
     print("Để dùng predict_proba(), mô hình SVM cần được khởi tạo với tham số 'probability=True'.")
     # Gán giá trị mặc định để code không bị lỗi tiếp
     probabilities_test = np.array([[0.5, 0.5]] * len(predictions_test)) # Tạo mảng xác suất giả định

# --- 4. Hiển thị kết quả ---
print("\n--- Kết quả Dự đoán Test Case ---")
label_map = {0: 'ham', 1: 'spam'} # Ánh xạ nhãn số về chữ

for i, original_message in enumerate(new_messages_for_test):
    predicted_label_num = predictions_test[i]
    predicted_label_text = label_map[predicted_label_num]
    prob_ham = probabilities_test[i][0] # Xác suất là ham (lớp 0)
    prob_spam = probabilities_test[i][1] # Xác suất là spam (lớp 1)

    print(f"\nTin nhắn gốc : \"{original_message}\"")
    # print(f"Tin nhắn sạch: \"{cleaned_test_messages[i]}\"") # Bỏ comment nếu muốn xem
    print(f"  -> Dự đoán   : {predicted_label_text.upper()}")
    # Chỉ in xác suất nếu lấy được
    if 'AttributeError' not in locals() or not isinstance(locals()['AttributeError'], AttributeError):
         print(f"  -> Xác suất : [Ham={prob_ham:.4f}, Spam={prob_spam:.4f}]")

print("\n--- Hoàn thành Test Case ---")

--- Bắt đầu Test Case ---
Số lượng tin nhắn thử nghiệm: 6

Tin nhắn sau khi tiền xử lý:
1: urgent claim free prize click httpspamlinkcom
2: hey wondering youre free coffee later today
3: meet singles area text date tcs apply
4: remember buy bread eggs way back
5: limited time offer exclusive discount
6: percent discount friday

Đã vector hóa 6 tin nhắn thành ma trận TF-IDF kích thước: (6, 5000)

Đang thực hiện dự đoán bằng mô hình SVM...

--- Kết quả Dự đoán Test Case ---

Tin nhắn gốc : "URGENT! Claim your FREE £1000 prize now! Click http://spamlink.com"
  -> Dự đoán   : SPAM
  -> Xác suất : [Ham=0.0000, Spam=1.0000]

Tin nhắn gốc : "Hey, wondering if you're free for coffee later today?"
  -> Dự đoán   : HAM
  -> Xác suất : [Ham=0.9990, Spam=0.0010]

Tin nhắn gốc : "Meet singles in your area, text DATE to 88888 T&Cs apply 18+"
  -> Dự đoán   : SPAM
  -> Xác suất : [Ham=0.0084, Spam=0.9916]

Tin nhắn gốc : "Remember to buy bread and eggs on your way back."
  -> Dự đoán   : HAM
  -> Xác

B1:Tạo 1 file google doc -> Note lại toàn bộ kết quả baseline của từng thuật toán (accuracy, precision, recall, f1-score, confusion matrix)
B2: Tinh chỉnh siêu tham số
- random forest
- Logistic Regression
B3: Sử dụng GridSearchCV hoặc RandomizedSearchCV (CV: Cross validation)
- Cross Validation: K-Fold Cross Validation (Kiểm định chéo K lần)
  + Chia dữ liệu: Chia ngẫu nhiên tập train thành K phần, giá trị K thường là 5 hoặc 10
  + Lặp K lần: Quá trình huấn luyện và đánh giá dược lặp lại K lần. Trong mỗi lần lặp (ví dụ lần lặp thứ i):
    > Chọn Fold kiểm tra: Fold thứ i được giữ lại làm tập dữ liệu kiểm định (validation set) hoặc là "test fold" cho lần lặp này.
    >Chọn fold huấn luyện: K-1 phần còn lại được gộp lại để làm tập dữ liệu huấn luyện.
    >Huấn luyện: Mô hình học máy được huấn luyện trên tập huấn luyện (k-1 folds)
    > Đánh giá: Mô hình vừa huấn luyện xong được đánh giá hiệu năng (tính f1-score, accuracy,..) trên tập kiểm định (fold thứ i). Kết quả đánh giá được lưu lại.
  + Tổng hợp kết quả: Sau khi thực hiện K lần lặp thì có K kết quả đánh giá. Hiệu năng cuối cùng của mô hình theo phương pháp CV thường được tính bằng lấy trung bình của K kết quả.
- GridSearchCV: thử tất cả các tổ hợp
- RandomizedSearchCV: thử một số tổ hợp tham số ngẫu nhiên.

B4:Cập nhật kết quả: ghi lại chỉ số hiệu năng của mô hình đã tune vào bảng so sánh chung (file google doc ở trên).
