In [2]:
# --- 1. IMPORT CÁC THƯ VIỆN CẦN THIẾT ---
import pandas as pd
import re
import numpy as np
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from scipy.sparse import hstack
import matplotlib.pyplot as plt
import seaborn as sns
import os # Thêm thư viện os để làm việc với đường dẫn file

# --- 2. CẤU HÌNH CHO NOTEBOOK ---
# Cấu hình cho biểu đồ đẹp hơn
sns.set_style('whitegrid')
# Lệnh magic để hiển thị biểu đồ ngay trong notebook
%matplotlib inline

# --- 3. CÁC HẰNG SỐ VÀ BIẾN TOÀN CỤC ---
# Đặt một seed cố định để đảm bảo kết quả có thể tái lập
RANDOM_SEED = 42
# Đường dẫn đến thư mục chứa dữ liệu
data_folder = '../data/dataForTrain'
# Danh sách các file CSV sẽ được xử lý
files_to_process = ['CEAS_08.csv', 'Nazario.csv', 'Nigerian_Fraud.csv', 'SpamAssasin.csv']

print("Cell 1: Khai báo và cấu hình hoàn tất.")
print(f"Sẽ xử lý {len(files_to_process)} file từ thư mục: '{data_folder}'")

Cell 1: Khai báo và cấu hình hoàn tất.
Sẽ xử lý 4 file từ thư mục: '../data/dataForTrain'


In [8]:
# Cell 2: Tải và Hợp nhất Dữ liệu Đa trường

all_dfs = [] # List để chứa các DataFrame của từng file
print("Bắt đầu quá trình đọc và hợp nhất 4 file...")

for file_name in files_to_process:
    file_path = os.path.join(data_folder, file_name)
    print(f"\n--- Đang xử lý file: {file_name} ---")
    try:
        # Đọc file CSV, sử dụng encoding='latin1' để tránh lỗi ký tự đặc biệt
        df_temp = pd.read_csv(file_path, encoding='latin1')
        
        # Thêm cột 'source' để biết nguồn gốc của mỗi dòng dữ liệu
        df_temp['source'] = file_name
        
        all_dfs.append(df_temp)
        print(f"-> Đọc thành công. Số dòng: {len(df_temp)}")
        
    except FileNotFoundError:
        print(f"-> LỖI: Không tìm thấy file {file_path}. Bỏ qua.")
    except Exception as e:
        print(f"-> LỖI khi xử lý file {file_path}: {e}. Bỏ qua.")

# Gộp tất cả các DataFrame trong list lại thành một DataFrame tổng
if all_dfs:
    master_df = pd.concat(all_dfs, ignore_index=True)
    
    print("\n--- Gộp dữ liệu hoàn tất ---")
    print(f"Tổng số dòng trước khi làm sạch: {len(master_df)}")
    
    # --- LÀM SẠCH CƠ BẢN ---
    # 1. Chỉ giữ lại các cột cần thiết, đảm bảo một cấu trúc đồng nhất
    # (Loại bỏ các cột không xác định nếu có)
    required_columns = ['sender', 'receiver', 'date', 'subject', 'body', 'label', 'urls', 'source']
    master_df = master_df[required_columns]
    
    # 2. Xử lý các giá trị bị thiếu (chỉ trên các cột quan trọng)
    master_df.dropna(subset=['subject', 'body', 'label'], inplace=True)
    
    # 3. Loại bỏ các dòng bị trùng lặp dựa trên nội dung
    master_df.drop_duplicates(subset=['subject', 'body'], inplace=True, keep='first')
    
    # 4. Chuyển đổi kiểu dữ liệu cho chuẩn
    master_df['label'] = master_df['label'].astype(int)

    print(f"Tổng số dòng sau khi làm sạch cơ bản: {len(master_df)}")
    print("\n--- Thông tin các cột của Master DataFrame ---")
    master_df.info()
else:
    print("\nKhông có dữ liệu để xử lý. Vui lòng kiểm tra lại các file.")

Bắt đầu quá trình đọc và hợp nhất 4 file...

--- Đang xử lý file: CEAS_08.csv ---
-> Đọc thành công. Số dòng: 39154

--- Đang xử lý file: Nazario.csv ---
-> Đọc thành công. Số dòng: 1565

--- Đang xử lý file: Nigerian_Fraud.csv ---
-> Đọc thành công. Số dòng: 3332

--- Đang xử lý file: SpamAssasin.csv ---
-> Đọc thành công. Số dòng: 5809

--- Gộp dữ liệu hoàn tất ---
Tổng số dòng trước khi làm sạch: 49860
Tổng số dòng sau khi làm sạch cơ bản: 49772

--- Thông tin các cột của Master DataFrame ---
<class 'pandas.core.frame.DataFrame'>
Index: 49772 entries, 0 to 49859
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   sender    49446 non-null  object
 1   receiver  47706 non-null  object
 2   date      49295 non-null  object
 3   subject   49772 non-null  object
 4   body      49772 non-null  object
 5   label     49772 non-null  int64 
 6   urls      49772 non-null  int64 
 7   source    49772 non-null  object
dtypes: int64(2)

In [13]:
# Cell 3 (Phiên bản Hoàn chỉnh)
import warnings
warnings.filterwarnings('ignore')

if 'master_df' in locals() and not master_df.empty:
    print("--- Bắt đầu trích xuất và phân tích đặc trưng ---")
    
    df_features = master_df.copy()

    # --- 1. TẠO CÁC ĐẶC TRƯNG TỪ CÁC CỘT GỐC ---
    
    # a. Đặc trưng từ 'subject' và 'body'
    df_features['text_combined'] = df_features['subject'].astype(str) + ' ' + df_features['body'].astype(str)
    df_features['char_count'] = df_features['text_combined'].apply(len)
    df_features['word_count'] = df_features['text_combined'].apply(lambda x: len(x.split()))

    # b. Đặc trưng từ 'date'
    def safe_parse_date(date_str):
        if not isinstance(date_str, str): return pd.NaT
        date_str_cleaned = re.sub(r'\s+[A-Z]{2,5}$', '', date_str.strip())
        return pd.to_datetime(date_str_cleaned, utc=True, errors='coerce')
    
    parsed_dates = df_features['date'].apply(safe_parse_date)
    df_features['day_of_week'] = parsed_dates.dt.dayofweek
    df_features['hour_of_day'] = parsed_dates.dt.hour
    
    # Điền các giá trị thiếu bằng giá trị trung vị
    df_features.fillna({
        'day_of_week': df_features['day_of_week'].median(),
        'hour_of_day': df_features['hour_of_day'].median()
    }, inplace=True)

    # c. Đặc trưng từ 'sender' và 'receiver'
    def get_domain(email_address):
        if not isinstance(email_address, str) or '@' not in email_address:
            return 'unknown'
        # Chỉ lấy phần domain cấp cao nhất (ví dụ: 'a.b.com' -> 'com') để giảm số lượng danh mục
        domain_parts = email_address.split('@')[-1].split('.')
        return domain_parts[-1] if len(domain_parts) > 1 else 'unknown'

    df_features['sender_domain'] = df_features['sender'].apply(get_domain)
    df_features['receiver_domain'] = df_features['receiver'].apply(get_domain)
    df_features['same_domain'] = (df_features['sender_domain'] == df_features['receiver_domain']).astype(int)
    
    print("Trích xuất đặc trưng từ tất cả các trường hoàn tất!")
    
    # --- 2. PHÂN TÍCH DỮ LIỆU TRỰC QUAN (EDA) ---
    
    phishing_df = df_features[df_features['label'] == 1]
    safe_df = df_features[df_features['label'] == 0]
    features_to_analyze = ['urls', 'char_count', 'word_count', 'hour_of_day', 'same_domain']
    
    print("\n--- Vẽ biểu đồ phân bổ các đặc trưng ---")
    plt.figure(figsize=(16, 16))
    for i, feature in enumerate(features_to_analyze):
        plt.subplot(3, 2, i + 1)
        if feature == 'same_domain':
            sns.countplot(data=df_features, x=feature, hue='label')
        else:
            sns.histplot(safe_df[feature], color='blue', label='Safe', kde=True, stat="density", linewidth=0)
            sns.histplot(phishing_df[feature], color='red', label='Phishing', kde=True, stat="density", linewidth=0)
            plt.legend()
        plt.title(f'Phân bổ của "{feature}"')
    plt.tight_layout()
    plt.show()

else:
    print("Master DataFrame chưa được tạo. Vui lòng chạy Cell 2 trước.")

--- Bắt đầu trích xuất và phân tích đặc trưng ---


NameError: name 're' is not defined

In [12]:
if 'df_features' in locals() and not df_features.empty:
    print("--- Chuẩn bị dữ liệu cho mô hình ---")
    
    # Xác định các cột đặc trưng và cột nhãn
    labels = df_features['label']
    # Bỏ các cột không cần thiết cho việc huấn luyện
    features_df = df_features.drop(columns=['sender', 'receiver', 'date', 'subject', 'body', 'label', 'source'])

    # Chia dữ liệu thành tập huấn luyện (train) và kiểm thử (test)
    X_train, X_test, y_train, y_test = train_test_split(
        features_df, 
        labels, 
        test_size=0.2, 
        random_state=RANDOM_SEED, 
        stratify=labels
    )
    
    # --- Xử lý các loại đặc trưng khác nhau ---
    
    # a. Vector hóa cột văn bản ('text_combined') bằng TF-IDF
    print("Vector hóa văn bản bằng TF-IDF...")
    tfidf = TfidfVectorizer(max_features=5000) # Lấy 5000 từ quan trọng nhất
    X_train_text_tfidf = tfidf.fit_transform(X_train['text_combined'])
    X_test_text_tfidf = tfidf.transform(X_test['text_combined'])
    
    # b. Lấy các cột đặc trưng số còn lại
    print("Lấy các đặc trưng số...")
    numeric_features_cols = ['urls', 'char_count', 'word_count', 'day_of_week', 'hour_of_day']
    X_train_numeric = X_train[numeric_features_cols].values
    X_test_numeric = X_test[numeric_features_cols].values
    
    # c. Kết hợp tất cả các đặc trưng lại
    print("Kết hợp các loại đặc trưng...")
    X_train_final = hstack([X_train_text_tfidf, X_train_numeric]).tocsr()
    X_test_final = hstack([X_test_text_tfidf, X_test_numeric]).tocsr()
    
    print(f"\nChuẩn bị dữ liệu hoàn tất!")
    print(f"Dữ liệu huấn luyện cuối cùng có dạng (hàng, cột): {X_train_final.shape}")
else:
    print("DataFrame df_features chưa được tạo. Vui lòng chạy Cell 3 trước.")

--- Chuẩn bị dữ liệu cho mô hình ---
Vector hóa văn bản bằng TF-IDF...
Lấy các đặc trưng số...
Kết hợp các loại đặc trưng...

Chuẩn bị dữ liệu hoàn tất!
Dữ liệu huấn luyện cuối cùng có dạng (hàng, cột): (39817, 5005)
