In [10]:
import pandas as pd
import re
import string
import nltk
import os

# --- CẤU HÌNH ---
# Thư mục chứa các file dữ liệu thô
data_folder = '../data/dataForTrain' 
# Danh sách các file cần xử lý
files_to_process = ['CEAS_08.csv', 'Nazario.csv', 'Nigerian_Fraud.csv', 'SpamAssasin.csv']

print("Cell 1: Khai báo và cấu hình hoàn tất.")

Cell 1: Khai báo và cấu hình hoàn tất.


In [11]:
# Tải tài nguyên 'stopwords' của NLTK nếu chưa có
try:
    from nltk.corpus import stopwords
except LookupError:
    print("Đang tải tài nguyên 'stopwords' của NLTK...")
    nltk.download('stopwords')
    from nltk.corpus import stopwords

# Lấy danh sách các từ dừng tiếng Anh
stop_words = set(stopwords.words('english'))

def combined_text_preprocessor(text):
    """
    Hàm tiền xử lý văn bản tổng hợp:
    - Chuyển thành chữ thường
    - Thay thế URLs và Emails bằng token đặc biệt
    - Loại bỏ dấu câu
    - Loại bỏ stop words
    - GIỮ LẠI SỐ
    - Dọn dẹp khoảng trắng thừa
    """
    if not isinstance(text, str):
        return ""
    
    text = text.lower()
    text = re.sub(r'https?://\S+|www\.\S+', '_url_', text)
    text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '_email_', text)
    
    punctuation = string.punctuation.replace("_", "") # Giữ lại gạch dưới cho token
    text = re.sub(f'[{re.escape(punctuation)}]', '', text)
    
    words = text.split()
    filtered_words = [word for word in words if word not in stop_words and word]
    text = ' '.join(filtered_words)
    
    return re.sub(r'\s+', ' ', text).strip()

print("Cell 2: Hàm 'combined_text_preprocessor' đã sẵn sàng.")

Cell 2: Hàm 'combined_text_preprocessor' đã sẵn sàng.


In [12]:
# Cell 3: Đọc, Làm sạch Cơ bản và Hợp nhất 4 File

all_dfs = [] # List để chứa các DataFrame tạm thời

print("Bắt đầu quá trình đọc và hợp nhất 4 file...")
for file_name in files_to_process:
    file_path = os.path.join(data_folder, file_name)
    print(f"\n--- Đang xử lý file: {file_name} ---")
    try:
        # --- THAY ĐỔI QUAN TRỌNG Ở ĐÂY ---
        # Thêm encoding='latin1' để đọc file đúng bảng mã
        df = pd.read_csv(file_path, encoding='latin1') 
        
        # Làm sạch cơ bản
        df.dropna(inplace=True)
        df.drop_duplicates(inplace=True)
        
        all_dfs.append(df)
        print(f"-> Đọc và làm sạch cơ bản thành công. Số dòng: {len(df)}")
        
    except FileNotFoundError:
        print(f"-> LỖI: Không tìm thấy file {file_path}. Bỏ qua.")
    except Exception as e:
        print(f"-> LỖI khi xử lý file {file_path}: {e}. Bỏ qua.")

if all_dfs:
    master_df = pd.concat(all_dfs, ignore_index=True)
    print("\n--- Gộp 4 file thành công! ---")
    print(f"Tổng số dòng trong bộ dữ liệu gốc: {len(master_df)}")
    print("Thông tin của Master DataFrame:")
    master_df.info()
else:
    print("\nKhông có dữ liệu để xử lý. Vui lòng kiểm tra lại các file.")

Bắt đầu quá trình đọc và hợp nhất 4 file...

--- Đang xử lý file: CEAS_08.csv ---
-> Đọc và làm sạch cơ bản thành công. Số dòng: 38669

--- Đang xử lý file: Nazario.csv ---
-> Đọc và làm sạch cơ bản thành công. Số dòng: 1467

--- Đang xử lý file: Nigerian_Fraud.csv ---
-> Đọc và làm sạch cơ bản thành công. Số dòng: 1572

--- Đang xử lý file: SpamAssasin.csv ---
-> Đọc và làm sạch cơ bản thành công. Số dòng: 5582

--- Gộp 4 file thành công! ---
Tổng số dòng trong bộ dữ liệu gốc: 47290
Thông tin của Master DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47290 entries, 0 to 47289
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   sender    47290 non-null  object
 1   receiver  47290 non-null  object
 2   date      47290 non-null  object
 3   subject   47290 non-null  object
 4   body      47290 non-null  object
 5   label     47290 non-null  int64 
 6   urls      47290 non-null  int64 
dtypes: int64(2), object(5)
m

In [15]:
if 'master_df' in locals() and not master_df.empty:
    print("--- Đang tạo Phiên bản 1 (Subject + Body) ---")
    
    df_v1 = pd.DataFrame()
    df_v1['text_combined'] = master_df['subject'].astype(str) + ' ' + master_df['body'].astype(str)
    df_v1['label'] = master_df['label']
    
    print("Áp dụng hàm tiền xử lý văn bản...")
    df_v1['text_combined'] = df_v1['text_combined'].apply(combined_text_preprocessor)
    
    # Làm sạch cuối cùng
    df_v1.drop_duplicates(subset=['text_combined'], inplace=True, keep='first')
    df_v1.dropna(inplace=True)
    df_v1['label'] = df_v1['label'].astype(int)

    print(f"-> Hoàn tất! Số dòng cuối cùng của Phiên bản 1: {len(df_v1)}")
    print("5 dòng đầu tiên của Phiên bản 1:")
    print(df_v1.head())
else:
    print("Master DataFrame chưa được tạo. Vui lòng chạy Cell 3 trước.")

--- Đang tạo Phiên bản 1 (Subject + Body) ---
Áp dụng hàm tiền xử lý văn bản...
-> Hoàn tất! Số dòng cuối cùng của Phiên bản 1: 42194
5 dòng đầu tiên của Phiên bản 1:
                                       text_combined  label
0  never agree loser buck troubles caused small d...      1
1  befriend jenna jameson upgrade sex pleasures t...      1
2  cnncom daily top 10 daily top 10 cnncom top vi...      1
3  svn commit r619753 spamassassintrunk libmailsp...      0
4  specialpricespharmmoreinfo welcomefastshipping...      1


In [14]:
if 'master_df' in locals() and not master_df.empty:
    print("\n--- Đang tạo Phiên bản 2 (Tất cả các cột) ---")
    
    df_v2 = pd.DataFrame()
    # Các cột văn bản cần gộp
    text_columns = ['sender', 'receiver', 'date', 'subject', 'body']
    
    df_v2['text_combined'] = master_df[text_columns].fillna('').astype(str).agg(' '.join, axis=1)
    df_v2['label'] = master_df['label']

    print("Áp dụng hàm tiền xử lý văn bản...")
    df_v2['text_combined'] = df_v2['text_combined'].apply(combined_text_preprocessor)

    # Làm sạch cuối cùng
    df_v2.drop_duplicates(subset=['text_combined'], inplace=True, keep='first')
    df_v2.dropna(inplace=True)
    df_v2['label'] = df_v2['label'].astype(int)

    print(f"-> Hoàn tất! Số dòng cuối cùng của Phiên bản 2: {len(df_v2)}")
    print("5 dòng đầu tiên của Phiên bản 2:")
    print(df_v2.head())
else:
    print("Master DataFrame chưa được tạo. Vui lòng chạy Cell 3 trước.")


--- Đang tạo Phiên bản 2 (Tất cả các cột) ---
Áp dụng hàm tiền xử lý văn bản...
-> Hoàn tất! Số dòng cuối cùng của Phiên bản 2: 47275
5 dòng đầu tiên của Phiên bản 2:
                                       text_combined  label
0  young esposito _email_ _email_ tue 05 aug 2008...      1
1  mok ipline_email_ _email_ tue 05 aug 2008 1831...      1
2  daily top 10 _email_ _email_ tue 05 aug 2008 2...      1
3  michael parker _email_ spamassassin dev _email...      0
4  gretchen suggs _email_ _email_ tue 05 aug 2008...      1


In [16]:
if 'df_v1' in locals() and 'df_v2' in locals():
    # Tạo thư mục đầu ra nếu chưa có
    output_folder = os.path.join(data_folder, 'processed')
    os.makedirs(output_folder, exist_ok=True)
    
    # Lưu Phiên bản 1
    output_path_v1 = os.path.join(output_folder, 'unified_dataset_v1_subject_body.csv')
    df_v1.to_csv(output_path_v1, index=False)
    print(f"Đã lưu Phiên bản 1 vào: {output_path_v1}")
    
    # Lưu Phiên bản 2
    output_path_v2 = os.path.join(output_folder, 'unified_dataset_v2_all_text.csv')
    df_v2.to_csv(output_path_v2, index=False)
    print(f"Đã lưu Phiên bản 2 vào: {output_path_v2}")
else:
    print("Các DataFrame chưa được tạo. Vui lòng chạy Cell 4 và Cell 5 trước khi lưu.")

Đã lưu Phiên bản 1 vào: ../data/dataForTrain\processed\unified_dataset_v1_subject_body.csv
Đã lưu Phiên bản 2 vào: ../data/dataForTrain\processed\unified_dataset_v2_all_text.csv
