In [None]:
!pip install langdetect

In [None]:
import html
import re
import unicodedata
import numpy as np
from langdetect import detect, DetectorFactory
from tqdm import tqdm

# --- CẤU HÌNH ---
RAW_SRC = "/kaggle/input/iwslt15-englishvietnamese/IWSLT'15 en-vi/train.en.txt"
RAW_TRG = "/kaggle/input/iwslt15-englishvietnamese/IWSLT'15 en-vi/train.vi.txt"
FINAL_SRC = "train.final.en"
FINAL_TRG = "train.final.vi"

URL_REGEX = r'https?://\S+|www\.\S+'
CONTROL_CHAR_REGEX = r'[\x00-\x1f\x7f-\x9f\u200b\ufeff\xa0]' # Ký tự control, ZWS, BOM, NBSP
VN_CHAR_REGEX = re.compile(r'[áàảãạăằẳẵặâầẩẫậéèẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ]')

MAX_LEN_EN = 80
MAX_LEN_VI = 90
MIN_LEN = 2

# --- 1. HÀM CLEAN TEXT ---
def clean_text_final(text):
    if not isinstance(text, str): return ""
    
    # 1. Giải mã HTML entities
    text = html.unescape(text)
    
    # 2. Xóa HTML Tags
    text = re.sub(r'<[^>]+>', '', text) 

    # 3. Xóa URL triệt để
    text = re.sub(r'https?://\S+|www\.\S+', ' ', text)
    
    # 4. Xóa Ký tự Control không in được
    text = text.replace('\xa0', ' ').replace('\u200b', '').replace('\ufeff', '')
    
    # 5. Chuẩn hóa Unicode về dạng NFC 
    text = unicodedata.normalize('NFC', text)
    
    # 6. Chuẩn hóa/Xóa các loại dấu ngoặc đặc biệt thường là noise
    text = re.sub(r'[【】「」『』“”‘’“”]', '', text)

    # 7. Xóa metadata/tag trong ngoặc 
    text = re.sub(r'\([^)]*\)', '', text) 
    text = re.sub(r'\[[^\]]*\]', '', text)
    
    # 8. Chuẩn hóa khoảng trắng
    text = re.sub(r'\s+', ' ', text).strip()
    
    # 9. QUYẾT ĐỊNH CHO IWSLT 
    text = text.lower() 
    
    return text

In [None]:
def detect_safe(text):
    # Langdetect an toàn
    try:
        # Langdetect yêu cầu input là string, không phải list words
        return detect(text) if len(text) > 3 else 'unknown'
    except: 
        return 'unknown'
    
def is_vietnamese_text(text):
    # Kiểm tra Tiếng Việt trong cột En
    return bool(VN_CHAR_REGEX.search(text))

# --- HÀM CHECK TỈ LỆ ĐỘNG ---
def is_valid_ratio_and_len(s_clean, t_clean):
    en_l = len(s_clean.split())
    vi_l = len(t_clean.split())
    
    if en_l == 0 or vi_l == 0: return False # Tránh chia 0
    ratio = vi_l / en_l # ratio = vi/en

    # 1. Lọc câu quá ngắn (min 3 từ)
    if en_l < MIN_LEN or vi_l < MIN_LEN:
        return False

    # 2. Lọc câu quá dài (Áp dụng ngưỡng 128/256)
    if en_l > MAX_LEN_EN or vi_l > MAX_LEN_VI:
        return False

    # 3. Lọc trường hợp tiếng Việt ngắn bất thường (Vi < 0.5 En)
    if ratio < 0.5:
        return False

    # 4. Ngưỡng theo độ dài câu tiếng Anh (Dynamic Ratio)
    if en_l < 5:          # câu rất ngắn
        return ratio <= 4.0
    if en_l < 12:         # câu ngắn - vừa
        return ratio <= 3.0

    # Câu dài (sử dụng ngưỡng 3.5)
    return ratio <= 2.5

In [None]:
def process_final_data():
    
    unique_pairs = set()
    stats = {"total": 0, "kept": 0, "duplicate": 0, "empty": 0, "bad_ratio": 0, "bad_lang": 0}
    
    with open(RAW_SRC, 'r', encoding='utf-8') as f_src, \
         open(RAW_TRG, 'r', encoding='utf-8') as f_trg, \
         open(FINAL_SRC, 'w', encoding='utf-8') as out_s, \
         open(FINAL_TRG, 'w', encoding='utf-8') as out_t:
        
        src_lines = f_src.readlines()
        trg_lines = f_trg.readlines()
        
        for s_line, t_line in tqdm(zip(src_lines, trg_lines), total=len(src_lines), desc="Processing"):
            stats["total"] += 1
            
            # 1. Clean Text
            s_clean = clean_text_final(s_line)
            t_clean = clean_text_final(t_line)
            
            # 2. Check Ratio & Length
            if not is_valid_ratio_and_len(s_clean, t_clean):
                stats["bad_ratio"] += 1
                continue
            
            # 3. Check Duplicate
            pair = f"{s_clean}\t{t_clean}"
            if pair in unique_pairs:
                stats["duplicate"] += 1
                continue
            unique_pairs.add(pair)
            
            # 4. KIỂM TRA NGÔN NGỮ
            
            # Tầng 1: Kiểm tra Tiếng Việt trong cột Anh (Fast check)
            if is_vietnamese_text(s_clean):
                 stats["bad_lang"] += 1
                 continue

            # Tầng 2: LangDetect (Clean check)
            lang_s = detect_safe(s_clean)
            lang_t = detect_safe(t_clean)
            
            is_valid_lang = (lang_s == 'en') and (lang_t == 'vi' or lang_t == 'unknown')
            
            if not is_valid_lang:
                stats["bad_lang"] += 1
                continue

            # --- GHI FILE ---
            out_s.write(s_clean + "\n")
            out_t.write(t_clean + "\n")
            stats["kept"] += 1

    print("\n XỬ LÝ XONG!")
    print("-" * 40)
    print(f"Tổng ban đầu:   {stats['total']:,}")
    print(f"Giữ lại:        {stats['kept']:,} ({(stats['kept']/stats['total'])*100:.2f}%)")
    print(f"Bị loại:        {stats['total'] - stats['kept']:,}")
    print("-" * 40)
    print(f"Chi tiết loại bỏ:")
    print(f"  - Quá ngắn/Rỗng/Max Len/Ratio: {stats['bad_ratio']:,}")
    print(f"  - Trùng lặp:                   {stats['duplicate']:,}")
    print(f"  - Lỗi ngôn ngữ:                {stats['bad_lang']:,}")
    print("=" * 40)

# Chạy thôi
process_final_data()

In [None]:
import random
import os

# --- CẤU HÌNH ĐƯỜNG DẪN ĐẾN FILE CUỐI CÙNG ---
FINAL_SRC = "train.final.en"
FINAL_TRG = "train.final.vi"

# --- 1. ĐỌC VÀ LẤY MẪU NGẪU NHIÊN ---
def get_random_samples(src_path, trg_path, num_samples=10):
    try:
        # Đọc toàn bộ nội dung file vào list
        with open(src_path, 'r', encoding='utf-8') as f:
            src_lines = f.readlines()
        with open(trg_path, 'r', encoding='utf-8') as f:
            trg_lines = f.readlines()
            
    except FileNotFoundError:
        print(f"LỖI: Không tìm thấy file {src_path} hoặc {trg_path}. Vui lòng kiểm tra lại tên file.")
        return None

    total_count = len(src_lines)
    
    if total_count == 0:
        print("LỖI: Tập dữ liệu rỗng sau khi xử lý!")
        return None

    # Lấy các chỉ số ngẫu nhiên
    if total_count < num_samples:
        indices = range(total_count)
    else:
        indices = random.sample(range(total_count), num_samples)

    print("=" * 60)
    print(f"QA CHECK: Dữ liệu cuối cùng (Tổng {total_count:,} câu)")
    print(f"   In ra {len(indices)} mẫu ngẫu nhiên:")
    print("=" * 60)

    for i, idx in enumerate(indices):
        en_text = src_lines[idx].strip()
        vi_text = trg_lines[idx].strip()
        
        en_len = len(en_text.split())
        vi_len = len(vi_text.split())
        
        ratio = vi_len / en_len if en_len > 0 else 0
        
        print(f"[{i+1}/{len(indices)}] (Index gốc: {idx} | L: En={en_len}, Vi={vi_len} | Ratio={ratio:.2f})")
        print(f"  En: {en_text}")
        print(f"  Vi: {vi_text}")
        print("-" * 60)

    return total_count

# --- CHẠY KIỂM TRA ---
get_random_samples(FINAL_SRC, FINAL_TRG, num_samples=10)