In [6]:
import os
import re

In [7]:
# Đường dẫn đến các file cần xử lý
input_files = {
    "dev": "dev.txt"
}

In [8]:
def get_unique_filename(directory, base_name, extension):
    """Tạo tên tệp không trùng lặp bằng cách thêm số phiên bản nếu trùng."""
    version = 1
    output_path = os.path.join(directory, f"{base_name}{extension}")
    while os.path.exists(output_path):
        output_path = os.path.join(
            directory, f"{base_name}_{version}{extension}")
        version += 1
    return output_path


def remove_pos_tags(sentence):
    """Loại bỏ nhãn POS trong một câu từ bộ VietTreebank."""
    sentence = re.sub(r'\b([^\s/]+)/[^\s/]+\b',
                      r'\1', sentence)  # Xóa nhãn POS
    sentence = re.sub(r'\*(EXP|T)\*[\W]*', '', sentence)  # Xóa *EXP* và *T*
    sentence = re.sub(r'[,.\"\':;()?!/]+', lambda m: m.group(0)[0]
                      # Giữ dấu hợp lệ
                      if len(m.group(0)) > 1 else '', sentence)
    # Chuẩn hóa `......` thành `...`
    sentence = re.sub(r'\s*\.{6}', '...', sentence)
    sentence = re.sub(r'\s*……', '…', sentence)  # Chuẩn hóa `……` thành `…`

    # Thêm <s> và </s> nếu là câu hoàn chỉnh
    if sentence.endswith(('.', '!', '?')):
        sentence = f"<s> {sentence} </s>"

    return sentence.strip()


def process_viettreebank(file_path, output_name):
    """Loại bỏ nhãn POS trên file đầu vào và lưu file đã xử lý vào thư mục gốc."""
    with open(file_path, 'r', encoding='utf-8') as f:
        sentences = f.readlines()

    processed_sentences = [remove_pos_tags(
        sentence.strip()) for sentence in sentences]
    input_dir = os.path.dirname(file_path)  # Lấy thư mục gốc
    output_path = os.path.join(
        input_dir, f"{output_name}.txt")  # Tạo tên file mới

    with open(output_path, 'w', encoding='utf-8') as f:
        f.write('\n'.join(processed_sentences))

    print(f"✅ Đã xử lý: {file_path} → {output_path}")
    return output_path


def split_into_sets(file_path, output_folder, set_size=50, num_sets=20):
    """Chia file thành 10 set, mỗi set chứa 50 câu."""
    with open(file_path, 'r', encoding='utf-8') as f:
        sentences = [line.strip() for line in f.readlines()
                     if line.strip()]  # Loại bỏ dòng trống

    os.makedirs(output_folder, exist_ok=True)  # Tạo thư mục nếu chưa có

    # Chỉ tạo số set cần thiết nếu số câu ít hơn 500
    total_sets = min(num_sets, (len(sentences) + set_size - 1) // set_size)

    for i in range(total_sets):
        start_idx = i * set_size
        end_idx = start_idx + set_size
        subset = sentences[start_idx:end_idx]

        if not subset:
            break  # Nếu hết câu, dừng lại

        set_filename = os.path.join(output_folder, f"dev_set_{i+1}.txt")
        with open(set_filename, 'w', encoding='utf-8') as f:
            f.writelines('\n'.join(subset) + '\n')

        print(f"📂 Đã tạo: {set_filename}")


# Chạy xử lý xóa POS
dev_output = process_viettreebank(input_files["dev"], "dev_no_pos")

# Chia thành 10 set (mỗi set 50 câu) và lưu vào thư mục tương ứng
split_into_sets(
    dev_output, "dev_no_pos")

✅ Đã xử lý: dev.txt → dev_no_pos.txt
📂 Đã tạo: dev_no_pos\dev_set_1.txt
📂 Đã tạo: dev_no_pos\dev_set_2.txt
📂 Đã tạo: dev_no_pos\dev_set_3.txt
📂 Đã tạo: dev_no_pos\dev_set_4.txt
📂 Đã tạo: dev_no_pos\dev_set_5.txt
📂 Đã tạo: dev_no_pos\dev_set_6.txt
📂 Đã tạo: dev_no_pos\dev_set_7.txt
📂 Đã tạo: dev_no_pos\dev_set_8.txt
📂 Đã tạo: dev_no_pos\dev_set_9.txt
📂 Đã tạo: dev_no_pos\dev_set_10.txt
📂 Đã tạo: dev_no_pos\dev_set_11.txt
📂 Đã tạo: dev_no_pos\dev_set_12.txt
📂 Đã tạo: dev_no_pos\dev_set_13.txt
📂 Đã tạo: dev_no_pos\dev_set_14.txt
📂 Đã tạo: dev_no_pos\dev_set_15.txt
📂 Đã tạo: dev_no_pos\dev_set_16.txt
📂 Đã tạo: dev_no_pos\dev_set_17.txt
📂 Đã tạo: dev_no_pos\dev_set_18.txt
📂 Đã tạo: dev_no_pos\dev_set_19.txt
📂 Đã tạo: dev_no_pos\dev_set_20.txt
