In [1]:
import os
import re
from textwrap import fill

# Hàm làm sạch văn bản
def clean_text(input_text):
    if re.search(r'\b([A-Z]{2,}\s+){2,}[A-Z]{2,}\b', input_text):
        return input_text

    text = re.sub(r'(\s*)(Page\s*\d+:)', r'\n\n\2\n', input_text)
    text = re.sub(r'\n+', ' ', text)
    text = re.sub(r'\s{2,}', ' ', text)
    text = re.sub(r'(BỘ QUY TẮC ỨNG XỬ CỦA NGƯỜI HỌC)', r'\n\1\n', text)
    text = re.sub(r'([IVXLCDM]+\.)', r'\n\n\1', text)
    text = re.sub(r'(\d+\.)', r'\n\1', text)
    text = re.sub(r'([a-z]\))', r'\n\1', text)
    text = re.sub(r'(\w)\s+([̣̀́̉̃])', r'\1\2', text)
    text = re.sub(r'([̣̀́̉̃])\s+(\w)', r'\1\2', text)
    text = re.sub(r'(\w)\s+([̣̀́̉̃]\w)', r'\1\2', text)
    text = re.sub(r'\b(\w)\s(\w)\b', r'\1\2', text)

    def normalize_vietnamese_text(text):
        replacements = {
            "à": "à", "á": "á", "ả": "ả", "ã": "ã", "ạ": "ạ",
            "ầ": "ầ", "ấ": "ấ", "ẩ": "ẩ", "ẫ": "ẫ", "ậ": "ậ",
            "ằ": "ằ", "ắ": "ắ", "ẳ": "ẳ", "ẵ": "ẵ", "ặ": "ặ",
            "è": "è", "é": "é", "ẻ": "ẻ", "ẽ": "ẽ", "ẹ": "ẹ",
            "ò": "ò", "ó": "ó", "ỏ": "ỏ", "õ": "õ", "ọ": "ọ",
            "ồ": "ồ", "ố": "ố", "ổ": "ổ", "ỗ": "ỗ", "ộ": "ộ",
            "ờ": "ờ", "ớ": "ớ", "ở": "ở", "ỡ": "ỡ", "ợ": "ợ",
            "ù": "ù", "ú": "ú", "ủ": "ủ", "ũ": "ũ", "ụ": "ụ",
            "ừ": "ừ", "ứ": "ứ", "ử": "ử", "ữ": "ữ", "ự": "ự",
            "ì": "ì", "í": "í", "ỉ": "ỉ", "ĩ": "ĩ", "ị": "ị",
            "ỳ": "ỳ", "ý": "ý", "ỷ": "ỷ", "ỹ": "ỹ", "ỵ": "ỵ"
        }
        for wrong, correct in replacements.items():
            text = text.replace(wrong, correct)
        return text

    text = normalize_vietnamese_text(text)
    lines = text.splitlines()
    wrapped_lines = [fill(line.strip(), width=80) if line.strip() else line for line in lines]
    return "\n".join(wrapped_lines).strip()

# Hàm xử lý tệp
def process_file(input_file_path, output_file_path):
    with open(input_file_path, 'r', encoding='utf-8') as file:
        raw_text = file.read()

    cleaned_text = clean_text(raw_text)

    os.makedirs(os.path.dirname(output_file_path), exist_ok=True)
    with open(output_file_path, 'w', encoding='utf-8') as file:
        file.write(cleaned_text)

    print(f"Đã xử lý: {input_file_path} -> {output_file_path}")

# Đường dẫn thư mục
input_folder = r"E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_new_raw"
output_folder = r"E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P1"

# Xử lý từng tệp trong thư mục
for filename in os.listdir(input_folder):
    if filename.endswith(".txt"):
        input_file_path = os.path.join(input_folder, filename)
        output_file_path = os.path.join(output_folder, filename)
        process_file(input_file_path, output_file_path)

print("Hoàn tất xử lý tất cả các tệp!")


Đã xử lý: E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_new_raw\BỘ QUY TẮC ỨNG XỬ CỦA NGƯỜI HỌC.txt -> E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P1\BỘ QUY TẮC ỨNG XỬ CỦA NGƯỜI HỌC.txt
Đã xử lý: E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_new_raw\HƯỚNG DẪN VỀ GIAO TIẾP, ỨNG XỬ CHO NGƯỜI HỌC TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG.txt -> E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P1\HƯỚNG DẪN VỀ GIAO TIẾP, ỨNG XỬ CHO NGƯỜI HỌC TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG.txt
Đã xử lý: E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_new_raw\NỘI DUNG VÀ THANG ĐIỂM ĐÁNH GIÁ RÈN LUYỆN TRÌNH ĐỘ ĐẠI HỌC.txt -> E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P1\NỘI DUNG VÀ THANG ĐIỂM ĐÁNH GIÁ RÈN LUYỆN TRÌNH ĐỘ ĐẠI HỌC.txt
Đã xử lý: E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_new_raw\PHỤ LỤC MỘT SỐ NỘI DUNG VI PHẠM VÀ HÌNH THỨC XỬ LÝ NGƯỜI HỌC TRÌNH ĐỘ THẠC SĨ, TIẾN SĨ.txt -> E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P1\PHỤ LỤC MỘT

# Part 2


In [2]:
import os
import re

# Hàm xử lý văn bản phần 2
def clean_text_part_2(input_text):
    # Replace "1 ." or "2 ." with "1." or "2."
    text = re.sub(r"(\d) \.", r"\1.", input_text)

    # Ensure each "Page X:" starts on a new line
    text = re.sub(r"(Page \d+:)", r"\n\1\n", text)

    # Ensure ":" is followed by a newline (but only one) and text starts immediately after
    text = re.sub(r":\s*\n+", r":\n", text)

    # Ensure email formatting: no extra newlines before or after
    text = re.sub(r"(\S+@\S+\.\S+)\s*\n+", r"\1\n", text)

    return text

# Hàm xử lý từng tệp
def process_file_part_2(input_file_path, output_file_path):
    with open(input_file_path, "r", encoding="utf-8") as file:
        file_content = file.read()

    # Làm sạch văn bản (phần 2)
    cleaned_content = clean_text_part_2(file_content)

    # Lưu kết quả vào thư mục đầu ra
    os.makedirs(os.path.dirname(output_file_path), exist_ok=True)
    with open(output_file_path, "w", encoding="utf-8") as file:
        file.write(cleaned_content)

    print(f"Đã xử lý: {input_file_path} -> {output_file_path}")

# Đường dẫn thư mục đầu vào và đầu ra
input_folder = r"E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P1"
output_folder = r"E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P2"

# Xử lý từng tệp trong thư mục đầu vào
for filename in os.listdir(input_folder):
    if filename.endswith(".txt"):
        input_file_path = os.path.join(input_folder, filename)
        output_file_path = os.path.join(output_folder, filename)
        process_file_part_2(input_file_path, output_file_path)

print("Hoàn tất xử lý tất cả các tệp phần 2!")


Đã xử lý: E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P1\BỘ QUY TẮC ỨNG XỬ CỦA NGƯỜI HỌC.txt -> E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P2\BỘ QUY TẮC ỨNG XỬ CỦA NGƯỜI HỌC.txt
Đã xử lý: E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P1\HƯỚNG DẪN VỀ GIAO TIẾP, ỨNG XỬ CHO NGƯỜI HỌC TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG.txt -> E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P2\HƯỚNG DẪN VỀ GIAO TIẾP, ỨNG XỬ CHO NGƯỜI HỌC TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG.txt
Đã xử lý: E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P1\NỘI DUNG VÀ THANG ĐIỂM ĐÁNH GIÁ RÈN LUYỆN TRÌNH ĐỘ ĐẠI HỌC.txt -> E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P2\NỘI DUNG VÀ THANG ĐIỂM ĐÁNH GIÁ RÈN LUYỆN TRÌNH ĐỘ ĐẠI HỌC.txt
Đã xử lý: E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P1\PHỤ LỤC MỘT SỐ NỘI DUNG VI PHẠM VÀ HÌNH THỨC XỬ LÝ NGƯỜI HỌC TRÌNH ĐỘ THẠC SĨ, TIẾN SĨ.txt -> E:\LLM_clone\Tdtu-chatbot\notebooks\Crawldata\data_cleaned_P2