In [2]:
import json
import re
import unicodedata
import os
from vncorenlp import VnCoreNLP

subject_files = {
    "văn": "output/văn.json",
    "sử": "output/sử.json",
    "địa": "output/địa.json",
    "anh": "output/anh_văn.json"
}

all_data = {}

for subject, file_path in subject_files.items():
    try:
        with open(file_path, "r", encoding="utf-8") as f:
            all_data[subject] = json.load(f)
        print(f"Loaded {len(all_data[subject])} questions from {subject}")
    except FileNotFoundError:
        print(f"Warning: File not found - {file_path}")
        continue



Loaded 61 questions from văn
Loaded 55 questions from sử
Loaded 50 questions from địa
Loaded 72 questions from anh


In [3]:
def clean_text(text):
    if not isinstance(text, str):
        return ""
    # Chuẩn hóa Unicode (xử lý dấu tiếng Việt)
    text = unicodedata.normalize("NFC", text)

    # Bỏ xuống dòng, tab, khoảng trắng thừa
    text = re.sub(r"\s+", " ", text)

    # Bỏ ký tự đặc biệt không cần thiết
    text = re.sub(r"[^\w\sÀ-ỹ]", "", text)

    return text.strip()

In [None]:
# Lấy và làm sạch câu hỏi
questions = []
for item in all_data.get("văn", []):
    if "question" in item:
        text = clean_text(item["question"])
        if text:  # chỉ lấy nếu còn nội dung
            questions.append(text)

print("Ví dụ câu hỏi sau khi làm sạch:")
print(questions[:5])

Ví dụ câu hỏi sau khi làm sạch:
['Từ  Văn hóa trong văn bản  Phong cách Hồ Chí Minh được hiểu', 'Ý nào nói lên việc tiếp thu có chọn lọc tinh hoa văn hóa nước ngoài của Hồ Chí Minh không được nêu trong bài viết', 'Vấn đề chủ yếu được nói tới trong văn bản Phong cách Hồ Chí Minh là gì', 'Theo tác giả quan niệm thẩm mĩ về cuộc sống của Chủ tịch Hồ Chí Minh là gì', 'Từ nào sau đây trái nghĩa với truân chuyên']


In [6]:
# Tách từ
def simple_tokenize(text):
    # Basic Vietnamese word segmentation
    text = re.sub(r'([A-Za-z])([0-9])', r'\1 \2', text)
    text = re.sub(r'([0-9])([A-Za-z])', r'\1 \2', text)
    text = re.sub(r'([a-z])([A-Z])', r'\1 \2', text)
    return text

questions_tokenized = [simple_tokenize(q) for q in questions]

In [7]:
# Lưu kết quả vào file
with open("questions_cleaned.txt", "w", encoding="utf-8") as f:
    for q in questions_tokenized:
        f.write(q + "\n")
print("\nDữ liệu đã được lưu vào 'questions_cleaned.txt'")


Dữ liệu đã được lưu vào 'questions_cleaned.txt'
