In [3]:
import json
import random
from collections import defaultdict, Counter
from nor_to_sexpr import conversion_functions

# Hàm xác định template
def identify_template(expression):
    for i, func in enumerate(conversion_functions, start=1):
        if func(expression):
            return f"template_{i}"
    return "UNKNOWN"

# Đọc dữ liệu từ file JSON
with open("final_process/train_template.json", "r", encoding="utf-8") as f:
    data = json.load(f)

# Thêm thuộc tính template cho từng mẫu dữ liệu
for sample in data:
    sample["template"] = identify_template(sample["s_expr"])

# Nhóm dữ liệu theo template
template_map = defaultdict(list)
for sample in data:
    template = sample["template"]
    template_map[template].append(sample)

# Chia tập train và validation theo tỷ lệ 85% - 15%
train_set, validation_set = [], []
for template, samples in template_map.items():
    random.shuffle(samples)
    split_idx = int(0.85 * len(samples))
    train_set.extend(samples[:split_idx])
    validation_set.extend(samples[split_idx:])

# Thống kê tỉ lệ template trong từng tập
def calculate_template_distribution(dataset):
    total = len(dataset)
    counter = Counter(sample["template"] for sample in dataset)
    return {template: f"{(count / total) * 100:.2f}%" for template, count in counter.items()}

template_distribution_train = calculate_template_distribution(train_set)
template_distribution_validation = calculate_template_distribution(validation_set)

# Xuất kết quả ra file
with open("final_process/LC-QuAD2.0_train.json", "w", encoding="utf-8") as f:
    json.dump(train_set, f, indent=4, ensure_ascii=False)

with open("final_process/LC-QuAD2.0_dev.json", "w", encoding="utf-8") as f:
    json.dump(validation_set, f, indent=4, ensure_ascii=False)

# Hiển thị thống kê tỉ lệ template trong từng tập
print("Tỉ lệ template trong tập train:")
for template, percentage in template_distribution_train.items():
    print(f"{template}: {percentage}")



Tỉ lệ template trong tập train:
template_3: 14.78%
template_4: 11.95%
template_16: 13.71%
template_12: 4.32%
template_19: 7.54%
template_21: 7.15%
template_2: 1.35%
template_13: 3.08%
template_18: 1.24%
template_15: 2.92%
template_9: 9.71%
template_8: 3.94%
template_24: 0.41%
template_7: 2.82%
template_17: 0.85%
template_10: 6.73%
template_22: 0.94%
template_6: 1.14%
template_14: 3.56%
template_5: 1.07%
template_1: 0.80%


In [4]:
print("\nTỉ lệ template trong validation:")
for template, percentage in template_distribution_validation.items():
    print(f"{template}: {percentage}")



Tỉ lệ template trong validation:
template_3: 14.74%
template_4: 11.91%
template_16: 13.68%
template_12: 4.33%
template_19: 7.54%
template_21: 7.12%
template_2: 1.36%
template_13: 3.09%
template_18: 1.24%
template_15: 2.94%
template_9: 9.69%
template_8: 3.96%
template_24: 0.41%
template_7: 2.83%
template_17: 0.87%
template_10: 6.71%
template_22: 0.94%
template_6: 1.17%
template_14: 3.58%
template_5: 1.09%
template_1: 0.79%
