In [1]:
import os
import json
import random
import logging

In [2]:
# 假设 BASE_DIR 已经定义为项目的根目录
BASE_DIR = '/Users/jessie/Documents/Projects/Cusanus_Topic_Modeling' 

In [3]:
# 配置日志
logging.basicConfig(
    filename='test_log.log',  # 日志文件名
    level=logging.INFO,       # 日志级别
    format='%(asctime)s - %(levelname)s - %(message)s',  # 日志格式
    filemode='w'              # 使用 'w' 模式覆盖之前的日志记录
)

In [4]:
def select_documents_for_modeling(paragraphs_data_path, output_path, test_percentage=0.2):
    # 加载段落数据
    with open(paragraphs_data_path, 'r', encoding='utf-8') as json_file:
        data = json.load(json_file)

    # 获取所有文档
    documents = data["documents"]
    total_documents = len(documents)

    # 检查是否有文档
    if total_documents == 0:
        print("没有找到文档，请检查 paragraphs_data.json 文件。")
        logging.error("没有找到文档，建模无法进行。")
        return []

    # 计算建模集的文档数量，确保不会超过总文档数
    modeling_document_count = max(1, min(total_documents, int(total_documents * test_percentage)))  # 至少选取一个文档用于建模

    # 随机选取建模文档
    modeling_documents = random.sample(documents, modeling_document_count)

    # 将选中的建模文档保存到新的 JSON 文件
    with open(output_path, 'w', encoding='utf-8') as json_file:
        json.dump({"documents": modeling_documents}, json_file, ensure_ascii=False, indent=4)

    print(f"从 {total_documents} 个文档中随机选取了 {modeling_document_count} 个文档并保存到 {output_path}。")
    logging.info(f"从 {total_documents} 个文档中随机选取了 {modeling_document_count} 个文档并保存到 {output_path}。")

    return modeling_documents


In [5]:
# 定义段落数据文件路径和输出路径
paragraphs_data_path = os.path.join(BASE_DIR, 'paragraphs_data.json')
output_path = os.path.join(BASE_DIR, 'data/testset_paragraphs_level.json')

In [6]:
modeling_documents = select_documents_for_modeling(paragraphs_data_path, output_path, test_percentage=0.2)

从 306 个文档中随机选取了 61 个文档并保存到 /Users/jessie/Documents/Projects/Cusanus_Topic_Modeling/data/testset_paragraphs_level.json。
