In [1]:
import os
import random
import shutil
import logging

In [2]:
# 假设 BASE_DIR 已经定义为项目的根目录
BASE_DIR = '/Users/jessie/Documents/Projects/Cusanus_Topic_Modeling' 

In [3]:
# 配置日志
logging.basicConfig(
    filename='test_log.log',  # 日志文件名
    level=logging.INFO,       # 日志级别
    format='%(asctime)s - %(levelname)s - %(message)s',  # 日志格式
    filemode='w'              # 使用 'w' 模式覆盖之前的日志记录
)

In [4]:
def select_files_for_testing(processed_dir, testset_dir, test_percentage=0.2):
    # 获取所有已处理的文件
    processed_files = [f for f in os.listdir(processed_dir) if f.endswith('.txt')]
    total_files = len(processed_files)

    # 检查是否有已处理的文件
    if total_files == 0:
        print("没有找到已处理的文件，请检查 processed 目录。")
        logging.error("没有找到已处理的文件，测试无法进行。")
        return []

    # 计算测试集的文件数量，确保不会超过总文件数
    test_file_count = max(1, min(total_files, int(total_files * test_percentage)))  # 至少选取一个文件用于测试

    # 随机选取测试文件
    test_files = random.sample(processed_files, test_file_count)

    # 创建测试集目录（如果不存在）
    if not os.path.exists(testset_dir):
        os.makedirs(testset_dir)

    # 将选中的测试文件复制到 testset 目录
    for test_file in test_files:
        source_path = os.path.join(processed_dir, test_file)
        destination_path = os.path.join(testset_dir, test_file)
        shutil.copy(source_path, destination_path)  # 使用 shutil.copy 复制文件
        print(f"文件 {test_file} 已复制到测试集目录。")
        logging.info(f"文件 {test_file} 已复制到测试集目录 {testset_dir}。")

    print(f"从已处理的 {total_files} 个文件中随机选取了 {test_file_count} 个文件并复制到测试集目录。\n")
    logging.info(f"从已处理的 {total_files} 个文件中随机选取了 {test_file_count} 个文件并复制到测试集目录。")

    return test_files

In [5]:
processed_dir = os.path.join(BASE_DIR, 'data/processed')
testset_dir = os.path.join(BASE_DIR, 'data/testset')

In [6]:
test_files = select_files_for_testing(processed_dir, testset_dir, test_percentage=0.2)


文件 v190_291.txt 已复制到测试集目录。
文件 v170_056.txt 已复制到测试集目录。
文件 v170_119.txt 已复制到测试集目录。
文件 v160_006.txt 已复制到测试集目录。
文件 v170_050.txt 已复制到测试集目录。
文件 v180_136.txt 已复制到测试集目录。
文件 v160_009.txt 已复制到测试集目录。
文件 v180_140.txt 已复制到测试集目录。
文件 v170_083.txt 已复制到测试集目录。
文件 v180_163.txt 已复制到测试集目录。
文件 v180_161.txt 已复制到测试集目录。
文件 v170_039.txt 已复制到测试集目录。
文件 v190_277.txt 已复制到测试集目录。
文件 v170_041.txt 已复制到测试集目录。
文件 v180_149.txt 已复制到测试集目录。
文件 v180_164.txt 已复制到测试集目录。
文件 v160_014.txt 已复制到测试集目录。
文件 v190_225.txt 已复制到测试集目录。
文件 v180_151.txt 已复制到测试集目录。
文件 v180_137.txt 已复制到测试集目录。
文件 v180_197_a.txt 已复制到测试集目录。
文件 v190_233.txt 已复制到测试集目录。
文件 v170_117.txt 已复制到测试集目录。
文件 v170_064.txt 已复制到测试集目录。
文件 v170_048.txt 已复制到测试集目录。
文件 v180_189.txt 已复制到测试集目录。
文件 v160_020.txt 已复制到测试集目录。
文件 v180_182_b.txt 已复制到测试集目录。
文件 v190_288.txt 已复制到测试集目录。
文件 v190_206.txt 已复制到测试集目录。
文件 v180_187.txt 已复制到测试集目录。
文件 v160_013.txt 已复制到测试集目录。
文件 v170_046.txt 已复制到测试集目录。
文件 v190_212.txt 已复制到测试集目录。
文件 v180_158.txt 已复制到测试集目录。
文件 v180_128.txt 已复制到测试集目录。
文件 v170_079.txt 已复制到测试集目