In [1]:
import os
import random
import shutil
import logging

In [2]:
# 假设 BASE_DIR 已经定义为项目的根目录
BASE_DIR = '/Users/jessie/Documents/Projects/Cusanus_Topic_Modeling' 

In [3]:
# 配置日志
logging.basicConfig(
    filename='test_log.log',  # 日志文件名
    level=logging.INFO,       # 日志级别
    format='%(asctime)s - %(levelname)s - %(message)s',  # 日志格式
    filemode='w'              # 使用 'w' 模式覆盖之前的日志记录
)

In [4]:
def select_files_for_testing(processed_dir, testset_dir, test_percentage=0.2):
    # 获取所有已处理的文件
    processed_files = [f for f in os.listdir(processed_dir) if f.endswith('.txt')]
    total_files = len(processed_files)

    # 检查是否有已处理的文件
    if total_files == 0:
        print("没有找到已处理的文件，请检查 processed 目录。")
        logging.error("没有找到已处理的文件，测试无法进行。")
        return []

    # 计算测试集的文件数量，确保不会超过总文件数
    test_file_count = max(1, min(total_files, int(total_files * test_percentage)))  # 至少选取一个文件用于测试

    # 随机选取测试文件
    test_files = random.sample(processed_files, test_file_count)

    # 创建测试集目录（如果不存在）
    if not os.path.exists(testset_dir):
        os.makedirs(testset_dir)

    # 将选中的测试文件复制到 testset 目录
    for test_file in test_files:
        source_path = os.path.join(processed_dir, test_file)
        destination_path = os.path.join(testset_dir, test_file)
        shutil.copy(source_path, destination_path)  # 使用 shutil.copy 复制文件
        print(f"文件 {test_file} 已复制到测试集目录。")
        logging.info(f"文件 {test_file} 已复制到测试集目录 {testset_dir}。")

    print(f"从已处理的 {total_files} 个文件中随机选取了 {test_file_count} 个文件并复制到测试集目录。\n")
    logging.info(f"从已处理的 {total_files} 个文件中随机选取了 {test_file_count} 个文件并复制到测试集目录。")

    return test_files

In [5]:
processed_dir = os.path.join(BASE_DIR, 'data/processed')
testset_dir = os.path.join(BASE_DIR, 'data/testset')

In [6]:
test_files = select_files_for_testing(processed_dir, testset_dir, test_percentage=0.2)


文件 v170_038.txt 已复制到测试集目录。
文件 h190_274.txt 已复制到测试集目录。
文件 v170_118.txt 已复制到测试集目录。
文件 h190_262.txt 已复制到测试集目录。
文件 v190_258.txt 已复制到测试集目录。
文件 v190_272.txt 已复制到测试集目录。
文件 h190_218.txt 已复制到测试集目录。
文件 v190_275.txt 已复制到测试集目录。
文件 v170_037.txt 已复制到测试集目录。
文件 v170_041.txt 已复制到测试集目录。
文件 v180_171.txt 已复制到测试集目录。
文件 v170_113.txt 已复制到测试集目录。
文件 v190_213.txt 已复制到测试集目录。
文件 h170_058.txt 已复制到测试集目录。
文件 h180_137.txt 已复制到测试集目录。
文件 h170_102.txt 已复制到测试集目录。
文件 v190_290.txt 已复制到测试集目录。
文件 v160_007.txt 已复制到测试集目录。
文件 v190_266.txt 已复制到测试集目录。
文件 h190_273.txt 已复制到测试集目录。
文件 h180_176.txt 已复制到测试集目录。
文件 v170_111.txt 已复制到测试集目录。
文件 v170_053.txt 已复制到测试集目录。
文件 h190_264.txt 已复制到测试集目录。
文件 v170_033.txt 已复制到测试集目录。
文件 v170_082.txt 已复制到测试集目录。
文件 v160_002.txt 已复制到测试集目录。
文件 h180_171.txt 已复制到测试集目录。
文件 v180_184.txt 已复制到测试集目录。
文件 v170_043.txt 已复制到测试集目录。
文件 v180_174.txt 已复制到测试集目录。
文件 v160_017.txt 已复制到测试集目录。
文件 h170_064.txt 已复制到测试集目录。
文件 h170_109.txt 已复制到测试集目录。
文件 v190_241.txt 已复制到测试集目录。
文件 h170_089.txt 已复制到测试集目录。
文件 h170_079.txt 已复制到测试集目录。
文