In [1]:
import os
import pandas as pd
import random
import shutil

In [2]:
def process_csv_files(src_folder, dest_folder, min_rows):
    if not os.path.exists(dest_folder):
        os.makedirs(dest_folder)

    for root, dirs, files in os.walk(src_folder):
        # 计算目标路径中的相对路径
        relative_path = os.path.relpath(root, src_folder)
        dest_path = os.path.join(dest_folder, relative_path)

        # 创建目标路径中的子文件夹
        if not os.path.exists(dest_path):
            os.makedirs(dest_path)

        for file in files:
            if file.endswith('.csv'):
                src_file_path = os.path.join(root, file)
                dest_file_path = os.path.join(dest_path, file)

                try:
                    # 尝试读取CSV文件
                    df = pd.read_csv(src_file_path)
                    
                    # 随机删除行直到行数小于预定值
                    while len(df) > min_rows:
                        df = df.drop(random.choice(df.index))

                    # 保存处理后的CSV文件到目标文件夹
                    df.to_csv(dest_file_path, index=False)
                    
                    # 打印处理过的文件名
                    print(f"Processed file: {src_file_path}")
                
                except UnicodeDecodeError:
                    # 跳过无法读取的文件并打印文件名
                    print(f"Skipped file due to encoding error: {src_file_path}")

In [3]:
# 示例调用
src_folder = '经过第一遍处理之后的数据集'   # 将此处替换为你的大文件夹路径
dest_folder = '筛选出指定行之后的数据集' # 将此处替换为你希望保存的目标大文件夹路径
process_csv_files(src_folder, dest_folder, 10)  # 设置你期望的最小行数

Processed file: 经过第一遍处理之后的数据集\1-网络与通信\1-网络与通信 - OFDM跳频技术研究 (1).csv
Processed file: 经过第一遍处理之后的数据集\1-网络与通信\1-网络与通信 - QoS（服务质量）技术研究 (1).csv
Processed file: 经过第一遍处理之后的数据集\1-网络与通信\1-网络与通信 - 宽带网络基础结构 (1).csv
Processed file: 经过第一遍处理之后的数据集\1-网络与通信\1-网络与通信 - 物联网各层级价值 (1).csv
Processed file: 经过第一遍处理之后的数据集\1-网络与通信\1-网络与通信 - 网络与通信系统 (1).csv
Processed file: 经过第一遍处理之后的数据集\1-网络与通信\1-网络与通信 - 蜂窝通信模块 (1).csv
Processed file: 经过第一遍处理之后的数据集\10-智能机器人\10-智能机器人 - AGV智能机器人停车库应用 (1).csv
Processed file: 经过第一遍处理之后的数据集\10-智能机器人\10-智能机器人 - 工业运动学机械手试验数据 (1).csv
Processed file: 经过第一遍处理之后的数据集\10-智能机器人\10-智能机器人 - 智能机器人最大行进速度设定 (1).csv
Processed file: 经过第一遍处理之后的数据集\10-智能机器人\10-智能机器人 - 智能机器人状态信息 (1).csv
Processed file: 经过第一遍处理之后的数据集\10-智能机器人\10-智能机器人 - 智能机器人结构特点 (1).csv
Processed file: 经过第一遍处理之后的数据集\10-智能机器人\10-智能机器人 - 智能机器人行进路径比较 (1).csv
Processed file: 经过第一遍处理之后的数据集\10-智能机器人\10-智能机器人 - 核心技术 (1).csv
Processed file: 经过第一遍处理之后的数据集\11-激光与增材制造\11-激光与增材制造 - 国内外MOPA脉冲光纤激光器规格参数 (1).csv
Processed file: 经过第一遍处理之后的数据集\11-激光与增材制造\