In [2]:
import pandas as pd


# 假设数据格式为每行：标签[空格]评论
def read_data_from_txt(file_path):
    data = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f.readlines():
            parts = line.strip().split(' ', 1)  # 使用空格分割标签和评论
            if len(parts) > 1:
                label = int(parts[0])  # 标签转换为整数
                review = parts[1]  # 评论部分
                data.append([label, review])
    df = pd.DataFrame(data, columns=["label", "review"])
    return df


# 读取数据
file = '../trained.txt'
df = read_data_from_txt(file)

# 输出前几行数据预览
print(df.head())

   label                                             review
0      1  做 父母 一定 要 有 刘墉 的 心态 不断 地 学习 不断 地 进步 不断 地 给 补充 ...
1      1  作者 真有 英国人 严谨 的 风格 提出 观点 进行 论述 论证 对 物理学 了解 不深 能...
2      1  作者 长篇大论 借用 详细 报告 数据处理 工作 和 计算结果 支持 其新 观点 荷兰 曾经...
3      1  作者 在 战 之前 用 拥抱 令人 叫绝 日本 战败 就 有 有 美军 的 占领 没胡 官僚...
4      1  作者 在 少年 时即 喜 阅读 能 看出 精读 无数 经典 有 一个 庞大 的 内心世界 的...


In [3]:
from sklearn.model_selection import train_test_split

# 将数据划分为训练集、验证集和测试集
train_df, temp_df = train_test_split(df, test_size=0.2, random_state=42)  # 80% 训练集，20% 临时集
val_df, test_df = train_test_split(temp_df, test_size=0.5, random_state=42)  # 50% 验证集，50% 测试集

# 输出每个数据集的大小
print(f"训练集大小: {len(train_df)}")
print(f"验证集大小: {len(val_df)}")
print(f"测试集大小: {len(test_df)}")

训练集大小: 50674
验证集大小: 6334
测试集大小: 6335


In [4]:
# 定义保存数据集的函数
def save_to_txt(df, file_name):
    with open(file_name, 'w', encoding='utf-8') as file:
        for index, row in df.iterrows():
            file.write(f"{row['label']} {row['review']}\n")


# 保存数据集
save_to_txt(train_df, '../train.txt')
save_to_txt(val_df, '../val.txt')
save_to_txt(test_df, '../test.txt')