## 数据预处理
- 分词，划分训练集测试集，并保存文件
- 共有679898个样本

In [1]:
import os
import sys
import time
import jieba

In [2]:
ARTICLE_FILE = "./data/weibo_news/train_text.txt"
SUMMARRY_FILE = "./data/weibo_news/train_label.txt"

TRAIN_FILE = "./data/weibo_news/train_art_summ_prep.txt"
VAL_FILE = "./data/weibo_news/val_art_summ_prep.txt"

In [3]:
def timer(func):
    """时间装饰器"""
    def wrapper(*args, **kwargs):
        start = time.time()
        r = func(*args, **kwargs)
        end = time.time()
        cost = end - start
        print(f"Cost time: {cost} s")
        return r
    return wrapper

@timer
def load_data(filename):
    """加载数据文件，对文本进行分词"""
    data_list = []
    with open(filename, 'r', encoding= 'utf-8') as f:
        for line in f:
            # jieba.enable_parallel()
            words = jieba.cut(line.strip())
            word_list = list(words)
            # jieba.disable_parallel()
            data_list.append(' '.join(word_list).strip())
    return data_list

def build_train_val(article_data, summary_data, train_num=600_000):
    """划分训练和验证数据"""
    train_list = []
    val_list = []
    n = 0
    for text, summ in zip(article_data, summary_data):
        n += 1
        if n <= train_num:
            train_list.append(text)
            train_list.append(summ)
        else:
            val_list.append(text)
            val_list.append(summ)
    return train_list, val_list

def save_file(filename, li):
    """预处理后的数据保存到文件"""
    with open(filename, 'w+', encoding='utf-8') as f:
        for item in li:
            f.write(item + '\n')
    print(f"Save {filename} ok.")

In [5]:
article_data = load_data(ARTICLE_FILE)

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 1.055 seconds.
Prefix dict has been built succesfully.


Cost time: 582.3778989315033 s


In [6]:
summary_data = load_data(SUMMARRY_FILE)

Cost time: 105.96853184700012 s


In [7]:
article_data[:10]

['徐州 18 岁 农家 女孩 宋爽 ， 今年 考入 清华大学 。 除了 自己 一路 闯关 ， 年 年 拿 奖 ， 还 帮 妹妹 、 弟弟 制定 学习 计划 ， 姐弟 仨 齐头并进 ， 妹妹 也 考上 区里 最好 的 中学 。 这个 家里 的 收入 ， 全靠 父亲 务农 和 打零工 ， 但 宋爽 懂事 得 让 人 心疼 ， 曾 需要 200 元 奥数 竞赛 的 教材费 ， 她 羞于 开口 ， 愣 是 急 哭 了 ...   戳 腾讯 公益 帮帮 她们 ！ # 助学 圆梦 #   江苏 新闻 的 秒 拍 视频',
 '盖 被子 ， 摇 摇篮 ， 汪星 人 简直 要 把 萌娃 宠 上天 ～ 细致 周到 有 耐心 ， 脾气 还好 ， 汪星 人 不愧 是 一届 带娃 好手 [ 笑 而 不语 ] 偶买 噶 视频 的 秒 拍 视频   \u200b \u200b \u200b',
 '人们 通常 被 社会 赋予 的 " 成功 " 所 定义 ， “ 做 什么 工作 ” “ 赚 多少 钱 ” 都 用来 评判 一个 人 的 全部 价值 ， 很多 人 出现 身份 焦虑 。 身份 焦虑 不仅 影响 幸福感 ， 还会 导致 精神压力 ， 甚至 自杀 。 如果 你 也 有 身份 焦虑 ， 这个 短片 或许 会 有 帮助 。 秒 拍 视频   \u200b \u200b \u200b',
 '网友 @ 星蓝 seiran   教 大家 自制 的 捕捉 器 教程 ， 简单 方便 ， 里面 的 洗洁精 换成 肥皂水 或 洗衣粉 水 都 可以 （ 用于 溶解 蟑螂 腹部 油脂 防止 爬 出 ） ， 白糖 稍微 多放点 。 怕 蟑螂 的 童鞋 ， 可以 换成 不 透明 的 瓶子 。 转需 ~   \u200b \u200b \u200b',
 '车辆 众多 的 路口 ， 哪些地方 能 掉头 ？ 没有 调头 指示灯 和 调头 标志 的 路段 ， 你 还 知道 怎么 调头 吗 ？ @ 汽车 洋葱 圈   戳 视频 了解 ↓ ↓ 转给 新 司机 ！ 汽车 洋葱 圈 的 秒 拍 视频   \u200b \u200b \u200b',
 '平板 支撑 （ plank ） ， 时下 最热 “ 甩肉 ” 秘笈 。 可以 有效 的 锻炼 腹横肌 ， 被 公认 为 训练 腹肌 最 有效 的 方法 之一 ， 每天 坚持 

In [10]:
TRAIN_SPLIT = 600_000
train_list, val_list = build_train_val(article_data, summary_data, train_num=TRAIN_SPLIT)

In [11]:
save_file(TRAIN_FILE, train_list)
save_file(VAL_FILE, val_list)

Save ./data/weibo_news/train_art_summ_prep.txt ok.
Save ./data/weibo_news/val_art_summ_prep.txt ok.
