In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

import jieba
import pandas as pd
import re
from tqdm.notebook import tqdm

In [2]:
# 构造数据集
class MyDataset(Dataset):
    def __init__(self, debug=False):
        df = pd.read_csv('../../datasets/THUCNews/train.csv')
        df = df.dropna().reset_index(drop=True)
        if debug:
            df = df.sample(2000).reset_index(drop=True)
        else:
            df = df.sample(50000).reset_index(drop=True)
        # 读取常用停用词
        stopwords = [line.strip() for line in open('../../stopwords/cn_stopwords.txt', 'r', encoding='utf-8').readlines()]
        sentences = []
        for title in tqdm(df['title']):   
            # 去除标点符号
            title = re.sub(r'[^\u4e00-\u9fa5]', '', title)
            # jieba分词
            sentence_seged = jieba.cut(title.strip())    
            outstr = ''
            for word in sentence_seged:
                if word != '\t' and word not in stopwords:
                    outstr += word
                    outstr += ' '
            if outstr != '':
                sentences.append(outstr)    
        # 获取所有词（token）
        token_list = list(set(' '.join(sentences).split()))
        # token和index互转字典
        self.token2idx = {token: i for i, token in enumerate(token_list)}
        self.idx2token = {i: token for i, token in enumerate(token_list)}
        
        # 构造输入和输出，输入是每三个词，输出是这三个词的下一个词，也就是简单的n-gram语言模型（n=3）
        self.inputs = []
        self.labels = []
        for sen in sentences:
            sen = sen.split()
            for i in range(len(sen) - 3):
                self.inputs.append([self.token2idx[token] for token in sen[i: i + 3]])
                self.labels.append([self.token2idx[sen[i + 3]]])

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        # 返回一个x和一个y
        return torch.LongTensor(self.inputs[idx]), torch.LongTensor(self.labels[idx])

In [3]:
class NNLM(nn.Module):
    def __init__(self, vocab_size, embed_size, n_step, n_hidden):
        super().__init__()
        self.embed_size = embed_size
        self.n_step = n_step
        # vocab size投影到到embed size的空间中
        self.embedding = nn.Embedding(vocab_size, embed_size)
        # 构造一个隐藏层，输入大小为 步长 * embed size，输入大小为n_hidden
        self.linear = nn.Linear(n_step * embed_size, n_hidden)
        # 将n_hidden投影回vocab size大小
        self.output = nn.Linear(n_hidden, vocab_size)

    def forward(self, X):
        X = self.embedding(X)
        X = X.view(-1, self.n_step * self.embed_size)
        X = self.linear(X)
        X = torch.tanh(X)
        y = self.output(X)
        return y

In [4]:
# 构造数据集
dataset = MyDataset(debug=True)
# 构造dataloader，batch size设置为128
dataloader = DataLoader(dataset=dataset, batch_size=128, shuffle=True)

# 初始化模型
model = NNLM(vocab_size=len(dataset.token2idx), embed_size=256, n_step=3, n_hidden=256)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 查看模型
model

  0%|          | 0/2000 [00:00<?, ?it/s]

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/d1/4_gsqv2176z583_7rmpm27lh0000gn/T/jieba.cache
Loading model cost 0.423 seconds.
Prefix dict has been built successfully.


NNLM(
  (embedding): Embedding(8169, 256)
  (linear): Linear(in_features=768, out_features=256, bias=True)
  (output): Linear(in_features=256, out_features=8169, bias=True)
)

In [5]:
# 训练20个epoch
for epoch in range(20):
    for train_input, train_label in dataloader:
        output = model(train_input)
        loss = criterion(output, train_label.squeeze_())
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    print('epoch:', epoch + 1, 'loss =', '{:.6f}'.format(loss))

epoch: 1 loss = 8.963268
epoch: 2 loss = 7.734292
epoch: 3 loss = 6.106933
epoch: 4 loss = 4.815814
epoch: 5 loss = 3.199423
epoch: 6 loss = 1.643874
epoch: 7 loss = 0.639873
epoch: 8 loss = 0.337727
epoch: 9 loss = 0.167328
epoch: 10 loss = 0.119759
epoch: 11 loss = 0.083111
epoch: 12 loss = 0.063293
epoch: 13 loss = 0.054640
epoch: 14 loss = 0.043630
epoch: 15 loss = 0.035315
epoch: 16 loss = 0.030352
epoch: 17 loss = 0.059278
epoch: 18 loss = 0.024511
epoch: 19 loss = 0.021302
epoch: 20 loss = 0.066659


In [6]:
# 使用训练好的模型进行预测，train_input直接是上面代码中的，直接用
# 模型输出之后取argmax，再用idx2token转回单词，查看效果，可以看到效果还可以，有上下文关系
predict = model(train_input).data.max(1, keepdim=True)[1].squeeze_().tolist()
input_list = train_input.tolist()
for i in range(len(input_list)):
    print(dataset.idx2token[input_list[i][0]] + ' ' +  
          dataset.idx2token[input_list[i][1]] + ' ' + 
          dataset.idx2token[input_list[i][2]] + ' -> ' + dataset.idx2token[predict[i]])

互联网 将成 南非 -> 世界杯
曝 官员 墓地 -> 雕龙
李湘 透露 差点 -> 放弃
节能 空调 国美 -> 降价
结束 中考 日 -> 公布
俄 官员 称 -> 可能
斯台普 斯 各国 -> 歌迷
廖碧儿 学 咏春 -> 做
假 期间 造好 -> 有望
纽约 设计 获 -> 老外
广东 高考 日 -> 放榜
中 移动 筹备 -> 创业
化工行业 产品价格 企稳 -> 关注
哈利波 特中美 两国 -> 口碑
星梦 逃役 案一审 -> 开庭
月 自考 部分 -> 课程
沪 指 周线 -> 弱势
五号 新 五街 -> 缔造
缔造 顶级 家居生活 -> 寐
高速 连堵 公里 -> 图
山水 青城 月 -> 日
周刊 弹性 社交 -> 网络
全运 开幕式 揭秘 -> 终极
组图 娜塔莉 挺 -> 大肚
易碎品 首日 五项 -> 世界纪录
素颜 现身 高校 -> 低调
诠释 正宗 中国 -> 武侠
家人 争执 赌气 -> 跳下
旗袍 臀部 畸形 -> 组图
家装 公司 陷阱 -> 懂
终将 再成 比翼鸟 -> 图
名师 指点 托福 -> 口语
齐达内 西班牙 媲美 -> 版
经历 解释 主持 -> 防务
理财 一对 缓行 -> 银行
围观 开心果 五一 -> 多重
朱莉 匈牙利 购豪宅 -> 入住
年期 债息 率 -> 美国
宝马 引来 微博 -> 第一
现场 盗 充电器 -> 抓
客车 劫匪 搏斗 -> 导致
袭 胸 称为 -> 寻求
舐 受伤 心灵 -> 其母
两只 牛牛 幸福 -> 滋味
杨威 个人 秀场 -> 诠释
获 美国 制片人 -> 工会
盼 易建联 展现 -> 统治力
换里 贝里 简直 -> 疯
上调 西班牙 国际 -> 银行
切尔西 官方 宣布 -> 续约
卡萨帝 开门 冰箱 -> 降千
岁 章子怡 庆生 -> 曝无新
精彩 堪比开 年 -> 大戏
