In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import re
import jieba # 结巴分词
# gensim用来加载预训练word vector
from gensim.models import KeyedVectors
import warnings
warnings.filterwarnings("ignore")
import torch
import torch.nn as nn
from tensorflow.python.keras.preprocessing.sequence import pad_sequences
# 用来解压
import bz2
# 使用gensim加载预训练中文分词embedding, 有可能需要等待1-2分钟
cn_model = KeyedVectors.load_word2vec_format('../models/embeddings/sgns.zhihu.bigram', 
                                             binary=False, unicode_errors="ignore")

In [2]:
def embedding_matrix(num_words = 50000,embedding_dim = 300):

    # 初始化embedding_matrix，之后在keras上进行应用
    embedding_matrix = np.zeros((num_words, embedding_dim))
    for i in range(num_words):
        embedding_matrix[i,:] = cn_model[ cn_model.index2word[i] ]
    embedding_matrix = embedding_matrix.astype('float32')
    return embedding_matrix

In [16]:
class Net(nn.Module):
    def __init__(self, input_size, hidden_size, output_size, batch_size, num_layers=1,num_words=50000):
        super().__init__()

        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.batch_size = batch_size

        self.embedding = nn.Embedding.from_pretrained(torch.Tensor(embedding_matrix(num_words)))
        self.embedding.requires_grad = False

        self.rnn = nn.GRU(input_size, hidden_size, num_layers,bidirectional=True)
        self.linear = nn.Linear(hidden_size*2, output_size)
        self.softmax = nn.LogSoftmax(dim=-1)

    def forward(self, x, hidden):
        x = self.embedding(x)
        x = x.transpose(0, 1)
        output, hn = self.rnn(x, hidden)
        output = self.linear(output[-1])
        output = self.softmax(output)
        return output


    def initHidden(self):
        h_0 = torch.zeros(self.num_layers*2, self.batch_size, self.hidden_size)
        return h_0
    def initHiddenOne(self):
        h_0 = torch.zeros(self.num_layers*2, 1, self.hidden_size)
        return h_0



In [17]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
Batch_size = 128
N_EPOCHS = 100
sequence_len = 100
num_words = 200000

net = Net(input_size=300, hidden_size=128, output_size=2, batch_size=Batch_size,num_words=num_words)

In [18]:
net.load_state_dict(torch.load('../log/Bi_GRU.pkl'))

<All keys matched successfully>

In [19]:
net

Net(
  (embedding): Embedding(200000, 300)
  (rnn): GRU(300, 128, bidirectional=True)
  (linear): Linear(in_features=256, out_features=2, bias=True)
  (softmax): LogSoftmax(dim=-1)
)

In [12]:
def dealwithSentence(text,num_words = 50000):
    text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]+", "", text)
    cut_list=[]
    cut = jieba.cut(text)
    cut_list = [i for i in cut]
    for i, word in enumerate(cut_list):
        try:
            cut_list[i] = cn_model.vocab[word].index
        except:
            cut_list[i] = 0
    token_result=[]
    token_result.append(cut_list)
    max_tokens=90
    pad_result = pad_sequences(token_result, maxlen=max_tokens,padding='pre', truncating='pre')
    pad_result[ pad_result>=num_words] = 0
    
    return torch.Tensor(pad_result).long()

dealwithSentence('这电影简直太差了！')

tensor([[   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
            0,   22,  196,  612, 5915,    3]])

In [20]:
output = net(dealwithSentence('这电影简直太差了！'),net.initHiddenOne())
if output.topk(1)[1] == 0:
    print('该评论是消极的')
else:
    print('该评论是积极的')

该评论是消极的


In [22]:
output = net(dealwithSentence('感觉自己回到了童年！'),net.initHiddenOne())
if output.topk(1)[1] == 0:
    print('该评论是消极的')
else:
    print('该评论是积极的')

该评论是积极的


In [24]:
output = net(dealwithSentence('电影故事情节很吸引人，但是悬疑性质不足'),net.initHiddenOne())
if output.topk(1)[1] == 0:
    print('该评论是消极的')
else:
    print('该评论是积极的')

该评论是消极的


In [26]:
output = net(dealwithSentence('电影故事情节很吸引人，但是悬疑性质不足，导致后面看的块睡着了，不过最后醒来看到结局还是很惊艳的'),net.initHiddenOne())
if output.topk(1)[1] == 0:
    print('该评论是消极的')
else:
    print('该评论是积极的')

该评论是积极的


In [28]:
output = net(dealwithSentence('这喜剧我看出了泪点，服了'),net.initHiddenOne())
if output.topk(1)[1] == 0:
    print('该评论是消极的')
else:
    print('该评论是积极的')

该评论是积极的


In [29]:
output = net(dealwithSentence('我知道了，凶手就是第一个人'),net.initHiddenOne())
if output.topk(1)[1] == 0:
    print('该评论是消极的')
else:
    print('该评论是积极的')

该评论是积极的


In [30]:
output = net(dealwithSentence('椅子挺舒服，背景音乐不错.....'),net.initHiddenOne())
if output.topk(1)[1] == 0:
    print('该评论是消极的')
else:
    print('该评论是积极的')

该评论是消极的


这电影简直没法看
发人深省啊！
一堆流量明星而已
感觉自己回到了童年
看得我快睡着了。。。
这电影。。一言难尽啊
电影故事情节很吸引人，但是悬疑性质不足
最后醒来看到结局还是很惊艳的
椅子挺舒服，背景音乐不错.....
感觉真相不是结局的那么简单！
凶手是第一个人？
有机会在看一次！
这电影找点优点真不容易
这鬼片差点吓死！
电影故事情节很吸引人，但是悬疑性质不足，导致后面看的块睡着了，不过最后醒来看到结局还是很惊艳的

看的我居然饿了
这喜剧我看出了泪点，服了
这魔术看不懂啊
