In [1]:
import jieba 
import pandas as pd 
import numpy as np 
from tensorflow.keras.layers import Dense,Input,Dropout,Embedding,LSTM,Bidirectional
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Model
from sklearn.model_selection import train_test_split
import json

In [2]:
# 批次大小
batch_size = 128

# 训练周期
epochs = 3

# 词向量长度
embedding_dims = 128

# cell数量
lstm_cell = 64

In [3]:
data = pd.read_csv('C:/Users/23106/Desktop/dataset/LSTM/weibo_senti_100k.csv')

In [4]:
print('微博数量：',data.shape[0])
# 计算正样本数量
poslen = sum(data['label']== 1)
# 计算负样本数量
neglen = sum(data['label']== 0)
neglen = sum(data['label']==0)
print('正样本数量：', poslen)
print('负样本数量：', neglen)

微博数量： 119988
正样本数量： 59993
负样本数量： 59995


In [5]:
#定义分词函数，对传入的x进行分词
cw = lambda x: list(jieba.cut(x))
# apply传入一个函数，把cw函数应用到data['review']的每一行
# 把分词后的结果保存到data['words']中
data['words'] = data['review'].apply(cw)
data['words']

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\23106\AppData\Local\Temp\jieba.cache
Loading model cost 0.642 seconds.
Prefix dict has been built successfully.


0         [﻿, 更博, 了, ，, 爆照, 了, ，, 帅, 的, 呀, ，, 就是, 越来越, 爱...
1         [@, 张晓鹏, jonathan,  , 土耳其, 的, 事要, 认真对待, [, 哈哈,...
2         [姑娘, 都, 羡慕, 你, 呢, …, 还有, 招财猫, 高兴, …, …, /, /, ...
3                            [美, ~, ~, ~, ~, ~, [, 爱, 你, ]]
4             [梦想, 有, 多, 大, ，, 舞台, 就, 有, 多, 大, !, [, 鼓掌, ]]
                                ...                        
119983    [一, 公里, 不到, ，, 县, 医院, 那个, 天桥, 下右, 拐, 200, 米, 就...
119984    [今天, 真冷, 啊, ，, 难道, 又, 要, 穿, 棉袄, 了, [, 晕, ], ？,...
119985             [最近, 几天, 就, 没, 停止, 过, ！, ！, ！, [, 伤心, ]]
119986             [/, /, @, 毒药, 女流氓, :, [, 怒, ],  , 很惨, !]
119987    [呢, ?, ?, @, 杰, ?, Kelena,  , ？, ！, [, 抓狂, ], ...
Name: words, Length: 119988, dtype: object

In [6]:
max_length = max([len(x) for x in data['words']])
max_length

202

In [7]:
texts = [' '.join(x) for x in data['words']]
texts

['\ufeff 更博 了 ， 爆照 了 ， 帅 的 呀 ， 就是 越来越 爱 你 ！ 生快 傻 缺 [ 爱 你 ] [ 爱 你 ] [ 爱 你 ]',
 '@ 张晓鹏 jonathan   土耳其 的 事要 认真对待 [ 哈哈 ] ， 否则 直接 开除 。 @ 丁丁 看 世界   很 是 细心 ， 酒店 都 全部 OK 啦 。',
 '姑娘 都 羡慕 你 呢 … 还有 招财猫 高兴 … … / / @ 爱 在 蔓延 - JC : [ 哈哈 ] 小 学徒 一枚 ， 等 着 明天 见 您 呢 / / @ 李欣芸 SharonLee : 大佬 范儿 [ 书呆子 ]',
 '美 ~ ~ ~ ~ ~ [ 爱 你 ]',
 '梦想 有 多 大 ， 舞台 就 有 多 大 ! [ 鼓掌 ]',
 '[ 花心 ] [ 鼓掌 ] / / @ 小 懒猫 Melody2011 :   [ 春暖花开 ]',
 '某 问答 社区 上 收到 一 大学生 发给 我 的 私信 ： “ 偶 喜欢 阿姨 ！ 偶是 阿姨 控 ！ ” 我 回 他 ： “ 阿姨 稀饭 小盆友 ！ 偶是 小盆友控 ！ ”   [ 哈哈 ]',
 '吃货 们 无不 啧啧称奇 ， 好 不 喜欢 ！ PS : 写错 一个 字 ！ [ 哈哈 ] @ 森林 小天使 - 波琪   @ SEVEN 厦门 摄影师   @ 日月星辰 - 心在 路上   @ 每种 型号 生 两胎   @ 志远 天下 行   @ 监控 防盗 安装 XM   @ 创意 美食 simon 哥   @ 漫游者 - 强子   @ 陈小 kitty 猫 @ 游子 的 歌 @ solo 在 厦门',
 '# Sweet   Morning # From   now   on , love   yourself , enjoy   living   then   smile . 从 现在 开始 ， 爱 自己 ， 享受 生活 并且 微笑 。 [ 呵呵 ]   [ 嘻嘻 ]   [ 哈哈 ]   [ 挤眼 ]   [ 太 开心 ]   早安 、 甜心 们',
 '【 霍思燕 剖腹产 下 “ 小江江 ”   老公 落泪 】 今晨 9 时 霍思燕 产下 一名 男婴 ， 宝宝 重 8 斤 3 两 ， 母子 平安 。 杜江 的 脸上 洋溢着 做 爸爸 的 欣喜 ： 宝宝 小 名叫 “ 小

In [8]:
# 实例化Tokenizer，设置字典中最大词汇数为30000
# Tokenizer会自动过滤掉一些符号比如：!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n
tokenizer = Tokenizer(num_words=30000)

# 传入我们的训练数据，建立词典，词的编号根据词频设定，频率越大，编号越小，
tokenizer.fit_on_texts(texts) 

# 把词转换为编号，编号大于30000的词会被过滤掉
sequences = tokenizer.texts_to_sequences(texts) 
sequences

[[5,
  1,
  5,
  1,
  796,
  2,
  92,
  1,
  69,
  559,
  16,
  9,
  3,
  2844,
  750,
  3269,
  16,
  9,
  16,
  9,
  16,
  9],
 [9513,
  7325,
  5673,
  2,
  29847,
  7,
  1,
  2208,
  435,
  13966,
  4,
  2736,
  45,
  201,
  43,
  10,
  6911,
  1,
  139,
  15,
  967,
  922,
  46,
  4],
 [514,
  15,
  799,
  9,
  52,
  22,
  113,
  19872,
  892,
  22,
  22,
  16,
  12,
  3735,
  7044,
  7,
  53,
  10040,
  2525,
  1,
  121,
  70,
  200,
  378,
  124,
  52,
  29848,
  2657,
  2209,
  3626],
 [300, 16, 9],
 [581, 18, 75, 77, 1, 1946, 20, 18, 75, 77, 19],
 [175, 19, 53, 6654, 5418],
 [1224,
  10617,
  3950,
  61,
  512,
  103,
  5938,
  5419,
  6,
  2,
  675,
  25,
  54,
  686,
  108,
  1233,
  3,
  10310,
  1233,
  1335,
  3,
  55,
  6,
  401,
  76,
  25,
  54,
  1233,
  3399,
  3558,
  3,
  10310,
  3,
  55,
  7],
 [389,
  85,
  24701,
  1,
  23,
  21,
  108,
  3,
  809,
  9011,
  48,
  612,
  3,
  7,
  3951,
  10618,
  3816,
  455,
  591,
  29849,
  10311,
  459,
  19873,
  13967,
 

In [9]:
X = pad_sequences(sequences, maxlen=max_length, padding='pre')

In [10]:
X

array([[    0,     0,     0, ...,     9,    16,     9],
       [    0,     0,     0, ...,   922,    46,     4],
       [    0,     0,     0, ...,  2657,  2209,  3626],
       ...,
       [    0,     0,     0, ...,     3,     3,   247],
       [    0,     0,     0, ..., 10130,    27, 19566],
       [    0,     0,     0, ...,    63,    59,    62]])

In [11]:
# 把token_config保存到json文件中，模型预测阶段可以使用
file = open('C:/Users/23106/Desktop/dataset/LSTM/token_config_lstm.json', 'w', encoding='utf-8')

# 把tokenizer变成json数据
token_config = tokenizer.to_json()
# 保存json数据
json.dump(token_config, file)

In [12]:
positive_labels = [[0, 1] for _ in range(poslen)]
negative_labels = [[1, 0] for _ in range(neglen)]
positive_labels
negative_labels

[[1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 [1, 0],
 

In [14]:
Y = np.array(positive_labels + negative_labels)

In [15]:
x_train,x_test,y_train,y_test = train_test_split(X, Y, test_size=0.2)

In [16]:
# 定义模型输入，shape-(batch, 202)
sequence_input = Input(shape=(max_length,))

# Embedding层，30000表示30000个词，每个词对应的向量为128维
embedding_layer = Embedding(input_dim=30000, output_dim=embedding_dims)

# embedded_sequences的shape-(batch, 202, 128)
embedded_sequences = embedding_layer(sequence_input)

# 双向LSTM
x = Bidirectional(LSTM(lstm_cell))(embedded_sequences)

# 全连接层
x = Dense(128, activation='relu')(x)

# Dropout层
x = Dropout(0.5)(x)

# 输出层
preds = Dense(2, activation='softmax')(x)

# 定义模型
model = Model(sequence_input, preds)

In [17]:
# 定义代价函数，优化器
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['acc'])

In [18]:
import time # 记录模型训练时间
start = time.time() # 记录训练开始时间

model.fit(x_train, y_train,
          batch_size=batch_size,
          epochs=epochs,
          validation_data=(x_test, y_test))

end = time.time() # 记录训练结束时间
print('训练耗时：',end - start, '秒')

Epoch 1/3
Epoch 2/3
Epoch 3/3
训练耗时： 155.97526144981384 秒


In [20]:
model.save('C:/Users/23106/Desktop/dataset/LSTM//lstm_model_weibo.h5')

In [1]:
import paddle
paddle.utils.run_check()


Running verify PaddlePaddle program ... 
PaddlePaddle works well on 1 GPU.
PaddlePaddle works well on 1 GPUs.
PaddlePaddle is installed successfully! Let's start deep learning with PaddlePaddle now.


In [2]:
paddle.fluid.is_compiled_with_cuda()

True

In [73]:
import numpy as np
import pandas as pd
import re
import os
import csv
import paddlehub as hub
import paddle
label_list = ['愤怒', '积极', '悲伤', '无情绪', '恐惧', '惊奇']
label_map = {idx: label_text for idx,
             label_text in enumerate(label_list)}
print(label_list)
data = pd.read_csv(
    'C:/Users/23106/Desktop/weibopy/new/comments.csv', header=None)
# 格式处理：
list = data.values.tolist()
print(list)
print(list[1])
print(list[2])
model = hub.Module(
    name='ernie_tiny',
    task='seq-cls',
    num_classes=7,
    load_checkpoint='C:/Users/23106/Desktop/weibopy/ckpt/best_model/model.pdparams',
    label_map=label_map)
results = model.predict(deal_data, max_seq_len=128,
                        batch_size=32, use_gpu=True)
for idx, text in enumerate(data):
    print('Text: {} \t Label: {}'.format(text[0], results[idx]))
 # 将数据转化为数组

[32m[2022-05-10 21:59:24,251] [    INFO][0m - Already cached C:\Users\23106\.paddlenlp\models\ernie-tiny\ernie_tiny.pdparams[0m


['愤怒', '积极', '悲伤', '无情绪', '恐惧', '惊奇']
[['强化班一直到考研结束吗'], ['老师我买了咱们的课可是视频强化班只有马原没有别的怎们办是没更新吗考研政治徐涛'], ['强化班有多少节一共多长时间能看完'], ['都了怎么评论区还是一群老熟人'], ['终于学生都要跑走了再不营业就剩我们这些老家伙了'], ['今年的核心考案又有一些小改动啊'], ['有人吗考研可以买这个来看了吗'], ['考研的涛涛子来啦政治不是梦'], ['核心考案又变好看了想收藏'], ['感谢涛哥考研政治分你强化课讲的偶然与必然让我记到了考场'], ['徐涛老师年请多指教'], ['四个小车车不知道上哪个了整的'], ['请问老师强化班怎么报名呀'], ['年的考研大纲是出来没有呢我有你年的核心考案需要更换吗'], ['看着换了封皮突然想收藏积累'], ['这个强化班是买核心考案就送吗还是'], ['今年出来卖的比往年时候要早一些～'], ['想知道这个微博的和站的课程内容有区别嘛为什么分两个软件售卖呀'], ['涛涛我想问一个问题你放的链接里的书都会送书签嘛'], ['传统艺能之出来卖了考研政治徐涛'], ['考研只要买全程班就可以了吗'], ['徐涛老师单单强化班有卖吗'], ['书买了视频在哪看'], ['走过路过不要错过啊徐涛老师又来卖喽'], ['俺来啦刚买好了我们上岸见'], ['为什么在淘宝看不到真题版本'], ['涛涛老师您是建议买全程班还是协议班呢'], ['又卖了涛涛老师'], ['只有全程班吗有无单独的强化班'], ['求一个艾宾浩斯遗忘曲线背诵表我给考研的男盆友要的看到可否给一个谢谢'], ['涛涛核心考案一月份真的会发货吗'], ['买了两个星期了我必是第一批发货'], ['原来开始的这么早'], ['徐老师我来了'], ['喜题集是做了会很高兴的题集嘛涛涛'], ['哥们我考两年了政治都是怎么解决'], ['强化班开课了嘛'], ['老师可以用年核心考案吗变化大吗'], ['有人拼吗'], ['上面的淘宝链接里政治全程包括强化课吗'], ['涛'], ['早就买好了坐等发货'], ['上涛涛的车啦'], ['明年这时候我也要成厉害的人许愿许愿'], ['什么时候有视频课呢涛涛'], ['感谢涛哥考研政治'], ['在哪里买强化班正

[32m[2022-05-10 21:59:26,793] [    INFO][0m - Loaded parameters from C:\Users\23106\Desktop\weibopy\ckpt\best_model\model.pdparams[0m


NameError: name 'deal_data' is not defined

In [11]:
import numpy as np
import pandas as pd
import re
import os
import csv
import paddlehub as hub
import paddle
from collections import defaultdict
label_list = ['愤怒', '积极', '悲伤', '无情绪', '恐惧', '惊奇']
label_map = {idx: label_text for idx,
             label_text in enumerate(label_list)}
print(label_list)
data = pd.read_csv(
    'C:/Users/23106/Desktop/weibopy/new/comments.csv', header=None)
# 格式处理：
data_array = np.array(data)
data22 = data_array.tolist()

['愤怒', '积极', '悲伤', '无情绪', '恐惧', '惊奇']


In [12]:
print(data22)

[['强化班一直到考研结束吗'], ['老师我买了咱们的课可是视频强化班只有马原没有别的怎们办是没更新吗考研政治徐涛'], ['强化班有多少节一共多长时间能看完'], ['都了怎么评论区还是一群老熟人'], ['终于学生都要跑走了再不营业就剩我们这些老家伙了'], ['今年的核心考案又有一些小改动啊'], ['有人吗考研可以买这个来看了吗'], ['考研的涛涛子来啦政治不是梦'], ['核心考案又变好看了想收藏'], ['感谢涛哥考研政治分你强化课讲的偶然与必然让我记到了考场'], ['徐涛老师年请多指教'], ['四个小车车不知道上哪个了整的'], ['请问老师强化班怎么报名呀'], ['年的考研大纲是出来没有呢我有你年的核心考案需要更换吗'], ['看着换了封皮突然想收藏积累'], ['这个强化班是买核心考案就送吗还是'], ['今年出来卖的比往年时候要早一些～'], ['想知道这个微博的和站的课程内容有区别嘛为什么分两个软件售卖呀'], ['涛涛我想问一个问题你放的链接里的书都会送书签嘛'], ['传统艺能之出来卖了考研政治徐涛'], ['考研只要买全程班就可以了吗'], ['徐涛老师单单强化班有卖吗'], ['书买了视频在哪看'], ['走过路过不要错过啊徐涛老师又来卖喽'], ['俺来啦刚买好了我们上岸见'], ['为什么在淘宝看不到真题版本'], ['涛涛老师您是建议买全程班还是协议班呢'], ['又卖了涛涛老师'], ['只有全程班吗有无单独的强化班'], ['求一个艾宾浩斯遗忘曲线背诵表我给考研的男盆友要的看到可否给一个谢谢'], ['涛涛核心考案一月份真的会发货吗'], ['买了两个星期了我必是第一批发货'], ['原来开始的这么早'], ['徐老师我来了'], ['喜题集是做了会很高兴的题集嘛涛涛'], ['哥们我考两年了政治都是怎么解决'], ['强化班开课了嘛'], ['老师可以用年核心考案吗变化大吗'], ['有人拼吗'], ['上面的淘宝链接里政治全程包括强化课吗'], ['涛'], ['早就买好了坐等发货'], ['上涛涛的车啦'], ['明年这时候我也要成厉害的人许愿许愿'], ['什么时候有视频课呢涛涛'], ['感谢涛哥考研政治'], ['在哪里买强化班正版课'], ['该说不说的涛涛衣品蹭蹭上涨'], ['涛哥我上岸了政治感谢你

In [13]:
model = hub.Module(
    name='ernie_tiny',
    task='seq-cls',
    num_classes=7,
    load_checkpoint='C:/Users/23106/Desktop/weibopy/ckpt/best_model/model.pdparams',
    label_map=label_map)
results = model.predict(data22, max_seq_len=128,batch_size=32, use_gpu=True)
data = defaultdict(list)
for idx, text in enumerate(data22):
    print('Text: {} \t Label: {}'.format(text[0], results[idx]))
    data['text'].append(text[0])
    data['label'].append(results[idx])
df = pd.DataFrame(data)
df.to_csv("C:/Users/23106/Desktop/weibopy/new/result.csv", index=False,encoding='utf8', header=False, sep='\t')
 # 将数据转化为数组

[32m[2022-05-10 22:18:51,073] [    INFO][0m - Already cached C:\Users\23106\.paddlenlp\models\ernie-tiny\ernie_tiny.pdparams[0m
[32m[2022-05-10 22:18:53,754] [    INFO][0m - Loaded parameters from C:\Users\23106\Desktop\weibopy\ckpt\best_model\model.pdparams[0m
[32m[2022-05-10 22:18:53,952] [    INFO][0m - Already cached C:\Users\23106\.paddlenlp\models\ernie-tiny\vocab.txt[0m
[32m[2022-05-10 22:18:53,954] [    INFO][0m - Already cached C:\Users\23106\.paddlenlp\models\ernie-tiny\spm_cased_simp_sampled.model[0m
[32m[2022-05-10 22:18:53,956] [    INFO][0m - Already cached C:\Users\23106\.paddlenlp\models\ernie-tiny\dict.wordseg.pickle[0m


Text: 强化班一直到考研结束吗 	 Label: 愤怒
Text: 老师我买了咱们的课可是视频强化班只有马原没有别的怎们办是没更新吗考研政治徐涛 	 Label: 愤怒
Text: 强化班有多少节一共多长时间能看完 	 Label: 惊奇
Text: 都了怎么评论区还是一群老熟人 	 Label: 惊奇
Text: 终于学生都要跑走了再不营业就剩我们这些老家伙了 	 Label: 悲伤
Text: 今年的核心考案又有一些小改动啊 	 Label: 无情绪
Text: 有人吗考研可以买这个来看了吗 	 Label: 无情绪
Text: 考研的涛涛子来啦政治不是梦 	 Label: 积极
Text: 核心考案又变好看了想收藏 	 Label: 积极
Text: 感谢涛哥考研政治分你强化课讲的偶然与必然让我记到了考场 	 Label: 积极
Text: 徐涛老师年请多指教 	 Label: 无情绪
Text: 四个小车车不知道上哪个了整的 	 Label: 愤怒
Text: 请问老师强化班怎么报名呀 	 Label: 无情绪
Text: 年的考研大纲是出来没有呢我有你年的核心考案需要更换吗 	 Label: 无情绪
Text: 看着换了封皮突然想收藏积累 	 Label: 悲伤
Text: 这个强化班是买核心考案就送吗还是 	 Label: 无情绪
Text: 今年出来卖的比往年时候要早一些～ 	 Label: 积极
Text: 想知道这个微博的和站的课程内容有区别嘛为什么分两个软件售卖呀 	 Label: 愤怒
Text: 涛涛我想问一个问题你放的链接里的书都会送书签嘛 	 Label: 惊奇
Text: 传统艺能之出来卖了考研政治徐涛 	 Label: 无情绪
Text: 考研只要买全程班就可以了吗 	 Label: 无情绪
Text: 徐涛老师单单强化班有卖吗 	 Label: 无情绪
Text: 书买了视频在哪看 	 Label: 惊奇
Text: 走过路过不要错过啊徐涛老师又来卖喽 	 Label: 愤怒
Text: 俺来啦刚买好了我们上岸见 	 Label: 积极
Text: 为什么在淘宝看不到真题版本 	 Label: 惊奇
Text: 涛涛老师您是建议买全程班还是协议班呢 	 Label: 无情绪
Text: 又卖了涛涛老师 	 Label: 愤怒
T