               x_t              h_t
                │                │
                ▼                ▼
          ╔════════╗      ╔════════╗      ╔════════╗
          ║ Input  ║      ║ Forget ║      ║ Output ║ 
          ║  Gate  ║◀─────║  Gate  ║◀─────║  Gate  ║
          ╚════════╝      ╚════════╝      ╚════════╝
                │                │                │
                ▼                ▼                ▼
          ╔════════╗      ╔════════╗      ╔════════╗
          ║        ║      ║ Memory ║      ║        ║ 
          ║   C_t  ║◀─────║  Cell  ║◀─────║   C_t  ║  
          ║        ║      ║        ║      ║        ║ 
          ╚════════╝      ╚════════╝      ╚════════╝
                │                │                │
                ▼                ▼                ▼
              output           state            input


In [1]:
import numpy as np

# 假设我们有一个包含4个不同单词的词汇表
vocab = {'apple': 0, 'banana': 1, 'orange': 2, 'pear': 3}

# 将句子表示为单词列表
sentence = ['apple', 'banana', 'orange']

# 创建一个长度为词汇表大小的零向量
vector = np.zeros(len(vocab))

# 对于句子中的每个单词，将对应的向量元素设置为1
for word in sentence:
    index = vocab[word]
    vector[index] = 1
    
print(vector)

[1. 1. 1. 0.]


In [2]:
from sklearn.preprocessing import OneHotEncoder

# 创建一个字符串列表作为示例数据
text_data = np.reshape(["中国", "美国", "英国", "德国", "日本"], (-1,1))

# 创建OneHotEncoder对象
one_hot_encoder = OneHotEncoder()

# 使用fit_transform方法将字符串转换为独热编码向量
one_hot_encoded = one_hot_encoder.fit_transform(text_data)

# 输出独热编码向量
print(one_hot_encoded.toarray())

[[1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]]


In [8]:
text_data

array([['中国'],
       ['美国'],
       ['英国'],
       ['德国'],
       ['日本']], dtype='<U2')

In [3]:
from sklearn.feature_extraction.text import CountVectorizer

# 构建文本数据集
corpus = ['This is the first document.', 'This document is the second document.', 'And this is the third one.',
          'Is this the first document?']

# 定义词袋模型
vectorizer = CountVectorizer()

# 对文本进行向量化表示
X = vectorizer.fit_transform(corpus)

# 输出向量化结果
print(X.toarray())

# 输出特征名
print(vectorizer.get_feature_names_out())

[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]
['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']


In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 假设你有一个文本列表，每个字符串表示一篇文章或一个句子
text_data = ["This is a sentence.", "This is another sentence.", "This is a third sentence."]

# 创建TF-IDF向量器
tfidf = TfidfVectorizer()

# 使用fit_transform方法将文本数据转换成TF-IDF向量
tfidf_vectors = tfidf.fit_transform(text_data)

# 查看TF-IDF矩阵的形状
print(tfidf_vectors.shape)

(3, 5)


In [5]:
print(tfidf_vectors)

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 11 stored elements and shape (3, 5)>
  Coords	Values
  (0, 4)	0.5773502691896258
  (0, 1)	0.5773502691896258
  (0, 2)	0.5773502691896258
  (1, 4)	0.4128585720620119
  (1, 1)	0.4128585720620119
  (1, 2)	0.4128585720620119
  (1, 0)	0.6990303272568005
  (2, 4)	0.4128585720620119
  (2, 1)	0.4128585720620119
  (2, 2)	0.4128585720620119
  (2, 3)	0.6990303272568005


In [6]:
tfidf.get_feature_names_out()

array(['another', 'is', 'sentence', 'third', 'this'], dtype=object)

# 下面是剧本情感分类

In [7]:
import pandas as pd

In [15]:
file_path = ('train_dataset_v2.tsv')
script_ids = []
scene_nums = []
sentence_nums = []
ids = []
contents = []
characters = []
emotions = []
index = 0
with open(file_path,'r',encoding='utf-8') as f:
    for line in f.readlines():
        if index > 0:
            item = line.replace('\n','').split('\t')
            id,content,character,emotion = item[0],item[1],item[2],item[3]
            script_id,scene_num,sentence_num = id.split('_')[0],id.split('_')[1],id.split('_')[3]
            script_ids.append(script_id)
            scene_nums.append(scene_num)
            sentence_nums.append(sentence_num)
            ids.append(id)
            contents.append(content)
            characters.append(character)
            emotions.append(emotion)
        index += 1

In [16]:
data = pd.DataFrame(columns=['ids','contents', 'emotions'])
data['ids'] = pd.Series(ids)
data['contents'] = pd.Series(contents)
data['emotions'] = pd.Series(emotions)
data.head()

Unnamed: 0,ids,contents,emotions
0,1171_0001_A_1,天空下着暴雨，o2正在给c1穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0
1,1171_0001_A_2,天空下着暴雨，o2正在给c1穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0
2,1171_0001_A_3,o2一手拿着一个行李，一路小跑着把c1带到了文工团门口。,0
3,1171_0001_A_4,o2一手拿着一个行李，一路小跑着把c1带到了文工团门口。,0
4,1171_0001_A_5,o2停下来接过c1手里的行李：你妈妈交待我了，等领了军装一定要照张相寄回去，让街坊邻居都知道...,0


In [17]:
df_emo = data['emotions'].str.split(',', expand=True)

df_emo.rename(columns={0:'love', 1:'happy', 2:'shock', 3:'anger', 4:'fear', 5:'sad'}, inplace=True)

data = pd.concat([data, df_emo], axis=1)

data.head()

Unnamed: 0,ids,contents,emotions,love,happy,shock,anger,fear,sad
0,1171_0001_A_1,天空下着暴雨，o2正在给c1穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,0,0,0,0,0,0
1,1171_0001_A_2,天空下着暴雨，o2正在给c1穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,0,0,0,0,0,0
2,1171_0001_A_3,o2一手拿着一个行李，一路小跑着把c1带到了文工团门口。,0,0,0,0,0,0,0
3,1171_0001_A_4,o2一手拿着一个行李，一路小跑着把c1带到了文工团门口。,0,0,0,0,0,0,0
4,1171_0001_A_5,o2停下来接过c1手里的行李：你妈妈交待我了，等领了军装一定要照张相寄回去，让街坊邻居都知道...,0,0,0,0,0,0,0


In [18]:
data.dropna(inplace=True)
data.isnull().sum()

ids         0
contents    0
emotions    0
love        0
happy       0
shock       0
anger       0
fear        0
sad         0
dtype: int64

In [19]:
len(data)

36782

In [20]:
data.columns

Index(['ids', 'contents', 'emotions', 'love', 'happy', 'shock', 'anger',
       'fear', 'sad'],
      dtype='object')

In [21]:
import jieba

# 定义一个分词函数
def tokenize(text):
    return ' '.join(jieba.cut(text))

# 对剧本内容列应用分词函数
data['text'] = data['contents'].apply(tokenize)

data.head()

Unnamed: 0,ids,contents,emotions,love,happy,shock,anger,fear,sad,text
0,1171_0001_A_1,天空下着暴雨，o2正在给c1穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,0,0,0,0,0,0,天空 下 着 暴雨 ， o2 正在 给 c1 穿 雨衣 ， 他 自己 却 只 穿着 单薄 的...
1,1171_0001_A_2,天空下着暴雨，o2正在给c1穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,0,0,0,0,0,0,天空 下 着 暴雨 ， o2 正在 给 c1 穿 雨衣 ， 他 自己 却 只 穿着 单薄 的...
2,1171_0001_A_3,o2一手拿着一个行李，一路小跑着把c1带到了文工团门口。,0,0,0,0,0,0,0,o2 一 手拿着 一个 行李 ， 一路 小跑 着 把 c1 带到 了 文工团 门口 。
3,1171_0001_A_4,o2一手拿着一个行李，一路小跑着把c1带到了文工团门口。,0,0,0,0,0,0,0,o2 一 手拿着 一个 行李 ， 一路 小跑 着 把 c1 带到 了 文工团 门口 。
4,1171_0001_A_5,o2停下来接过c1手里的行李：你妈妈交待我了，等领了军装一定要照张相寄回去，让街坊邻居都知道...,0,0,0,0,0,0,0,o2 停下来 接过 c1 手里 的 行李 ： 你 妈妈 交待 我 了 ， 等 领 了 军装 ...


In [22]:
import pandas as pd  # 用于数据处理和分析
import numpy as np  # 用于数值计算
from sklearn.model_selection import train_test_split  # 用于划分训练集和测试集
from tensorflow.keras.preprocessing.text import Tokenizer  # 用于文本分词
from tensorflow.keras.preprocessing.sequence import pad_sequences  # 用于填充序列
from tensorflow.keras.models import Sequential  # 用于构建顺序模型
from tensorflow.keras.layers import Dense, LSTM, Embedding  # 用于定义模型层

# 将文本列转化为序列
tokenizer = Tokenizer(num_words=5000)  # 保留最常见的5000个单词
tokenizer.fit_on_texts(data['text'])  # 使用文本数据拟合分词器
sequences = tokenizer.texts_to_sequences(data['text'])  # 将文本转化为整数序列

# 对序列进行填充
max_len = max(len(s) for s in sequences)  # 计算最长序列的长度
seq = pad_sequences(sequences, maxlen=max_len)  # 将所有序列填充到相同长度

# 将标签列转化为二进制矩阵
labels = np.asarray(data[['love', 'happy', 'shock', 'anger', 'fear', 'sad']].astype('int64'))
num_labels = labels.shape[1]  # 标签的数量

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(seq, labels, test_size=0.2, random_state=42)

In [23]:
# 定义模型
model = Sequential()  # 创建一个顺序模型
model.add(Embedding(input_dim=5000, output_dim=128, input_length=max_len))  # 嵌入层
model.add(LSTM(units=64))  # LSTM层
model.add(Dense(units=num_labels, activation='sigmoid'))  # 输出层，使用sigmoid激活函数处理多标签分类

# 编译模型
model.compile(optimizer='adam',  # 使用Adam优化器
              loss='binary_crossentropy',  # 使用二分类交叉熵作为损失函数，适用于多标签分类
              metrics=['accuracy'])  # 监测准确率作为评估指标

# 查看模型结构
model.summary()

# 训练模型
history = model.fit(X_train, y_train,  # 训练数据和标签
                    epochs=10,  # 训练10轮
                    batch_size=32,  # 每个批次处理32个样本
                    validation_data=(X_test, y_test))  # 使用测试集作为验证集

# 评估模型
loss, accuracy = model.evaluate(X_test, y_test, verbose=0)  # 在测试集上评估模型
print('Accuracy: %.2f%%' % (accuracy * 100))  # 打印测试集上的准确率



Epoch 1/10
[1m920/920[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m84s[0m 88ms/step - accuracy: 0.1332 - loss: 0.3968 - val_accuracy: 0.1707 - val_loss: 0.3379
Epoch 2/10
[1m920/920[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m82s[0m 89ms/step - accuracy: 0.1958 - loss: 0.2923 - val_accuracy: 0.2039 - val_loss: 0.2960
Epoch 3/10
[1m920/920[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m82s[0m 89ms/step - accuracy: 0.2425 - loss: 0.1869 - val_accuracy: 0.2145 - val_loss: 0.2520
Epoch 4/10
[1m920/920[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m83s[0m 90ms/step - accuracy: 0.2737 - loss: 0.0249 - val_accuracy: 0.2130 - val_loss: 0.2240
Epoch 5/10
[1m920/920[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m82s[0m 89ms/step - accuracy: 0.2771 - loss: -0.1483 - val_accuracy: 0.2104 - val_loss: 0.1824
Epoch 6/10
[1m920/920[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m84s[0m 91ms/step - accuracy: 0.2871 - loss: -0.4384 - val_accuracy: 0.2236 - val_loss: 0.2703
Epoch 7/10
[1