deep-learning/doc/TEXT_CLASSIFY.md at master · xxbb1234021/deep-learning · GitHub

keras处理情感分类流程如下：

读取数据集并为数据设定标签

1.读取corpus目录下的评论。
2.把从negitive.txt文本读出的文本标签设置为1:'负面的'。
2.把从postive.txt文本读出的文本标签设置为0:'正面的'。

建立词典

1.读取corpus目录下的所有评论。
2.把评论里面所有的字进行去重，然后给每个字一个编号，放入字典。

将文字转换成序列

建立了词典之后，就可以把所有的评论文字转换成数字序列。

固定每个序列的长度

1.因为每一条评论的字数长度不同，例如：有些可能170个字，有些可能80个字，转换成数字序列后字数也不相同。因为后面要把数字序列转换成向量送入深度学习模型进行训练，所以必须固定长度。
2.keras提供了keras.preprocessing.sequence.pad_sequences方法来固定数字序列的长度，例如：要把数字序列固定成100
- 数字序列长度是51，就在前面补上49个0，这样长度就变成100了。
- 数字序列长度是128，就将前面的28个数字截去，这样长度就变成100了。

使用Embedding层将序列转换成向量

其原理是将文字映射成多维几何空间的向量。之前我们把评论数据转换成了数字序列，但数字在语意中无任何关系，为了让每一个文字有相关性，必须转换为向量。