- 1.读取corpus目录下的评论。
- 2.把从negitive.txt文本读出的文本标签设置为1:'负面的'。
- 2.把从postive.txt文本读出的文本标签设置为0:'正面的'。
- 1.读取corpus目录下的所有评论。
- 2.把评论里面所有的字进行去重,然后给每个字一个编号,放入字典。
- 建立了词典之后,就可以把所有的评论文字转换成数字序列。
- 1.因为每一条评论的字数长度不同,例如:有些可能170个字,有些可能80个字,转换成数字序列后字数也不相同。因为后面要把数字序列转换成向量送入深度学习模型进行训练,所以必须固定长度。
- 2.keras提供了keras.preprocessing.sequence.pad_sequences方法来固定数字序列的长度,例如:要把数字序列固定成100
- 数字序列长度是51,就在前面补上49个0,这样长度就变成100了。
- 数字序列长度是128,就将前面的28个数字截去,这样长度就变成100了。
- 其原理是将文字映射成多维几何空间的向量。之前我们把评论数据转换成了数字序列,但数字在语意中无任何关系,为了让每一个文字有相关性,必须转换为向量。