Skip to content

Latest commit

 

History

History
25 lines (18 loc) · 1.13 KB

TEXT_CLASSIFY.md

File metadata and controls

25 lines (18 loc) · 1.13 KB

keras处理情感分类流程如下:

输入图片说明

读取数据集并为数据设定标签
  • 1.读取corpus目录下的评论。
  • 2.把从negitive.txt文本读出的文本标签设置为1:'负面的'。
  • 2.把从postive.txt文本读出的文本标签设置为0:'正面的'。
建立词典
  • 1.读取corpus目录下的所有评论。
  • 2.把评论里面所有的字进行去重,然后给每个字一个编号,放入字典。
将文字转换成序列
  • 建立了词典之后,就可以把所有的评论文字转换成数字序列。
固定每个序列的长度
  • 1.因为每一条评论的字数长度不同,例如:有些可能170个字,有些可能80个字,转换成数字序列后字数也不相同。因为后面要把数字序列转换成向量送入深度学习模型进行训练,所以必须固定长度。
  • 2.keras提供了keras.preprocessing.sequence.pad_sequences方法来固定数字序列的长度,例如:要把数字序列固定成100
    • 数字序列长度是51,就在前面补上49个0,这样长度就变成100了。
    • 数字序列长度是128,就将前面的28个数字截去,这样长度就变成100了。
使用Embedding层将序列转换成向量
  • 其原理是将文字映射成多维几何空间的向量。之前我们把评论数据转换成了数字序列,但数字在语意中无任何关系,为了让每一个文字有相关性,必须转换为向量。