- 对舆情数据进行舆情分析
- 分类算法应用
- 初步了解深度学习方法RNN
- 实战使用RNN变种-LSTM
- 电子商务
- 舆情分析
- 市场呼声
- 消费者呼声
-
分析方法分类
- 词法分析
- 基于机器学习的分析
- 混合分析
-
词法分析
运用预标记词汇组成的字典,使用词法分析器将输入文本转换为单词序列,将每个新的单词与字典中的词汇进行匹配,若有积极匹配,则对输入文本的分数总池进行加分,若是消极匹配,则输入文本总分减少。但是存在一个不足:其性能(时间复杂度和准确率)随着字典大小(词汇数量)增加而下降。流程如下图;
-
机器学习方法
主要使用监督学习方法,分为:数据收集、预处理、训练分类三阶段,其关键是选择合适的特征,从而觉得分类器的准确率。主要面临:分类器设计、训练数据的获取、对未见过的短语的正确解释等挑战;
-
CNN
利用卷积层处理词向量序列,生成多通道特征图,对特征图采用时间维度上的最大池化操作来得到与此卷积核对应的整句话的特征,最后将所有卷积核得到的特征拼接起来即为文本的定长向量表示;
-
RNN
RNN按时间顺序展开,在$t$时刻,网络读入第$t$个输入$x_t$,以及前一时刻状态值$h_{t-1}$(向量表示,$h_0$表示初始化为0的向量),从而计算出本时刻隐藏层的状态值$h_t$,若函数表示为$f$,则公式表示为:
$$h_t=f(x_t,h_{t-1})=\sigma(W_{xh}x_t+W_{hh}h_{t-1}+b_h)$$ 其中$W_{xh}$是输入层到隐藏层的矩阵参数,$W_{hh}$为隐藏层到隐藏层的矩阵参数,$b_h$为隐藏层偏置参数。RNN示意图如下,隐藏层的状态向量被送入一个Softmax分类器,然后判断其情感;
-
LSTM
保留了文本中的长期依赖信息,通过对循环层的刻意设计避免了长期依赖和梯度消失问题。输入单元输入数据$x(t)$,隐藏层输出$h(t)$,在这些单元中,隐藏层表达复杂,主要分为4个部分:输入门$i$、输出门$o$、遗忘门$f$、记忆控制器$c$,将LSTM表示函数记为$F$,$h_t=F(x_t,h_{t-1})$;
其中$W$及$b$是模型参数,$tanh$是双曲正切函数;
-
情感分析任务步骤
- 训练或载入一个词向量生成模型;
- 创建一个用于训练集的ID矩阵;
- 创建LSTM计算单元;
- 训练;
- 测试;