Skip to content

语义表示应用介绍

maverickhelo edited this page Jun 23, 2017 · 10 revisions

语义表示

主题模型产生的主题分布可看做文档的语义表示,该表示能够用于文档分类、聚类、内容分析、CTR预估等多种任务。基于主题模型的文档特征表示可以分为两类,如图1所示:一类是经过主题模型降维,得到文档在主题上的多项分布,LDA、SentenceLDA等模型支持这一类的文档特征表示;另一类是联合使用主题向量和文档主题分布,生成的文档向量表示,TWE等融合了词向量的主题模型可以支持这一类的文档特征表示。

图1

分类

案例1: 新闻质量分类

对于新闻APP,其通过各种来源获得到的新闻,质量通常良莠不齐。在表2中列出了一些低质新闻与优质新闻的标题的示例。 表2

为了提升用户体验,我们通常会构建一个分类器来自动过滤低质量的新闻。我们可以人工设计一些传统特征:新闻来源站点、新闻内容长度、图片数量、新闻热度等等。除了这些人工特征,也可利用主题模型来计算每篇新闻的主题分布,作为附加特征与人工特征一起组成新特征集合(图2(a))。

我们人工标注7000篇新闻,质量划分为3个档位,其中0档表示质量最差,2档表示质量最优。我们采用Gradient Boost Decision Tree (GBDT),分别利用人工特征和主题扩充后的特征集合在5000篇新闻上进行训练,并在另外2000篇标注新闻数据上做测试。图2(b)展示了使用不同特征上的实验结果,在测试数据上的分类准确度。从这些实验结果可以看出,主题分布作为特征扩充可以有效提升分类器的效果。

图2

聚类

案例2: 新闻内容聚类

文档的特征表示可看做是包含语义信息的一个降维过程,这些低维特征可以用来对文档进行聚类。我们使用LDA计算了1000篇新闻的主题分布,通过K-Means将文章聚类成10个簇,表3中展示了其中两个簇的部分结果。从表中可以看出,基于新闻的主题分布,可以很好的完成聚类,在簇1中显示的是与房子装修相关的新闻,簇2中则是聚集了与股票相关的新闻。 表3

内容丰富度

案例3: 网页内容丰富度

在一些文本挖掘工作中,我们需要衡量网页内容的丰富度,这时可以使用网页的主题分布来进行评估。通过计算网页的主题分布,进一步得到该分布的信息熵,作为衡量网页内容丰富度的指标。信息熵可衡量变量的确定性程度,若一个变量不确定性越大,其相应的信息熵会越大。基于主题模型,计算得到的网页主题分布,若概率平均分配到各个主题上,那么其信息熵最大,也就表示网页内容最丰富。若主题分布中,只有一个主题概率为1,其余主题的概率为0,那么得到的信息熵最低, 表示网页内容丰富度较低。基于文档特征表示,计算得到的网页内容丰富度,也可以作为一维特征引入到更为复杂的排序函数中。