Skip to content

Latest commit

 

History

History
73 lines (40 loc) · 2.3 KB

特征工程——文本.rst

File metadata and controls

73 lines (40 loc) · 2.3 KB

特征工程——文本

需要注意,大部分的机器学习算法不能很好的处理稀疏数据

词袋模型

划分和转换 (tokenization and transformation)

tokenization
拆分后每个分组称为n-grams. 2个组合bigrams, 3个组合trigrams是出了单个unigrams之外常用的组合
transformation
处理大小写,取词干(stemming)、自定义数字、标点符号和特征字符处理等

向量化

Tips:通常删除终止词的做法是,删除出现次数高于阈值的所有单词(典型选择是90%)

主题建模

词频逆向文件频率(tf-idf)

$tf - idf(term, doc, docs) = count(term in doc)\frac{count(docs)}{count(docs with term)}$

tf计次的常用方法有:

  • 单词在文档中出现的次数
  • 二进制版,出现记1,否则为0
  • 对数版 (1 + log [tf])

潜在语义索引LSI (或称潜在语义分析LSA)

  1. 通过词袋计数,构建词语-文档模型,行为属于,列为文档
  2. tf-idf或其他标准化方法,避免高频词,获得最值得词语-文档矩阵A
  3. 奇异值分解(SVD),将词语-文档A分解为T术语-概念矩阵 S奇异值 D概念-文档矩阵
  4. 选择最顶端的N个奇异值,取D中对应的行产生N个特征

对于新文档, D = ATTS − 1产生新的特征, 其中AT为使用字典对新文档的单词计数(或tf-idf)

概率方法(probablilistic methods)

pLSA是用概率对LSA进行模拟,一个广泛使用的版本是潜在狄利克雷分析(LDA),它基于一个假设:文档可以由较小的主题集进行描述,以及任意术语(单词)都可以归结为一个主题。 在实际使用中对于各种数据集LDA都表现的很好。

内容拓展

跟踪链接

通过深入跟踪文本中的web链接构建更大的文本语料库

基于知识的拓展

检测文本中的命名实体,并利用在线的命名实体知识库来扩展原始文本信息。

文本元特征(meta-features)

如主题标签,收藏zhuan'fa'shu