特征工程——文本

需要注意，大部分的机器学习算法不能很好的处理稀疏数据

词袋模型

划分和转换 (tokenization and transformation)

tokenization
拆分后每个分组称为n-grams. 2个组合bigrams, 3个组合trigrams是出了单个unigrams之外常用的组合

transformation
处理大小写，取词干(stemming)、自定义数字、标点符号和特征字符处理等

向量化

Tips:通常删除终止词的做法是，删除出现次数高于阈值的所有单词（典型选择是90%）

词频逆向文件频率(tf-idf)

$tf - idf(term, doc, docs) = count(term in doc)\frac{count(docs)}{count(docs with term)}$

tf计次的常用方法有：

潜在语义索引LSI (或称潜在语义分析LSA)

对于新文档， D = A^TTS^− 1产生新的特征，其中A^T为使用字典对新文档的单词计数（或tf-idf)

概率方法(probablilistic methods)

pLSA是用概率对LSA进行模拟，一个广泛使用的版本是潜在狄利克雷分析(LDA)，它基于一个假设：文档可以由较小的主题集进行描述，以及任意术语（单词）都可以归结为一个主题。在实际使用中对于各种数据集LDA都表现的很好。

跟踪链接

通过深入跟踪文本中的web链接构建更大的文本语料库

基于知识的拓展

检测文本中的命名实体，并利用在线的命名实体知识库来扩展原始文本信息。

文本元特征（meta-features)

如主题标签，收藏zhuan'fa'shu