### 几种特征提取技术：
* 词袋模型
* TF-IDF模型
* 高级词向量模型

#### 词袋模型

词袋模型也许是从文本文档中提取特征最简单但又最有效的技术。这个模型的本质时将文本文档转化为向量，从而将每个文档转化为一个向量，这个向量表示在文档空间中全部不同的单词在该文档中出现的频率。因此，根据前面的数学定义，这里的例子向量记为D，每个单词的权重与该词在文档中出现的频率相等。
可以为单个单词出现频率和n元分词出现频率建立同样的模型，该模型就是n元分词词袋模型，他计算不同的n元分词在每个文档中出现的频率。
下面的代码片段给出了一个函数，实现了基于词袋的特征提取模块，该模块也接受ngram_range参数作为n元分词的特征。

In [13]:
CORPUS = [
    'the sky is blue',
    'sky is blue and sky is beautiful',
    'the beautiful sky is so blue',
    'i love blue cheese'
]
new_doc = ['loving this blue sky today']

In [20]:
from sklearn.feature_extraction.text import CountVectorizer
def bow_extractor(corpus,ngram_range = (1,3)):
    vectorizer = CountVectorizer(min_df = 1,ngram_range = ngram_range)
    features = vectorizer.fit_transform(corpus)
    return vectorizer,features

上面的函数使用CountVectorizer类，可以设置ngram_range为不同的参数值，如(1,3)，将建立包括所有unigram、bigram和trigram的向量空间。下面的代码片段显示函数在样本语料，即4个训练文档和1个测试文档中的执行情况。

In [14]:
#import nltk
bow_vectorizer,bow_features = bow_extractor(CORPUS)
features = bow_features.todense()
print (features)

[[0 0 1 0 1 0 1 0 1]
 [1 1 1 0 2 0 2 0 0]
 [0 1 1 0 1 0 1 1 1]
 [0 0 1 1 0 1 0 0 0]]


In [15]:
new_doc_features = bow_vectorizer.transform(new_doc)
new_doc_features = new_doc_features.todense()
print(new_doc_features)

[[0 0 1 0 0 0 1 0 0]]


In [16]:
feature_names = bow_vectorizer.get_feature_names()
print(feature_names)

['and', 'beautiful', 'blue', 'cheese', 'is', 'love', 'sky', 'so', 'the']


上述输出显示出每个文档如何转换为向量，每行代表语料库中的一个文档。我们对两个语料库均执行相同操作。使用CORPUS变量中的文档建立了向量生成器。用它来提取特征，使用这个建立的向量生成器从全新的文档中提取特征。响亮的每一列描述的单词在feature_names变量中描述，每列的值是该词在文档中的频率，第一次看到他时可能难于理解，因此我们准备了以下函数，它有助于更好的理解特征向量。

In [17]:
import pandas as pd
def display_features(features,feature_names):
    df = pd.DataFrame(data = features,columns = feature_names)
    print(df)

In [21]:
display_features(features,feature_names)

   and  beautiful  blue  cheese  is  love  sky  so  the
0    0          0     1       0   1     0    1   0    1
1    1          1     1       0   2     0    2   0    0
2    0          1     1       0   1     0    1   1    1
3    0          0     1       1   0     1    0   0    0


In [22]:
display_features(new_doc_features,feature_names)

   and  beautiful  blue  cheese  is  love  sky  so  the
0    0          0     1       0   0     0    1   0    0


### TD-IDF模型

词袋模型的向量依赖于单词出现的绝对频率。这存在一些潜在问题，语料库全部文档中出现次数较多的单词将会拥有较高的频率，这些词将会影响其他一些出现不如这些词频繁但对于文档分类更有意义和有效的单词。这就是TF-IDF的来源。TF-IDF代表的是词频—逆文档频率，是两个度量的组合。
数学上。TF-IDF是两个度量的乘机，可以表示为tfidf = tf*idf。
词频tf，由词袋模型计算得出。
逆文档词频由idf表示，是每个单词的文档频率的逆，该值由语料库中全部文档数量除以每个单词的文档频率，然后对结果应用对数运算变换其比例。在这里的实现中将对每个单词的文档频率+1，意味着词汇表中每个单词至少包含一个在语料库文档中，这是为了避免被0除的错误，平滑逆文档频率。也对idf的计算结果+1，避免被忽略单词拥有0值的idf。