## TF-IDF计算 ##
    Scikit-Learn中TF-IDF权重计算方法主要用到两个类：
    CountVectorizer和TfidfTransformer。

### 1.CountVectorizer ###
    CountVectorizer类会将文本中的词语转换为词频矩阵，例如矩阵中包含一个元素a[i][j]，它表示j词在i个文本下的词频。
    它通过fit_transform函数计算各个词语出现的次数
    通过get_feature_names()可获取词袋中所有文本的关键字
    通过toarray()可看到词频矩阵的结果。

In [8]:
from sklearn.feature_extraction.text import CountVectorizer
texts = ['dog cat fish','dog cat cat','fish bird','bird']#输入要求格式
cv = CountVectorizer()
X = cv.fit_transform(texts)

print(cv.get_feature_names())
print(X.toarray())
print(X.toarray().sum(axis=0))

['bird', 'cat', 'dog', 'fish']
[[0 1 1 1]
 [0 2 1 0]
 [1 0 0 1]
 [1 0 0 0]]
[2 3 2 2]


**对于CountVectorizer里面的ngram的利用.**如果是一个单词，则只有4种组合，而1，4可以有更多组合，向量维度会更大，一般设置2， 多了向量会稀疏

In [13]:
from sklearn.feature_extraction.text import CountVectorizer
texts = ['dog cat fish','dog cat cat','fish bird','bird']#输入要求格式
cv = CountVectorizer(ngram_range=(1,4))
X = cv.fit_transform(texts)

print(cv.get_feature_names())
print(X.toarray())
print(X.toarray().sum(axis=0))

['bird', 'cat', 'cat cat', 'cat fish', 'dog', 'dog cat', 'dog cat cat', 'dog cat fish', 'fish', 'fish bird']
[[0 1 0 1 1 1 0 1 1 0]
 [0 2 1 0 1 1 1 0 0 0]
 [1 0 0 0 0 0 0 0 1 1]
 [1 0 0 0 0 0 0 0 0 0]]
[2 3 1 1 2 2 1 1 2 1]


### 2.TfidfTransformer ###
    TfidfTransformer用于统计vectorizer中每个词语的TF-IDF值。

In [16]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

corpus = ['This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?']

cv = CountVectorizer()#将文本中的词语转换为词频矩阵
X = cv.fit_transform(corpus)#计算个词语出现的次数
print(cv.get_feature_names())#获取词袋中所有文本关键词
print(X.toarray())

transformer = TfidfTransformer()


tfidf = transformer.fit_transform(X)#将词频矩阵X统计成TF-IDF值
print (tfidf.toarray())#查看数据结构 tfidf[i][j]表示i类文本中的tf-idf权重

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
[[0 1 1 1 0 0 1 0 1]
 [0 1 0 1 0 2 1 0 1]
 [1 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 1 0 1]]
[[0.         0.43877674 0.54197657 0.43877674 0.         0.
  0.35872874 0.         0.43877674]
 [0.         0.27230147 0.         0.27230147 0.         0.85322574
  0.22262429 0.         0.27230147]
 [0.55280532 0.         0.         0.         0.55280532 0.
  0.28847675 0.55280532 0.        ]
 [0.         0.43877674 0.54197657 0.43877674 0.         0.
  0.35872874 0.         0.43877674]]
