# 数据向量化
* CountVectorizer
* TF-IDF
* TF-idfVectorizer

文本向量化的方法主要分为**离散表示**和**分布式表示。**

## 1离散表示
    一种基于规则和统计的向量化方式，常用的方法包括词集模型和词袋模型，都是基于词之间保持独立性、没有关联为前提，将所有文本中单词形成一个字典，然后根据字典来统计单词出现频数，不同的是：
### 1.1词集模型：
    例如One-Hot Representation，只要单个文本中单词出现在字典中，就将其置为1，不管出现多少次

### 1.2词袋模型：
    只要单个文本中单词出现在字典中，就将其向量值加1，出现多少次就加多少次
对于句子或篇章而言，常用的离散表示方法是词袋模型。词袋模型以One-Hot为基础，忽略词表中词的顺序和语法关系，通过记录词表中的每一个词在该文本中出现的频次来表示该词在文本中的重要程度，解决了 One-Hot 未能考虑词频的问题。
* 优点：方法简单，当语料充足时，处理简单的问题如文本分类，其效果比较好。
* 缺点：数据稀疏、维度大，且**不能很好地展示词与词之间的相似关系。**

其基本的特点是**忽略了文本信息中的语序信息和语境信息**，仅将其反映为若干维度的独立概念，这种情况有着因为模型本身原因而无法解决的问题，比如主语和宾语的顺序问题，词袋模型天然无法理解诸如“我为你鼓掌”和“你为我鼓掌”两个语句之间的区别。


## CountVectorizer（词袋模型）（线性模型）
    CountVectorizer 根据文本构建出一个词表，词表中包含了所有文本中的单词，每一个词汇对应其出现的顺序，构建出的词向量的每一维都代表这一维对应单词出现的频次，这些词向量组成的矩阵称为频次矩阵。
* 缺点：CountVectorizer**只能表达词在当前文本中的重要性，无法表示该词在整个文档集合中的重要程度。**

In [6]:
from sklearn.feature_extraction.text import CountVectorizer  
#多少行数据=矩阵有多少行
corpus = [
    'This is the first document.',
    'This is the this second second document.',
    'And the third one.',
    'Is this the first document?'
]
cv=CountVectorizer()  #初始化
#计算词语出现的次数
x=cv.fit_transform(corpus)
print(x)
#获取文本的关键字
word=cv.get_feature_names()
print(word)
#查看词频结果
print(x.toarray())

  (0, 1)	1
  (0, 2)	1
  (0, 6)	1
  (0, 3)	1
  (0, 8)	1
  (1, 5)	2
  (1, 1)	1
  (1, 6)	1
  (1, 3)	1
  (1, 8)	2
  (2, 4)	1
  (2, 7)	1
  (2, 0)	1
  (2, 6)	1
  (3, 1)	1
  (3, 2)	1
  (3, 6)	1
  (3, 3)	1
  (3, 8)	1
['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
[[0 1 1 1 0 0 1 0 1]
 [0 1 0 1 0 2 1 0 2]
 [1 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 1 0 1]]


## TF-IDF（词袋模型）
    TF-IDF（词频-逆文档频率法，Term Frequency–Inverse Document Frequency）作为一种加权方法，在词袋模型的基础上对词出现的频次赋予TF-IDF权值，对词袋模型进行修正，进而表示该词在文档集合中的重要程度。
在利用TF-IDF进行特征提取时，若词α在某篇文档中出现频率较高且在其他文档中出现频率较低时，则认为α可以代表该文档的特征，具有较好的分类能力，那么α作为特征被提取出来。
### 应用
* 搜索引擎
* 关键词提取
* 文本相似性
* 文本摘要

## TF-idfVectorizer（线性模型）（不适用于朴素贝叶斯）
    如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。可以把原始文本转化为tf-idf的特征矩阵，从而为后续的文本相似度计算。


In [17]:
#对付中文
'''中文不比英文，词语之间有着空格的自然分割，所以我们首先要进行分词处理，再把它转化为与上面的document类似的格式。这里采用著名的中文分词库jieba进行分词'''
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

text = """我是一条天狗呀
我把月来吞了，
我把日来吞了，
我把一切的星球来吞了，
我把全宇宙来吞了。
我便是我了"""
sentences = text.split()
sent_words = [list(jieba.cut(sent0)) for sent0 in sentences]
document = [" ".join(sent0) for sent0 in sent_words]
print(document)

#建立模型
tf=TfidfVectorizer()
data=tf.fit_transform(document) 
print(tf.vocabulary_)   #查看词典
print(data.toarray())   #转化为矩阵

['我 是 一条 天狗 呀', '我 把 月 来 吞 了 ，', '我 把 日来 吞 了 ，', '我 把 一切 的 星球 来 吞 了 ，', '我 把 全宇宙 来 吞 了 。', '我 便是 我 了']
{'一条': 1, '天狗': 4, '日来': 5, '一切': 0, '星球': 6, '全宇宙': 3, '便是': 2}
[[0.         0.70710678 0.         0.         0.70710678 0.
  0.        ]
 [0.         0.         0.         0.         0.         0.
  0.        ]
 [0.         0.         0.         0.         0.         1.
  0.        ]
 [0.70710678 0.         0.         0.         0.         0.
  0.70710678]
 [0.         0.         0.         1.         0.         0.
  0.        ]
 [0.         0.         1.         0.         0.         0.
  0.        ]]


### 参数
没有错误，但有一个小问题，就是单字的词语，如“我”、“吞”、“呀”等词语在我们的词汇表中怎么都不见了呢？为了处理一些特殊的问题，让我们深入其中的一些参数。

发现单字的问题是token_pattern这个参数搞的鬼。它的默认值只匹配长度≥2的单词，就像其实开头的例子中的'I'也被忽略了一样，一般来说，长度为1的单词在英文中一般是无足轻重的，但在中文里，就可能有一些很重要的单字词，所以修改如下：

token_pattern这个参数使用正则表达式来分词，其默认参数为r"(?u)\b\w\w+\b"，其中的两个\w决定了其匹配长度至少为2的单词，所以这边减到1个。

In [10]:
tfidf_model2 = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b").fit(document)
print(tfidf_model2.vocabulary_)
# {'我': 8, '是': 12, '一条': 1, '天狗': 7, '呀': 6, '把': 9, '月': 13, '来': 14, '吞': 5, '了': 2, '日来': 10, '一切': 0, '的': 15, '星球': 11, '全宇宙': 4, '便是': 3}

{'我': 8, '是': 12, '一条': 1, '天狗': 7, '呀': 6, '把': 9, '月': 13, '来': 14, '吞': 5, '了': 2, '日来': 10, '一切': 0, '的': 15, '星球': 11, '全宇宙': 4, '便是': 3}


#### stop_words: list类型
    直接过滤指定的停用词。

In [12]:
tfidf_model4 = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b",stop_words=["是", "的"]).fit(document)
print(tfidf_model4.vocabulary_)
# {'一条': 1, '天狗': 5, '呀': 4, '月': 8, '来': 9, '日来': 6, '一切': 0, '星球': 7, '全宇宙': 3, '便是': 2}

{'我': 8, '一条': 1, '天狗': 7, '呀': 6, '把': 9, '月': 12, '来': 13, '吞': 5, '了': 2, '日来': 10, '一切': 0, '星球': 11, '全宇宙': 4, '便是': 3}


#### vocabulary: dict类型
      这一参数的使用有时能帮助我们专注于一些词语，比如我对本诗中表达感情的一些特定词语（甚至标点符号）感兴趣，就可以设定这一参数，只考虑他们：

In [14]:
tfidf_model5 = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b",vocabulary={"我":0, "呀":1,"!":2}).fit(document)
print(tfidf_model5.vocabulary_)
print(tfidf_model5.transform(document).todense())

{'我': 0, '呀': 1, '!': 2}
[[0.40572238 0.91399636 0.        ]
 [1.         0.         0.        ]
 [1.         0.         0.        ]
 [1.         0.         0.        ]
 [1.         0.         0.        ]
 [1.         0.         0.        ]]
