In [2]:
#导入向量化工具CountVectorizer工具
from sklearn.feature_extraction.text import CountVectorizer
vect=CountVectorizer()
#使用CountVectorizer拟合文本数据
en=['The quick brown fox jumps over a lazy dog']
vect.fit(en)
#打印结果
print('单词数：{}'.format(len(vect.vocabulary_)))
print('分词：{}'.format(vect.vocabulary_))

单词数：8
分词：{'the': 7, 'quick': 6, 'brown': 0, 'fox': 2, 'jumps': 3, 'over': 5, 'lazy': 4, 'dog': 1}


In [3]:
#使用中文文本进行实验
cn=['那只敏捷的棕色狐狸跳过了一直懒惰的狗']
#拟合中文文本数据
vect.fit(cn)
print('单词数：{}'.format(len(vect.vocabulary_)))
print('分词：{}'.format(vect.vocabulary_))

单词数：1
分词：{'那只敏捷的棕色狐狸跳过了一直懒惰的狗': 0}


In [4]:
#导入结巴分词
import jieba
#使用结巴分词对中文文本进行分词
cn=jieba.cut('那只敏捷的棕色狐狸跳过了一只懒惰的狗')
#使用空格作为次与此之间的分界线
cn=[' '.join(cn)]
print(cn)

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\48967\AppData\Local\Temp\jieba.cache
Loading model cost 2.142 seconds.
Prefix dict has been built succesfully.


['那 只 敏捷 的 棕色 狐狸 跳过 了 一只 懒惰 的 狗']


In [5]:
#使用CountVectorizer对中文文本进行向量化
vect.fit(cn)
print('单词数：{}'.format(len(vect.vocabulary_)))
print('分词：{}'.format(vect.vocabulary_))

单词数：6
分词：{'敏捷': 2, '棕色': 3, '狐狸': 4, '跳过': 5, '一只': 0, '懒惰': 1}


In [6]:
#使用词袋模型将文本数据转化为数组
#定义词袋模型
bag_of_words=vect.transform(cn)
#打印词袋模型中的数据特征
print('转化为词袋的特征:{}'.format(repr(bag_of_words)))

转化为词袋的特征:<1x6 sparse matrix of type '<class 'numpy.int64'>'
	with 6 stored elements in Compressed Sparse Row format>


In [7]:
#打印词袋模型的密度表达
print('词袋的密度表达：\n{}'.format(bag_of_words.toarray()))

词袋的密度表达：
[[1 1 1 1 1 1]]


In [8]:
#输入新的中文文本
cn_1=jieba.cut('懒惰的狐狸不如敏捷的狐狸敏捷，敏捷的狐狸不如懒惰的狐狸懒惰')
#以空格进行分割
cn2=[' '.join(cn_1)]
print(cn2)

['懒惰 的 狐狸 不如 敏捷 的 狐狸 敏捷 ， 敏捷 的 狐狸 不如 懒惰 的 狐狸 懒惰']


In [9]:
#建立新的词袋模型
new_bag=vect.transform(cn2)
print('转化为词袋的特征：\n{}'.format(repr(new_bag)))
print('词袋的密度表达：\n{}'.format(new_bag.toarray()))

转化为词袋的特征：
<1x6 sparse matrix of type '<class 'numpy.int64'>'
	with 3 stored elements in Compressed Sparse Row format>
词袋的密度表达：
[[0 3 3 0 4 0]]


In [13]:
#对文本数据进一步进行优化处理
#随便写一句话
joke=jieba.cut('道士看见和尚亲吻了尼姑的嘴唇')
#插入空格
joke=[' '.join(joke)]
vect.fit(joke)
joke_feature=vect.transform(joke)
#打印文本数据特征
print('这句话的特征表达：\n{}'.format(joke_feature.toarray()))

这句话的特征表达：
[[1 1 1 1 1 1]]


In [15]:
joke2=jieba.cut('尼姑看见道士的嘴唇亲吻了和尚')
#插入空格
joke2=[' '.join(joke2)]
vect.fit(joke2)
joke2_feature=vect.transform(joke2)
#打印文本数据特征
print('这句话的特征表达：\n{}'.format(joke2_feature.toarray()))

这句话的特征表达：
[[1 1 1 1 1 1]]


In [22]:
#修改CountVectorizer的ngram参数
vect=CountVectorizer(ngram_range=(2,2))
#重新进行文本数据的特征提取
cv=vect.fit(joke)
joke_feature=cv.transform(joke)
print('调整n-Gram参数后的词典：{}'.format(cv.get_feature_names()))
print('新的特征表达：{}'.format(joke_feature.toarray()))

调整n-Gram参数后的词典：['亲吻 尼姑', '和尚 亲吻', '尼姑 嘴唇', '看见 和尚', '道士 看见']
新的特征表达：[[1 1 1 1 1]]


In [23]:
joke2=jieba.cut('尼姑看见道士的嘴唇亲吻了和尚')
#插入空格
joke2=[' '.join(joke2)]
joke2_feature=vect.transform(joke2)
#打印文本数据特征
print('这句话的特征表达：\n{}'.format(joke2_feature.toarray()))

这句话的特征表达：
[[0 0 0 0 0]]
