# 1. 实例化CountVectorizer

In [1]:
# 导入CountVectorizer类
from sklearn.feature_extraction.text import CountVectorizer
# 构建默认参数的CountVectorizer实例
cv = CountVectorizer()
# 获取实例参数
cv.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.int64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 1.0,
 'max_features': None,
 'min_df': 1,
 'ngram_range': (1, 1),
 'preprocessor': None,
 'stop_words': None,
 'strip_accents': None,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'vocabulary': None}

# 2. 构建文档-词矩阵

In [2]:
# 定义文本集
texts = ["dog cat fish", 
         "dog cat cat", 
         "fish bird", 
         "bird",
         "dog"]
# 学习词汇表并构建文档-词矩阵
term_document = cv.fit_transform(texts)
# 获取词汇表
print(cv.get_feature_names())
# 输出文档-词矩阵
print(term_document.toarray())

['bird', 'cat', 'dog', 'fish']
[[0 1 1 1]
 [0 2 1 0]
 [1 0 0 1]
 [1 0 0 0]
 [0 0 1 0]]


# 3. 常见参数

- max_df：浮点数，取值范围[0.0,1.0]或整数，默认值为1.0,当构建词汇表时，词语文档频率高于max_df，则被过滤。当为整数时，词语文档频次高于max_df时，则被过滤。当vocabulary不是None时，该参数不起作用
- min_df：浮点数，取值范围[0.0,1.0]或整数，默认为1，该参数除了指下限其他都同max_df

In [3]:
text2 = ["cat be", 
         "cat cat be", 
         "fish fish be", 
         "bird bird be",]
cv = CountVectorizer(min_df=2, max_df=0.9)
cv.fit_transform(text2)
cv.get_feature_names()

['cat']

- ngram_range:元组(min_n, max_n)抽取出ngrams的元个数的下限和上限。所有的符合min_n<=n<=max_n数量的ngrams都将被抽取出来

In [4]:
cv = CountVectorizer(ngram_range=(1, 2))
cv.fit_transform(text2)
cv.get_feature_names()

['be',
 'bird',
 'bird be',
 'bird bird',
 'cat',
 'cat be',
 'cat cat',
 'fish',
 'fish be',
 'fish fish']

- preprocessor：可调用对象或None，默认值为None，在分词(tokenizing)和生成ngrams时覆盖预处理步骤

In [5]:
import re
text3 = ['我爱Love自然语言处理NLP']
def preprocess(text):
    p2 = re.compile(u'[^\u4e00-\u9fa5]')  # 中文的编码范围是：\u4e00到\u9fa5
    zh = " ".join(p2.split(text)).strip()
    zh = ",".join(zh.split())
    res_str = zh  # 经过相关处理后得到中文的文本
    return res_str
cv = CountVectorizer(preprocessor=preprocess)
cv.fit_transform(text3)
cv.get_feature_names()

['我爱', '自然语言处理']

- tokenizer：可调用对象或None，默认值为None，在预处理(preprocessing)和生成ngrams时覆盖分词步骤。只有在参数analyzer取值为’word’时，该参数才有作用

In [6]:
import jieba
cv = CountVectorizer(tokenizer=jieba.cut)
cv.fit_transform(text3)
cv.get_feature_names()

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/xd/9q1skch13b5c12229mw7n9qm0000gn/T/jieba.cache
Loading model cost 0.790 seconds.
Prefix dict has been built succesfully.


['love', 'nlp', '处理', '我', '爱', '自然语言']

+ stop_words：字符串，可选值{‘english’}，列表或None，默认值为None
 - 如果为字符串，则使用内部支持的字符串指定的语种的停用词表
 - 如果为列表，列表中的词语为停用词
 - 如果为None，不使用停用词。此时可以借助参数max_df[0.7,1.0]来根据文档频率自动检测和过滤停用词

In [7]:
cv = CountVectorizer(stop_words=['我'], tokenizer=jieba.cut)
cv.fit_transform(text3)
cv.get_feature_names()

['love', 'nlp', '处理', '爱', '自然语言']