# CountVectorizer
CountVectorizer属于常见的特征数值计算类，是一个文本特征提取方法。对每一个训练文本，只考虑每种词汇在该训练文本中出现的频率。
* CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵
* get_feature_names()可看到所有文本的关键字
* vocabulary_可看到所有文本的关键字和其位置
* toarray()可看到词频矩阵的结果

In [2]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, TfidfTransformer
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]
vectorizer = CountVectorizer()
# 拟合模型，返回文本矩阵
count = vectorizer.fit_transform(corpus)
# 看到所有文本的关键字，按顺序
print(vectorizer.get_feature_names())  
# 文本的关键字和位置
print(vectorizer.vocabulary_)
# 看到原输入文本的词频矩阵结果
print(count.toarray())

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
{'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}
[[0 1 1 1 0 0 1 0 1]
 [0 1 0 1 0 2 1 0 1]
 [1 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 1 0 1]]


In [6]:
tmp = vectorizer.transform(['this is this is '])
print(tmp.toarray())

[[0 0 0 2 0 0 0 0 2]]


# 设置停用词列表，处理中文
* 中文必须将切词后的结果 按照空格分隔作为输入

In [10]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, TfidfTransformer
import jieba
import jiebahelper

thefile = open("机器之心完成pre-B轮融资.txt")
sentence_arr = thefile.readlines()
cn_corpus = []
for item in sentence_arr:
    if (item.strip()==""):
        continue
    seg_ret = jieba.cut(item.strip())
    # print("ori:%s" % (item))
    seg_str = jiebahelper.dosegment(item)
    print(seg_str)
    cn_corpus.append(seg_str)
    
print("the sentences count:%d"%(len(cn_corpus)))

cn_vectorizer = CountVectorizer()
# 拟合模型，返回文本矩阵
cn_count = cn_vectorizer.fit_transform(cn_corpus)
# 看到所有文本的关键字，按顺序
print(cn_vectorizer.get_feature_names())  
# 文本的关键字和位置
print(cn_vectorizer.vocabulary_)
# 看到原输入文本的词频矩阵结果
print(cn_count.toarray())

中国 网 财经 3 月 21 日讯   专注 人工智能 领域 服务商 机器 之心 近日 宣布 完成 Pre B轮 融资 本轮 百度 风 投领 投 联想创投 投 融资额 尚未 披露
本轮 融资 后 机器 之心 媒体 数据 产品 产业 研究 服务 业务 迎来 更 快 发展 联想创投 集团 总裁 管理 合伙人 贺志强 表示 联想创投 坚定 相信 智能 互联网 全面 升级 垂直 行业 希望 机器 之心 AI 产业 间 构建 更 通畅 信息 桥梁
了解 机器 之心 创立 2014 年 国内 首家 系统性 关注 人工智能 科技 媒体 2015 年 9 月 机器 之心 获得 数百万元 天使 轮 投资 2017 年 2 月 获 Pre A轮 融资 投资方 包括 联想 之星 今日 头条 源码 资本 讯 飞 产业 投资 晨兴 资本
联想集团 旗下 全球 科技产业 基金 联想创投 专注 面向未来 核心技术 智能 互联网 投资 投资 方向 主要 大 数据 人工智能 云 计算
联想创投 董事 总经理 王光熙 表示 机器 之心 坚持 从业者 提供 高质量 内容 深入 产业 服务 相信 未来 将会 产业 上下游 企业 提供 更加 多元化 需求 对接 服务 各行各业 转型
目前 机器 之心 完成 人工智能 垂直 媒体 综合信息 产业 服务商 阶段性 转型 媒体 活动 产业 研究 咨询 数据 产品 方面 取得 突破性 进展
未来 机器 之心 联想 生态 体系 联想创投 投 企业 之间 互相支持 合作 联想创投 执行 董事 首席 营销 官 陈蜀杰 表示 联手 机器 之心 推进 生态 成员 企业 联想大数据 平台 更 传统 行业 赋能
the sentences count:7
['2014', '2015', '2017', '21', 'ai', 'a轮', 'b轮', 'pre', '上下游', '专注', '业务', '中国', '主要', '之心', '之星', '之间', '了解', '互相支持', '互联网', '产业', '产品', '人工智能', '今日', '从业者', '企业', '传统', '体系', '信息', '全球', '全面', '关注', '内容', '创立', '包括', '升级', '发展', '取得', '各行各业', '合伙人', '合作', '咨询', '国内

# TfidfTransformer
统计CountVectorizer中每个词语的tf-idf权值

In [11]:
tfidf_trans = TfidfTransformer()
tfidf_matrix= tfidf_trans.fit_transform(cn_count)
print(tfidf_matrix.toarray())

[[0.         0.         0.         0.23524142 0.         0.
  0.23524142 0.19527058 0.         0.19527058 0.         0.23524142
  0.         0.11174377 0.         0.         0.         0.
  0.         0.         0.         0.14491328 0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.19527058 0.23524142 0.         0.
  0.23524142 0.         0.         0.         0.         0.
  0.         0.         0.         0.23524142 0.23524142 0.
  0.         0.         0.         0.         0.         0.
  0.23524142 0.         0.         0.         0.         0.19527058
  0.         0.19527058 0.11174377 0.         0.         0.
  0.         0.         0.         0.         0.         0.23524142
  0.         0.         0.         0.         0.         0.
  0.         0. 

# TfidfVectorizer可以把CountVectorizer，TfidfTransformer合并起来，直接生成tfidf值


In [13]:
tfidf_vec = TfidfVectorizer()
tfidf_matrix=tfidf_vec.fit_transform(cn_corpus)
print(tfidf_vec.get_feature_names())
print(tfidf_vec.vocabulary_)
print(tfidf_matrix.toarray())

['2014', '2015', '2017', '21', 'ai', 'a轮', 'b轮', 'pre', '上下游', '专注', '业务', '中国', '主要', '之心', '之星', '之间', '了解', '互相支持', '互联网', '产业', '产品', '人工智能', '今日', '从业者', '企业', '传统', '体系', '信息', '全球', '全面', '关注', '内容', '创立', '包括', '升级', '发展', '取得', '各行各业', '合伙人', '合作', '咨询', '国内', '坚定', '坚持', '垂直', '基金', '多元化', '天使', '头条', '媒体', '完成', '宣布', '对接', '将会', '尚未', '希望', '平台', '总经理', '总裁', '成员', '执行', '投资', '投资方', '投领', '披露', '推进', '提供', '数据', '数百万元', '方向', '方面', '旗下', '日讯', '晨兴', '智能', '更加', '服务', '服务商', '未来', '本轮', '机器', '构建', '核心技术', '桥梁', '活动', '深入', '源码', '王光熙', '生态', '百度', '目前', '相信', '研究', '科技', '科技产业', '突破性', '管理', '系统性', '综合信息', '联想', '联想创投', '联想大数据', '联想集团', '联手', '获得', '营销', '董事', '融资', '融资额', '行业', '表示', '计算', '财经', '贺志强', '资本', '赋能', '转型', '迎来', '近日', '进展', '通畅', '阶段性', '陈蜀杰', '集团', '需求', '面向未来', '领域', '首家', '首席', '高质量']
{'中国': 11, '财经': 112, '21': 3, '日讯': 72, '专注': 9, '人工智能': 21, '领域': 126, '服务商': 77, '机器': 80, '之心': 13, '近日': 118, '宣布': 51, '完成': 50, 'pre': 7, 'b轮': 6, '融资': 107, '本轮': 79