In [12]:
# 朴素贝叶斯
# 创建TfidVectorizer类
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()

# 创建4个文档的列表documents
documents = [
    'this is the bayes document', 
    'this is the second second document', 
    'and the third one', 
    'is this the document'
]
tfidf_matrix = tfidf_vec.fit_transform(documents)

# 输出文档中所有不重复的词
print('不重复的词：\n', tfidf_vec.get_feature_names())
# 输出每个单词对应的id值
print('每个单词的ID：\n',tfidf_vec.vocabulary_)
# 每个单词在每个文档中的TF-IDF值，向量里的顺序是按照词语的id顺序来的
print('每个单词的tfidf值：\n', tfidf_matrix.toarray())

不重复的词：
 ['and', 'bayes', 'document', 'is', 'one', 'second', 'the', 'third', 'this']
每个单词的ID：
 {'this': 8, 'is': 3, 'the': 6, 'bayes': 1, 'document': 2, 'second': 5, 'and': 0, 'third': 7, 'one': 4}
每个单词的tfidf值：
 [[0.         0.63314609 0.40412895 0.40412895 0.         0.
  0.33040189 0.         0.40412895]
 [0.         0.         0.27230147 0.27230147 0.         0.85322574
  0.22262429 0.         0.27230147]
 [0.55280532 0.         0.         0.         0.55280532 0.
  0.28847675 0.55280532 0.        ]
 [0.         0.         0.52210862 0.52210862 0.         0.
  0.42685801 0.         0.52210862]]


In [31]:
# 中文文档分类数据集
import os
import jieba
import warnings
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

warnings.filterwarnings('ignore')

def cut_words(file_path):
    """
    对文本进行切词
    :param file_path: txt文本路径
    :return: 用空格分词的字符串
    """
    text_with_spaces = ''
    text=open(file_path, 'r', encoding='gb18030').read()
    textcut=jieba.cut(text)
    for word in textcut:
        text_with_spaces += word + ' '
    return text_with_spaces

def loadfile(file_dir, label):
    '''
    将路径下的所有文件加载
    :param file_dir: 保存txt文件目录
    :param label: 文档标签
    :return: 分词后的文档列表和标签
    '''
    file_list = os.listdir(file_dir)
    words_list = []
    labels_list = []
    for file in file_list:
        file_path = file_dir + '/' + file
        words_list.append(cut_words(file_path))
        labels_list.append(label)
    return words_list, labels_list

# 训练数据
train_words_list1, train_labels1 = loadfile('data/text classification/train/女性','女性')
train_words_list2, train_labels2 = loadfile('data/text classification/train/体育','体育')
train_words_list3, train_labels3 = loadfile('data/text classification/train/文学','文学')
train_words_list4, train_labels4 = loadfile('data/text classification/train/校园','校园')

train_words_list = train_words_list1+train_words_list2+train_words_list3+train_words_list4
train_labels = train_labels1+train_labels2+train_labels3+train_labels4

# print(train_words_list)
# print(train_labels)

# 测试数据
test_words_list1, test_labels1 = loadfile('data/text classification/test/女性', '女性')
test_words_list2, test_labels2 = loadfile('data/text classification/test/体育', '体育')
test_words_list3, test_labels3 = loadfile('data/text classification/test/文学', '文学')
test_words_list4, test_labels4 = loadfile('data/text classification/test/校园', '校园')

test_words_list = test_words_list1+test_words_list2+test_words_list3+test_words_list4
test_labels = test_labels1+test_labels2+test_labels3+test_labels4

stop_words = open('data/text classification/stop/stopword.txt','r', encoding='utf-8').read()
print(stop_words)
stop_words = stop_words.encode('utf-8').decode('utf-8-sig') # 列表头部\ufeff处理
stop_words = stop_words.split('\n') # 根据分隔符分割
print(stop_words)

# 计算单词权重
tf = TfidfVectorizer(stop_words = stop_words, max_df=0.5)

train_features = tf.fit_transform(train_words_list)
# print(train_words_list)
# print(train_features)

# 上面fit过了，这里transform
test_features = tf.transform(test_words_list)

# print(test_features)

# 多项式贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB(alpha=0.001).fit(train_features, train_labels)
predicted_labels = clf.predict(test_features)

# 计算准确率
print('准确率为:', metrics.accuracy_score(test_labels, predicted_labels))


﻿,
?
、
。
“
”
《
》
！
，
：
；
？
人民
#
###
啊
阿
哎
哎呀
哎哟
唉
俺
俺们
按
按照
吧
吧哒
把
罢了
被
本
本着
比
比方
比如
鄙人
彼
彼此
边
别
别的
别说
并
并且
不比
不成
不单
不但
不独
不管
不光
不过
不仅
不拘
不论
不怕
不然
不如
不特
不惟
不问
不只
朝
朝着
趁
趁着
乘
冲
除
除此之外
除非
除了
此
此间
此外
从
从而
打
待
但
但是
当
当着
到
得
的
的话
等
等等
地
第
叮咚
对
对于
多
多少
而
而况
而且
而是
而外
而言
而已
尔后
反过来
反过来说
反之
非但
非徒
否则
嘎
嘎登
该
赶
个
各
各个
各位
各种
各自
给
根据
跟
故
故此
固然
关于
管
归
果然
果真
过
哈
哈哈
呵
和
何
何处
何况
何时
嘿
哼
哼唷
呼哧
乎
哗
还是
还有
换句话说
换言之
或
或是
或者
极了
及
及其
及至
即
即便
即或
即令
即若
即使
几
几时
己
既
既然
既是
继而
加之
假如
假若
假使
鉴于
将
较
较之
叫
接着
结果
借
紧接着
进而
尽
尽管
经
经过
就
就是
就是说
据
具体
开始
开外
靠
咳
可
可见
可是
可以
况且
啦
来
来着
离
例如
哩
连
连同
两者
了
临
另
另外
另一方面
论
嘛
吗
慢说
漫说
冒
么
每
每当
们
莫若
某
某个
某些
拿
哪
哪边
哪儿
哪个
哪里
哪年
哪怕
哪天
哪些
哪样
那
那边
那儿
那个
那会儿
那里
那么
那时
那些
那样
乃
乃至
呢
能
你
你们
您
宁
宁可
宁肯
宁愿
哦
呕
啪达
旁人
呸
凭
凭借
其
其次
其二
其他
其它
其一
其余
其中
起
起见
岂但
恰恰相反
前后
前者
且
然而
然后
然则
让
人家
任
任何
任凭
如
如此
如果
如何
如其
如若
如上所述
若
若非
若是
啥
上下
尚且
设若
设使
甚而
甚么
甚至
省得
时候
什么
什么样
使得
是
是的
首先
谁
谁知
顺
顺着
似的
虽
虽然
虽说
虽则
随
随着
所
所以
他
他们
他人
它
它们
她
她们
倘
倘或
倘然
倘若
倘使
腾
替
通过
同
同时
哇
万一
往
望
为
为何
为了
为什么
为着
喂
嗡嗡
我
我们
呜
呜呼
乌乎
无论
无宁
毋宁
嘻
吓
相对而言
像
向
向着
嘘

In [29]:
# 第二版
import os
import jieba
import warnings
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

label_map = {'体育':0,'女性':1,'文学':2,'校园':3}

# 加载停用词
STOP_WORDS  = open('data/text classification/stop/stopword.txt','r',encoding='utf-8').read()
STOP_WORDS = STOP_WORDS.encode('utf-8').decode('utf-8-sig')
STOP_WORDS = STOP_WORDS.split('\n')
# with open('text_classification-master/text classification/stop/stopword.txt','r',encoding='utf-8')  as f:
#     STOP_WORDS = [line.strip() for line in f.readlines()]
print(STOP_WORDS)

def load_data(base_path):
    '''
    :param base_path: 基础路径
    :return 分词列表,标签列表
    '''
    documents = []
    labels = []
    
    for root, dirs, files in os.walk(base_path): # 循环所有文件并进行分词打标
        for file in files:
            labels.append(root)
            filename = os.path.join(root, file)
            with open(filename,encoding='gb18030') as f:
                content = f.read()
                word_list = list(jieba.cut(content))
                words = [wl for wl in word_list]
                documents.append(''.join(words))
#     print(document, '\n', labels)
    return documents, labels

def train_fun(td,tl,testd,testl):
    '''
    构造模型并计算测试集准确率，字数限制变量名简写
    :param td: 训练集数据
    :param tl: 训练集标签
    :param testd: 测试集数据
    :param testl: 测试集标签
    :return: 测试集准确率
    '''
    
    # 计算矩阵
    tf = TfidfVectorizer(stop_words = STOP_WORDS, max_df=0.5)
#     tt = TfidfVectorizer(stop_words = STOP_WORDS, max_df = 0.5)
    train_features = tf.fit_transform(td)
    # 训练模型
    clf = MultinomialNB(alpha=0.001).fit(tf,tl)
    # 模型预测
    test_tf = TfidVectorizer(stop_words = STOP_WORDS, max_df = 0.5, vocabulary = tt.vocabulary_)
    test_features = test_tf.fit_transform(testd)
    predicted_labels = clf.predict(test_features)
    # 获取结果
    result = metrics.accuracy_score(testl, predicted_labels)
    return result

train_documents, train_labels = load_data('data/text classification/train')
test_documents, test_labels = load_data('data/text classification/test')
result = train_fun(train_documents,train_labels, test_documents, test_labels)
print(result)

[',', '?', '、', '。', '“', '”', '《', '》', '！', '，', '：', '；', '？', '人民', '#', '###', '啊', '阿', '哎', '哎呀', '哎哟', '唉', '俺', '俺们', '按', '按照', '吧', '吧哒', '把', '罢了', '被', '本', '本着', '比', '比方', '比如', '鄙人', '彼', '彼此', '边', '别', '别的', '别说', '并', '并且', '不比', '不成', '不单', '不但', '不独', '不管', '不光', '不过', '不仅', '不拘', '不论', '不怕', '不然', '不如', '不特', '不惟', '不问', '不只', '朝', '朝着', '趁', '趁着', '乘', '冲', '除', '除此之外', '除非', '除了', '此', '此间', '此外', '从', '从而', '打', '待', '但', '但是', '当', '当着', '到', '得', '的', '的话', '等', '等等', '地', '第', '叮咚', '对', '对于', '多', '多少', '而', '而况', '而且', '而是', '而外', '而言', '而已', '尔后', '反过来', '反过来说', '反之', '非但', '非徒', '否则', '嘎', '嘎登', '该', '赶', '个', '各', '各个', '各位', '各种', '各自', '给', '根据', '跟', '故', '故此', '固然', '关于', '管', '归', '果然', '果真', '过', '哈', '哈哈', '呵', '和', '何', '何处', '何况', '何时', '嘿', '哼', '哼唷', '呼哧', '乎', '哗', '还是', '还有', '换句话说', '换言之', '或', '或是', '或者', '极了', '及', '及其', '及至', '即', '即便', '即或', '即令', '即若', '即使', '几', '几时', '己', '既', '既然', '既是', '继而', '加之', '假如', '假若', '假使', '鉴于', '将', '较'

ValueError: Expected 2D array, got scalar array instead:
array=TfidfVectorizer(max_df=0.5,
                stop_words=[',', '?', '、', '。', '“', '”', '《', '》', '！', '，',
                            '：', '；', '？', '人民', '#', '###', '啊', '阿', '哎',
                            '哎呀', '哎哟', '唉', '俺', '俺们', '按', '按照', '吧', '吧哒',
                            '把', '罢了', ...]).
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.