In [1]:
import os
import jieba
import warnings
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

warnings.filterwarnings('ignore')

def cut_words(file_path):
    """对文本进行切词
    
    :param file_path: txt 文本路径
    :return: 用空格分词的字符串
    """
    text_with_spaces = ''
    text = open(file_path, 'r', encoding='gb18030').read()
    textcut = jieba.cut(text)
    for word in textcut:
        text_with_spaces += word + ' '
    return text_with_spaces

In [2]:
def loadfile(file_dir, label):
    """将路径下的所有文件加载
    
    :param file_dir: 保存 txt 文件目录
    :param label: 文档标签
    :return: 分词后的文档列表和标签
    """
    file_list = os.listdir(file_dir)
    words_list = []
    labels_list = []
    for file in file_list:
        file_path = file_dir + '/' + file
        words_list.append(cut_words(file_path))
        labels_list.append(label)
    return words_list, labels_list

In [5]:
# 训练数据
train_words_list1, train_labels1 = loadfile('data/train/女性', '女性')
train_words_list2, train_labels2 = loadfile('data/train/体育', '体育')
train_words_list3, train_labels3 = loadfile('data/train/文学', '文学')
train_words_list4, train_labels4 = loadfile('data/train/校园', '校园')

train_words_list = train_words_list1 + train_words_list2 + train_words_list3 + train_words_list4
train_labels = train_labels1 + train_labels2 + train_labels3 + train_labels4

['【 调节 内分泌 】 女人 做 得 越 纯粹 ， 皮肤 和 身材 就 越 好 ， 没有 一个 步入 更年期 的 女人 能 保持 少女 的 模样 。 脐下 三寸 之地 就是 美丽 的 后花园 ， 问问 自己 ： 有没有 炎症 ？ 有没有 痛经 ？ 有没有 包块 和 淤塞 ？ 只要 有 其一 ， 它们 就是 皮肤 的 杀手 ， 用 多少 化妆品 都 没有 用 ！ ? _ ? 欢迎 收听 → 【 飞适 官网     教 你 美容 化妆 】 $ LOTOzf $ ', '【 草莓 面膜 】   原料 ： 草莓 适量   制法 ： 将 准备 好 的 草莓 洗净 ， 捣成 糊状 或 对 半 切开 。   用法 ： 敷于 面部 、 颈部 等 裸露 部位 。 或者 直接 用 切开 的 草莓 在 脸上 反复 涂抹 25 分钟 后 洗 去 。   说明 ： 本 面膜 可 营养 皮肤 ， 使 皮肤 色素 沉着 减轻 。 $ LOTOzf $ ', '头条 博客 : 十二 星座 女 为什么 分手 ？ 看看 原因 吧 12 星座 大杂烩 ： 十二 星座 女 因为 什么 失恋 白羊座 ： 毛躁 过头 ； 金牛座 ： 太 物质 ； 双子座 ： 脸变 太快 ； 巨蟹座 ： 太 家庭主妇 ； 狮子座 ： 太 霸道 ； 处女座 ： 总是 挑剔 ； 天秤座 ： 太 啰嗦 ； 天蝎座 ： 总是 猜忌 两人 感情 ； 射手座 ： 对 伴侣 太 冷淡 ； 摩羯座 ： 调动 不 起来 情绪 ； 水瓶座 ： 朋友 总 耽误 事 ； 双鱼座 ： 自欺欺人 : 0 转发 ( 282 ) 评论 ( 31 ) 12 月 9 日 16 : 20 来自 新浪 微博 标签 ： $ LOTOzf $ ', '蜂蜜 柠檬水 减肥法 每天 早上 起来 ， 第一件 事 ， 就是 空腹 喝一杯 蜂蜜 柠檬水 。 柠檬 可以 清热 减肥 ， 美白 皮肤 。 蜂蜜 对 女人 的 作用 更 不用说 了 。 只要 3 天 就 见效 了 ， 没有 任何 副作用 。 注意 ： 水 要是 冷 的 ， 不要 热 的 ， 也 不要 温 的 。 因为 蜂蜜 要 冷 喝 才 是 润肠 ； 十分钟 以后 再 吃 东西 。 $ LOTOzf $ ', 'http : url . cn / 1R0iDO     这个 化妆品 还 不错 啦 ， 姐妹 们 可以 

In [6]:
# 测试数据
test_words_list1, test_labels1 = loadfile('data/test/女性', '女性')
test_words_list2, test_labels2 = loadfile('data/test/体育', '体育')
test_words_list3, test_labels3 = loadfile('data/test/文学', '文学')
test_words_list4, test_labels4 = loadfile('data/test/校园', '校园')

test_words_list = test_words_list1 + test_words_list2 + test_words_list3 + test_words_list4
test_labels = test_labels1 + test_labels2 + test_labels3 + test_labels4


['【 穿 高跟鞋 不磨 脚 小 方法 】 1 . 用 热 毛巾 在 磨 脚 的 部位 捂 几分钟 , 再拿块 干 的 软 毛巾 垫 着 , 用 锤子 把 鞋子 磨脚 的 地方 敲 平整 就 可以 啦 ； 2 . 把 报纸 捏 成团 沾点 水 , 不要 太湿 , 但 要 整团 都 沾 到 水 , 再 拿 张干 的 报纸 裹住 湿 的 报纸 , 塞 在 挤 脚 部位 , 用 塑料袋 密封 一夜 ； 3 . 穿鞋 之前 , 拿 香皂 ( 蜡烛 亦可 ) 在 磨脚 位置 薄薄的 涂上一层 。 \t \t \t \t $ LOTOzf $ ', '冬天 真是 万恶 的 季节 ， 食欲 越来越 大 ， 控制 不住 。 胖友 介绍 “ 瘦身 之颠 ” 这 款 减肥 产品 ， 连续 看 了 十几页 的 评价 ， 看 的 我 好 心动 ， 立即 下单 ， 服用 了 半个 月 瘦 了 8 斤 。 好开心 啊 ， 吼吼 ... 好 姐妹 都 过来 要 秘诀 ， 刚 看到 店家 在 做 活动 ， 又 买 了 2 瓶 储备 ， 分享 下 产品 地址 ： http : url . cn / 1xd9ka $ LOTOzf $ ', '【 2012 年 十二 星座 最红 】 桃花 最红 ： 1 . : 水瓶 ； 2 . 双鱼 ； 3 . 狮子 ； 4 . 巨蟹 ； 5 . 金牛 ； 6 . 射手 。 学业 最红 ： 1 . 魔羯 ； 2 . 狮子 ； 3 . 天蝎 ； 4 . 射手 ； 5 . 双子 ； 6 . 双鱼 。 事业 最红 ： 1 . 天秤 ； 2 . 天蝎 ； 3 . 水瓶 ； 4 . 白羊 ； 5 . 双鱼 ； 6 . 狮子 。 你 什么 最红 ？ \t \t \t \t $ LOTOzf $ ', '要 在 有限 的 空间 里 实现 最大 的 价值 ， 布 上网 线 、 音频线 、 高清 线 、 投影 线 、 电源线 、 闭 路线 等 一切 能够 想到 的 线 ； 在 32 ㎡ 里 放 一套 沙发 和 预留 5 - 6 个人 的 办公 环境 ； 5 ㎡ 里 做 一个 小 卧室 ； 在 6 ㎡ 里装 一个 袖珍 厨房 和 一个 厕所 ； 还要 在 2 米 * 5 米 的 阳台 上 做 一个 小 花园 ； 除 阳台 外套 内 只有 43 ㎡ 的 房子 要 怎么 做 才能 合理 利用

In [7]:
stop_words = open('data/stop/stopword.txt', 'r', encoding='utf-8').read()
stop_words = stop_words.encode('utf-8').decode('utf-8-sig')  # 列表头部 \ufeff 处理
stop_words = stop_words.split('\n')  # 根据分隔符分隔

# 计算单词权重
tf = TfidfVectorizer(stop_words=stop_words, max_df=0.5)

train_features = tf.fit_transform(train_words_list)
test_features = tf.transform(test_words_list)

  (0, 22621)	0.20286092865141658
  (0, 22436)	0.20890108622151685
  (0, 22107)	0.20890108622151685
  (0, 21171)	0.3334489482106871
  (0, 19286)	0.2276635293447665
  (0, 19218)	0.2276635293447665
  (0, 14196)	0.33637598360047605
  (0, 11536)	0.5608513047704631
  (0, 11091)	0.2276635293447665
  (0, 9093)	0.20890108622151685
  (0, 5151)	0.1901386430982672
  (0, 4059)	0.18151858348456237
  (0, 3136)	0.15261375685176787
  (0, 1967)	0.20286092865141658
  (1, 22335)	0.2607565676790644
  (1, 20851)	0.22493228539086424
  (1, 20686)	0.25441292379587843
  (1, 17103)	0.2403052872765035
  (1, 16969)	0.2607565676790644
  (1, 16540)	0.2108246488714893
  (1, 16484)	0.17488222143481816
  (1, 16219)	0.18754592823600844
  (1, 13196)	0.25441292379587843
  (1, 10546)	0.24440339639109976
  (1, 8753)	0.23332320873248483
  :	:
  (197, 11970)	0.24325054168908172
  (197, 5872)	0.21810725131336534
  (197, 2869)	0.3050887450356974
  (197, 2859)	0.3050887450356974
  (197, 1397)	0.3050887450356974
  (198, 16436)	0.

In [9]:
# 多项式贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB

clf = MultinomialNB(alpha=0.001).fit(train_features, train_labels)
predicted_labels = clf.predict(test_features)

# 计算准确率
print('准确率：', metrics.accuracy_score(test_labels, predicted_labels))

准确率： 0.91
