# 朴素贝叶斯

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()

In [6]:
documents = {
    'this is the bayes document',
    'this is the second document',
    'and the third one',
    'is this the document'
}
tfidf_matrix = tfidf_vec.fit_transform(documents)

In [12]:
tfidf_matrix

<4x9 sparse matrix of type '<class 'numpy.float64'>'
	with 18 stored elements in Compressed Sparse Row format>

In [14]:
print('不重复的词：',tfidf_vec.get_feature_names())

不重复的词： ['and', 'bayes', 'document', 'is', 'one', 'second', 'the', 'third', 'this']


In [15]:
print('输出每个词的id：',tfidf_vec.vocabulary_)

输出每个词的id： {'this': 8, 'is': 3, 'the': 6, 'bayes': 1, 'document': 2, 'and': 0, 'third': 7, 'one': 4, 'second': 5}


In [16]:
print('每个单词的tfidf值：',tfidf_matrix.toarray())

每个单词的tfidf值： [[0.         0.63314609 0.40412895 0.40412895 0.         0.
  0.33040189 0.         0.40412895]
 [0.55280532 0.         0.         0.         0.55280532 0.
  0.28847675 0.55280532 0.        ]
 [0.         0.         0.52210862 0.52210862 0.         0.
  0.42685801 0.         0.52210862]
 [0.         0.         0.40412895 0.40412895 0.         0.63314609
  0.33040189 0.         0.40412895]]


## 对文档进行分词

In [20]:
#中文文本分类
import os
import jieba
import warnings
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

In [21]:
warnings.filterwarnings('ignore')

In [23]:
def cut_words(file_path):
    """
    对文本进行切词
    :param file_path: txt文本路径
    :return: 用空格分词的字符串
    """
    text_with_spaces = ''
    text = open(file_path,'r',encoding = 'gb18030').read()
    textcut = jieba.cut(text)
    for word in textcut:
        text_with_spaces += word + ''
    return text_with_spaces

In [25]:
def loadfile(file_dir, label):
    """
    将路径下的所有文件加载
    :param file_dir: 保存txt文件目录
    :param label: 文档标签
    :return: 分词后的文档列表和标签
    """
    file_list = os.listdir(file_dir)
    words_list = []
    labels_list = []
    for file in file_list:
        file_path = file_dir + '/' + file
        words_list.append(cut_words(file_path))
        labels_list.append(label)                                                                                                                 
    return words_list, labels_list

In [27]:
# 训练数据
train_words_list1, train_labels1 = loadfile('C:/Users/tanling/Desktop/数据分析实战/text_classification/text classification/train/女性', '女性')
train_words_list2, train_labels2 = loadfile('C:/Users/tanling/Desktop/数据分析实战/text_classification/text classification/train/体育', '体育')
train_words_list3, train_labels3 = loadfile('C:/Users/tanling/Desktop/数据分析实战/text_classification/text classification/train/文学', '文学')
train_words_list4, train_labels4 = loadfile('C:/Users/tanling/Desktop/数据分析实战/text_classification/text classification/train/校园', '校园')

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\tanling\AppData\Local\Temp\jieba.cache
Loading model cost 1.033 seconds.
Prefix dict has been built succesfully.


In [28]:
train_words_list = train_words_list1 + train_words_list2 + train_words_list3 + train_words_list4
train_labels = train_labels1 + train_labels2 + train_labels3 + train_labels4

In [29]:
# 测试数据
test_words_list1, test_labels1 = loadfile('C:/Users/tanling/Desktop/数据分析实战/text_classification/text classification/test/女性', '女性')
test_words_list2, test_labels2 = loadfile('C:/Users/tanling/Desktop/数据分析实战/text_classification/text classification/test/体育', '体育')
test_words_list3, test_labels3 = loadfile('C:/Users/tanling/Desktop/数据分析实战/text_classification/text classification/test/文学', '文学')
test_words_list4, test_labels4 = loadfile('C:/Users/tanling/Desktop/数据分析实战/text_classification/text classification/test/校园', '校园')

In [30]:
test_words_list = test_words_list1 + test_words_list2 + test_words_list3 + test_words_list4
test_labels = test_labels1 + test_labels2 + test_labels3 + test_labels4

In [31]:
stop_words = open('C:/Users/tanling/Desktop/数据分析实战/text_classification/text classification/stop/stopword.txt', 'r', encoding='utf-8').read()
stop_words = stop_words.encode('utf-8').decode('utf-8-sig') # 列表头部\ufeff处理
stop_words = stop_words.split('\n') # 根据分隔符分隔

In [32]:
# 计算单词权重
tf = TfidfVectorizer(stop_words=stop_words, max_df=0.5)

In [33]:
train_features = tf.fit_transform(train_words_list)

In [34]:
# 上面fit过了，这里transform
test_features = tf.transform(test_words_list) 


In [35]:
# 多项式贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB  
clf = MultinomialNB(alpha=0.001).fit(train_features, train_labels)
predicted_labels=clf.predict(test_features)


In [36]:
# 计算准确率
print('准确率为：', metrics.accuracy_score(test_labels, predicted_labels))

准确率为： 0.765


In [47]:
text1_with_spaces = ''
text1 = open('C:/Users/tanling/Desktop/数据分析实战/text_classification/text classification/test/女性/955.txt','r',encoding = 'gb18030').read()

In [48]:
textcut = jieba.cut(text1)

In [49]:
textcut

<generator object Tokenizer.cut at 0x000001FA5D754228>

In [51]:
for word in textcut:
    text1_with_spaces += word + ''

In [52]:
text1_with_spaces

'L丰胸——安全的丰胸手术】华美L美胸非常安全，5大理由：①丰胸手术在世界上已有超过100年的历史;②假体硅胶有40多年的安全使用史;③每年都有超过600万女性接受丰胸手术;④不损伤乳腺组织，不影响哺乳;⑤华美美莱率先发布中国首部《整形美容安全消费白皮书》，维护社会大众整形美容消费利益。\t\t\t\t$LOTOzf$'

In [53]:
train_words_list1

['明天三里屯见瑞丽服饰美容：2011瑞丽造型大赏派对瑞丽专属模特黄美熙康猴猴康乐帕丽扎提也会参加哦瑞丽专属模特转发(53)评论(5)12月8日17:10来自新浪微博',
 '转发微博水草温：北京早安中国宝迪沃减肥训练营2012年寒假班开始报名早安中国吧:51（分享自百度贴吧）您还在为肥胖为难吗冬季减肥训练帮助您快速减掉多余脂肪咨询顾问温老师1071108677原文转发原文评论',
 '多谢支持，鱼子精华中含有太平洋深海凝胶能给秀发源源滋养，鱼子精华发膜含有羟基积雪草苷，三重神经酰胺能补充秀发流失的胶质，可以有焕然新生的感觉。鲍艺芳：我在倍丽莎美发沙龙做的奢华鱼子酱护理超级好用以后就用它了我的最爱巴黎卡诗原文转发原文评论',
 '注射除皱针时会疼吗？其他产品注射会产生难以忍受的疼痛，除皱针中含有微量的利多卡因以减轻注射过程中的疼痛，注射过程只有非常轻微的疼痛感。另外，除皱针的胶原蛋白具有帮助凝血作用，极少产生淤血现象。一般注射后就可以出门。其他产品容易产生淤斑，而且时间较长。让人难以接受。',
 '注射除皱针时会疼吗？其他产品注射会产生难以忍受的疼痛，除皱针中含有微量的利多卡因以减轻注射过程中的疼痛，注射过程只有非常轻微的疼痛感。另外，除皱针的胶原蛋白具有帮助凝血作用，极少产生淤血现象。一般注射后就可以出门。其他产品容易产生淤斑，而且时间较长。让人难以接受。',
 '除皱针的主要适应症除皱针主要用于治疗面部皱纹的效果比较好，如鼻背部皱纹、额纹、鱼尾纹、眉间纹，是很多对手术怀有顾虑、不愿意接受手术治疗、因某些问题不适合作手术的人的最好选择，同时还可配合面部除皱术后仍有细小皱纹者。副反应少，安全性高，不需动手术，注射完后即能正常工作和生活。',
 '分享女人志：女人有三丽:美丽能力魅力。三美:形象美、语言美、心灵美。不当三瓶女人:花瓶、醋瓶、药瓶。别做三心女人:在家里放心、想起来伤心、看起来恶心。别做三转女人:围着锅台转、围着先生转、围着孩子转。要有四立:思想独立、能力独力、交通独立、经济独立有气质的女人总会千种风情。',
 '除皱针有两种类型注射除皱术有两种类型：一是打算有永久性效果的，另一是让注射进入皮肤的物质最终被皮肤吸收，而每过6个月需重复注射一次。肉毒素除皱是通过松弛皮下的肌肉以达到除皱的目的，为“面部填充”式除皱术。所有永久性填充剂都会在皮肤里形成鼓包和变形

In [54]:
test_words_list1

['【L丰胸——安全的丰胸手术】华美L美胸非常安全，5大理由：①丰胸手术在世界上已有超过100年的历史;②假体硅胶有40多年的安全使用史;③每年都有超过600万女性接受丰胸手术;④不损伤乳腺组织，不影响哺乳;⑤华美美莱率先发布中国首部《整形美容安全消费白皮书》，维护社会大众整形美容消费利益。\t\t\t\t$LOTOzf$',
 '【穿高跟鞋不磨脚小方法】1.用热毛巾在磨脚的部位捂几分钟,再拿块干的软毛巾垫着,用锤子把鞋子磨脚的地方敲平整就可以啦；2.把报纸捏成团沾点水,不要太湿,但要整团都沾到水,再拿张干的报纸裹住湿的报纸,塞在挤脚部位,用塑料袋密封一夜；3.穿鞋之前,拿香皂(蜡烛亦可)在磨脚位置薄薄的涂上一层。\t\t\t\t$LOTOzf$',
 '要在有限的空间里实现最大的价值，布上网线、音频线、高清线、投影线、电源线、闭路线等一切能够想到的线；在32㎡里放一套沙发和预留5-6个人的办公环境；5㎡里做一个小卧室；在6㎡里装一个袖珍厨房和一个厕所；还要在2米*5米的阳台上做一个小花园；除阳台外套内只有43㎡的房子要怎么做才能合理利用？$LOTOzf$',
 '【女人命好的几点特征】 1.圆脸(对人际关系及财运都有加分)；2.下巴丰满（可能会拥有两栋以上的房产）；3.臀大(代表有财运)；4.腿不能细（腿长脚瘦，奔走不停，辛苦之相也）；5.小腹有脂肪(状是一种福寿之相)。$LOTOzf$',
 '中央经济工作会议12月12日至14日在北京举行，很引人瞩目的一个新的提法是，要提高中等收入者比重，但是股市却把“中等收入者”一批又一批地变成了“低收入人群”！$LOTOzf$',
 '今日运程 巨蟹座 CANCER 4颗星: Take your time. Becoming flustered or causing a fuss will only disappoint someone you want to impress. 不要着急，慢慢来。惊慌失措或大惊小怪只会让那个你试图打动的人对你失望。详见B14版。$LOTOzf$',
 '完美胸型的标准：女性乳房是集哺乳功能、性感功能及特有的女性美象征为一体的器官。女性乳房“美”的功能已渐被人们高度重视，乳房的健美标准包括乳房形态，乳房皮肤质地及乳头形态等多方面的因素。做为现代女性更应对自身乳房加深了解认识。懂得乳房美的重要

In [55]:
train_labels1

['女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',
 '女性',

In [56]:
stop_words

[',',
 '?',
 '、',
 '。',
 '“',
 '”',
 '《',
 '》',
 '！',
 '，',
 '：',
 '；',
 '？',
 '人民',
 '#',
 '###',
 '啊',
 '阿',
 '哎',
 '哎呀',
 '哎哟',
 '唉',
 '俺',
 '俺们',
 '按',
 '按照',
 '吧',
 '吧哒',
 '把',
 '罢了',
 '被',
 '本',
 '本着',
 '比',
 '比方',
 '比如',
 '鄙人',
 '彼',
 '彼此',
 '边',
 '别',
 '别的',
 '别说',
 '并',
 '并且',
 '不比',
 '不成',
 '不单',
 '不但',
 '不独',
 '不管',
 '不光',
 '不过',
 '不仅',
 '不拘',
 '不论',
 '不怕',
 '不然',
 '不如',
 '不特',
 '不惟',
 '不问',
 '不只',
 '朝',
 '朝着',
 '趁',
 '趁着',
 '乘',
 '冲',
 '除',
 '除此之外',
 '除非',
 '除了',
 '此',
 '此间',
 '此外',
 '从',
 '从而',
 '打',
 '待',
 '但',
 '但是',
 '当',
 '当着',
 '到',
 '得',
 '的',
 '的话',
 '等',
 '等等',
 '地',
 '第',
 '叮咚',
 '对',
 '对于',
 '多',
 '多少',
 '而',
 '而况',
 '而且',
 '而是',
 '而外',
 '而言',
 '而已',
 '尔后',
 '反过来',
 '反过来说',
 '反之',
 '非但',
 '非徒',
 '否则',
 '嘎',
 '嘎登',
 '该',
 '赶',
 '个',
 '各',
 '各个',
 '各位',
 '各种',
 '各自',
 '给',
 '根据',
 '跟',
 '故',
 '故此',
 '固然',
 '关于',
 '管',
 '归',
 '果然',
 '果真',
 '过',
 '哈',
 '哈哈',
 '呵',
 '和',
 '何',
 '何处',
 '何况',
 '何时',
 '嘿',
 '哼',
 '哼唷',
 '呼哧',
 '乎',
 '哗',
 '还是',
 '还有',
 '换句话说',
 '换言之',
 '