# 朴素贝叶斯案例流程

    1.加载２０类新闻数据，并进行分割
    2.生成文章特征词
    3.朴素贝叶斯estimator流程进行预估

In [3]:
from sklearn.datasets import fetch_20newsgroups  #获取20类新闻的数据 
from sklearn.model_selection import train_test_split #分割训练集和测试集
from sklearn.preprocessing import StandardScaler #特征缩放
from sklearn.feature_extraction.text import TfidfVectorizer #特征抽取
from sklearn.naive_bayes import MultinomialNB #朴素贝叶斯算法
import pandas as pd

In [4]:
def naviebayes():
    """
    朴素贝叶斯进行文本分类
    """
    news = fetch_20newsgroups(subset='all')
    
    #1.进行数据分割
    x_train,x_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25)
    
    #2.对数据集进行特征抽取
    tf = TfidfVectorizer()
    #2.1 以训练集当中的词的列表进行每篇文章重要性统计　['a','b','c','d']
    x_train = tf.fit_transform(x_train)
    print('特征值：',tf.get_feature_names())
    x_test = tf.transform(x_test)
    
    #3.进行朴素贝叶斯算法预测
    mlt = MultinomialNB(alpha=1.0)
    print('训练集：',x_train)
    mlt.fit(x_train,y_train)
    y_predict = mlt.predict(x_test)
    print('预测的文章类别：',y_predict)
    #4.得出准确率
    print('准确率为：',mlt.score(x_test,y_test))
    
    return None

naviebayes()

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)




训练集：   (0, 55251)	0.0266083182139666
  (0, 143556)	0.022156912470961257
  (0, 65242)	0.023659281187478818
  (0, 59643)	0.03564019386257595
  (0, 64074)	0.05722619181913944
  (0, 79275)	0.03992962070905167
  (0, 109057)	0.015542159463124488
  (0, 100901)	0.01023084229224811
  (0, 131874)	0.02788753887336128
  (0, 41616)	0.031886948291397446
  (0, 132659)	0.020147199034885654
  (0, 131477)	0.012702536020023908
  (0, 59851)	0.017861415965996875
  (0, 34906)	0.02149270584981691
  (0, 113252)	0.015590881754838037
  (0, 33383)	0.019803372676497746
  (0, 54666)	0.016878145222592723
  (0, 143510)	0.013525649780197565
  (0, 106694)	0.023565181233869033
  (0, 110360)	0.03223772109384152
  (0, 65845)	0.041611150800879536
  (0, 71457)	0.019682163293723114
  (0, 61905)	0.029516759028999393
  (0, 55636)	0.041611150800879536
  (0, 114336)	0.04051579922453472
  :	:
  (14133, 37820)	0.05441506661747803
  (14133, 65133)	0.015157208358956946
  (14133, 38199)	0.036464082820686215
  (14133, 132567)	0.05115

# 朴素贝叶斯算法特点

    * 优点
        * 朴素贝斯模型发源于古典数学理论，有稳定的分类效率
        * 对缺失数据不太敏感，算法也比较简单，常用于文本分类
        * 分类准确度高，速度快
    * 缺点
        * 由于使用样本属性独立性的假设，所以如果样本属性有关联时，其效果不好
            ×　假设了文章当中一些词语另外一些是独立没关系的　　不太靠谱
            ×　训练集当中去进行统计词这些工作　　　　　　会对结果造成干扰