## 朴素贝叶斯
### 拉普拉斯平滑系数

In [7]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_20newsgroups

def nbcls():
    """
    朴素贝叶斯对新闻数据集进行预测
    :return:
    """
    # 获取新闻的数据，20个类别
    news = fetch_20newsgroups(subset='all')

    # 进行数据集分割
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.3)

    # 对于文本数据，进行特征抽取
    tf = TfidfVectorizer()

    x_train = tf.fit_transform(x_train)
    # 这里打印出来的列表是：训练集当中的所有不同词的组成的一个列表
    print(tf.get_feature_names())
    # print(x_train.toarray())

    # 不能调用fit_transform
    x_test = tf.transform(x_test)

    # estimator估计器流程
    mlb = MultinomialNB(alpha=1.0)

    mlb.fit(x_train, y_train)

    # 进行预测
    y_predict = mlb.predict(x_test)

    print("预测每篇文章的类别：", y_predict[:100])
    print("真实类别为：", y_test[:100])

    print("预测准确率为：", mlb.score(x_test, y_test))

    return None

In [8]:
nbcls()



预测每篇文章的类别： [13 17 18 11 11 10  4 16 18 15  9 17 16 13 17  3 18 10  8 13  4  2  8  1
  2  1 15 10 19 11  0  9  8 18 14 13  5  4 11  3  2  4 18 17 14 13  2  1
  9  6  0 15 13 13 15  7  2  3 11  2  2 19  3  3  8 15  2 14 16  5  3  4
  3 14  9 15 13  0 15 14 14  1  6 15 10  6 16 16  7 10  7  7  8 11 15  2
 12 10  3  1]
真实类别为： [13 18 18 11  1 10  4 16 18  0  9 17 16 13 17  2 18 10  8 13  1  2  8  1
  2  1  0 10 19 17 19 18  8 18 14 13  5  4 11  3  2  4 18 17  6 13  2  1
  9  6  0 15 13 13  3  7  2  3 11  2  3 19  3  3  8 19  2 14 16  5  3  4
  3 14  9 15 13  0 19 14 12  1  6  2 10  6 16 16  7 10  7  7  8 11  0  2
 12 10  3  1]
预测准确率为： 0.8454191722674212
