# Naive Bayes Classifier
朴素贝叶斯分类器是与上一节介绍的线性模型非常相似的一种分类器，但它的训练速度往
往更快。这种高效率所付出的代价是，朴素贝叶斯模型的泛化能力要比线性分类器（如
LogisticRegression和LinearSVC）稍差。

朴素贝叶斯模型如此高效的原因在于，它通过单独查看每个特征来学习参数，并从每
个特征中收集简单的类别统计数据。

scikit-learn中实现了三种朴素贝叶斯分类器：GaussianNB、BernoulliNB和MultinomialNB。

GaussianNB可应用于任意连续数据，而
BernoulliNB假定输入数据为二分类数据，
MultinomialNB假定输入数据为计数数据（即每个特征代表某个对象的整数计数，比如一个单词在句子里出现的次数）。

BernoulliNB和
MultinomialNB主要用于文本数据分类。

BernoulliNB分类器计算每个类别中每个特征不为0的元素个数。用一个例子来说明会很
容易理解：
## BernoulliNB分类器

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [3]:
X = np.array([[0, 1, 0, 1], 
              [1, 0, 1, 1], 
              [0, 0, 0, 1], 
              [1, 0, 1, 0]]) 
y = np.array([0, 1, 0, 1])


这里我们有4个数据点，每个点有4个二分类特征。一共有两个类别：0和1。对于类别0
（第1、3个数据点），第一个特征有2个为零、0个不为零，第二个特征有1个为零、1个
不为零，以此类推。然后对类别1中的数据点计算相同的计数。计算每个类别中的非零元
素个数，大体上看起来像这样

In [4]:
counts = {} 
for label in np.unique(y): 
    # 对每个类别进行遍历 
    # 计算（求和）每个特征中1的个数 
    counts[label] = X[y == label].sum(axis=0) 
print("Feature counts:\n{}".format(counts))

Feature counts:
{np.int64(0): array([0, 1, 0, 2]), np.int64(1): array([2, 0, 2, 1])}


解释一下：

类别1（也就是第一行和第三行），是特征0

返回的[0,1,0,2] 就是两行相加的结果，同时也是“类别0中每个特征的1的个数”

所以特征0中有 0 个1，特征1中有 1 个1，特征2中有 0 个1，特征3中有 2 个1

就是这个意思，很聪明吧


# Decision Tree
决策树是广泛用于分类和回归任务的模型。本质上，它从一层层的if/else问题中进行学
习，并得出结论

这些问题类似于你在“20 Questions”游戏9中可能会问的问题。
如图所示

In [5]:
mglearn.plots.plot_animal_tree()

NameError: name 'mglearn' is not defined