-　ナイーブベイズは線形モデルによく似たクラス分類器の一つ
- 訓練が線形モデルよりもさらに高速なのが特徴
- 訓練測度の代償として、ナイーブベイズモデルの汎化性能はLogisticRegressionやLinearSVCよりも僅かに劣る場合が多い
- ナイーブベイズば高速なのは、クラスに対する統計値を個々の特徴量ごとに集めて、パラメタを学習するから

###  scit-learnにあるナイーブベイズの分類器
- GaussianNB
    - 任意の連続値データに適用できる
- BernoulliNB
    - 2値データを仮定している
- MultinomiaNB
    - カウントデータを仮定している
        - カウントデータとは例えば文中にでてくる単語の出現数などのここの特徴量が何らかの整数カウントを表現しているデータのこと
- BernoulliNBやMultinomialNBはほとんどの場合データのクラス分類に用いられる
- BernoulliNBクラス分類器は個々のクラスに対して、特徴量ごとに非ゼロである場合をカウントする

In [1]:
import numpy as np

In [8]:
# 4つの2値特徴量を持つ4つのデータポイント
# 2つのクラス「0」と「1」がある
X = np.array([
    [0, 1, 0, 1],
    [1, 0, 1, 0],
    [0, 0, 0, 1],
    [0, 1, 0, 1],
])
y = np.array([0, 1, 0, 1])

counts = {}
for label in np.unique(y):
    # クラスに対してループ
    # それぞれの特徴量ごとに非ゼロの数を(加算で)数える
    counts[label] = X[y == label].sum(axis=0)
print("Feature counts:\n{}".format(counts))

0
[ True False  True False]
[[0 1 0 1]
 [0 0 0 1]]
1
[False  True False  True]
[[1 0 1 0]
 [0 1 0 1]]
Feature counts:
{0: array([0, 1, 0, 2]), 1: array([1, 1, 1, 1])}


### 利点、欠点、パラメタ
- MultinomiaNBとBernoulliNBにはパラメタが一つだけある
    - モデルの複雑さを制御するalpha
    - alphaが大きくなるとスムーズになりモデルの複雑さは減少する
    - アルゴリズムの性能はalphaの値に対して比較的頑健である
        - alphaの値がアルゴリズムの性能に致命的な違いをもたらすことはない
        - 多くの場合この値を調整することでいくらか精度を上げることができる
- GaussianNBは多くの場合、高次元データに対して用いられるが、他の2つはテキストのような疎なカウントデータに対して用いられる
- 一般的にMultinomiaNBのほうがBernoulliNBよりも若干性能がよいが、特に比較的多数の非ゼロ特徴量がある場合にはMultinomiaNBが有効である
- ナイーブベイズモデルの利点と欠点の多くは線形モデルと共通する
- 訓練も予想も非常に高速で、訓練の過程も理解しやすい
- 高次元の疎なデータに対しても上手く機能するしパラメタの設定に対しても比較的頑健である
- ナイーブベイズモデルは線形モデルですら時間がかかりすぎるような大規模データセットに対するベースラインモデルとして非常に有用である