In [1]:
import mglearn
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# ナイーブベイズクラス分類器

ロジスティック回帰、線形SVCに似たクラス分類器<br>
<b>訓練が線形モデルよりもさらに高速</b><br>
この速度の大小として汎化性能はロジスティック回帰、線形SVCよりも性能はわずかに劣ることが多い<br>
### なぜ訓練が早いのか
クラスに対する統計値をここの特徴量ごとに集めてパラメタを学習するから<br>
<br>
1. scikit-learnには3種類のナイーブベイズクラス分類器が存在する。<br>
     1. GaussianNB   → 任意の連続値データを想定
     1. BernoulliNB  → 2値データを想定
     1. MultinomialNB→ カウントデータを想定<br>
カウントデータとは例えば文中に出てくる単語の出現数などの個々の特徴量が何らかの整数カウントを表現しているデータである。<br>
BernoulliNB、multinomialNBはほとんどの場合データのクラス分類に用いられる。<br><br>
BernoulliNBクラス分類器は個々のクラスに対して、特徴量ごとに非ゼロである場合はカウントする。

In [6]:
#クラスごとに非ゼロの値をカウント
X= np.array([[0,1,0,1],
             [1,0,1,1],
             [0,0,0,1],
             [1,0,1,0]])
y=np.array([0,1,0,1])

counts = {}
for label in np.unique(y):
    print(X[y==label])
    counts[label] = X[y==label].sum(axis=0)
print("Feature counts\n {}".format(counts))

[[0 1 0 1]
 [0 0 0 1]]
[[1 0 1 1]
 [1 0 1 0]]
Feature counts
 {0: array([0, 1, 0, 2]), 1: array([2, 0, 2, 1])}


残りの2つのナイーブベイズモデル、MultinomialNBとGaussianNBは計算する統計量が若干異なる。<br>
MultinomialNBではクラスごと、個々の特徴量の平均値を考慮に入れる。<br>
GaussianNBでは平均値だけでなく標準偏差も格納する<br>
予想の際には個々のクラスの統計量とデータポイントが比較され、最もよく適合したクラスが採用される<br>
MultinomialNBやBernoulliNBでは線形モデルの場合と同じカタチの予測式となる。<br>
ナイーブベイズモデルのcoef_は線形モデルの場合と若干意味が異なる。ナイーブベイズモデルのcoef_はωと同じでない

# 利点、欠点、パラメタ

MultinomialNBとBernoulliNBにはパラメタが1つだけある。<br>
<b>モデルの複雑さを制御するalphaである。</b><br>
アルゴリズムはすべての特徴量に対して正の値を持つ仮想的なデータポイントがalphaの大きさに応じた量だけ追加されたかのように振る舞う<br>
alphaが大きくなるとスムーズになり、モデルの複雑さは減少する。<br>
alphaの値がアルゴリズムの性能に致命的な違いをもたらすことはないが、この値を調整することでいくらか精度を上げることができる。<br>
GaussianNBは多くの場合、高次元データに用いられるが、他の２つはテキストのような疎なカウントデータに用いられる。<br>
一般にMultinomialNBのほうがBernoulliNBよりも若干性能が良いが疎なデータの場合はMultinomialNBのほうが有効<br>