# ナイーブベイズクラス分類器

- 特徴

```
線形モデルに似たクラス分類器．
訓練が線形モデルよりも高速．
速度の代償として，汎化機能ではLogisticRegression, LinearSVCよりも僅かに劣る．

高速で学習出来る理由として，クラスに対する統計値をここの特徴量ごとに集めてパラメータを学習するからである．
```

- 種類
    - GaussianNB: 任意の連続値
    - BernoulliNB: 二値データ
    - MultinomialNB: カウントデータ

In [1]:
import numpy as np

X = np.array([[0, 1, 0, 1],
                        [1, 0, 1, 1],
                        [0, 0, 0, 1],
                        [1, 0, 1, 0]])

y = np.array([0, 1, 0, 1])

In [2]:
counts = {}
for label in np.unique(y):
    counts[label] = X[y == label].sum(axis=0)
print("Feature counts:\n{}".format(counts))

Feature counts:
{0: array([0, 1, 0, 2]), 1: array([2, 0, 2, 1])}


# GaussianNB

In [5]:
import mglearn
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
%matplotlib inline

In [37]:
from sklearn import datasets
iris = datasets.load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=42)
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB().fit(X_train, y_train)
gnb.score(X_test, y_test)

1.0

### ナイーブベイズの利点, 欠点, パラメータ

- パラメータ

```
alpha: モデルの複雑さを制御する．
alphaが大きいとスムーズになり，モデルの複雑さが減少する．

GaussianNBは高次元データ，他の二つはテキストのようなカウントデータに対して用いられる．
MultinomialNBよりBernoulliNBの方が若干性能がいいが，非ゼロ特徴量(大きなドキュメント)にはMultinomialNBが有効
```