# 単純ベイズ(Naive Bayes)

## 単純ベイズとは<a name="description"></a>

- 特徴の分布から、クラスを推測するモデル
- 文書分類や迷惑メールフィルタで使用される
- 特徴の分布によっていくつかの実装がある

## 多項分布(Multinomial Naive Bayes)<a name="multinomial"></a>

- 特徴が多項分布に従う場合に用いる
- 文書分類や迷惑メールフィルタに用いる場合、その文書中の各単語の出現頻度が特徴とされることが多いが、TF-IDFのような指標でも良い

### 使用例<a name="multinomial_example"></a>

#### データ準備<a name="multinomial_data"></a>

In [None]:
from sklearn.datasets import fetch_20newsgroups

remove = ('headers', 'footers', 'quotes')

data_train = fetch_20newsgroups(subset='train', shuffle=True, random_state=0, remove=remove)
data_test = fetch_20newsgroups(subset='test', shuffle=True, random_state=0, remove=remove)

print(data_train.data[0])

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words='english', max_features=2 ** 16)
X_train = vectorizer.fit_transform(data_train.data)
X_test = vectorizer.transform(data_test.data)
y_train = data_train.target
y_test = data_test.target

X_train.shape

In [None]:
print(X_train[0])

#### 学習<a name="multinomial_training"></a>

In [None]:
from sklearn.naive_bayes import MultinomialNB

multinomial_clf = MultinomialNB()
multinomial_clf.fit(X_train, y_train)

#### パフォーマンス確認<a name="multinomial_test"></a>

In [None]:
from sklearn.metrics import accuracy_score

pred = multinomial_clf.predict(X_test)
print('accuracy: {acc:.3f}'.format(acc=accuracy_score(y_test, pred)))

## ベルヌーイ分布(Bernoulli Naive Bayes)<a name="bernoulli"></a>

特徴が2値・真偽値の場合に用いる

### 使用例<a name="bernoulli_example"></a>

#### データ準備<a name="bernoulli_data"></a>

In [None]:
vectorizer = CountVectorizer(stop_words='english', max_features=2 ** 16, binary=True)
X_train = vectorizer.fit_transform(data_train.data)
X_test = vectorizer.transform(data_test.data)
y_train = data_train.target
y_test = data_test.target

X_train.shape

In [None]:
print(X_train[0])

#### 学習<a name="bernoulli_training"></a>

In [None]:
from sklearn.naive_bayes import BernoulliNB

bernoulli_clf = BernoulliNB()
bernoulli_clf.fit(X_train, y_train)

#### パフォーマンス確認<a name="bernoulli_test"></a>

In [None]:
pred = bernoulli_clf.predict(X_test)
print('accuracy: {acc:.3f}'.format(acc=accuracy_score(y_test, pred)))

## 正規分布(Gaussian Naive Bayes)<a name="gaussian"></a>

上記の他にも特徴が正規分布に従う連続値をとる場合に用いるGaussianNBがあるが省略。