# ナイーブベイズ分類

```
Part 1: 数学的な準備
Part 2: ベイズの定理
Part 3: ナイーブベイズの紹介
Part 4: 数学的な背景
Part 5: 確率を使った分類
Part 6: Gaussian Naive Bayes
Part 7: Scikit Learnを使ったGaussian Naive Bayes
```

-----
## Part 1: 数学的な準備、Part 2: ベイズの定理

省略。

-----
## Part 3: ナイーブベイズの紹介

ナイーブベイズ（Naive Bayes）は、スパムメールの分類などに実際に利用されている機械学習アルゴリズム。

-----
## Part 4: 数学的な背景

yが目的変数、説明変数が x<sub>1</sub> から x<sub>n</sub> まであるとする。
ベイズの定理を使うと、与えられた説明変数を元に、そのサンプルがどのクラスに属するかの確率を次のような式で計算できる。

$$P(y \mid x_1, \dots, x_n) = \frac{P(y) P(x_1, \dots x_n \mid y)}
                                 {P(x_1, \dots, x_n)}$$
                                 
ナイーブベイズのナイーブは、各説明変数が互いに独立であるという仮定から来ている。
$$P(x_i | y, x_1, \dots, x_{i-1}, x_{i+1}, \dots, x_n) = P(x_i | y)$$

この仮定のもとでは、すべての i について、式を次のように変形できる。

$$P(y \mid x_1, \dots, x_n) = \frac{P(y) \prod_{i=1}^{n} P(x_i \mid y)}
                                 {P(x_1, \dots, x_n)}$$
                               
それぞれの変数について、クラスごとの確率を求めればよいので、計算が楽になる。

-----
## Part 5: 確率を使った分類

ナイーブベイズではそれぞれのクラスに属する確率が計算されるので、
最終的にはそのサンプルを、確率が最も大きいクラスに分類する。ここで、arg maxの記号が出てくる。

P(x<sub>1</sub>, ..., x<sub>n</sub>) は手元のデータセットに関しては一定の値なので、無視できる。

$$P(y \mid x_1, \dots, x_n) \propto P(y) \prod_{i=1}^{n} P(x_i \mid y)$$

最終的には、もっとも大きな確率が割り当たるクラスに、サンプルを分類する。

$$\hat{y} = \arg\max_y P(y) \prod_{i=1}^{n} P(x_i \mid y),$$

-----
## Part 6: Gaussian Naive Bayes

説明変数が連続値の場合、これを正規分布に従うものとしてモデル化すると、モデルの構築や計算が楽に。サンプルデータのアヤメのデータも連続値ですので、後ほどの、Gaussian Naive Bayesを利用する。

$$p(x=v|c)=\frac{1}{\sqrt{2\pi\sigma^2_c}}\,e^{ -\frac{(v-\mu_c)^2}{2\sigma^2_c} }$$

-----
## Part 7: Scikit learnを使ったGaussian Naive Bayes

In [3]:
import pandas as pd
from pandas import Series,DataFrame

import matplotlib.pyplot as plt
import seaborn as sns

# Gaussian Naive Bayes のためのコード
from sklearn import datasets
from sklearn import metrics
from sklearn.naive_bayes import GaussianNB

In [4]:
# またirisデータを使う
iris = datasets.load_iris()

X = iris.data

Y = iris.target

In [5]:
# インスタンス作成
model = GaussianNB()

In [6]:
# データをテスト用とトレーニング用に分割
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

In [7]:
# あてはめ
model.fit(X_train,Y_train)

GaussianNB()

In [8]:
# 予測の精度を比較
predicted = model.predict(X_test)
expected = Y_test
print(metrics.accuracy_score(expected, predicted))

1.0
