# ナイーブベイズ分類

    Part 1: 数学的な準備
    Part 2: ベイズの定理
    Part 3: ナイーブベイズの紹介
    Part 4: 数学的な背景
    Part 5: 確率を使った分類
    Part 6: Gaussian Naive Bayes
    Part 7: Scikit Learnを使ったGaussian Naive Bayes

#### Part 1: 数学的な準備

まずは足し算で使われるΣの、かけ算バージョン、Πについてです。

 $$\prod_{i=1}^4 i = 1\cdot 2\cdot 3\cdot 4,  $$
これは連続的なかけ算を意味するので、
 $$\prod_{i=1}^4 i = 24. $$
 
[Arg Max](https://ja.wikipedia.org/wiki/Arg_max)

与えられた関数を最大にする入力（定義域）を次のような記号で書くことがあります。

$$\operatorname*{arg\,max}_x  f(x) := \{x \mid \forall y : f(y) \le f(x)\}$$

例えば、$f(x)$が $1−|x|$ なら、この関数を最大にするxは0になります。

$$\operatorname*{arg\,max}_x (1-|x|) = \{0\}$$



### Part 2: ベイズの定理

統計に関して解説した付録のなかに、ベイズの定理を紹介したレクチャーがありますので、そちらを先にご覧ください。

### Part 3: ナイーブベイズの紹介

ナイーブベイズ（Naive Bayes）は、スパムメールの分類などに実際に利用されている機械学習アルゴリズムです(と、昔はよく言われていましたが、2010年代後半あたりからあまり聞かなくなりました。)。その背景を完全に理解するには、数学的な記述が欠かせません。ここでは、細かいところを省略しながら、その本質をご紹介します。

### Part 4: 数学的な背景

yが目的変数、説明変数が x<sub>1</sub> から x<sub>n</sub> まであるとします。ベイズの定理を使うと、与えられた説明変数を元に、そのサンプルがどのクラスに属するかの確率を次のような式で計算できます。

$$P(y \mid x_1, \dots, x_n) = \frac{P(y) P(x_1, \dots x_n \mid y)}
                                 {P(x_1, \dots, x_n)}$$
                                 
ナイーブベイズのナイーブは、各説明変数が互いに独立であるという仮定から来ています。日本語では単純ベイズと言われます。
$$P(x_i | y, x_1, \dots, x_{i-1}, x_{i+1}, \dots, x_n) = P(x_i | y)$$

この仮定のもとでは、すべての i について、式を次のように変形できます。

$$P(y \mid x_1, \dots, x_n) = \frac{P(y) \prod_{i=1}^{n} P(x_i \mid y)}
                                 {P(x_1, \dots, x_n)}$$
                               
それぞれの変数について、クラスごとの確率を求めればよいので、計算が楽になります。

### Part 5: 確率を使った分類

ナイーブベイズでは、それぞれのクラスに属する確率が計算されるので、最終的には、そのサンプルを、確率が最も大きいクラスに分類します。ここで、arg maxの記号が出てくる分けです。

P(x<sub>1</sub>, ..., x<sub>n</sub>) は手元のデータセットに関しては一定の値なので、無視できます。

$$P(y \mid x_1, \dots, x_n) \propto P(y) \prod_{i=1}^{n} P(x_i \mid y)$$

最終的には、もっとも大きな確率が割り当たるクラスに、サンプルを分類します。

$$\hat{y} = \arg\max_y P(y) \prod_{i=1}^{n} P(x_i \mid y),$$

### Part 6: Gaussian Naive Bayes

説明変数が連続値の場合、これを正規分布に従うものとしてモデル化すると、モデルの構築や計算が楽です。サンプルデータのアヤメのデータも連続値ですので、後ほどの、Gaussian Naive Bayesを利用します。

$$p(x=v|c)=\frac{1}{\sqrt{2\pi\sigma^2_c}}\,e^{ -\frac{(v-\mu_c)^2}{2\sigma^2_c} }$$


### Part 7: Scikit learnを使ったGaussian Naive Bayes

In [13]:
import pandas as pd
from pandas import Series, DataFrame

import matplotlib.pyplot as plt
import seaborn as sns

# Gaussian Naive Bayes のためのコード
from sklearn import datasets
from sklearn import metrics
from sklearn.naive_bayes import GaussianNB

In [14]:
iris = datasets.load_iris()

X = iris.data

y = iris.target

print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [15]:
# まずは、インスタンスを作るところから
model = GaussianNB()

In [16]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [17]:
model.fit(X_train, y_train)

In [18]:
# 予測の精度を比較してみましょう。
predicted = model.predict(X_test)

In [19]:
predicted

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 1])

In [20]:
model.predict_proba(X_test)

array([[2.05841140e-233, 1.23816844e-006, 9.99998762e-001],
       [1.76139943e-084, 9.99998414e-001, 1.58647449e-006],
       [1.00000000e+000, 1.48308613e-018, 1.73234612e-027],
       [6.96767669e-312, 5.33743814e-007, 9.99999466e-001],
       [1.00000000e+000, 9.33944060e-017, 1.22124682e-026],
       [4.94065646e-324, 6.57075840e-011, 1.00000000e+000],
       [1.00000000e+000, 1.05531886e-016, 1.55777574e-026],
       [2.45560284e-149, 7.80950359e-001, 2.19049641e-001],
       [4.01160627e-153, 9.10103555e-001, 8.98964447e-002],
       [1.46667004e-094, 9.99887821e-001, 1.12179234e-004],
       [5.29999917e-215, 4.59787449e-001, 5.40212551e-001],
       [4.93479766e-134, 9.46482991e-001, 5.35170089e-002],
       [5.23735688e-135, 9.98906155e-001, 1.09384481e-003],
       [4.97057521e-142, 9.50340361e-001, 4.96596389e-002],
       [9.11315109e-143, 9.87982897e-001, 1.20171030e-002],
       [1.00000000e+000, 7.81797826e-019, 1.29694954e-028],
       [3.86310964e-133, 9.87665084e-001

In [21]:
print(metrics.accuracy_score(y_test, predicted))

1.0


### Part 8: 参考資料

ナイーブベイズに関する資料です。Web上には沢山の資料がありますので、ぜひ検索してみてください。

1. [SciKit Learn Documentation](http://scikit-learn.org/stable/modules/naive_bayes.html)

1. [Wikipedia Naive Bayes（日本語）](https://ja.wikipedia.org/wiki/%E5%8D%98%E7%B4%94%E3%83%99%E3%82%A4%E3%82%BA%E5%88%86%E9%A1%9E%E5%99%A8)