<a href="https://colab.research.google.com/github/MasahiroAraki/MLCourse/blob/master/04_statistical.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 4. 識別 ー統計的手法ー

例：ゴルフデータでナイーブベイズ識別を行います。

In [1]:
import numpy as np
import pandas as pd
import io
from sklearn import preprocessing
from sklearn.naive_bayes import CategoricalNB

ゴルフデータをpandasのデータフレーム形式で読み込みます。

In [2]:
weather_nominal = '''
outlook,temperature,humidity,windy,play
sunny,hot,high,FALSE,no
sunny,hot,high,TRUE,no
overcast,hot,high,FALSE,yes
rainy,mild,high,FALSE,yes
rainy,cool,normal,FALSE,yes
rainy,cool,normal,TRUE,no
overcast,cool,normal,TRUE,yes
sunny,mild,high,FALSE,no
sunny,cool,normal,FALSE,yes
rainy,mild,normal,FALSE,yes
sunny,mild,normal,TRUE,yes
overcast,mild,high,TRUE,yes
overcast,hot,normal,FALSE,yes
rainy,mild,high,TRUE,no
'''

In [3]:
df = pd.read_csv(io.StringIO(weather_nominal), sep=',')
print ("dataset: \n", df)

dataset: 
      outlook temperature humidity  windy play
0      sunny         hot     high  False   no
1      sunny         hot     high   True   no
2   overcast         hot     high  False  yes
3      rainy        mild     high  False  yes
4      rainy        cool   normal  False  yes
5      rainy        cool   normal   True   no
6   overcast        cool   normal   True  yes
7      sunny        mild     high  False   no
8      sunny        cool   normal  False  yes
9      rainy        mild   normal  False  yes
10     sunny        mild   normal   True  yes
11  overcast        mild     high   True  yes
12  overcast         hot   normal  False  yes
13     rainy        mild     high   True   no


scikit-learnのデータセット形式であるndarrayとして、パターン行列Xと正解yを取り出します。  

In [4]:
X = df.values[:,0:4]
y = df.values[:,-1]

特徴はOrdinalEncoderで数値ベクトルに変換します。
OrdinalEncoderはカテゴリ特徴を整数に置き換えます。

In [5]:
enc = preprocessing.OrdinalEncoder()
X_en = enc.fit_transform(X)

In [6]:
enc.categories_

[array(['overcast', 'rainy', 'sunny'], dtype=object),
 array(['cool', 'hot', 'mild'], dtype=object),
 array(['high', 'normal'], dtype=object),
 array([False, True], dtype=object)]

In [7]:
X_en

array([[2., 1., 0., 0.],
       [2., 1., 0., 1.],
       [0., 1., 0., 0.],
       [1., 2., 0., 0.],
       [1., 0., 1., 0.],
       [1., 0., 1., 1.],
       [0., 0., 1., 1.],
       [2., 2., 0., 0.],
       [2., 0., 1., 0.],
       [1., 2., 1., 0.],
       [2., 2., 1., 1.],
       [0., 2., 0., 1.],
       [0., 1., 1., 0.],
       [1., 2., 0., 1.]])

正解は、LabelEncoderでyesとnoをそれぞれ1と0に置き換えます。

In [8]:
le = preprocessing.LabelEncoder()
y_en = le.fit_transform(y)

In [9]:
le.classes_

array(['no', 'yes'], dtype=object)

In [10]:
y_en

array([0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0])

ナイーブベイズ識別器の学習を行います。デフォルトでラプラス推定を行っています。

In [11]:
clf = CategoricalNB()
clf.fit(X_en, y_en)

CategoricalNB(alpha=1.0, class_prior=None, fit_prior=True)

学習した統計モデルの中身を見ます。各次元の情報が一つの行列で表されて、行方向がクラス、列方向が特徴の値です。データセット中の頻度が単純にカウントされているだけで、スムージングの情報は入っていません。

In [12]:
clf.category_count_

[array([[0., 2., 3.],
        [4., 3., 2.]]),
 array([[1., 2., 2.],
        [3., 2., 4.]]),
 array([[4., 1.],
        [3., 6.]]),
 array([[2., 3.],
        [6., 3.]])]

(sunny, hot, high, FALSE)の判定結果を出力します。

In [13]:
clf.predict_proba(enc.transform([['sunny', 'hot', 'high', False]]))

array([[0.68796907, 0.31203093]])

教科書p.68の結果と少し数値が異なるのは、scikit-learnでは事前確率のスムージングを行っていないからです。下記計算で確認してください。

In [14]:
p=(3/12)*(3/12)*(4/11)*(7/11)*(9/14)
n=(4/8)*(3/8)*(5/7)*(3/7)*(5/14)
p/(p+n)

0.312030930179668

課題：スムージングを行わない方法でナイーブベイズ識別器の学習を行い、特定の入力データに対する確率を求め、その確率計算が正しいことを検算してください。

## 参考

* Naive Bayes https://scikit-learn.org/stable/modules/naive_bayes.html