In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

import matplotlib.pyplot as plt

%matplotlib inline 

# 0. データセットの読み込み

In [2]:
HR_DATASET_PATH = '../datasets/HR_comma_sep.csv'
hr_df = pd.read_csv(HR_DATASET_PATH)
hr_df.head()

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,left,promotion_last_5years,sales,salary
0,0.38,0.53,2,157,3,0,1,0,sales,low
1,0.8,0.86,5,262,6,0,1,0,sales,medium
2,0.11,0.88,7,272,4,0,1,0,sales,medium
3,0.72,0.87,5,223,5,0,1,0,sales,low
4,0.37,0.52,2,159,3,0,1,0,sales,low


In [3]:
print(hr_df.shape)
print(hr_df.columns)
print(hr_df.isnull().any())

(14999, 10)
Index(['satisfaction_level', 'last_evaluation', 'number_project',
       'average_montly_hours', 'time_spend_company', 'Work_accident', 'left',
       'promotion_last_5years', 'sales', 'salary'],
      dtype='object')
satisfaction_level       False
last_evaluation          False
number_project           False
average_montly_hours     False
time_spend_company       False
Work_accident            False
left                     False
promotion_last_5years    False
sales                    False
salary                   False
dtype: bool


In [4]:
# salary(給与水準)をダミー変数へ置換する
hr_df.salary.replace({'low': 1, 'medium': 2, 'high': 3}, inplace=True)
# salesをダミー変数へ
hr_df = pd.get_dummies(hr_df, columns=['sales'])

---
# ナイーブベイズ分類器(naive bayes classifier)

 - $x = \left( x_{1}, \cdots, x_{n} \right)$: 特徴ベクトル
 - $c$: クラス

ナイーブベイズ分類器は確率に基づいた分類器であり、特徴ベクトル$x$に対して、$P\left({c}|{d}\right)$が最大となるクラス$c \in C$を出力する。この確率$P\left({c}|{x}\right)$はベイズの定理を用いる。
$$
P\left({c}|{x}\right) = \frac {P\left(c\right)P\left({x}|{c}\right)}{P\left(x\right)}\\
\qquad = \frac {P\left(c\right)P\left({x}|{c}\right)}{\sum _{c \in C}{P\left(c_{i}x\right)}} = \frac {P\left(c\right)P\left({x}|{c}\right)}{\sum _{c \in C}{P\left(c_{i}\right)P\left({x}|{c_{i}}\right)}}
$$
この右辺が最大となるクラス$c$を出力することになるが、分母の周辺尤度$\sum _{c \in C}{P\left(c_{i}\right)P\left({x}|{c_{i}}\right)}$はクラスに依存しないので、最大となるクラスを決定する際には、不要である。つまり、分子の$P\left(c\right)P\left({x}|{c}\right)$を最大にするクラス$c_{max}$を出力する。
$$
c_{ max }=arg\max _{ c }{ \frac { P\left( c \right) P\left( { x }|{ c } \right)  }{ \sum _{ c\in C }{ P\left( c_{ i } \right) P\left( { x }|{ c_{ i } } \right)  }  }  } \\ \qquad =arg\max _{ c }{ P\left( c \right) \prod _{ i=1 }^{ n }{ P\left( { x }_{ i }|{ c } \right)  }  } 
$$
この右辺を求められればよいのだが、尤度$P\left({x}|{c}\right)$を計算することは容易ではない。特徴ベクトル$x$の次元数が膨大だとあらゆる$x$についてそれぞれがデータ中で何回起こるかを調べ、$P\left({x}|{c}\right)$を最尤推定で求めることは非現実的である。そこで、ナイーブベイズ分類器では、$x$に対して簡単化したモデルを仮定して$P\left({x}|{c}\right)$の値を求める。

**参考文献**

 - [1.9. Naive Bayes — scikit-learn 0.19.0 documentation](http://scikit-learn.org/stable/modules/naive_bayes.html#naive-bayes)
 - [単純ベイズ分類器 - Wikipedia](https://ja.wikipedia.org/wiki/%E5%8D%98%E7%B4%94%E3%83%99%E3%82%A4%E3%82%BA%E5%88%86%E9%A1%9E%E5%99%A8)

## 多変数ベルヌーイモデル: $P\left( { x_{i} }|{ c } \right) = { { p }_{ w,c } }^{ \delta w,x_{i} }{ (1-{ p }_{ w,c }) }^{ 1-\delta w,x_{i} }$


---
## 多項モデル(multinomial model): 

---
## 正規分布モデル(gaussian model): $P\left( { { x }_{ i } }|{ c } \right) =\frac { 1 }{ \sqrt { 2\pi { \sigma _{ c } }^{ 2 } }  } exp{ \left( -\cfrac { { ({ x }_{ i }-{ \mu  }_{ c }) }^{ 2 } }{ 2{ \sigma _{ c } }^{ 2 } }  \right)  }$