# ナイーブベイズ分類器

ナイーブベイズ分類器(単純ベイズ分類器)は、名前の通りベイズの定理を分類問題に利用する。
「ナイーブ」という名前がつけられた理由はベイズの定理を用いるために「全ての特徴量は互いに独立である」という仮定が必要になるから。
現実の問題ではその過程が成立することは稀。しかしこの仮定によって計算量を簡素化・削減し、高速な上に、そこそこ優れた性能を示すことが多くある。

またナイーブベイズは出力と関係ない特徴量にロバスト(無関係な特徴量はうまいこと無視してくれる)。

## scikit-learnのナイーブベイズ分類器

ナイーブベイズ分類器は `sklearn.naive_bayes` パッケージにある。
このパッケージには3つのナイーブベイズ分類器が存在。

- GaussianNB: 特徴量は正規分布に従って分布すると仮定。例:「人の身長と体重が与えられた時に、その人の性別を分類する」
- MultinomialNB: ある事象が発生した回数を特徴量としていると仮定。実際にこの分類器はTF-IDFと相性がよく、うまく分類出来るケースが多くあることが知られている。
- BernoulliNB: MultinomialNBと少しにているが、単語の回数ではなく、単語が出現した/出現していないの2値で特徴量が表される場合に最適

## 感情分析(Sentiment Analysis)

ある意見がポジティブかネガティブかを予測。
今回は英語のデータセットである「Polarity Dataset v2.0」を使用。
このデータセットにはPositive, Negativeそれぞれ1000件ずつ含まれている。

In [1]:
%matplotlib inline
import glob
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import mixture
from sklearn import cross_validation
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer

In [10]:
pos_files = glob.glob('./txt_sentoken/pos/cv*.txt')
neg_files = glob.glob('./txt_sentoken/neg/cv*.txt')
text_list = []
target = []

for file in pos_files[:300]:
    with open(file, "r") as file:
        text_list.append(file.read())
        target.append('pos')


for file in neg_files[:300]:
    with open(file, "r") as file:
        text_list.append(file.read())
        target.append('neg')

In [11]:
# 英語をストップワードに追加。1単語 or 2単語を用いてベクトル化
vectorizer = TfidfVectorizer(ngram_range=(1, 2), stop_words='english')
X = vectorizer.fit_transform(text_list)

In [12]:
clf = MultinomialNB()

In [13]:
scores = cross_validation.cross_val_score(clf, X.toarray(), np.array(target))
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

Accuracy: 0.77 (+/- 0.03)
