# Python機械学習クックブック

In [2]:
import numpy as np

from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.naive_bayes import BernoulliNB

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.calibration import CalibratedClassifierCV

## 連続値特徴量に対するクラス分類器の訓練

In [3]:
iris = datasets.load_iris()
feature = iris.data
target = iris.target

# ガウシアンナイーブベイズ分類器を作成
classifier = GaussianNB()

# モデルを訓練
model = classifier.fit(feature, target)

# 新しい観測値を作成
new_observation = [[ 4,  4,  4,  0.4]]

# クラスを予測
model.predict(new_observation)

array([1])

## 離散値特徴量とカウント特徴量に対する分類器の訓練

In [5]:
text_data = np.array(
    ["I love Brazil. Brazil!", "Brazil is best", "Germany beats both"]
)

# BoW特徴量行列を作成
count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

# BoW特徴量行列を表示
bag_of_words.toarray()

# 特徴量ベクトルを作成
features = np.array([0, 1, 0])

# 多項ナイーブベイズ分類器を作成
classifier = MultinomialNB(class_prior=[0.25, 0.5])

# モデルを訓練
model = classifier.fit(bag_of_words, features)

# クラスを予測
model.predict(bag_of_words[2])

array([0])

## 2クラス特徴量に対するナイーブベイズクラス分類機の訓練

In [6]:
# 2値特徴量を作成
features = np.random.randint(2, size=(100, 3))

# 2値ターゲットベクトルを作成
target = np.random.randint(2, size=(100, 1)).ravel()

# ベルヌーイナイーブベイズ分類器を作成
classifier = BernoulliNB(class_prior=[0.25, 0.5])

# モデルを訓練
model = classifier.fit(features, target)

## 予測確率の較正

In [10]:
iris = datasets.load_iris()
features = iris.data
target = iris.target

# ガウシアンナイーブベイズ分類器を作成
classifier = GaussianNB()

# シグモイド較正を指定して、クロスバリデーションを作成
classifer_sigmoid = CalibratedClassifierCV(classifier, cv=2, method='sigmoid')

# 予測確率を較正
classifer_sigmoid.fit(features, target)

# 新しい観測値を作成
new_observation = [[ 2.6,  2.6,  2.6,  0.4]]

# 較正された確率を表示
print(classifer_sigmoid.predict_proba(new_observation))

# 構成前の確率を表示
print(classifier.fit(feature,target).predict_proba(new_observation))


[[0.31859969 0.63663466 0.04476565]]
[[2.31548432e-04 9.99768128e-01 3.23532277e-07]]
