<a href="https://colab.research.google.com/github/ailab-nda/ML/blob/main/chap05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 第5章

Scikit learn の [GaussianNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html)（生成モデル）と [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)（識別モデル） で [iris](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html) データを識別します。



In [None]:
#出力を小数点以下3桁に制限。DataFrame内では設定は無効
%precision 3

## 準備

必要なライブラリ等を読み込みます。

In [None]:
# このセルは、電算機教場のみで必要なの部分なので、コメントアウトしてあります。
#!pip install scikit-learn --trusted-host pypi.python.org --trusted-host files.pythonhosted.org --trusted-host pypi.org

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.manifold import TSNE
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

## データの読み込み

irisデータを読み込みます。引数as_FrameをTrueにすると、戻り値のdata属性（特徴ベクトル）がpandasのDataFrame形式、target属性（正解情報）がSeries形式になります。

In [None]:
iris = load_iris(as_frame=True)

データ分析のため、特徴ベクトルと正解情報を結合したDataFrameを作成します。

In [None]:
df = iris.data.copy()
df['class']= iris.target
df

クラス毎の統計値を表示します。

In [None]:
grouped = df.groupby('class')
grouped.describe()

In [None]:
grouped.hist(figsize=(15,10), layout=(3,5))
plt.show()

パターン行列をX, 正解ラベルベクトルをyとします。XはDataFrame、yはSeriesですが、scikit-learnの新しいバージョンでは、ndarrayに変換せずにこのまま学習に用いることができます。

In [None]:
X = iris.data
y = iris.target
print(iris.feature_names)
print(iris.target_names)

## データの可視化

t-SNEを使って2次元データに変換し、散布図で表示します。

In [None]:
tsne = TSNE(perplexity=5)
X2 = tsne.fit_transform(X)
plt.plot(X2[y==0,0], X2[y==0,1],"ro", label = iris.target_names[0])
plt.plot(X2[y==1,0], X2[y==1,1],"g.", label = iris.target_names[1])
plt.plot(X2[y==2,0], X2[y==2,1],"bx", label = iris.target_names[2])
plt.legend()

## ナイーブベイズ

識別器のインスタンスを作成し、fitメソッドで動作を確認します。次に、交差確認法で性能を評価します。

In [None]:
clf1 = GaussianNB()
clf1.fit(X, y)

In [None]:
scores = cross_val_score(clf1, X, y, cv=10)
print(f"Accuracy: {scores.mean():.2f} (+/- {scores.std()*2:.2f})")

### 学習結果の表示

各クラスの正規分布の平均(theta)と分散(var)を表示します。

In [None]:
clf1.theta_

In [None]:
clf1.var_

この結果は、たとえばクラス0(setosa; 先頭の50個)の特徴 sepal lengthを表す正規分布は平均5.006、分散0.122と最尤推定されたことを示しています。他の特徴、他のクラスについても読み込んだDataFrameを参照して、妥当な値になっていることを確認してください。

## ロジスティック回帰

識別器のインスタンスを作成し、fitメソッドで動作を確認します。次に、交差確認法で性能を評価します。

In [None]:
clf2 = LogisticRegression(solver='lbfgs', max_iter=1000)
clf2.fit(X, y)

In [None]:
scores = cross_val_score(clf2, X, y, cv=10)
print(f"Accuracy: {scores.mean():.2f} (+/- {scores.std()*2:.2f})")

### 学習結果の表示

各クラスの識別関数の重み(coef)と切片(intercept)を表示します。

In [None]:
clf2.coef_

In [None]:
clf2.intercept_

この結果は、たとえばクラス0 (setosa)について、識別関数が $g_0(\mathbf{x}) = -0.423 x_1 + 0.967 x_2 - 2.517 x_3 -1.081 x_4 +9.849$ という式になったことを表します。絶対値が大きい係数ほどそのクラスの判定に大きく寄与していると解釈できます。

# 演習問題

scikit-learn付属のwineデータデータに対して生成モデル・識別モデルそれぞれで識別を行い、問題の難しさと適したモデルとの関係を考察してください。ただし、元のデータを使うと正解率が高く、モデルの違いがわかりにくいので、主成分分析(PCA)もしくはt-snaで2次元に変換したデータを対象に識別を行ってください。

## 解答欄

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine, load_breast_cancer
from sklearn.decomposition import PCA
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

wine = load_wine(as_frame=True)
