<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/2022/ex10notebookB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2022 ex10notebookB

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo10.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2022

In [None]:
# いつものやつ
import numpy as np
import pandas as pd

In [None]:
# scikit-learn の判別分析のためのクラスを使えるように import
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

----
## ライブラリを使って判別分析してみよう
----


notebookA の方に載せた判別分析の実験のプログラムは，notebook で説明している判別分析の計算式を，Python の数値計算ライブラリである NumPy を使って実装した形のものになっています．Python + NumPy の初歩を学んだみなさんが時間をかけてじっくり読んでいけば，数式もコードも理解できるようになっていると思ってはいますが，いささか複雑です．

ここでは，少々楽をしたい＆便利なライブラリを使ってみる経験も大事だろう，ということで，Python + NumPy に加えてscikit-learn という機械学習ライブラリも利用し，お手軽に（？）判別分析してみることにします．

- https://scikit-learn.org/
- [sklearn.discriminant_analysis.LinearDiscriminantAnalysis](https://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.LinearDiscriminantAnalysis.html)
- [Linear and Quadratic Discriminant Analysis with covariance ellipsoid](https://scikit-learn.org/stable/auto_examples/classification/plot_lda_qda.html)

notebookA でも使っている「人間」vs「ほげ星人」のデータを使って，scikit-learn を使った判別分析のやり方を説明します．

まずはデータの準備．

In [None]:
# 人間 vs ほげ星人
URL = 'https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/humanvshoge.csv'
dfHoge = pd.read_csv(URL)
dfHoge

読み込んだデータから，(身長,体重)の値を格納した np.array を作ります．notebookA の方では `X_Human` と `X_Hoge` のようにクラスごとに配列を分けていましたが，ここでは一つの配列 `X` にまとめて格納しています．

In [None]:
# dfHoge の Height 列と Weight 列を抜き出した np.array
X = dfHoge[['Height', 'Weight']].to_numpy()
N, D = X.shape
print(X[:5, :])
print(f'N = {N}, D = {D}')

次に，`X` の行数（データの数）と同じ要素数をもつ，0 か 1 が格納された np.array を作ります．`X[n, :]` が「人間」クラスなら `Y[n]` は 1 で，「ほげ星人」クラスなら 0 とします．

In [None]:
#dfHoge の Class 列を使って，Human なら 1，Hoge なら 0 とした np.array
b = dfHoge['Class'] == 'Human'  # b は，True/False を値にもつ
Y = b.to_numpy(dtype=int)       # こうすると，True => 1, False => 0 とした int の np.array が得られる
print(Y)

データの準備はこれでokです．ここからは，scikit-learn を使ってこれらのデータの判別分析を実行します．

以下の `LinearDiscriminantAnalysis` というのは，scikit-learn に用意された，判別分析のための「クラス」です．ただし，ここで言うクラスは，判別分析の話に出てきた「クラス」とは全くの別物の，「オブジェクト指向プログラミング」におけるクラスのことです．この授業の対象外の話ですので，ここでは詳しい解説はしませんし理解も求めません（注）．コードに付されたコメントを読んでなんとなく分かった気になればokです．

<span style="font-size: 75%">
※注: 数理のひとは，3年次の「オブジェクト指向及び実習」で学べます（Java言語のプログラミングを学びます）．「オブジェクト指向」はプログラミングの世界では非常に重要な概念ですので，ぜひ受講してください．
</span>


- [sklearn.discriminant_analysis.LinearDiscriminantAnalysis](https://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.LinearDiscriminantAnalysis.html)
- [Linear and Quadratic Discriminant Analysis with covariance ellipsoid](https://scikit-learn.org/stable/auto_examples/classification/plot_lda_qda.html)

In [None]:
# 線形判別分析(Linear Discriminant Analysis)のためのクラスのオブジェクトを生成
lda = LinearDiscriminantAnalysis(store_covariance=True)

# 変数 lda は LinearDiscriminantAnalysis クラスの一つのオブジェクト
#    個々のオブジェクトは，変数（以下の lda.means_ など）や
#    メソッド（関数みたいなもの，以下の lda.fit() がそれ）をもつ
#    これらの変数やメソッドは，オブジェクトごとに用意される．このクラスのオブジェクトが
#    lda1, lda2 の二つあったとき，lda1.means_ と lda2.means_ は別物．
#    lda1.fit() は lda1 に作用し，lda2.fit() は lda2 に作用する

# X, Y を引数として fit メソッドを呼び，パラメータ（クラスごとの平均や分散など）を推定
lda.fit(X, Y)

# 推定された平均値を表示
print(lda.means_)

# 推定された分散共分散行列を表示
print(lda.covariance_)

notebookA の実験と同じ平均や分散共分散行列が得られていることを確認しましょう．

これでパラメータの推定ができたので，それらを使って，与えられたデータのクラスを予測させてみましょう．

In [None]:
# 判別関数の値を求める
Z  = lda.decision_function(X)
print(f'Z.shape = {Z.shape}')

# クラスを予測させる
Yt = lda.predict(X)
print(f'Yt.shape = {Yt.shape}')

# データ中の最初の5人の結果を表示
for n in range(5):
    # 結果の表示
    print(f'X[{n},:] = {X[n, :]}, Y[{n}] = {Y[n]}, Z[{n}] = {Z[n]: .2f}, Yt[{n}] = {Yt[n]}')

上記の出力に記された `X`, `Y` 等の変数が何を表しているかは，コード中のコメントから分かるはずです．ここに出力されている5人は，すべて正解しているようです．

では，与えられたデータのうちいくつ正解しているのかカウントしてみましょう．

In [None]:
# 与えられたデータのうちいくつ正解したかカウント
cnt = np.sum(Y == Yt)
print(f'正解数/データ数 = {cnt}/{N}')

`Y == Yt` は bool 型で shape が `Y` や `Yt` と等しい np.array となります．その `n` 番目の要素は，`Y[n] == Yt[n]` だったら `True`，さもなくば `False` になります．そして，bool型の np.array を np.sum に渡すと，`True`/`False` を 1/0 として和を計算してくれます．

正解数を見ると，全部正しく判別できていることがわかります．このデータでは全て正解しましたが，他のデータではこうなるとは限りません．

次に，クラスが未知の新しいデータを用意して，それらのクラスを推定させてみましょう．

In [None]:
# 未知のデータ
XX = np.array([[150,  60],
               [150, 100],
               [180, 145],
               [180, 146]])

ZZ  = lda.decision_function(XX)
YYt = lda.predict(XX)

for n in range(len(XX)):
    print(f'XX[{n},:] = {XX[n, :]}, ZZ[{n}] = {ZZ[n]: .2f}, YYt[{n}] = {YYt[n]}')

`XX` として与えたデータは，notebookA で使っていたのを同じものです．同じ結果が得られていることを確認しましょう．