<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/2022/ex10notebookC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2022 ex10notebookC

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo10.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2022

In [None]:
# 必要なパッケージのインポート
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn
seaborn.set()

# scikit-learn の判別分析のためのクラスを使えるように import
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

----
## 演習課題
----


---
### 問題1: Fisher のアヤメのデータの2クラス判別

notebookA で紹介しているアヤメのデータのクラス数は3ですが，Iris setosa クラスのデータを削除したものを作って判別分析してみましょう．

#### 準備

まずはデータの準備．

In [None]:
# Fisher のアヤメのデータ
from sklearn.datasets import load_iris
iris = load_iris(as_frame=True)
dfIris = iris.frame
dfIris['species'] = 'hoge'
for k, tn in enumerate(iris.target_names):
    dfIris.loc[dfIris['target'] == k, 'species'] = tn
dfIris.drop(columns='target', inplace=True)
dfIris

In [None]:
# species が setosa でないものを dfIris2 とする
dfIris2 = dfIris[dfIris['species'] != 'setosa']
dfIris2

In [None]:
# Seaborn のペアプロット関数（多次元データの変数間の散布図等を自動的に描いてくれる）
seaborn.pairplot(dfIris2, hue='species')

`dfIris2` から，変数の値を格納した配列 `X` と，個々のデータのクラスを 0/1 で表した配列 `Y` をつくります．


In [None]:
# dfIris2 の Species 列以外を抜き出した np.array
X = dfIris2.drop(columns='species').to_numpy()
N, D = X.shape
print(X[:5, :])
print(f'N = {N}, D = {D}')

In [None]:
#dfIris2 の species 列を使って，versicolor なら 1，virginica なら 0 とした np.array
b = dfIris2['species'] == 'versicolor'  # b は，True/False を値にもつ
Y = b.to_numpy(dtype=int)       # こうすると，True => 1, False => 0 とした int の np.array が得られる
print(Y)

データの準備はこれでok．

#### 問(1)

次のことをやりなさい．

1. 次のセルに，上で準備したデータを使って判別分析を実行する（パラメータを推定する）コードを書きなさい．得られた平均と分散共分散行列をprintすること．
1. 次の質問に答えなさい（答えをメモしておくこと）．
    - ここで使っているデータの次元数（変数の数）とデータの数はそれぞれいくつか
    - 推定された平均は，何次元のものがいくつあるか
    - 推定された分散共分散行列は，何行何列のものがいくつあるか

#### 問(2)

次のセルに，`X` で与えられたデータのうち正しくクラス判別できたものの数を数えて表示するコードを書きなさい．得られた正解数をメモしておくこと．

#### 問(3)

次のセルにコードを書き足して，`XX` に格納されたデータそれぞれの，判別関数の値およびクラス予測結果を出力させなさい．各データの判別関数の値と Iris-versicolor / Iris-virginica のどちらに判別されたのかをメモしておきなさい．

In [None]:
# クラス未知のデータ
XX = np.array([[6.0, 3.0, 6.0, 2.0],
               [6.0, 3.0, 4.0, 1.0],
               [6.0, 3.0, 6.0, 1.0],
               [6.0, 3.0, 4.0, 2.0]])

# ここから下にコードを追加


---
### 問題2: 乳がんデータの2クラス判別

機械学習の教材としてよく使われる乳がんの画像診断に関するデータ Breast Cancer Wisconsin (Diagnostic) Datasets を使って，判別分析の実験をしてみましょう．

- データの概要を説明した scikit-learn のドキュメント https://scikit-learn.org/stable/datasets/toy_dataset.html#breast-cancer-dataset
    - 変数の数は 30
    - クラスは Benign（良性）と Mailgnant（悪性）の2つ
- [UCI Machine Learning Repository](https://archive-beta.ics.uci.edu/)（カリフォルニア大学アーバイン校の機械学習データアーカイブ） の当該データのページ https://goo.gl/U2Uwz2

#### 準備

データは scikit-learn ライブラリを使って取得できます．

[sklearn.datasets.load_breast_cancer](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html)

In [None]:
from sklearn.datasets import load_breast_cancer
bcdata = load_breast_cancer()
X = bcdata.data
N, D = X.shape
print(X[:5, :])
print(f'N = {N}, D = {D}')
Y = bcdata.target
print(Y, Y.shape) # 0 が Malignant，1 が Benign

#### 問(1)

次のことをやりなさい．

1. 次のセルに，上で準備したデータを使って判別分析を実行する（パラメータを推定する）コードを書きなさい．
1. 次の質問に答えなさい（答えをメモしておくこと）．
    - ここで使っているデータの次元数（変数の数）とデータの数はそれぞれいくつか
    - 推定された平均は，何次元のものがいくつあるか（`means_` の shape を print して確認したらよい）
    - 推定された分散共分散行列は，何行何列のものがいくつあるか（`covariance_` の shape を print して確認したらよい）

#### 問(2)

次のセルに，`X` で与えられたデータのうち正しくクラス判別できたものの数を数えて表示するコードを書きなさい．得られた正解数をメモしておくこと．

#### 問(3)

次のセルにコードを書き足して，`XX` に格納されたデータそれぞれの，判別関数の値およびクラス予測結果を出力させなさい．各データの判別関数の値と，悪性/良性のどちらに判別されたのかをメモしておきなさい．

In [None]:
# クラス未知のデータ
XX = np.array([[ 7,  9,  43,  143, 0, 0, 0, 0, 0, 0, 0, 0,  1,   7, 0, 0, 0, 0, 0, 0,  8, 12,  50,  185, 0, 0, 0, 0, 0, 0],
               [28, 39, 188, 2500, 0, 0, 0, 0, 0, 0, 3, 5, 22, 542, 0, 0, 0, 0, 0, 0, 36, 50, 250, 4000, 0, 1, 1, 0, 1, 0],
               [10, 20, 100,  800, 0, 0, 0, 0, 0, 0, 1, 2, 10, 200, 0, 0, 0, 0, 0, 0, 15, 20, 100,  851, 0, 0, 0, 0, 0, 0]])

# ここから下にコードを追加
