<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/main/MVA2024_ex11notebookC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2024 ex11notebookC

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2024

----
## 演習課題: 乳がん診断データの2クラス判別
---

機械学習の教材としてよく使われる乳がんの画像診断に関するデータ Breast Cancer Wisconsin (Diagnostic) Datasets を使って，判別分析の実験をしてみましょう．


<b><font color="#ff0000">
注意:
今回の notebook の中には，コードセルを実行すると問題の解答が表示されるようになっている箇所があります．
</font>
</b>


In [None]:
# いつものいろいろインポート
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn
seaborn.set()

# scikit-learn のもろもろ
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.metrics import confusion_matrix
from sklearn.datasets import load_breast_cancer

# 「解答」を示す際に文字列を復号するのに使う
import base64
# 復号した文字列を Markdown 形式で（数式は LaTeX でフォーマットして）表示
from IPython.display import display, Markdown

---
### データの準備




Breast Cancer Wisconsin (Diagnostic) Datasets は，乳がんの画像診断に関するデータを集めたデータセットです．機械学習の学習用例題として用いられています．


- データの概要を説明した scikit-learn のドキュメント https://scikit-learn.org/stable/datasets/toy_dataset.html#breast-cancer-dataset
    - 変数の数は 30
    - クラスは Benign（良性）と Malignant（悪性）の2つ
- [UCI Machine Learning Repository](https://archive-beta.ics.uci.edu/)（カリフォルニア大学アーバイン校の機械学習データアーカイブ） の当該データのページ https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic


このデータセットは，scikit-learn の [sklearn.datasets.load_breast_cancer](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html) を使って取得できます．

In [None]:
bcdata = load_breast_cancer()
X = bcdata.data
N, D = X.shape
print(X[:5, :])
print(f'N = {N}, D = {D}')
y = bcdata.target
print(y, y.shape) # 0 が Malignant，1 が Benign
n = np.sum(y == 0)
print(f'#Malignant = {n}  #Benign = {N - n}')

変数 `X` に患者たちの画像診断結果を表す数値が格納されており，変数 `y` にそのクラスを表す数が格納されています．

notebookB と同様に， [sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis](https://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis.html) を用いて判別分析してみましょう．

In [None]:
# 判別分析のための QuadraticDiscriminantAnalysis クラスのインスタンスを生成
qda = QuadraticDiscriminantAnalysis(priors=(0.5, 0.5))

# X, y を用いて正規分布のパラメータを推定
qda.fit(X, y)

# X に含まれる個々のデータの所属クラスを予測
y_pred = qda.predict(X)

# 混同行列を求めて Markdown の表形式で表示．精度も表示
confusion = confusion_matrix(y, y_pred)
accuracy = np.sum(y == y_pred) / N
ss = f'''
| |予測が Malignant|予測が Benign|
|:--|--:|--:|
|**正解が Malignant**|{confusion[0, 0]}|{confusion[0, 1]}|
|**正解が Benign**|{confusion[1, 0]}|{confusion[1, 1]}|

(accuracy) = ({confusion[0, 0]} + {confusion[1, 1]}) / {N} = {accuracy:.4f})
'''
display(Markdown(ss))

「accuracy」は，全てのデータのうちクラスを正しく予測できたものの割合です．およそ98%のデータのクラスを正しく予測できました．

#### 問題1



In [None]:
# 所属クラスが未知のデータ
X2 = np.array([[ 7,  9,  43,  143, 0, 0, 0, 0, 0, 0, 0, 0,  1,   7, 0, 0, 0, 0, 0, 0,  8, 12,  50,  185, 0, 0, 0, 0, 0, 0],
               [28, 39, 188, 2500, 0, 0, 0, 0, 0, 0, 3, 5, 22, 542, 0, 0, 0, 0, 0, 0, 36, 50, 250, 4000, 0, 1, 1, 0, 1, 0],
               [10, 20, 100,  800, 0, 0, 0, 0, 0, 0, 1, 2, 10, 200, 0, 0, 0, 0, 0, 0, 15, 20, 100,  851, 0, 0, 0, 0, 0, 0]])

次のセルに，`X2` に格納されたデータそれぞれの所属クラスを予測し，その値を表示するコードを書きなさい．各データが悪性/良性のどちらと予測されたのかを書き留めておきなさい．

#### 問題2

次の文中の $\fbox{?}$ に当てはまるものを答えなさい．

$D$ 次元のデータに正規分布を当てはめる場合，その平均と分散共分散行列を推定する必要がある．平均は $\fbox{?}$ 次元ベクトルなので，推定すべき変数は $\fbox{?}$ 個ある．分散共分散行列は $\fbox{?}\times\fbox{?}$ の行列であるが，$\fbox{?}$ 行列なので，対角要素より上の部分（上三角要素）と下の部分（下三角要素）は等しい．そのため，推定すべき変数は $1 + 2 + \cdots + D = \frac{1}{2}D(D+1)$ 個ある．この式には $D$ の2乗の項が含まれるので，データの次元数 $D$ が大きくなると，推定すべき変数の数が急速に大きくなる（そのため，次元数の大きいデータの分散共分散行列を精度よく推定するのは難しくなる）ことに注意が必要である．

上で扱っている乳がん診断データの2クラス判別問題の場合，$D = \fbox{?}$ だから，$\fbox{?}$ 次元ベクトルの平均をクラスごとにひとつずつで計 $\fbox{?}$ 個，$\fbox{?}\times\fbox{?}$ の分散共分散行列を計 $\fbox{?}$ 個求めている．

In [None]:
# このコードセルを実行すると，上記の解答を表示します
Q = b'CiREJCwgJEQkLCAkRCQsICREJCwg5a++56ewLCAzMCwgMzAsIDIsIDMwLCAzMCwgMgo='
display(Markdown(base64.b64decode(Q).decode('utf-8')))