<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/2023/ex06notebookB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2023 ex06notebookB

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2023

In [None]:
# 必要なパッケージのインポート
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn
seaborn.set()

----
## Python + NumPy で主成分分析をやってみよう ver. 2



---
### データの標準化

標準化したデータを扱う主成分分析ができるように，データの標準化ができるようになりましょう．

やりたいことは，

$$
X =
\begin{pmatrix}
x_{1, 1} & x_{1, 2} & \cdots & x_{1, D}\\
x_{2, 1} & x_{2, 2} & \cdots & x_{2, D}\\
\vdots & \vdots & \vdots & \vdots\\
x_{N, 1} & x_{N, 2} & \cdots & x_{N, D}\\
\end{pmatrix}
$$

というデータがあったときに，変数ごとに（列ごとに），平均を $0$ にして分散を $1$ に（標準偏差を $1$ に）することです．

$d$ 番目の変数 $x_{1,d}, x_{2, d}, \ldots, x_{N, d}$ に注目すると，標準化の計算は次のように表せます．

$$
x_{n,d}^{\rm standardized} = \frac{x_{n,d} - \bar{x}_{d}}{\sqrt{\sigma_d^2}}
$$

$\bar{x}_d$ は $\{ x_{n,d} \}$ の平均，$\sigma_d^2$ は $\{ x_{n,d} \}$ の分散です．

#### 問題1



(1) 次のセルたちを実行してデータの準備をしましょう．二つ目のセルにコードを追加して，`N` と `D` という変数に，このデータの数と次元数をそれぞれ代入して print させましょう．


In [None]:
# 数物情
dfMPI = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/mpiS100.csv')
dfMPI.head(5)

In [None]:
Xorg = dfMPI.drop(columns='学籍番号').to_numpy()



(2) 次のセルに，`Xorg` の列ごとの平均と標準偏差を求めて適当な変数に代入し，それを print させるコードを書きましょう．ヒント: 標準偏差は `np.std` で計算できます．

(3) 次のセルに，`Xorg` を列ごとに標準化したデータを求めて `X` という変数に代入するコードと，それをもとに `X` の分散共分散行列を求めて `Vx` という変数に代入するコードを書きましょう．
`Vx` を print して観察しましょう．

---
### 数物情データの主成分分析



問題1で標準化したデータを主成分分析して，寄与率と累積寄与率を求めてみましょう．

#### 問題2

(1) 次のセルに，`Vx`の固有値・固有ベクトルを求めるコードを書きましょう．

(2) 次のセルに，`X` を2次元に変換したデータ `Y` を求めて，その2つの変数を横軸と縦軸とした散布図を描くコードを書きましょう．横軸縦軸の範囲をそろえましょう．`ax.set_aspect('equal')` を呼んでグラフの縦横比をそろえましょう．

(3) 次のセルに，`eval` を用いて寄与率と累積寄与率を求めて print するコードを書きましょう．
notebookA のコードを参考にするとよいでしょう．

寄与率は次のようになるはずです．
```
[0.55783212 0.30071167 0.14145622]
```
累積寄与率の値をメモしておきましょう．

#### 問題3

固有ベクトルの値と主成分スコアの値を見て，結果を考察しましょう．
「主成分負荷量」を求めてもよいのですが，標準化したデータでは

$$
(\mbox{第$h$主成分の主成分負荷量}) = \sqrt{\lambda_h}\mathbf{u}_h
$$

となり，固有ベクトルの値を見るのと大きな違いがありません．ですので，ここでは主成分負荷量の代わりに固有ベクトルの値 $\mathbf{u}_h$ を見ることにします．

(1) これまでの計算が正しくできていれば，次のセルを実行すると，第1主成分に対応した固有ベクトルと，第1主成分スコア最小および最大のデータの値が表示されるはずです．

In [None]:
### 第 (h+1) 主成分スコア最小と最大のデータを表示
h = 0
print(f'### 第{h+1}主成分 ###')
print()
print('固有ベクトル = ', U[:, h])
print()
# 主成分スコア最小は imin 番
imin = np.argmin(Y[:, h])  # 最小値の番号を返す
print(f'主成分スコア最小は {imin} 番')
print(f'Y[{imin}, {h}] = {Y[imin, h]:.2f}')
print(f'X[{imin}, :] = {X[imin, :]}')
print()
# 主成分スコア最大は imax 番
imax = np.argmax(Y[:, h])  # 最大値の番号を返す
print(f'主成分スコア最大は {imax} 番')
print(f'Y[{imax}, {h}] = {Y[imax, h]:.2f}')
print(f'X[{imax}, :] = {X[imax, :]}')
print()
# 元データを表示
dfMPI.iloc[[imin, imax], :]

表示された値を見て，次の問に答えなさい．
1. 第1主成分スコアの値が大きいのはどんな点数のひとか考えてメモしておきなさい（例: 数学の点数が平均より高く，物理の点数が平均より低い，etc.）．スコア最大のひとりがどんな点数かを答えるのではなく，どんな傾向のひとがスコアが大きくなるのかを考えること．
1. 同様に，第1主成分スコアの値が小さいのはどんな点数のひとか考えてメモしておきなさい．

(2) 第2主成分で(1)と同じことをやりましょう．下のセルにコードをコピペして `h` を変えたらよい．

(3) 上記をまとめると，数学が得意で情報が苦手なひとのデータ点は，問題2の散布図の第1から第4までのどの象限に描かれるか考えなさい．