<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/main/MVA2024_ex05notebookC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2024 ex05notebookC

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2024

----
## 次回に備えて実験しよう
----

次回扱うデータ分析手法について，事前に少しだけ学んでおきましょう．

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn
seaborn.set()

$N$ 個の $D$ 次元列ベクトル $\pmb{x}_1, \pmb{x}_2, \ldots, \pmb{x}_N$ に対して，$D$ 次元列ベクトル $\pmb{a}$ を定めると，

$$
y_n = \pmb{a}^{\top}\pmb{x}_n \quad (n = 1, 2, \ldots, N)
$$

という計算によって，$D$ 次元ベクトルたちをそれぞれ実数値に変換することができます（notebookAの「「行列」＝「ベクトルを並べたもの」」および「直交変換と直交行列」で解説していることです）．



ここでは，$D = 2$ の場合について，実際のデータをこのように変換する実験を行ってみましょう．



In [None]:
# データを読み込む
dfRawData = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/HighSchoolPhysicalFitnessMeasurement.csv')
dfData = dfRawData[['身長[cm]', '体重[kg]']]
dfData -= dfData.mean() # 平均を差し引く => 平均が (0, 0) になる
dfData

In [None]:
# X という numpy.array に格納する．0列目が身長，1列目が体重
X = dfData.to_numpy()
print(X)
print(X.shape)

それでは，`X` に格納された2次元データたちを，2次元ベクトル $\pmb{a}$ で変換する実験を行いましょう．ただし，$\|\pmb{a}\| = 1$ の場合に限定して考えます（そうする理由は次回分かります）．この条件のもとでは，任意のベクトル $\pmb{a}$ を

$$
\pmb{a} = \begin{pmatrix}
\cos\theta \\
\sin\theta
\end{pmatrix} \quad ( 0 \leq \theta < 2\pi)
$$

と表せます．
次のコードセルの `n:` と書かれた箱に数を入力して実行すると，その数を $n$ として $\theta = \frac{n}{8}\pi$ のときの $\pmb{a}$ を求め，次のことを行います．

1. $\pmb{x}_n$ の散布図を描き，そこに $\pmb{a}$ の向きが分かるような半直線を描く（左図）．
1. $y_n = \pmb{a}^{\top}\pmb{x}_n$ を求めて，そのヒストグラムを描く．$y_n$ の分散も求める（右図）．

なお，$\pi \leq \theta < 2\pi$ のときは，$\pmb{a} = \begin{pmatrix}
-\cos (\pi-\theta) \\
-\sin (\pi -\theta)
\end{pmatrix} = - \begin{pmatrix}
\cos (\pi-\theta) \\
\sin (\pi -\theta)
\end{pmatrix}$ と表せるので，$\pi - \theta$ のときの $y_n$ の符号を反転させた結果が得られるだけです．そのため，次のセルの実験では，$0 \leq \theta < \pi$ の範囲のみを考えればokです．

In [None]:
# @title 実験
n = 0 # @param {type:"number"}

theta = n*np.pi/8
a = np.array([np.cos(theta), np.sin(theta)])
print(f'theta = {theta:.3f}, a = ({a[0]:.3f}, {a[1]:.3f})')

# X を構成する2次元ベクトルたちを a でひとつの数値に変換
y = X @ a

# y の分散
s2 = np.var(y)

# 図
fig, ax = plt.subplots(1, 2, figsize=(8, 4))
xmin, xmax = -50, 50
ymin, ymax = -50, 50

# 散布図
ax[0].scatter(X[:, 0], X[:, 1], marker='.')
ax[0].set_xlim(xmin, xmax)
ax[0].set_ylim(ymin, ymax)
ax[0].axhline(0, color='gray')
ax[0].axvline(0, color='gray')
ax[0].set_xlabel(r'$x_1$')
ax[0].set_ylabel(r'$x_2$')
ax[0].set_aspect('equal')
ax[0].plot([0, 2*xmax*a[0]], [0, 2*xmax*a[1]], color='orange', linewidth=3, label='a')
ax[0].legend()

# ヒストグラム
ax[1].hist(y, bins=20, label=f'var(y) = {s2:.1f}')
ax[1].set_xlim(xmin, xmax)
ax[1].set_xlabel(r'$y$')
ax[1].legend()

fig.tight_layout()
plt.show()

#### 問題1

$0 \leq \theta < \pi$ となる範囲で整数 `n` をいろいろ変えて上のコードセルを実行し，次のことを行いなさい．

(1) notebookAの「「行列」＝「ベクトルを並べたもの」」および「直交変換と直交行列」の内容をふまえて結果を観察し，何が起こっているのか理解する．

(2) 上記の条件で `n` を変えたときに $y_n$ の分散が最大となる $\theta$ を求める．



#### 問題2

$\pmb{a} = \begin{pmatrix}
a_1 \\ a_2
\end{pmatrix},
\pmb{x} = \begin{pmatrix}
x_1 \\ x_2
\end{pmatrix}$ とおき，$y = \pmb{a}^{\top}\pmb{x}$ とすると，$y = \pmb{a}\cdot\pmb{x} = a_1x_1 + a_2x_2$ です．ここで扱っているデータの場合，$x_1, x_2$ は身長および体重の値からそれぞれの平均を引いたものですので，

$$
y = a_1(\mbox{そのひとの身長の値} - \mbox{身長の平均}) + a_2 (\mbox{そのひとの体重の値} - \mbox{体重の平均})
$$

であるといえます．これをふまえて，上のセルを実行して表示される $\pmb{a}$ の値や散布図を見ながら，次の問に答えなさい．

(1) 「身長体重とも平均より大きいひと」，「どちらも平均より小さいひと」，「身長が平均より大きく体重が平均より小さいひと」，「身長が平均より小さく体重が平均より大きいひと」の点は，それぞれ散布図のどの領域に分布するか．

(2) $\theta = \frac{\pi}{4}$ のとき，「身長体重とも平均より大きいひと」と，「どちらも平均より小さいひと」では，どちらの方が $y$ の値が大きくなるか．

(3) $\theta = \frac{3}{4}\pi$ のとき，「身長が平均より大きく体重が平均より小さいひと」と，「身長が平均より小さく体重が平均より大きいひと」では，どちらの方が $y$ の値が大きくなるか．