<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/2023/ex01notebookA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2023 ex01notebookA


<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2023

---
## 多変量解析とは

この科目のシラバスの「講義概要」は，次のようになっています．
> 高校数学や大学初年次の確率統計・データ分析の科目では，変数が一つだけの（一次元である）データを扱うことがほとんどでした．しかし，世の中には二つ以上の変数からできている（多次元である/多変量である）データがたくさんあります．「複数人の (身長, 体重, 視力) の数値を集めたもの」は変数の数が3つすなわち3次元のデータといえますし，「幅100画素高さ100画素のカラー画像を複数枚集めたもの」は3万次元のデータとみなせます．この科目では，このような多次元のデータを分析する手法について学びます．分析の仕方をただ表面的になぞるのではなく，その数学的・統計学的な裏付けについて解説します．また，コンピュータを使って実際の多次元データを分析する機会を提供します．

具体的なデータの例で説明します．

以下，コードセルを上から順に実行しながら閲覧してね．

In [None]:
# 必要なモジュールのインポート等
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn
seaborn.set()

### 「ゴリゴリ君」と「数学，物理，情報」

最初の例は，「データ分析」の授業にも登場した，「気温」vs「アイス売上数」のデータです．


In [None]:
# ゴリゴリ君データの入手
dfGori = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/gorigori.csv', header=0)
dfGori

上記の出力の1行が，ある１日の気温とアイス売上数の値を表しており，それが50日分あります．気温と売上数の組を一つの標本とすれば，これは，2つの変数から成る標本が50個あるデータということになります．変数の数が2なので，「2次元」のデータということもあります．

もうひとつ，「数学，物理，情報の点数100人分のデータ」も例として取り上げます．こちらも「データ分析」で登場したものです．

In [None]:
# データを入手
! wget -nc https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/mpiS100.csv
# データを読み込んで表示
dfMPI = pd.read_csv('mpiS100.csv')
dfMPI[['数学', '物理', '情報']]

こちらは，100人の「数学」，「物理」，「情報」の点数を集めたものです．
個人ごとの点数の違いを調べる目的のデータだとすると，3科目の点数ひとり分が一つの標本で，それが100個あると考えられます．すなわち，変数の数が3（3次元）でデータ数が100のデータです．

これらのデータは，いずれも，一つの標本が2個以上の変数でできていますので，
多変量（または多次元）のデータと言えます．
しかし，「データ分析」では，変数を個別に扱うことしかしていませんでした．

In [None]:
### ゴリゴリ君の回帰分析

X = dfGori['気温']
Y = dfGori['アイス売上数']

# 最小二乗法で直線当てはめ
XX = np.vstack([X, np.ones_like(X)]).T
a, b = np.linalg.lstsq(XX, Y, rcond=None)[0]

# グラフを描く
xx = np.array([-5, 40])
yy = a*xx + b
fig, ax = plt.subplots()
ax.scatter(X, Y, label='sample')
ax.plot(xx, yy, color='red', label=f'$y = {a:.3f}x+{b:.3f}$')
ax.set_xlim(-5, 40)
ax.set_ylim(0, 130)
ax.legend()
plt.show()

上記はゴリゴリ君データの回帰分析の結果です．ここでは，「気温」 $x$ と「売上数」 $y$ という2つの変数の間に $y = ax+b$ という関係が成り立つと仮定してこの式の係数 $a, b$ を推定しています．

In [None]:
# 数学物理情報の変数間の相関

fig, ax = plt.subplots(1, 3, figsize=(12, 4))
ax[0].scatter(dfMPI['数学'], dfMPI['物理'])
r = np.corrcoef(dfMPI['数学'], dfMPI['物理'])[0, 1]
ax[0].set_title(f'M vs P ($r = {r:.3f}$)')
ax[1].scatter(dfMPI['数学'], dfMPI['情報'])
r = np.corrcoef(dfMPI['数学'], dfMPI['情報'])[0, 1]
ax[1].set_title(f'M vs I ($r = {r:.3f}$)')
ax[2].scatter(dfMPI['物理'], dfMPI['情報'])
r = np.corrcoef(dfMPI['物理'], dfMPI['情報'])[0, 1]
ax[2].set_title(f'P vs I ($r = {r:.3f}$)')
for ax_ in ax:
    ax_.set_xlim(0, 100)
    ax_.set_ylim(0, 100)
    ax_.set_aspect('equal')
plt.show()

上記は，数学物理情報の点数の間の相関を調べるために，散布図を描いたものです．グラフの上の $r$ の値は相関係数です．
こちらのデータは変数が3つありますが，ここでやっているのは，その中の2つの間の関係を調べることです．

これらの例が示す通り，「データ分析」の授業で学んだ上記のような分析では，多変量（多次元）のデータが出てきたとしても，個々の変数の間の関係を調べることしかやっていませんでした．
しかし，この授業では，多変量（多次元）のデータについて，2つ以上の変数をまとめて扱うデータ分析の手法を学びます．
このような手法（あるいはそのような手法に関する学問分野）を，**多変量解析** (Multivariate Analysis) といいます．


### Wine Quality Data Set

多変量解析の一つの手法を，実際のデータを使って説明します．
ここで扱う分析手法は，上で出てきた回帰分析を多変量に拡張したもので，「重回帰分析」と呼ばれます．詳しいことは次回以降に説明します．

まずはデータの準備．
ここで使うのは，機械学習の学習や実験に使えるデータセットを収集している [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php) というサイトにある [Wine Quality Data Set](https://archive.ics.uci.edu/ml/datasets/wine+quality) というもの（のうちの赤ワインのデータ）です．

In [None]:
# データを読み込む
dfWine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv', header=0, sep=';')
dfWine

このデータは，様々なワインの物理化学的な性質を表す11種類の量（'pH'など）と，そのワインの品質を表す数値（'quality'）から成っています．'quality'は 0 から 10 の整数値です．
これらの値から個々のワインの性質を分析することを考えるなら，1つの標本には変数が12個あり，データの数が1599個あると考えることができます．

このデータに対して，`quality` の値をそれ以外の11種類の量から予測するという問題を考えてみます．
「ゴリゴリ君」のときは，気温 $x$ からアイス売上数 $y$ を予測するために $y = ax+b$ という式を立てましたが，このデータの場合は $x$ に相当する数値が11個あります．
これらを $x_1, x_2, \ldots, x_D$ と表す（いまは $D = 11$）と，これらの値から一つの値 $y$ を予測する問題ということができます．このとき，$x_1, \ldots , x_D$ から $y$ を予測する式として単純なのは，

$$
y = w_0 + w_1x_1 + w_2x_2 + \cdots + w_Dx_D \qquad (1)
$$

という形のものです．

詳しいことはここでは説明しませんが，この式のパラメータ $w_0, w_1, \ldots, w_D$ は，最小二乗法によって推定することができます．

In [None]:
# 'quality' を除いた 11 種類の値
X = dfWine.drop(columns='quality').to_numpy()
# 'quality'
Y = dfWine['quality'].to_numpy()
print(X.shape, Y.shape)

# 最小二乗法で平面当てはめ
XX = np.vstack([np.ones(len(X)), X.T]).T
w = np.linalg.lstsq(XX, Y, rcond=None)[0]
print(w)

出力から，$w_0 = 2.197, w_1 = 2.499, ...$ などと推定されたことが分かります．この式を使って，実際にワインの品質を推定してみることこんなん：

In [None]:
# サンプルの番号
idx = [517, 38, 400, 100, 369]
# 予測値の計算
Yest = XX @ w
# 出力
for n in idx:
    print(f'データ番号:{n:4d}   予測値: {Yest[n]:.2f}  真の値: {Y[n]} ')

### 画像データの例

多変量のデータの別の例として画像を取り上げます．

In [None]:
# 猫画像データを入手
! wget -nc https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/cat131.npz
cat = np.load('cat131.npz')['cat131']
print(cat.shape) # 131枚，ひとつの画像は 64 x 64 = 4096 画素のグレイスケール画像

# nimg 枚の画像をならべて表示
nimg = 8
fig, ax = plt.subplots(1, nimg, figsize=(12, 2))
for n in range(nimg):
    ax[n].imshow(cat[n].reshape(64, 64), cmap='gray')
    ax[n].axis('off')
plt.show()

このデータには同じ大きさの猫の顔の画像が131枚含まれています．
いずれの画像も $64 \times 64 = 4096$ 個の画素値からできています（注）ので，1つの画像を1つの標本とみなせば，1つの標本は 4096 個の値から成るとみなせます．
このデータは，そのような標本が131個含まれているということになります．
「このデータは，4096次元の標本131個から成る」ということもできます．

<span style="font-size: 75%">
※注: ここで扱っている画像は色のない「グレイスケール画像」です．1つの画素の値は，その位置の明るさを表します（この例では0から255の整数値）．
一方，カラー画像の場合は，話が少し違ってきます．典型的なカラー画像は，1つの画素の値を赤，緑，青の3つの色成分の値で表すので，同じ大きさのグレイスケール画像と比べて値の数が3倍になります．
</span>

次のセルを実行すると，上記の最初の画像を作っている 4096 個の画素値を確認することができます．余談ですが，0 が黒で 255 が白です．

In [None]:
# 最初の画像の4096個の画素値を print してみる
for iy in range(64):
    for ix in range(64):
        print(f'{cat[0, iy*64+ix]:.0f}', end=' ')
    print()

このように，画像のようなものも，「ゴリゴリ君」，「数学物理情報」や「赤ワインのデータ」などと同様の多変量（多次元）データの一種とみなせます．単に変数の数が多いだけです．
ですので，「データ分析」などで学んだ手法をそのまま適用できます．
試しに平均を計算して表示してみましょう．

In [None]:
# 数学，物理，情報100人分のデータの平均
Xtmp = dfMPI.loc[:, ['数学', '物理', '情報']].to_numpy()
xm = np.mean(Xtmp, axis=0) # 100 x　3 の配列の行方向の平均
print(xm)

In [None]:
# 131枚の猫画像の平均
xm = np.mean(cat, axis=0) # 131 x 4096 の配列の行方向の平均
fig, ax = plt.subplots()
ax.imshow(xm.reshape(64, 64), cmap='gray')
ax.axis('off')
plt.show()

ここでは詳しい説明はしませんが，画像のようなものも多変量解析の対象とすることができます．
例えば，たくさんの顔画像と，それぞれの画像に写った人物の年齢を表す数値が組になったデータがあったとしましょう．このとき，個々の画像の画素値からそのひとの年齡を推定するという問題を考えることができます．
この問題は，赤ワインのデータの例と全く同じ構造をしている（ので，「重回帰分析」を適用できる）ことがわかりますね．
