<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/2023/ex05notebookB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2023 ex05notebookB

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2023

In [None]:
# 必要なパッケージのインポート
import numpy as np
import pandas as pd

----
## Python + NumPy で主成分分析をやってみよう



自分で主成分分析を実行する際には，notebookA でも使っているような統計分析ツールを使うこともできますが，線形代数の授業で学んだことを活かすために，Python + NumPy で計算するコードを書いてみましょう．
以下は，そのための練習です．

---
### 固有値・固有ベクトルの計算と対称行列の対角化

notebookA で説明しているように，主成分分析のためには，与えられたデータの分散共分散行列を計算し，その固有値と固有ベクトルを求めることになります．まずは，行列の固有値・固有ベクトルを求める手順を考えます．

分散共分散行列は **対称行列** ですので，固有値はすべて実数，固有ベクトルの要素もすべて実数となります．対称行列は，固有値・固有ベクトルを使って以下のように **対角化** できるのでした．

---
［実対称行列の対角化］

$D\times D$ 行列 $A$ が対称行列である，つまり，$A^{\top} = A$ が成り立つとする．このとき，その固有値 $\lambda_{1}, \lambda_{2}, \ldots, \lambda_{D}$ はすべて実数である．
また，$\lambda_{d}$ に対応する単位固有ベクトル（大きさ $1$ の固有ベクトル）を $\mathbf{u}_{d}$ と表す（$d=1,2,\ldots, D$）とき，これらは互いに直交するように，つまり，

$$
\mathbf{u}_{i}\cdot\mathbf{u}_{j} = \left\{
    \begin{aligned}
    1 \quad & (i = j)\\
    0 \quad & (i \ne j)
    \end{aligned}
\right. \qquad (D1)
$$

となるようにとることができる（$i, j = 1, 2, \ldots, D$）．

このとき，固有値固有ベクトルの定義から $A\mathbf{u}_{d} = \lambda_{d}\mathbf{u}_{d}$ なので，

$$
A \left(\mathbf{u}_{1}\ \mathbf{u}_{2}\ \cdots \mathbf{u}_{D} \right) = \left(\lambda_{1}\mathbf{u}_{1}\ \lambda_{2}\mathbf{u}_{2}\ \cdots \lambda_{D}\mathbf{u}_{D} \right) = \left(\mathbf{u}_{1}\ \mathbf{u}_{2}\ \cdots \mathbf{u}_{D} \right)
\begin{pmatrix}
\lambda_{1} & & &\\
 & \lambda_{2} & &  \\
& &\ddots & \\
& & & \lambda_{D} \\
\end{pmatrix}
\qquad (D2)
$$

となる．$\mathbf{u}_{d}$ を列ベクトル（$D\times 1$行列）として，$D\times D$ 行列 $U$ を $U = \left(\mathbf{u}_{1}\ \mathbf{u}_{2}\ \cdots \mathbf{u}_{D} \right)$ とおくと，式($D1$)より，

$$
U^{\top}U =
\begin{pmatrix}
\mathbf{u}_{1}^{\top} \\ \mathbf{u}_{2}^{\top} \\ \vdots \\ \mathbf{u}_{D}^{\top}
\end{pmatrix}
\left(\mathbf{u}_{1}\ \mathbf{u}_{2}\ \cdots \mathbf{u}_{D} \right)
=
\begin{pmatrix}
\mathbf{u}_{1}^{\top}\mathbf{u}_{1} & \mathbf{u}_{1}^{\top}\mathbf{u}_{2} & \cdots & \mathbf{u}_{1}^{\top}\mathbf{u}_{D}\\
\mathbf{u}_{2}^{\top}\mathbf{u}_{1} & \mathbf{u}_{2}^{\top}\mathbf{u}_{2} & \cdots & \mathbf{u}_{2}^{\top}\mathbf{u}_{D} \\
\vdots  & \vdots & \vdots & \vdots \\
\mathbf{u}_{D}^{\top}\mathbf{u}_{1} & \mathbf{u}_{D}^{\top}\mathbf{u}_{2} & \cdots & \mathbf{u}_{D}^{\top}\mathbf{u}_{D} \\
\end{pmatrix}
=
\begin{pmatrix}
1 & & &\\
 & 1 & &\\
& & \ddots &\\
 & & & 1
\end{pmatrix}
= I
$$

となるので，式$(D2)$に左から $U^{\top}$ をかけて，

$$
U^{\top}AU = U^{\top}U
\begin{pmatrix}
\lambda_{1} & & &\\
 & \lambda_{2} & &  \\
& &\ddots & \\
& & & \lambda_{D} \\
\end{pmatrix}
=
\begin{pmatrix}
\lambda_{1} & & &\\
 & \lambda_{2} & &  \\
& &\ddots & \\
& & & \lambda_{D} \\
\end{pmatrix}
$$

が得られる．つまり，実対称行列 $A$ の固有ベクトルをならべた行列を $U$ とするとき，$A$ の左から $U^{\top}$，右から $U$ を掛けると，対角要素に固有値が並んだ対角行列となる．

---

これをふまえて，適当に作った対称行列の固有値・固有ベクトルを求めて，本当に対角化できることを計算で確かめてみましょう．

In [None]:
# 3x3 対称行列
A = np.array([[5, 3, -1], [3, 4, 1], [-1, 1, 2]])
print('A = ')
print(A, A.shape)

A = 
[[ 5  3 -1]
 [ 3  4  1]
 [-1  1  2]] (3, 3)


次のセルを実行すると，`A` の固有値・固有ベクトルを求めて表示します．
ここでは，NumPy で「特異値分解」を行う `np.linalg.svd` という関数を使っています（注）．


<span style="font-size: 75%">
※注: <a href="https://numpy.org/doc/stable/reference/generated/numpy.linalg.svd.html">np.linalg.svd</a>．<a href="https://numpy.org/doc/stable/reference/generated/numpy.linalg.eig.html">np.linalg.eig</a> という関数もありますが，そちらは固有値が順番に並ばないのでここでは使っていません．
ちなみに，固有値・固有ベクトルを使った対角化（固有値分解）は正方行列にしか適用できませんが，「特異値分解」は行数と列数が等しくない行列でも対角化もどきの分解ができます．
</span>


In [None]:
## 特異値分解経由で A の固有値・固有ベクトルを求める
#
# np.linalg.svd は「特異値分解」を行う関数．
#    引数にわたす行列 A が実対称行列の場合，固有値分解と等価な結果が得られる
#    固有値（特異値）は降順に並ぶ
U, eval, Vt = np.linalg.svd(A)
print('U = ')
print(U, U.shape)
print('eval = ')
print(eval, eval.shape)
print()
for d in range(len(eval)): # 固有ベクトルは列ベクトルとして U に格納されてる
    print(f'固有値 {eval[d]:.2f} に対応する固有ベクトルは {U[:, d]}')
print()
print('U.T @ U = ')
print(U.T @ U)

U = 
[[-0.76616506  0.39622091  0.50596451]
 [-0.64225506 -0.49947383 -0.58140721]
 [ 0.02235033 -0.77041215  0.63715428]] (3, 3)
eval = 
[7.54398901 3.16261761 0.29339338] (3,)

固有値 7.54 に対応する固有ベクトルは [-0.76616506 -0.64225506  0.02235033]
固有値 3.16 に対応する固有ベクトルは [ 0.39622091 -0.49947383 -0.77041215]
固有値 0.29 に対応する固有ベクトルは [ 0.50596451 -0.58140721  0.63715428]

U.T @ U = 
[[ 1.00000000e+00 -1.47573743e-17  1.59833098e-16]
 [-1.47573743e-17  1.00000000e+00  5.46176122e-17]
 [ 1.59833098e-16  5.46176122e-17  1.00000000e+00]]


`eval` の中に3つの固有値が降順に格納されています．`U` の方には，固有ベクトルが「列ベクトルとして」格納されています．つまり，1列が一つの固有ベクトルです（「1行」ではないことに注意）．したがって，`eval[d]` が `A` の（0から数えて）`d`番目に大きな固有値，`U[:, d]` がそれに対応する固有ベクトルです．

`U.T @ U` のところは，$U^{\top}U = I$ となっていることを確認しています．


#### 問題1

(1) 上記を読んで理解しましょう．

(2) `U.T @ U` を計算すると単位行列になっていることを自分の目で確かめましょう．

(3) 次のセルに，次の2つのものを計算して print するコードを書いて，↑で説明されていることが成り立っているかどうか確かめましょう．

1. $U^{\top}AU$
1. $U L U^{\top}$．↑では説明を省略しましたが，これは $A$ に等しくなります．ただし，$L = \textrm{diag}(\lambda_1, \lambda_2, \ldots, \lambda_D)$ は，対角に固有値を並べた対角行列を表します．次のようにすれば計算できます：
`L = np.diag(eval)`

[[ 7.54398901e+00 -9.74032462e-16  3.94778720e-16]
 [-6.13445854e-16  3.16261761e+00  8.55885118e-17]
 [ 5.67093842e-16 -5.24438451e-17  2.93393378e-01]]
[[ 5.  3. -1.]
 [ 3.  4.  1.]
 [-1.  1.  2.]]


---
### 行列・ベクトルの扱いに関する注意



notebookA の説明では，$D$ 次元のデータを $H$ 次元にする線形変換を説明する際に，$\mathbf{x}$ と $\mathbf{y}$ は列ベクトルとして扱っており，$\mathbf{x}$ は $D\times 1$，$\mathbf{y}$ は $H\times 1$ の行列として

$$
\mathbf{y} = U^{\top} \mathbf{x} \qquad (M1)
$$

という変換を考えていました．行列 $U$ は $D\times H$ です．

線形代数の教科書等では，このように，$D$ 次元のベクトルを「列ベクトル」（$D\times 1$行列）として扱うのが標準的です．そのため，notebookA の説明もそちらで書きました．

しかし，多変量データをコンピュータで扱う際には，$D$ 次元のベクトルを「行ベクトル」（$1\times D$行列）として，行列の1行が1つのデータを表すように数値を並べることがよくあります（理由は，文字の入出力の際に，1行目を左から右へ向かって書く → 2行目で同様 → ...と進むので，1列ではなく1行がひとかたまりの方が便利ってところでしょうか）．例えば，$N$個の$D$次元ベクトル $\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_N$ をそれぞれ $1\times D$ 行列として，それを行方向にならべると，次のような $N\times D$ 行列が得られます．

$$
X =
\begin{pmatrix}
\mathbf{x}_1\\ \mathbf{x}_2 \\ \vdots \\ \mathbf{x}_N
\end{pmatrix}
=
\begin{pmatrix}
x_{1, 1} & x_{1, 2} & \cdots & x_{1, D}\\
x_{2, 1} & x_{2, 2} & \cdots & x_{2, D}\\
\vdots & \vdots & & \vdots \\
x_{N, 1} & x_{N, 2} & \cdots & x_{N, D}\\
\end{pmatrix} \qquad (M2)
$$

重回帰分析の項でも実際にこのように数値を並べた配列を扱ってきました．

このように1つのデータを行ベクトルとして扱う場合には，式$(M1)$の代わりに，$\mathbf{x}, \mathbf{y}$ をそれぞれ $1\times D$，$1\times H$ の行列として，次の式を用いることになります．

$$
\mathbf{y} = \mathbf{x} U \qquad (M3)
$$

この場合，行列 $X$ に対して

$$
Y = X U \qquad (M4)
$$

とすると，$Y$ は $N \times H$ 行列となり，その各行は，$X$ の同じ行のデータを $H$ 次元に変換したものとなります．

#### 問題2

主成分分析の計算過程を一度に理解するのは大変です．段階を追って少しずつできるようになっていきましょう．まずは，データから分散共分散行列を求めたりその固有ベクトルを求めたりするのは後回しにして，問題1の方で求めた `A` の固有ベクトルを使って式$(M4)$の計算をやってみましょう．

In [None]:
X = np.array([[1, 1, 1], [1, 0, -1], [0, 2, 2], [-2, -2, -2]])
print('X = ')
print(X, X.shape)

X = 
[[ 1  1  1]
 [ 1  0 -1]
 [ 0  2  2]
 [-2 -2 -2]] (4, 3)


(1) `X` が上の説明の行列 $X$ を表していると考えると，$N, D$ はそれぞれいくつか答えなさい．

(2) 問題1で求めた `U` には，3つの固有ベクトルが列ベクトルとして格納されています．また，対応する固有値が大きい固有ベクトルほど列の番号が小さい方に格納されています．このとき，変数 `U2` が，固有値の大きい方の2つの固有ベクトルをならべた $3\times 2$ の行列を表すようにするには，次のどの式を用いればよいでしょうか．

`U2 = U[:2, :]`

`U2 = U[1:, :]`

`U2 = U[:, :2]`

`U2 = U[:, 1:]`

次のセルに正しい式を書き，`U2.shape` も print させるようにしなさい．



[[-0.76616506  0.39622091]
 [-0.64225506 -0.49947383]
 [ 0.02235033 -0.77041215]] (3, 2)


(3) 次のセルの1行目を修正して，`Y` が式$(M4)$で表されるものになるようにしなさい．
次のようになるはずです．

```
Y =
[[-1.38606979 -0.87366507]
 [-0.7885154   1.16663307]
 [-1.23980944 -2.53977196]
 [ 2.77213957  1.74733013]] (4, 2)
 ```

In [None]:
Y = X @ U2
print('Y = ')
print(Y, Y.shape)

Y = 
[[-1.38606979 -0.87366507]
 [-0.7885154   1.16663307]
 [-1.23980944 -2.53977196]
 [ 2.77213957  1.74733013]] (4, 2)


### データの平均を0にする，分散共分散行列を求める

データから分散共分散行列を求める過程を考えましょう．

上で説明してきたデータに対して，分散共分散行列 $V$は，その $(i,j)$ 要素 $V_{i,j}$ が

$$
V_{i,j} = \frac{1}{N}\sum_{n=1}^{N}(x_{n,i}-\bar{x}_{i})(x_{n,j}-\bar{x}_{j})  \qquad (i, j = 1, 2, \ldots, D)
$$

となるような $D\times D$ 行列です．$\frac{1}{N}\sum_{n=1}^{N}\mathbf{x}_{n} = \mathbf{0}$ である，つまりデータの平均が $\mathbf{0}$ である場合には，

$$
V_{i,j} = \frac{1}{N}\sum_{n=1}^{N}x_{n,i}x_{n,j}  \qquad (i, j = 1, 2, \ldots, D)
$$

で計算することができます．


式$(M2)$のようにデータが $N \times D$ 行列 $X$ に格納されている場合，

$$
X^{\top}X =
\begin{pmatrix}
\mathbf{x}_{1}^{\top} &
\mathbf{x}_{2}^{\top} &
\cdots &
\mathbf{x}_{N}^{\top}
\end{pmatrix}
\begin{pmatrix}
\mathbf{x}_{1}\\
\mathbf{x}_{2}\\
\vdots\\
\mathbf{x}_{N}
\end{pmatrix}
=
\sum_{n=1}^{N}\mathbf{x}_{n}^{\top}\mathbf{x}_{n}
$$

の $(i,j)$ 要素は

$$
\sum_{n=1}^{N}x_{n,i}x_{n,j}  \qquad (i, j = 1, 2, \ldots, D)
$$

となっています．
したがって，$N \times D$ 行列 $X$ に格納されている，平均が $\mathbf{0}$ のデータの分散共分散行列 $V$ は，$V = \frac{1}{N}X^{\top}X$ と表せます．



#### 問題3

実際のデータから分散共分散行列を求めてみましょう．

In [None]:
# 国数英
dfJME = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/jme.txt', delimiter=' ', header=None)
dfJME.rename(columns={0:'国語', 1:'数学', 2:'英語'}, inplace=True)
dfJME.head(5)

Unnamed: 0,国語,数学,英語
0,49,51,59
1,58,58,63
2,64,56,68
3,65,70,77
4,54,45,55


In [None]:
Xorg = dfJME.to_numpy()
print(Xorg)
N, D = Xorg.shape  # Xorg の行数が N に，列数が D に代入される
print(f'N = {N}, D = {D}')

[[49 51 59]
 [58 58 63]
 [64 56 68]
 [65 70 77]
 [54 45 55]
 [58 70 71]
 [49 45 57]
 [67 69 79]
 [54 66 66]
 [66 73 81]
 [72 71 81]
 [66 72 77]
 [54 57 62]
 [64 53 67]
 [39 58 56]
 [56 57 62]
 [54 71 70]
 [56 63 67]
 [48 53 61]
 [57 62 70]
 [57 62 68]
 [47 59 59]
 [50 57 61]
 [60 65 71]
 [72 74 77]
 [54 66 66]
 [59 72 70]
 [61 50 59]
 [64 69 68]
 [70 60 71]]
N = 30, D = 3


(1) 次のセルに，`np.mean` を使って `Xorg` の列ごとの平均を求めてそれを変数 `Xm` に代入し，その値を表示するコードを書きなさい（ヒント: `axis`オプションを使う）．
こうなるはず．
```
[58.13  61.8  67.3]
```

[58.13333333 61.8        67.3       ]


(2) 次のセルに，`Xorg` から `Xm` を引いたものを `X` に代入し，その値を表示するコードを書きなさい．

[[ -9.13333333 -10.8         -8.3       ]
 [ -0.13333333  -3.8         -4.3       ]
 [  5.86666667  -5.8          0.7       ]
 [  6.86666667   8.2          9.7       ]
 [ -4.13333333 -16.8        -12.3       ]
 [ -0.13333333   8.2          3.7       ]
 [ -9.13333333 -16.8        -10.3       ]
 [  8.86666667   7.2         11.7       ]
 [ -4.13333333   4.2         -1.3       ]
 [  7.86666667  11.2         13.7       ]
 [ 13.86666667   9.2         13.7       ]
 [  7.86666667  10.2          9.7       ]
 [ -4.13333333  -4.8         -5.3       ]
 [  5.86666667  -8.8         -0.3       ]
 [-19.13333333  -3.8        -11.3       ]
 [ -2.13333333  -4.8         -5.3       ]
 [ -4.13333333   9.2          2.7       ]
 [ -2.13333333   1.2         -0.3       ]
 [-10.13333333  -8.8         -6.3       ]
 [ -1.13333333   0.2          2.7       ]
 [ -1.13333333   0.2          0.7       ]
 [-11.13333333  -2.8         -8.3       ]
 [ -8.13333333  -4.8         -6.3       ]
 [  1.86666667   3.2          3.7 

(3) 次のセルに，`Xorg` に格納されていたデータの分散共分散行列を求めて `V` に代入するコードを書きなさい．`X` と `N` を使うこと．

こうなるはず：
- 国語，数学，英語の分散はそれぞれ 60.45, 68.5, 53.6
- 数学と英語の共分散は 50.9，国語と英語の共分散は 46.3，国語と数学の共分散は 33.6

[[60.44888889 33.62666667 46.29333333]
 [33.62666667 68.49333333 50.92666667]
 [46.29333333 50.92666667 53.61      ]]


### 固有値・固有ベクトルを求める，次元削減する



#### 問題4

上のデータを主成分分析によって2次元にする次元削減をやってみましょう．


(1) 次のセルに，問題3で求めた `V` を使ってその固有値・固有ベクトルを求め，それらの値を表示するコードを書きなさい．

U = 
[[-0.54007232  0.7359217  -0.40833948]
 [-0.60236165 -0.67684192 -0.42313764]
 [-0.58777745  0.01744311  0.8088346 ]] (3, 3)
eval = 
[148.33636162  30.61903392   3.59682668] (3,)

固有値 148.34 に対応する固有ベクトルは [-0.54007232 -0.60236165 -0.58777745]
固有値 30.62 に対応する固有ベクトルは [ 0.7359217  -0.67684192  0.01744311]
固有値 3.60 に対応する固有ベクトルは [-0.40833948 -0.42313764  0.8088346 ]


(2) 次のセルに，`X` に格納されたデータを2次元に次元削減する（第1，第2主成分スコアを求める）コードを書きなさい．
ただし，次の指示にしたがうこと
- `V` の固有ベクトルのうち大きい方から2つを0列目と1列目に並べた $3\times 2$ 行列を `U2` としなさい
- `U2` を使って `X` を変換したものを `Y` としなさい

[[-0.54007232  0.7359217 ]
 [-0.60236165 -0.67684192]
 [-0.58777745  0.01744311]] (3, 2)
[[ 16.31671919   0.44369665]
 [  4.88842693   2.39887101]
 [ -0.08617095   8.25530064]
 [-14.34930339  -0.32757649]
 [ 19.58163725   8.11458423]
 [ -7.04213244  -5.58368711]
 [ 21.10644398   4.46986193]
 [-16.00264129   1.85599506]
 [  0.4664907   -5.90722182]
 [-19.04757046  -1.55240809]
 [-21.0832811    4.21680597]
 [-16.09409902  -0.94533863]
 [  8.23885533   0.114583  ]
 [  2.30869144  10.26838328]
 [ 19.26424323 -11.70574317]
 [  7.15871068   1.5864264 ]
 [ -4.89642734  -9.22165896]
 [  0.60565355  -2.38740954]
 [ 14.47651332  -1.61102267]
 [ -1.09538947  -0.92231657]
 [  0.08016542  -0.9572028 ]
 [ 12.57797065  -6.44288211]
 [ 10.98692208  -2.84654693]
 [ -5.11046884  -0.7276341 ]
 [-20.53925626   2.11650776]
 [  0.4664907   -5.90722182]
 [ -8.19915061  -6.21889236]
 [ 10.43821294   9.95159901]
 [ -7.91687239  -0.54364431]
 [ -7.49938384  10.01579253]] (30, 2)


`Y` の最初の行と最後の行はこんなんなるでしょう．
```
[ 16.31671919   0.44369665]
[ -7.49938384  10.01579253]
```

### 主成分分析の結果を解釈する

主成分分析の結果をどのように分析するか，については次回説明しますが，ここでその初歩を少しだけ．

#### 問題5

次のようなデータをでっち上げて考えてみましょう．

In [None]:
X2 = np.array([[  0,   0,   0], # 3科目とも平均点のひと
               [ 10,  10,  10], # 3科目とも平均より10点上だったひと
               [ 20,  20,  20], # 3科目とも平均より20点上だったひと
               [-10, -10, -10], # 3科目とも平均より10点下だったひと
               [ 10,  10,   0], # 国語数学が等しく平均より上だったひと
               [ 10, -10,   0], # 国語が平均より上で数学が平均より下
               [-10,  10,   0], # 国語が平均より下で数学が平均より上
               [-20,   0,   0], # 国語が平均より下で苦手で数学，英語は平均
])

(1) 次のセルに，問題3の `U2` を使って `X2` を 2次元に変換したものを求め，その値を表示するコードを書きなさい．変換したものは `Y2` という変数に代入することにしよう．

[[  0.           0.        ]
 [-17.30211421   0.76522899]
 [-34.60422843   1.53045798]
 [ 17.30211421  -0.76522899]
 [-11.42433974   0.59079785]
 [  0.62289325  14.12763623]
 [ -0.62289325 -14.12763623]
 [ 10.80144649 -14.71843408]]


`X2` と `Y2` を見比べると，次のようなことが分かります．
- 3科目とも平均点のひとの主成分スコアは $(\mbox{第1主成分スコア}, \mbox{第2主成分スコア} ) = (0, 0)$ となっている
- 3科目どれも平均より上のひとの第1主成分スコアは負，3科目とも平均より下のひとは正
- 国語と数学で国語の方がよいひとは第2主成分スコアが正，逆のひとは第2主成分スコアが負

このような結果が得られることは，`U2` の要素からも推測できます．

In [None]:
print(U2)

[[-0.54007232  0.7359217 ]
 [-0.60236165 -0.67684192]
 [-0.58777745  0.01744311]]


`U2`の 0 列目，すなわちデータの分散共分散行列の最大固有値に対応する固有ベクトルは3つの要素がすべて負で値の大きさがほぼ同じで，おおざっぱに見ると

$$
(\mbox{第1主成分}) = -0.5(\mbox{国語}) -0.5(\mbox{数学}) -0.5(\mbox{英語}) = -0.5((\mbox{国語})+(\mbox{数学})+(\mbox{英語}))
$$

となっています．このことから，第1主成分は「3科目の総合力」（ただし値が小さい方が高い）を表すと解釈できます．

一方，第2主成分については，(英語)の係数が小さく，おおざっぱには

$$
(\mbox{第1主成分}) = 0.7(\mbox{国語}) -0.7(\mbox{数学}) = 0.7((\mbox{国語})-(\mbox{数学}))
$$

と見ることができます．したがって，第2主成分は「国語の得意度」（大きいほうが数学に比べて国語が得意）とでもいえそうです．最後の二人は国数の点数は異なるけれど，差は同じなので，第2主成分スコアの値はほとんど同じになっています．

これらのことから，ここで行った主成分分析による次元削減では，国語，数学，英語3科目の点数のデータを2つの変数で説明しようとしたら，「3科目の総合力」と「国語の得意度」という2つが得られた，この二つがこのデータの主な成分である，という解釈をすることができます．