<a href="https://colab.research.google.com/github/takatakamanbou/Data/blob/main/Data2024_ex06notebookA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data2024 ex06notebookA

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/Data-logo05.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?Data/2024

## 準備


以下，コードセルを上から順に実行していってね．

In [None]:
# 準備あれこれ
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn
seaborn.set()

In [None]:
# データを読み込む
dfHW = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex06hw.csv', header=0)
dfHW.drop(columns=['num'], inplace=True)
dfHW

In [None]:
# データを読み込む
dfMPI = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex06mpi.csv', header=0)
#print(dfMPI.columns)
dfMPI

----
## データの正規化
----




----
### データを正規化したくなる気持ち



In [None]:
dfHW

上記は，1000人分の $(\mbox{身長}, \mbox{体重})$ のデータです（注）．
なんか身長の値が大きくて，体重の値が小さいなあ，と思ってよく見ると，身長の単位はミリメートル，体重の単位はトンで表されています.


注) このデータは，人工的に作ったものです．平均や標準偏差は17歳男子の統計データに近くなるようにしてありますが，分布は実際のデータとは違ってます．

何も考えず身長，体重それぞれのヒストグラムを描いてみると，こんなんなります．

In [None]:
fig, ax = plt.subplots(2, 1, facecolor="white", figsize=(8, 6))
ax[0].hist(dfHW['身長[mm]'], label='height')
ax[0].legend()
ax[0].set_xlim(1300, 2100)
ax[0].set_ylim(0, 300)
ax[1].hist(dfHW['体重[ton]'], label='weight')
ax[1].legend()
ax[1].set_xlim(0.02, 0.10)
ax[1].set_ylim(0, 300)
plt.show()

当たり前ですが，値の大きさとか，範囲とか，桁違いですね．
当然，平均値や標準偏差の値も...

In [None]:
mH, mW = np.mean(dfHW['身長[mm]']), np.mean(dfHW['体重[ton]'])
sH, sW = np.std(dfHW['身長[mm]']), np.std(dfHW['体重[ton]'])
print(f'身長の平均 = {mH:.1f}, 身長の標準偏差 = {sH:.3f}')
print(f'体重の平均 = {mW:.6f}, 体重の標準偏差 = {sW:.6f}')

値が大きすぎたり小さすぎたりすると扱いにくいし解釈もしづらいので，値が適当な範囲になるように一定数を足したり，定数倍したりすることを考えましょう．

とりあえずすぐに思いつくのは，身長の単位を[cm]にして，体重の単位を[kg]にすることです．
身長を $\frac{1}{10}$ に，体重を $1000$ 倍にしてみましょう．

In [None]:
X = dfHW['身長[mm]']/10   # [cm]単位にした身長
Y = dfHW['体重[ton]']*1000 # [kg]単位にした体重

In [None]:
fig, ax = plt.subplots(2, 1, facecolor="white", figsize=(8, 6))
ax[0].hist(X, label='height')
ax[0].legend()
ax[0].set_xlim(130, 210)
ax[0].set_ylim(0, 300)
ax[1].hist(Y, label='weight')
ax[1].legend()
ax[1].set_xlim(20, 100)
ax[1].set_ylim(0, 300)
plt.show()

In [None]:
mH, mW = np.mean(X), np.mean(Y)
sH, sW = np.std(X), np.std(Y)
print(f'身長の平均 = {mH:.2f}, 身長の標準偏差 = {sH:.2f}')
print(f'体重の平均 = {mW:.2f}, 体重の標準偏差 = {sW:.2f}')

見慣れた値になりました．
以前証明した性質：

> データを定数 $a$ 倍すると，平均は元の $a$ 倍になり，標準偏差は元の $|a|$ 倍になる

がちゃんと成り立ってますね．


----
### 正規化（標準化）

身長と体重のようなデータは，たまたま[cm]と[kg]を単位とすれば，それなりの範囲におさまりました．しかし，単位を変えればいつでも都合よく範囲がそろうとは限りません．値の範囲をある程度そろえたいと思ったら，どうするのがよいでしょう？

問題や目的に応じて，様々なやり方がありますが，最も一般的な方法は，**データの平均が $0$ に，標準偏差が $1$ になるようにする**，というものです（標準偏差が $1$ $\Leftrightarrow$ 分散が $1^2=1$ なので，「分散が $1$ になるようにする」と言うこともあります）．

このようにデータの値をいじることを，データを **正規化する**，または，**標準化する** といいます．

データ $x_1, x_2, \dots , x_N$ の平均値が $\bar{x}$ で，標準偏差が $s$ だったとすると，
$$
z_n = \frac{x_n - \bar{x}}{s}\qquad (n = 1, 2, \dots , N)
$$
とすれば，$z_1, z_2, \dots , z_N$ の平均は $0$ で，標準偏差は $1$ になります（注）．

※ 注意: $z_n = -\frac{x_n - \bar{x}}{s}$ でも平均 $0$ 標準偏差 $1$ にできますが，通常は↑の式を用います．

［証明］

$z_n$の平均は，

$$
\begin{aligned}
\frac{1}{N}\sum_{n=1}^{N}z_n &= \frac{1}{N}\sum_{n=1}^{N}\frac{x_n - \bar{x}}{s} = \frac{1}{sN}\sum_{n=1}^{N}(x_n - \bar{x}) \\
&= \frac{1}{s}\left( \frac{1}{N}\sum_{n=1}^{N}x_n - \frac{1}{N}\sum_{n=1}^{N}\bar{x} \right)
= \frac{1}{s}\left(\bar{x} - \frac{N\bar{x}}{N}\right)\\
&= \frac{1}{s}\times 0 = 0
\end{aligned}
$$

である．分散は，

$$
\begin{aligned}
\frac{1}{N}\sum_{n=1}^{N}(z_n - 0)^2 &= \frac{1}{N}\sum_{n=1}^{N}\frac{(x_n - \bar{x})^2}{s^2} = \frac{1}{s^2}\frac{1}{N}\sum_{n=1}^{N}(x_n-\bar{x})^2 \\
&= \frac{1}{s^2} \times s^2 = 1
\end{aligned}
$$

である．よって，標準偏差も $1$ である．




実際に，上記の身長，体重をそれぞれ正規化してみましょう．

In [None]:
# 身長[cm]の平均と標準偏差
mH = np.mean(X)
sH = np.std(X)
print(f'身長の平均 = {mH:.2f}, 身長の標準偏差 = {sH:.2f}')

# 身長の正規化
X_normalized = (X - mH) / sH
print(f'正規化した身長の平均 = {np.mean(X_normalized):.2f}, 正規化した身長の標準偏差 = {np.std(X_normalized):.2f}')

In [None]:
# 体重[kg]の平均と標準偏差
mW = np.mean(Y)
sW = np.std(Y)
print(f'体重の平均 = {mW:.2f}, 体重の標準偏差 = {sW:.2f}')

# 体重の正規化
Y_normalized = (Y - mW) / sW
print(f'正規化した体重の平均 = {np.mean(Y_normalized):.2f}, 正規化した体重の標準偏差 = {np.std(Y_normalized):.2f}')

正規化した身長体重のヒストグラムはこうなります．横軸の範囲に注目．

In [None]:
fig, ax = plt.subplots(2, 1, facecolor="white", figsize=(8, 6))
ax[0].hist(X_normalized, label='height')
ax[0].legend()
ax[0].set_xlim(-4, 4)
ax[0].set_ylim(0, 300)
ax[1].hist(Y_normalized, label='weight')
ax[1].legend()
ax[1].set_xlim(-4, 4)
ax[1].set_ylim(0, 300)
plt.show()

この例では，正規化すると，身長も体重もよく似た分布の形をしていることがわかります．
データを正規化すると，単位の違いなどにとらわれずに分布の本質的な性質を調べやすくなります．

----
### 正規化と相関係数

正規化したら相関係数はどうなるか，計算してみましょう．

まずは，[mm]/[ton]単位の身長/体重の散布図と相関係数．
横軸縦軸の範囲に注意．

In [None]:
fig, ax = plt.subplots(facecolor="white", figsize=(6, 6))
ax.scatter(dfHW['身長[mm]'], dfHW['体重[ton]'])
#ax.set_xlim(140, 200)
#ax.set_ylim(20, 100)
ax.set_xlim(1300, 2100)
ax.set_ylim(0.02, 0.1)
plt.show()

r = np.corrcoef(dfHW['身長[mm]'], dfHW['体重[ton]'])[1, 0]
print(f'相関係数は {r:.3f}')

次は，正規化後の散布図と相関係数．

In [None]:
fig, ax = plt.subplots(facecolor="white", figsize=(6, 6))
ax.scatter(X_normalized, Y_normalized)
ax.set_xlim(-4, 4)
ax.set_ylim(-4, 4)
plt.show()

r = np.corrcoef(X_normalized, Y_normalized)[1, 0]
print(f'相関係数は {r:.3f}')

★★★ 上記の相関係数の値を，ノート等にメモしておきましょう． Quiz で使う...かもしれません ★★★

分布の傾きが変わっていますが，これは単に縦軸横軸の範囲指定による見え方の問題です．
相関係数を見ると，正規化の前後で全く値が変わっていないのがわかります．

このように，相関係数の値は，データの値を定数倍したり一定値を加えたりしても，変化しません．

そのいい加減な説明：

相関係数の式は，
$$
r = \frac{s_{XY}}{s_X s_Y}
$$
ただし
$$
\begin{aligned}
s_X &= \sqrt{\frac{1}{N}\sum_{n=1}^{N}(x_n - \bar{x})^2}\\
s_Y &= \sqrt{\frac{1}{N}\sum_{n=1}^{N}(y_n - \bar{y})^2}\\
s_{XY} &= \frac{1}{N}\sum_{n=1}^{N}(x_n - \bar{x})(ｙ_n - \bar{y})
\end{aligned}
$$
というものでした．
分母の共分散も分子の標準偏差も平均を引いた値であるため，平均を変化させてもこれらの値は変化しません．
また，定数倍すると分母分子が等しく定数倍される結果，やはり値は変化しません．

----
### 実験



元のデータ $x_1, x_2, \dots , x_N$ の平均値が $\bar{x}$ で，標準偏差が $s$ だったとすると，
$$
z_n = \frac{x_n - \bar{x}}{s} \qquad (n = 1, 2, \dots , N)
$$
とすれば，このデータを正規化（標準化）したデータを得ることができます．つまり，
$z_1, z_2, \dots , z_N$ の平均は $0$ になり，標準偏差は $1$ になるのでした．

「数学」，「物理」，「情報」3科目の点数のデータを正規化（標準化）する実験をやってみましょう．

In [None]:
#@title  スライダを動かしてセルを実行し直してみよう．3科目ともその点数だったひとの点数を正規化（標準化）した値をグラフで確認することができます
xx = 70 #@param {type:"slider", min:0, max:100}

binsX = np.linspace(0, 100, num=21)
binsZ = np.linspace(-4, 4, num=21)
fig, ax = plt.subplots(3, 2, facecolor="white", figsize=(10, 8))
col = ['数学', '物理', '情報']
colE = ['Math', 'Physics', 'Information']
for i in range(3):
    X = dfMPI[col[i]]
    ax[i][0].hist(X, label=colE[i], bins=binsX)
    ax[i][0].legend()
    ax[i][0].set_xlim(0, 100)
    ax[i][0].set_ylim(0, 32)
    ax[i][0].axvline(x = xx, color='red')
    m = np.mean(X)
    s = np.std(X)
    Z = (X - m) / s
    zz = (xx - m) / s
    ax[i][1].hist(Z, label=colE[i], bins=binsZ)
    ax[i][1].legend()
    ax[i][1].set_xlim(-4, 4)
    ax[i][1].set_ylim(0, 32)
    ax[i][1].axvline(x = zz, color='red')
    print(f'##### {col[i]} #####')
    print(f'平均: {m:.2f}  標準偏差: {s:.2f}', end='   ')
    print(f'{xx}点のひとの正規化（標準化）後の値は {zz:.2f}')
plt.show()

正規化（標準化）した値を比較することで，分布の異なるこれら3科目の間で得点の比較ができるようになってますね．



［問題］ 上記のデータは，ある学校のある学年の生徒全員が受験した3科目の試験の点数だったとします．ほげお君もこの試験を受験しました．ほげお君の3科目の点数が，「数学」60点，「物理」70点，「情報」80点だったとすると，彼はどの科目のできが最も良かった（受験者の中で順位が上の方だった）と予想できるでしょうか？

次の手順で考えてみましょう．

Step1  上記のセルを， `xx` の値を `60`, `70`, `80` として実行し，以下の値を求めましょう

- 「数学」60点の正規化した値 =
- 「物理」70点の正規化した値 =
- 「情報」80点の正規化した値 =

Step2  これらの値から，彼はどの科目のできが最も良かったと予想できるか，考えましょう．


★★★ この［問題］の解答（求めた値を含む）を，ノート等にメモしておきましょう．Quiz に出てくる...かもしれません ★★★

----
### 偏差値


ここで，みなさんご存知の(?) **偏差値** について説明しておきます．

偏差値は，上記のような正規化（標準化）した値を，より直感的に解釈しやすくするため，10倍して50を加えた値です．

元のデータ $x_1, x_2, \dots , x_N$ の平均値が $\bar{x}$ で，標準偏差が $s$ だったとすると，
$$
h_n = 50 + 10\times\frac{x_n - \bar{x}}{s}\qquad (n = 1, 2, \dots , N)
$$
という計算で得られる値 $h_n$ が， $x_n$ に対する偏差値ということになります．

正規化した値 $z_n$ を使って表すと，
$$
h_n = 50 + 10z_n  \qquad (n = 1, 2, \dots , N)
$$
です． $z_n$ の平均は $0$，標準偏差は $1$ ですので，偏差値 $h_n$ の平均は $50$，標準偏差は$10$ になります（★）．
こうすることで，100点満点のテストの点数に近い感覚で値をとらえることができて便利，というわけです．

<font size="-1">★） どうしてそうなるかわからないひとは，平均や標準偏差の性質に関するnotebookと動画で復習してね</font>


ただし，元の点数が 0 以上100以下だったとしても，偏差値は区間 $[0, 100]$ におさまるとは限りません．以下のセルを，`Xm` や `Xs` の値をいろいろ変えて実行して，出力を観察してみましょう．

In [None]:
#@title  平均 `Xm` 標準偏差 `Xs` の点数分布を生成して，95点のひとの偏差値を算出します．
Xm = 60 #@param {type:"number"}
Xs = 15  #@param {type:"number"}

xx = 95

# 平均 Xm 標準偏差 Xs の値を100個，ランダムに生成
X = Xs * np.random.randn(100) + Xm
X[0] = xx  # 0番のひとを xx 点にする

binsX = np.linspace(0, 100, num=21)
fig, ax = plt.subplots(facecolor="white", figsize=(6, 4))
ax.hist(X, bins=binsX)
ax.set_xlim(0, 100)
ax.axvline(x = xx, color='red')
m = np.mean(X)
s = np.std(X)
zz = (xx - m) / s
h = 10*zz + 50
print(f'平均: {m:.2f}  標準偏差: {s:.2f}', end='   ')
print(f'{xx}点のひとの正規化（標準化）後の値は {zz:.2f}  偏差値は {h:.1f}')
plt.show()

----
### 正規化（標準化）した値や偏差値の解釈に関する注意




上記の［問題］で，「数学」60点，「物理」70点，「情報」80点だったひとのこれらの科目のできの良さを比較する，ということをやりました．
正規化（標準化）した値の大小から考えたわけですが，このような比較ができるのは，
「これら3科目の得点分布の形にあまり違いがない」という仮定が成り立つ場合のみです．
分布の形が違うような場合（たとえば，2科目は上記のヒストグラムのように山が一つの形（単峰性）の分布をしているのに，残り1科目は2つの山分かれた形の分布をしているなど）は，正規化した値の大小だけでは予想がはずれることがあります．

また，分布の形があまり違わなかったとしても，比較する二つのデータが異なる集団から得られたものだった場合，正規化（標準化）した値や偏差値での比較は意味のないことになります．

例えば，ほげお君が，「○ゼミの模擬試験」と「○○塾の模擬試験」を両方受けたとして，前者の偏差値が80で，後者の偏差値が50だったとしましょう．
この場合，これらの偏差値の比較から，「ほげおくんは○ゼミの模擬試験の方ができがよかった」と結論付けることはできません．

これらの試験は別々の集団が受験していますので，単純に後者の模擬試験を受験した集団の方ができるひとが多かった，というだけで，上記のような偏差値が出てきてしまいます．
場合によっては，後者の方ができがよかったとする方が適切な場合もありえます．

［参考］
- 「[全受験生が理解するべき！偏差値とは何か](https://youtu.be/Xt7VN0xCbt8)」 [予備校のノリで学ぶ「大学の数学・物理」](https://www.youtube.com/channel/UCqmWJJolqAgjIdLqK3zD1QQ)
- 「[地球上で自分1人だけが問題を解けたら、偏差値は◯◯万だ](https://quizknock.com/only-hensachi)」 [QuizKnock](https://quizknock.com/)
- 「[勉強せずに偏差値を10上げる方法を考える](https://quizknock.com/hensachizm)」 [QuizKnock](https://quizknock.com/)
- 「[【東大流】偏差値って何？マイナス×マイナスは何故プラス？勉強教え対決](https://youtu.be/ptT6n49vGqc)」 [QuizKnock](https://www.youtube.com/channel/UCQ_MqAw18jFTlBB-f8BP7dw)
