<a href="https://colab.research.google.com/github/takatakamanbou/Data/blob/2023/ex03notebookB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data2023 ex03notebookB  データの代表値(1)

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/Data-logo01.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?Data/2023

## 準備

以下，コードセルを上から順に実行していってね．

In [None]:
# 以下で使う各種モジュールを import
import numpy as np
import matplotlib.pyplot as plt
import seaborn

seaborn.set()

In [None]:
# 乱数データを作成
X1 = 2*np.random.randn(1000) + 3

----
## データの代表値
----

これまでは，データの傾向・標本の値の散らばり方を把握する方法として，「度数分布」を求めたり「ヒストグラム」を描いたりしてきました．
これらはデータを分析するために有効ですが，人間が解釈する際にあいまいな判断が生じ得ます．

ここからは，データの性質を少数の数値でとらえる方法を考えます．数値化することにより，あいまいさを減らし，より客観的に分析できるようになります．
このような，データの傾向・標本の値の散らばり方を表す数値を，**代表値** といいます．

おなじみの **平均**，**分散**，**標準偏差**等は，代表値の例です．




----
### 平均，標準偏差，分散の性質を観察する

データから平均等を算出して，それらの値がどんなふるまいをするのか観察しましょう．

説明をしやすくするため，以下で扱うデータを `X1` と呼ぶことにします．
次のセルを実行すると，`X1` のサンプルサイズがわかります．

In [None]:
# 変数 X1 に格納された標本の数は...
print('サンプルサイズ:', len(X1))
print()
# 変数 X1 に格納されたデータのうち最初の5つを表示してみる
print(X1[:10])

`X1` のヒストグラムはこんなんです．

In [None]:
# X1 のヒストグラム
fig, ax = plt.subplots(facecolor="white", figsize=(8, 6))
bins = np.arange(-6, 12, 0.5)
ax.hist(X1, bins=bins)
plt.show()

次のセルを実行すると，`X1` の平均，標準偏差，分散の値を計算してくれます．

In [None]:
# X1 の平均，標準偏差，分散
print(f'平均: {np.mean(X1):.3f}')
print(f'標準偏差: {np.std(X1):.3f}')
print(f'分散: {np.var(X1):.3f}')

#### データに定数を加えるとどう変化する？

データが変化すると，ヒストグラムや平均等がどのように変化するのか見てみましょう．
まずは，すべての標本値に一定の数を加えた場合．

次のセルを実行すると，`X1` の標本値に `shift` の値を加えたデータ `X2` を作ってヒストグラムや平均等を計算してくれます．

例えば `shift` の値を `1.0` にした場合，`X1` の値が `0.1, -0.2, 0.3, ... ` だったとすると，`X2` の値は `1.1, 0.8, 1.3, ...` となります．

In [None]:
#@title `shift` に適当な数値を入れて，「Shift+Enter」押してみてね（Shiftキー押しながらEnterキーを押す） { display-mode: "form" }
shift =  -5#@param {type:"number"}

# X2 は， X1 のすべての標本値 に shift を加えたもの
X2 = X1 + shift

# X1 と X2 のヒストグラム
fig, ax = plt.subplots(2, 1, facecolor="white", figsize=(8, 6))
bins = np.arange(-10, 15, 0.5)
ax[0].hist(X1, bins=bins, label="X1")
ax[0].legend()
ax[1].hist(X2, bins=bins, label="X2")
ax[1].legend()
plt.show()

print()
print('X1 の最初の5個の標本値')
print(X1[:5])
print(f'平均: {np.mean(X1):.3f} 標準偏差: {np.std(X1):.3f} 分散: {np.var(X1):.3f}')
print()
print('X2 の最初の5個の標本値')
print(X2[:5])
print(f'X2     平均: {np.mean(X2):.3f} 標準偏差: {np.std(X2):.3f} 分散: {np.var(X2):.3f}')

上記の `shift` の値を， `2.5` とか `5` とか `-3` とかにして，Shift + Enter してみよう．

結果をよく観察しよう．
- ヒストグラムはどうなっているでしょう？
- 平均，標準偏差，分散はどうなっているでしょう？ 変化する？しない？変化するならどう変化する？


#### データを定数倍するとどう変化する？

次は，すべての標本値に一定の数を掛けてみます．

次のセルを実行すると，`X1` の標本値に `scale` の値を掛けたデータ `X3` を作ってヒストグラムや平均等を計算してくれます．



In [None]:
#@title `scale` に適当な数値を入れて，「Shift+Enter」押してみてね（Shiftキー押しながらEnterキーを押す） { display-mode: "form" }
scale =  -0.5#@param {type:"number"}

# X3 は， X1 のすべての標本値 に scale を掛けたもの
X3 = X1 * scale

# X1 と X3 のヒストグラム
fig, ax = plt.subplots(2, 1, facecolor="white", figsize=(8, 6))
bins = np.arange(-15, 20, 0.5)
ax[0].hist(X1, bins=bins, label="X1")
ax[0].legend()
ax[1].hist(X3, bins=bins, label="X3")
ax[1].legend()
plt.show()

print()
print('X1 の最初の5個の標本値')
print(X1[:5])
print(f'平均: {np.mean(X1):.3f} 標準偏差: {np.std(X1):.3f} 分散: {np.var(X1):.3f}')
print()
print('X3 の最初の5個の標本値')
print(X3[:5])
print(f'X3     平均: {np.mean(X3):.3f} 標準偏差: {np.std(X3):.3f} 分散: {np.var(X3):.3f}')

上記の `shift` の値を， `2` とか `0.5` とか `-1` とかにして，Shift + Enter してみよう．

結果をよく観察しよう．
- ヒストグラムはどうなっているだろう？
- 平均，標準偏差，分散はどうなってるだろう？ 変化する？しない？変化するならどう変化する？


#### 両方やるとどうなる？


次のセルを実行すると，`X1` の標本値に `scale` の値を掛けて `shift` の値を加えたデータ `X4` を作ってヒストグラムや平均等を計算してくれます．


In [None]:
#@title `scale` と `shift` に適当な数値を入れて，「Shift+Enter」押してみてね（Shiftキー押しながらEnterキーを押す） { display-mode: "form" }
scale =  1#@param {type:"number"}
shift = 0#@param {type:"number"}

# X4 は， X1 を scale 倍して shift を加えたもの
X4 = X1 * scale + shift

# X1 と X4 のヒストグラム
fig, ax = plt.subplots(2, 1, facecolor="white", figsize=(8, 6))
bins = np.arange(-15, 20, 0.5)
ax[0].hist(X1, bins=bins, label="X1")
ax[0].legend()
ax[1].hist(X4, bins=bins, label="X4")
ax[1].legend()
plt.show()

print()
print('X1 の最初の5個の標本値')
print(X1[:5])
print(f'平均: {np.mean(X1):.3f} 標準偏差: {np.std(X1):.3f} 分散: {np.var(X1):.3f}')
print()
print('X4 の最初の5個の標本値')
print(X4[:5])
print(f'X4     平均: {np.mean(X4):.3f} 標準偏差: {np.std(X4):.3f} 分散: {np.var(X4):.3f}')