<a href="https://colab.research.google.com/github/takatakamanbou/Data/blob/2023/ex04notebookB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data2023 ex04notebookB  データの代表値(3)

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/Data-logo04.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?Data/2023

## 準備

以下，コードセルを上から順に実行していってね．

In [None]:
# 準備あれこれ
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn
seaborn.set()

In [None]:
# データを読み込む
dfMPI = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/mpiS100.csv', header=0)
#dfMPI
math = np.sort(dfMPI['数学']).astype(int)

dfEX04 = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex04data2.csv', header=2)
dfEX04
X1 = np.asarray(dfEX04['データ1'])
X2 = np.asarray(dfEX04['データ2'])
X3 = np.asarray(dfEX04['データ3'])

tempList = []
print('気温データ読み込み中', end=' ')
for month in ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']:
    url = f'https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex02_temp1980-2019{month}01.csv'
    df = pd.read_csv(url, header=0)
    tempList.append(np.asarray(df['average']))
    print('.', end=' ')
print('完了')

----
## データの代表値 その(3)
----

データの **代表値** の話の続きとして， **中央値**，**四分位数**，**パーセンタイル**，**箱ひげ図** などについて説明します．




----
### 四分位数と中央値

以前の授業で扱った，「数学」の点数データ（サンプルサイズ $100$）を考えます．
そのデータを昇順に（小さい値ほど先に現れるように）並べかえると，こんなんなります．

In [None]:
for i in range(len(math)):
    print(f'{i+1}位 {math[i]}')

最も小さい値を1位として，順位を表す表示を付けておきました．

このようにデータを並べ替えたとき，上位 1/4 の位置にある標本の値を「**第1四分位数**」，上位 2/4, 3/4 の位置の値をそれぞれ「**第2四分位数**」および「**第3四分位数**」と言います（注）．



以下のセルを実行すると，コンピュータにこれらの四分位数を計算させられます．

In [None]:
Q = np.quantile(math, [0.25, 0.5, 0.75])
for i, q in enumerate(Q):
    print(f'第{i+1}四分位数: {q}')

これらは，このデータをサンプルサイズが4等分になるように4つに分けたときの，境目の値と考えられます．今はサンプルサイズが 100 ですので，25位と26位を分ける値が「第1四分位数」，50位と51位を分ける数が「第2四分位数」，75位と76位を分ける数が「第3四分位数」となっているはずです．

注） この説明は厳密ではありませんが，実は四分位数の定義にはいくつかあるため，直感的な言い方にとどめておきます．ソフトウェアを用いて四分位数を計算する場合は，どのような定義に基づいているかによって微妙に異なる値が出てくることがあります．



第2四分位数は，ちょうどデータの真ん中の値ですので，**中央値** (**median**） ともいいます．

高校数学でも学んだはずですが，サンプルサイズ $N$ が偶数のときは，中央値の求め方に注意が必要です．
偶数個のデータには「ちょうど真ん中」の値が存在しないので，「$N/2$ 番目の値と $N/2+1$ 番目の値の平均」を中央値とします．

上記のデータの場合 $N=100$で，50位の値が $51$， 51位の値が $52$ なので，中央値は
$ (51 + 52)/2 = 51.5$ となります．この値を境目とすると，データがちょうど50個ずつに分けられる，というわけです．

----
### 中央値と外れ値

データの代表値としては，以前説明した平均値がよく用いられますが，平均値のかわりに中央値を用いることもよくあります．
その理由の一つは，**中央値は平均値に比べて外れ値の影響を受けにくい**からです．

**外れ値** というのは，データの中で，他の値から大きくはずれた値のことです．
データを取得する際に何か問題があって異常な値が入り込んだ（測定ミスや記録ミスなど）という場合もありますし，まれだけど実際に起こり得る値がたまたま観測された，という場合もありえます．

上記の数学の点数データにわざと外れ値を入れて平均値と中央値を求めてみましょう．

In [None]:
# 元のデータの平均値と中央値
print(f'平均値は{np.mean(math)}  中央値は{np.median(math)}')

# 先頭のひとの点数を 1000 にしたデータをつくる
math2 = np.copy(math)
math2[0] = 1000

# そのデータの平均値と中央値は...
print(f'平均値は{np.mean(math2)}  中央値は{np.median(math2)}')

**★★★ あとの Quiz で使いますので，上記の値をメモしておきましょう ★★★**

平均値はこのひとつの外れ値のためだけに10点近く上昇してしまっているのに対して，中央値はほとんど変化していません．

平均値は，すべての標本値の和をとるので，外れ値があると大きく影響を受けます．
一方，中央値や四分位数はデータの順位に基づいて算出される値なので，外れ値が一つはいっても順位が1つずれるだけで影響が小さい，というわけです．

上記のような性質があるため，データの大きさを表す代表値として，平均値よりも中央値を使った方が実態にあった値が得られる場合があります．
例えば，「国民ひとりひとりの年収額」のようなデータの場合，ごく少数の億万長者の年収額で平均値は大幅に高い方へ移動してしまうので，中央値の方が適切な代表値であるとされています．

----
### パーセンタイル

**パーセンタイル** (percentile) というのは，四分位数のようにデータを4等分するかわりに，並べ替えたデータを100等分して考えるものです（「百分位数」と言うこともできる）．

- 「25パーセンタイル」 = 「第1四分位数」
- 「50パーセンタイル」 = 「第2四分位数」 = 「中央値」
- 「75パーセンタイル」 = 「第3四分位数」

です．もちろん，「10パーセンタイル」とか「77パーセンタイル」なんて値を考えることもできます．

ちなみに，

- 「0パーセンタイル」 = 「第0四分位数」 = **最小値**
- 「100パーセンタイル」 = 「第4四分位数」 = **最大値**

です．




----
### 箱ひげ図

**箱ひげ図** は，**最小値**（=第0四分位数），**第1四分位数**，**中央値**（=第2四分位数），**第3四分位数**，**最大値**（=第4四分位数） という5つの値を用いてデータの分布を図示するものです．



前の課題の「データ2」を使って実際に箱ひげ図を描いてみます．以下では，「データ2」を `X2` と表記してます．

まずは，`X2` の上記5種類の値．

In [None]:
# X2 の5数要約
Q = np.quantile(X2, [0.0, 0.25, 0.5, 0.75, 1.0])
print(f'最小値: {Q[0]}  第1四分位数: {Q[1]}  中央値: {Q[2]}  第3四分位数: {Q[3]}  最大値: {Q[4]}')

対応する箱ひげ図はこんなんです．

In [None]:
# X2 の箱ひげ図
fig, ax = plt.subplots(facecolor="white", figsize=(4, 8))
ax.boxplot(X2)
ax.set_ylim(-8, 4)
ax.set_xticklabels(['X2'])
plt.show()

5つの値と箱ひげ図を見比べてもらえば明らかでしょうが，箱ひげ図はこんなふう（↓）に描かれています（注）．

注) 箱ひげ図には，この説明と少し違う描き方をする変種があります．
そのため，実際のソフトウェアで箱ひげ図を描く場合は注意が必要なのですが，この授業ではその辺のことは省略します．


![boxplot.png](https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/boxplot.png)

箱ひげ図は，ヒストグラムと同様にデータの分布の様子を知るために使われます．
前の課題で使った「データ1」，「データ2」，「データ3」それぞれの箱ひげ図を描いてみると，こんなんなります．

In [None]:
# X1, X2, X3 の箱ひげ図
fig, ax = plt.subplots(facecolor="white", figsize=(8, 6))
ax.boxplot((X1, X2, X3))
ax.set_ylim(-8, 4)
ax.set_xticklabels(['X1', 'X2', 'X3'])
plt.show()

これらの箱ひげ図を比較すると，例えば次のようなことが読み取れます
- `X1` は他より散らばりが大きいけど，第1四分位数から第3四分位数までは逆に狭い範囲に集中している
- `X3` は中央値の前後でデータの散らばり方が異なる（中央値より大きい方が散らばりが大きい）

実際にヒストグラムを描いて確認してみましょう．
わかりやすくするため，回転させた箱ひげ図も付けときます．

In [None]:
# X1, X2, X3 のヒストグラム+箱ひげ図
fig, ax = plt.subplots(6, 1, facecolor="white", figsize=(8, 15))
ax[0].hist(X1, bins=np.arange(-8, 4, 1.0), label='X1')
ax[0].legend()
ax[0].set_xlim(-8,4)
ax[0].set_ylim(0,30)
ax[1].boxplot(X1, vert=False)
ax[1].set_xlim(-8,4)
ax[1].set_yticklabels(['X1'])
ax[2].hist(X2, bins=np.arange(-8, 4, 1.0), label='X2')
ax[2].legend()
ax[2].set_xlim(-8,4)
ax[2].set_ylim(0,30)
ax[3].boxplot(X2, vert=False)
ax[3].set_xlim(-8,4)
ax[3].set_yticklabels(['X2'])
ax[4].hist(X3, bins=np.arange(-8, 4, 1.0), label='X3')
ax[4].legend()
ax[4].set_xlim(-8,4)
ax[4].set_ylim(0,30)
ax[5].boxplot(X3, vert=False)
ax[5].set_xlim(-8,4)
ax[5].set_yticklabels(['X3'])
plt.show()

箱ひげ図は，ヒストグラムをたくさんならべると複雑すぎてわかりにくくなるような場面で，簡易的にデータの散らばりを表すために使われたりします．

以下は，大津市の1980年から2019年までの毎月1日の日平均気温を箱ひげ図にしたものです．

In [None]:
# 1980年から2019年までの毎月1日の平均気温の箱ひげ図
fig, ax = plt.subplots(facecolor="white", figsize=(10, 6))
ax.boxplot(tempList)
plt.show()