<a href="https://colab.research.google.com/github/takatakamanbou/Data/blob/2021/ex03notebookA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data2021 ex03notebookA 度数分布とヒストグラム

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/Data-logo03.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?Data/2021

## 準備

Google Colab の Notebook では， Python というプログラミング言語のコードを動かして計算したりグラフを描いたりもできます．
Python は，データ分析や機械学習・人工知能分野ではメジャーなプログラミング言語ですが，それを学ぶことはこの授業の守備範囲ではありません．ですので，以下の所々に現れるプログラムっぽい記述の内容は，理解できなくて構いません．

以下，コードセルを上から順に実行していってね．

In [None]:
# 以下で使う各種モジュールを import
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn

seaborn.set()

In [None]:
# データを入手
! wget -nc https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/mpiS100.csv
! wget -nc https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex02_temp1980-2019Oct01.csv
! wget -nc https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex02_temp1980-2019Nov01.csv
! wget -nc https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex02_temp1980-2019Dec01.csv
! wget -nc https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex03_dist.npz
! ls

In [None]:
# 大津市の1980年から2019年までの気温データ

# 10月1日の気温
dfOtsu1001 = pd.read_csv('ex02_temp1980-2019Oct01.csv')
dfOtsu1001.drop(dfOtsu1001.columns[0], axis=1, inplace=True)
#dfOtsu1001

# 11月1日の気温
dfOtsu1101 = pd.read_csv('ex02_temp1980-2019Nov01.csv')
dfOtsu1101.drop(dfOtsu1101.columns[0], axis=1, inplace=True)
#dfOtsu1101

# 12月1日の気温
dfOtsu1201 = pd.read_csv('ex02_temp1980-2019Dec01.csv')
dfOtsu1201.drop(dfOtsu1201.columns[0], axis=1, inplace=True)
#dfOtsu1201

# 人工データ
ex03_dist = np.load('ex03_dist.npz')

----
## 度数分布とヒストグラム
----



----
### 度数分布

上記で読み込んだデータのうち，大津市の10月1日の日平均気温（1980年から2019年まで）を眺めてみましょう．

In [None]:
# 大津市の10月1日の日平均気温を眺めてみる
dfOtsu1001.loc[:, ['year','average']]

この例では，気温の値が40個あります．これらの個々の値のことは，「**標本**」や「**サンプル**」ということがあります（ここではその意味や理由については説明しないことにします）．
標本の数（この例では40）は，「**標本数**」や「**サンプルサイズ**」ということがあります．


この例ではサンプルサイズがさほど多くないので，がんばって全部の標本を観察して，「18度を下回ることはめずらしい」とか，「25度以上にはならなかった」とか，そういうことは読み取れます．
でも，そのように目視だけで傾向をつかむのには限界があります．では，横軸を年，縦軸を気温の値にしてグラフを描いてみるとどうでしょう？

In [None]:
# 大津市の10月1日の日平均気温の推移
X = dfOtsu1001['year']
Y = dfOtsu1001['average']
fig, ax = plt.subplots(facecolor="white", figsize=(8, 6))
ax.plot(X, Y, '-o')
ax.set_ylim(0, 30)
plt.show()
del X, Y

このようなグラフを描くと，さきほど確認したようなことがぱっと見てわかります．
ただ，これでは「平均気温は何度くらいのことが多いのか」といった，標本の値の「散らばり方」についてはよくわかりません．

値の「散らばり方」を知るための方法の一つは，「10度以上15度未満」，「15度以上20度未満」のように値の区間を決めて，それぞれの区間に含まれる値の数を数える，というものです．

このような計算によって標本の値の散らばり方を表したものを「**度数分布**」といい，それを表にしたものを「**度数分布表**」と言います．

以下は，気温2度刻みで区間を設定して度数分布を求めたものです．

In [None]:
# 度数分布を求める
bins = [-np.inf, 16, 18, 20, 22, 24, 26, np.inf]
cnt, _ = np.histogram(dfOtsu1001['average'], bins=bins)

print(f'{bins[1]}度未満   {cnt[0]}')
for i in range(1, len(bins)-2):
    print(f'{bins[i]}度以上{bins[i+1]}度未満   {cnt[i]}')
i = len(bins) - 2
print(f'{bins[i]}度以上   {cnt[i]}')

この場合，気温は7つの区間に分けて集計されています．
これらの区間のことは，階級もしくはビン(bins)ということもあります．

----
### ヒストグラム

度数分布は，多くの場合，「**ヒストグラム**」というグラフの形で表されます．
上記の度数分布をヒストグラムにしてみると，こんなふうになります．

In [None]:
# ヒストグラム(1)
dfOtsu1001['average'].hist(bins=[14, 16, 18, 20, 22, 24, 26, 28])

このヒストグラムを見ると，「この40個の気温の値のうち14個が18度以上20度未満である」こと，すなわち，「この40年間で平均気温の値がこの区間に入っていたことが14回あった」ということがわかります．さらに，平均気温がこの区間に入ることが最も多かった，とか，18度を下回ったのは4回だけだった，というようなこともわかりますね．

このように，度数分布を計算したりヒストグラムを描いたりすることで，標本の値の散らばり方を把握することができます．





----
### 区間の幅や数の設定には気をつけよう

ただし，度数分布・ヒストグラムを求める際には，区間の幅と数の設定の仕方に気をつけないといけません．

区間の幅をあまり大きくしすぎ（区間の数を少なくしすぎ）ても，小さくしすぎ（数を増やしすぎ）ても，値の散らばり方をとらえることが難しくなってしまいます．

In [None]:
# 6度刻みのヒストグラム
dfOtsu1001['average'].hist(bins=[16, 22, 28])

In [None]:
# 0.2度刻みのヒストグラム
dfOtsu1001['average'].hist(bins=np.arange(16, 26, 0.2))

「じゃあ区間の幅や数はどうやって決めたらいいの？」となるでしょうが，こうすれば正しいと言えるような決め方というのはありません．一つの方法として，「サンプルサイズを $N$ とするとき，区間の数は $\sqrt{N}$ に近い数とする」というものが知られています．$N=100$ なら区間数は $10$， $N = 10000$ なら $100$ ですね．

興味のあるひとは，[Wikipedia のヒストグラムの項](https://ja.wikipedia.org/wiki/%E3%83%92%E3%82%B9%E3%83%88%E3%82%B0%E3%83%A9%E3%83%A0) もどうぞ．


次に，さきほどの10月1日の気温と同様にして，11月1日と12月1日の平均気温のヒストグラムも描いてみます．

In [None]:
fig, ax = plt.subplots(3, 1, facecolor="white", figsize=(8, 6))
ax[0].hist(dfOtsu1001['average'], bins=[14, 16, 18, 20, 22, 24, 26, 28])
ax[1].hist(dfOtsu1101['average'], bins=[6, 8, 10, 12, 14, 16, 18, 20])
ax[2].hist(dfOtsu1201['average'], bins=[2, 4, 6, 8, 10, 12, 14, 16])
plt.show()

このヒストグラムたち，それぞれの月の平均気温の散らばり方だけを見るにはいいかもしれませんが，10月1日，11月1日，12月1日の間で比較したいと思ったら，横軸の範囲が違って困りますね．

横軸の範囲と区間の設定をそろえて，さらに縦軸の範囲も揃えてみましょう．

In [None]:
# 上から順に，10月1日，11月1日，12月1日の平均気温，
fig, ax = plt.subplots(3, 1, facecolor="white", figsize=(8, 6))
bins = np.arange(2, 28, 2)
ax[0].hist(dfOtsu1001['average'], bins=bins)
ax[0].set_ylim((0, 17))
ax[0].set_xticks(bins)
ax[1].hist(dfOtsu1101['average'], bins=bins)
ax[1].set_ylim((0, 17))
ax[1].set_xticks(bins)
ax[2].hist(dfOtsu1201['average'], bins=bins)
ax[2].set_ylim((0, 17))
ax[2].set_xticks(bins)
plt.show()

このように，分析・考察の仕方によっては，ヒストグラムを描く範囲についても注意した方がよいでしょう．

----
### 相対度数

度数分布は，区間/階級/ビンごとの値の数（度数）を単純に数えたものですが，場合によっては，その数をサンプルサイズで割って，各区間ごとの度数のサンプルサイズに対する割合で表すことがあります．

割合に換算した度数を「**相対度数**」といい，相対度数で表した度数分布を「**相対度数分布**」といいます．

サンプルサイズがいくつであるかをあまり気にしないで済むので，サンプルサイズの異なるデータの間で度数分布を比較する場合などに役立ちます．

以下は，「ほげ学部」の学生と「ふが学部」の学生が同じ試験を受けたとして，その点数のデータの度数分布を計算する例です．

In [None]:
X_hoge = ex03_dist['dat1']  # 「ほげ学部」の学生の点数
print(f'ほげ学部のデータのサンプルサイズは{len(X_hoge)}')
X_fuga = ex03_dist['dat2']  # 「ふが学部」の学生の点数
print(f'ふが学部のデータのサンプルサイズは{len(X_fuga)}')

普通に度数分布を求めてみると...

In [None]:
bins = np.arange(0, 101, 20)

print(f'##### ほげ学部の学生の点数の度数分布 (N={len(X_hoge)}) #####')
cnt, _ = np.histogram(X_hoge, bins=bins)
print(f'{bins[1]}未満   {cnt[0]}')
for i in range(len(bins)-2):
    print(f'{bins[i]}以上{bins[i+1]}未満   {cnt[i]}')
i = len(bins) - 2
print(f'{bins[i]}以上   {cnt[i]}')

print()
print(f'##### ふが学部の学生の点数の度数分布 (N={len(X_fuga)}) #####')
cnt, _ = np.histogram(X_fuga, bins=bins)
print(f'{bins[1]}未満   {cnt[0]}')
for i in range(len(bins)-2):
    print(f'{bins[i]}以上{bins[i+1]}未満   {cnt[i]}')
i = len(bins) - 2
print(f'{bins[i]}以上   {cnt[i]}')

こんなん．ちょっと比較しづらいですね．

相対度数分布にするとこんなん．

In [None]:
bins = np.arange(0, 101, 20)

N = len(X_hoge)
print(f'##### ほげ学部の学生の点数の相対度数分布 (N={N}) #####')
cnt, _ = np.histogram(X_hoge, bins=bins)
rate = cnt / N
print(f'{bins[1]}未満   {rate[0]}')
for i in range(len(bins)-2):
    print(f'{bins[i]}以上{bins[i+1]}未満   {rate[i]}')
i = len(bins) - 2
print(f'{bins[i]}以上   {rate[i]}')

print()
N = len(X_fuga)
print(f'##### ふが学部の学生の点数の相対度数分布 (N={N}) #####')
cnt, _ = np.histogram(X_fuga, bins=bins)
rate = cnt / N
print(f'{bins[1]}未満   {rate[0]}')
for i in range(len(bins)-2):
    print(f'{bins[i]}以上{bins[i+1]}未満   {rate[i]}')
i = len(bins) - 2
print(f'{bins[i]}以上   {rate[i]}')

点数の散らばり方を比較しやすくなりました．

ここでは省略しますが，相対度数に基づいてヒストグラムを描くことももちろんできます．

----
### 分布の形

これまで見てきたヒストグラムは，だいたいみんな一つの山のような形をしていました．
これはたまたまのことです．どんなヒストグラムもみんなそうなるというわけでは全くありません．

以下は，ある動物の体長（単位は[cm]）を測定したデータのヒストグラムです．

In [None]:
X3 = ex03_dist['dat3']
fig, ax = plt.subplots(facecolor="white", figsize=(8, 6))
ax.hist(X3, bins=np.arange(0, 80, 3))
ax.set_xlim(10, 70)
plt.show()

山が二つあるような分布になっています．
値がこのように散らばっているということは，この動物は，体長が小さいものと大きいものと，大きく二つのグループに分類できるのかもしれません．
このデータからは，小さい方が数が多いこともわかりますね．

このように，ヒストグラムの分布の形から，データの傾向をとらえられる場合があります（残念ながらこのデータは説明のために作った偽物のデータです）．