# **プログラミング基礎第11回**

---

## 今回の内容

- **統計学の用語**
  - 母集団と標本 
- **データのばらつき**: ばらつき具合は? 平均値に意味があるか? 
- **データの代表値**: データのいろいろな性質を表すもの 
  - 代表値
    - 平均値 
    - 中央値 
    - 最頻値 
- **度数分布表の作成** 

## 今回の設定
今回も前回と同じ設定をしておく 

In [None]:
# Jupyter で matplotlib を使うためのおまじない
%matplotlib inline
# Matplotlib の pyplot を取り込んで plt の名前で使う
import matplotlib.pyplot as plt
# NumPy を取り込んで np の名前で使う
import numpy as np

## 母集団と標本 

### すべては測定できない

**20代日本人の平均身長を求めるには?**

- 20代日本人人口はおよそ1262万人です 。
- 全員の身長を調べれば正確な値を計算できますが、その方法は現実的ではありません 。

現実的には、一部の20代の身長から平均値を計算し、その値を「20代日本人の平均身長」として使用します 。

### 母集団と標本

集団が大きすぎて全体を調べることができない場合には、集団から無作為に(ランダムに)選んで、全体を推測します 。

- **母集団**: 本当に調べたい全体の集団 
- **標本**: 無作為に選んだ一部の集団 

 
>**例：**
>
>母集団: 20代日本人  
>↓ (無作為に抽出)  
>標本 
>↓ (20代日本人の平均を推測する)


## ばらつきと代表値 

### 度数分布

- **度数分布表**: 標本を区間に分けて各区間ごとの個数を並べた表 
- **度数分布図**: 度数分布を視覚的に見るためのグラフ(ヒストグラム) 

下記は2023年4月時点での日本人の人口を10歳間隔で表したものです（単位は万人）。

| 区間 | 度数 | | 区間 | 度数 |
|:---:|:----:|---|:---:|:------:|
| 0-9 | 908 | | 50-59 | 1768 |
| 10-19 | 1078 | | 60-69 | 1487 |
| 20-29 | 1262 | | 70-79 | 1632 |
| 30-39 | 1352 | | 80-89 | 975 |
| 40-49 | 1714 | | 90- | 272 |
度数分布図の分布とは、「ばらつきぐあい」という意味です 。

### データのばらつき

様々なパターンの度数分布図に対して平均値はつねに意味を持つか？ 

1.  **左右対称 (正規分布)**: 年齢別の身長、桜の開花日、コンビニおにぎりの重さなど 
2.  **一定 (一様分布)**: サイコロを何度も振ったときの目の出方など 
3.  **山が二つ** 
4.  **偏り** 
5.  **山の途切れ** 

標本の特徴を分析する際には度数分布の形が重要です 。

- 1や2に近い場合は、平均値に意味があります 。
- 3,4,5に近い場合は、平均値が全体を表しているかが怪しくなります 。

### 代表値

代表値とは標本の傾向を見る時に使う値です 。

- **平均値 (mean, average)**: すべてのデータ値を合計し、データ数で割った値 
- **中央値 (median, 中間値, 中位数)**: データを小さい順に並べたときに順番が真ん中の値。偏りがある場合に役に立ちます 。
- **最頻値 (mode)**: データ値で最も度数の多い値。非対称の分布で役に立つことがあります 。

度数分布図の形によって、これら3つの値は、近い値の場合やまったく異なる値の場合があります 。

## 平均値 

### 平均値の定義

$n$個のデータ $x_1, x_2, ..., x_n$ に対して、その合計を個数で割った値です 。

$$ \overline{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n}\sum_{i=1}^{n}x_i $$ 

一部のデータが極端に異なると、平均値はそれらの値に引きずられます 。

In [None]:
# 1人だけ「からい」判定
x = [2, 9, 10, 10, 9, 10, 10] 
print(sum(x)/len(x))

8.571428571428571


### 同一の平均値
平均値だけでは判断を誤りそうな例 

In [None]:
x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [1, 1, 1, 2, 2, 9, 9, 10, 10, 10]
z = [2, 2, 4, 5, 6, 6, 6, 6, 9, 9]

print("mean(x)=", sum(x)/len(x), end=',')
print("mean(y)=", sum(y)/len(y), end=',')
print("mean(z)=", sum(z)/len(z))

mean(x)= 5.5,mean(y)= 5.5,mean(z)= 5.5


上記3つのリストは平均値がすべて5.5ですが、ヒストグラムを作成すると分布が大きく異なることがわかります 。

**xの分布 (一様分布)**

**yの分布 (両端にピークがある分布)**

**zの分布 (中央にピークがある分布)**

## 中央値 

### 中央値とは？

データを小さい順に並べたときに順番が真ん中の値です 。

- データ数が奇数と偶数で扱いが異なります 。
    - **奇数 ($n$)**: $\frac{n+1}{2}$ 番目の値 
    - **偶数 ($n$)**: $\frac{n}{2}$ 番目と $\frac{n}{2}+1$ 番目の値の平均値 

**例 (奇数, n=5)**
`1 3 6 7 9`  
中央値: 6 

**例 (偶数, n=6)**
`1 3 4 6 7 9`  
中央値: $\frac{4+6}{2} = 5$ 

### 整列

中央値の計算では、データを昇順または降順に並べておく必要があります 。元々の順序を保持したい場合は、リストをコピーしてからソートします 。

In [None]:
x = [8, 1, 6, 3, 5]
# リストの機能, sort() メソッド
x.sort()
print(x)

[1, 3, 5, 6, 8]


In [None]:
x = [8, 1, 6, 3, 5]
# リストデータのコピー
x1 = x.copy()
x1.sort()
print(x, '-- sort -->', x1)

[8, 1, 6, 3, 5] -- sort --> [1, 3, 5, 6, 8]


### 除算と添字

リストの添字（インデックス）に浮動小数点数（float）は使えません 。通常の割り算 `/` は結果がfloatになるため `TypeError` が発生します 。添字の計算には整数除算 `//` を使う必要があります 。また、リストの添字は0から始まる点にも注意が必要です 。

In [None]:
# 通常の割り算 '/' の結果はfloatになり、リストの添字に使えないためエラーになります。
# x = [1, 2, 3, 4]
# n = 4
# index = n / 2 # 結果は2.0 (float)
# print(x[index]) # TypeError

# 整数除算 '//' を使って修正します。
x = [1, 2, 3, 4]
n = 4
index = n // 2
print('x[', index, ']=', x[index])

x[ 2 ]= 3


### 中央値の計算

データ数が奇数か偶数かで場合分けが必要です 。結果は `float` 型に統一します 。

In [None]:
x = [1, 3, 6, 7, 9]
n = len(x)
# nは奇数
index = (n + 1) // 2 # 結果は int 
index -= 1       # リストは0から始まる 
median = float(x[index]) # 中央値, float に変換 
print('中央値:', median, ',添字:', index)

中央値: 6.0 ,添字: 2


In [None]:
y = [1, 3, 4, 6, 7, 9]
n = len(y)
# nは偶数
index = n // 2 # 結果は int 
index -= 1   # リストは0から始まる 
median = (y[index] + y[index+1]) / 2 # 結果は float 
print('中央値:', median, end=',')
print('添字:', index, ',', index+1)

中央値: 5.0,添字: 2 , 3


## 最頻値 

### 最頻値とは

データ値で最も度数（出現回数）の多い値です 。

**例**: サイコロを10回投げたときの出目 `6,3, 2, 1,5,2,2,4,6,1` の場合、最も多く出現する「2」が最頻値です 。

最頻値の計算には数式はなく、出現回数を数えて最も多いものを見つけます 。Pythonでは `collections` モジュールの `Counter` クラスが便利です 。

### 出現回数の一番多い要素を調べる

`Counter` クラスの `most_common()` メソッドは、出現回数の多い順に「(要素, 出現回数)」というタプルのリストを返します 。

In [None]:
from collections import Counter

dlist = [6, 3, 2, 1, 5, 2, 2, 4, 6, 1]
c = Counter(dlist)

print(c.most_common())
print(c.most_common(2)) # 先頭の二つの情報 

[(2, 3), (6, 2), (1, 2), (3, 1), (5, 1), (4, 1)]
[(2, 3), (6, 2)]


タプルのリストから先頭タプルの先頭の値を取得することで最頻値が得られます。

In [None]:
mc = c.most_common(1)
print(mc, ', ', mc[0], ', ', mc[0][0])

[(2, 3)] ,  (2, 3) ,  2


### 関数にまとめる
サイコロを10回投げたときの出目の分布の最頻値を求める関数を作成します 。

In [None]:
from collections import Counter

# 最頻値を求める関数
def calc_mode(lst):
    c = Counter(lst)
    mc = c.most_common(1)
    return mc[0][0]

# main の処理
dlist = [6, 3, 2, 1, 5, 2, 2, 4, 6, 1]
mode = calc_mode(dlist)
print('サイコロの出目の最頻値は', mode)

サイコロの出目の最頻値は 2


### 修正版: 複数の最頻値に対応
`most_common()` で得られたリスト全体から、最大の出現回数を持つ要素をすべてリストアップするように関数を修正します 。

In [None]:
from collections import Counter

# 最頻値を求める関数 (複数対応)
def calc_modes(lst):
    c = Counter(lst)
    mclist = c.most_common()     # 出現回数の情報全体 
    if not mclist:
        return []
    maxcnt = mclist[0][1]        # 最大の出現回数 
    modes = []
    for e, c in mclist:
        if c == maxcnt:          # 最大出現回数と同じ 
            modes.append(e)      # リストに加える 
        else:
            break
    return modes

# main の処理
dlist = [6, 3, 2, 1, 6, 2, 2, 4, 6, 1]
modes = calc_modes(dlist)
print('サイコロの出目の最頻値は:', end=' ')
for mode in modes:
    print(mode, end=' ')
print()

サイコロの出目の最頻値は: 6 2 


## 度数分布表の作成 

`most_common()` メソッドを引数なしで使うと、すべての要素の頻度が得られます 。

### 度数分布表の出力

`most_common()` の結果は頻度の降順で出力されます 。

In [None]:
from collections import Counter

def freq_table(lst):
    table = Counter(lst)
    print("Dice\tFrequency")
    for e, c in table.most_common():
        print(e, '\t', c)

# main の処理
dlist = [6, 3, 2, 1, 6, 2, 2, 4, 6, 1]
freq_table(dlist)

Dice	Frequency
6 	 3
2 	 3
1 	 2
3 	 1
4 	 1


### 修正版: 度数分表の出力（昇順）

タプルのリストは、`sort()` メソッドでソートできます 。タプルは先頭の要素から順に比較されるため 、一度リストとして取り出した後にソートすることで、出目の昇順に並べ替えることができます 。

In [None]:
from collections import Counter

def freq_table_sorted(lst):
    table = Counter(lst)
    mclist = table.most_common() # リストを一度取り出す 
    mclist.sort()                # 昇順に並べ替え 
    print("Dice\tFrequency")
    for e, c in mclist:
        print(e, '\t', c)

# main の処理
dlist = [6, 3, 2, 1, 6, 2, 2, 4, 6, 1]
freq_table_sorted(dlist)

Dice	Frequency
1 	 2
2 	 3
3 	 1
4 	 1
6 	 3


## ライブラリ関数の使用 

### NumPy

NumPyには平均値 (`mean`)、中央値 (`median`) を計算する関数があります 。最頻値の関数はありませんが、`np.unique` や `np.bincount` を使うことで計算できます 。

In [None]:
import numpy as np

x = np.array([6, 3, 2, 1, 5, 2, 2, 4, 6, 1])
print('平均値:', np.mean(x), '中央値:', np.median(x))

# 最頻値の計算 (np.unique)
e, c = np.unique(x, return_counts=True) # 要素と頻度を取得 
print('elem =', e) 
print('freq = ', c)  
index = np.argmax(c) # 頻度が最大の添字を取得 
print('mode: ', e[index]) # 最頻値 

# 最頻値の計算 (np.bincount)
bins = np.bincount(x) # 0から最大値までの頻度のリスト 
print('bins =', bins)
mode = np.argmax(bins) # 最大値の添字が最頻値 
print('mode: ', mode) 

平均値: 3.2 中央値: 2.5
elem = [1 2 3 4 5 6]
freq =  [2 3 1 1 1 2]
mode:  2
bins = [0 2 3 1 1 1 2]
mode:  2


### 文字列の最頻値

`Counter` と `NumPy` はどちらも文字列のリストを扱うことができます 。

In [None]:
from collections import Counter

alist = ['CAT', 'B', 'ab', 'E', 'B', 'B', 'D', 'ab']
c = Counter(alist)
print(c.most_common())

[('B', 3), ('ab', 2), ('CAT', 1), ('E', 1), ('D', 1)]


In [None]:
import numpy as np

x = np.array(['CAT', 'B', 'ab', 'E', 'B', 'B', 'D', 'ab'])
e, c = np.unique(x, return_counts=True) # 重複を取り除く 
print('elem =', e)
print('freq =', c)
index = np.argmax(c) # 最大値の添字 
print('mode: ', e[index]) # 最頻値 

elem = ['B' 'CAT' 'D' 'E' 'ab']
freq = [3 1 1 1 2]
mode:  B


## まとめ

- **母集団と標本**: 全体を調査できない場合、一部分（標本）をランダムに選び、全体（母集団）の性質を推測します 。
- **平均値**: データの合計をデータの個数で割った値で、外れ値に影響されやすいです 。
- **中央値**: データを大きさ順に並べたときの中央の値で、分布に偏りがある場合に有効です 。
- **最頻値**: データの中で最も出現回数が多い値で、質的データにも使えます 。
- **度数分布表の作成**: データがどの値にいくつ存在するかを集計した表で、分布の把握に用います 。
- **ライブラリ関数の使用**: NumPyなどを使うと、平均値や中央値などの統計計算を効率的に行えます 。