In [30]:
import numpy as np
import scipy as sp

In [46]:
# 標本として以下のような一変量（魚の体長）データを考える
fish_data = np.array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [5]:
len(fish_data)

10

In [6]:
# numpy でも同様であるが、統計の基本的な計算は敢えて scipy を用いる

# 合計
sp.sum(fish_data)

40

In [9]:
# 平均値（期待値）
N = len(fish_data)
sum_value = sp.sum(fish_data)
mu = sum_value / N
mu

# sp.mean(fish_data) で簡単に計算可能

4.0

In [10]:
# 標本分散
sigma_2_sample = sp.sum((fish_data - mu) ** 2) / N
sigma_2_sample

# sp.var(fish_data) で簡単に計算可能

1.2

In [23]:
# 不偏分散
sigma_2 = sp.sum((fish_data - mu) ** 2) / (N - 1)
sigma_2

# sp.var(fish_data , ddof=1) で簡単に計算可能（ddof は (N - ddof) として使われる値）

1.3333333333333333

In [20]:
# 標準偏差
sigma = sp.sqrt(sp.sum((fish_data - mu) ** 2) / (N - 1))
sigma 

1.1547005383792515

In [25]:
# データの標準化
standard_fish_data = (fish_data - mu) / sigma
standard_fish_data

array([-1.732, -0.866, -0.866,  0.   ,  0.   ,  0.   ,  0.   ,  0.866,
        0.866,  1.732])

In [32]:
# 標準化後の平均値と分散（普遍分散）
print('{:.3f}'.format(sp.mean(standard_fish_data)))
print('{:.3f}'.format(sp.std(standard_fish_data, ddof=1)))

0.000
1.000


In [38]:
# その他の統計量

# 最大値
print('max:', sp.amax(fish_data))  # （numpy なら np.max(fish_data))

# 最小値
print('min:', sp.amin(fish_data))  # （numpy なら np.min(fish_data))

max: 6
min: 2


In [39]:
# 中央値
sp.median(fish_data)

4.0

In [45]:
# 四分位数
from scipy import stats

# 50% 点データ（中央値）
# stats.scoreatpercentile(fish_data, 50)

# 第一四分位数と第三四分位数
qt_1st, qt_3rd = stats.scoreatpercentile(fish_data, [25, 75])
print('1st Qt: {:.3f}\n3rd Qt: {:.3f}'.format(qt_1st, qt_3rd))

2nd Qt(Median): 4.000
1st Qt: 3.250
3rd Qt: 4.750
