# 第１章 Pythonによる記述統計 1変量データ

In [2]:
import numpy as np
import scipy as sp

In [3]:
# 表示される桁数を3桁に指定する
%precision 3

'%.3f'

In [5]:
fish_data = np.array([2,3,3,4,4,4,4,5,5,6])
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [6]:
# 合計値
sp.sum(fish_data)

40

In [7]:
# サンプルサイズ
len(fish_data)

10

In [8]:
# 平均値
sp.mean(fish_data)

4.0

### 標本分散

データが平均値からどれだけ離れているかを示す指標

In [13]:
# 平均からの差分の二乗の合計

sigma_2_sample = sp.sum((fish_data - sp.mean(fish_data)) ** 2) / len(fish_data)
sigma_2_sample

1.2

### 普遍分散

標本分散は標本平均を使って分散を計算
分散を過小に見積もってしまう欠点があった。

これを解決したのが不偏分散

In [16]:

sigma_2 = sp.sum((fish_data - sp.mean(fish_data)) ** 2) / ( len(fish_data) - 1)
sigma_2

1.3333333333333333

In [12]:
# scipyのvar関数でできる
sp.var(fish_data, ddof = 1)

1.3333333333333333

### 標準偏差

分散はデータを二乗していて使いづらい。単位なども二乗されている

ので平方根を取った標準偏差を用いる

In [17]:
sigma = sp.sqrt(sigma_2)
sigma

1.1547005383792515

In [18]:
# scipyのstd関数でできる
sp.std(fish_data, ddof = 1)

1.1547005383792515

### 標準化
データの平均を0, 標準偏差（分散）を1に変換することを標準化と呼ぶ <br>
標準化をしてからデータを比較することが多い

In [19]:
# 平均を0にするには、平均値を引けば良い
fish_data - sp.mean(fish_data)

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [20]:
sp.mean(fish_data - sp.mean(fish_data))

0.0

In [21]:
# データの標準偏差（分散）を1にするためには、データを一律で標準偏差で割れば良い
fish_data/sigma

array([1.732, 2.598, 2.598, 3.464, 3.464, 3.464, 3.464, 4.33 , 4.33 ,
       5.196])

In [22]:
sp.std(fish_data/sigma, ddof = 1)

1.0

In [23]:
# 両変換を合わせる
standard = (fish_data - sp.mean(fish_data))/sigma
standard

array([-1.732, -0.866, -0.866,  0.   ,  0.   ,  0.   ,  0.   ,  0.866,
        0.866,  1.732])

In [24]:
print(sp.mean(standard))
print(sp.std(standard, ddof=1))

2.2204460492503132e-17
1.0
