In [4]:
import numpy as np
import scipy as sp

In [5]:
%precision 3

'%.3f'

### <font color='blue'>1変量データの管理</font>

魚の体長だけといったように、１種類しかないデータを１変量データという。<br>

In [6]:
fish_data = np.array([2,3,3,4,4,4,4,5,5,6])

In [7]:
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [9]:
# scipyで合計値を算出
sp.sum(fish_data)

40

### <font color='blue'>平均値、標本分散、普遍分散</font>

In [10]:
# 平均値
sp.mean(fish_data)

4.000

In [11]:
# 標本分散
sp.var(fish_data, ddof=0)

1.200

In [12]:
# 普遍分散
sp.var(fish_data, ddof=1)

1.333

In [13]:
sigma_2 = sp.var(fish_data, ddof=1)

In [14]:
# 標準偏差
sigma = sp.sqrt(sigma_2)

In [15]:
sigma

1.155

In [16]:
# 標準偏差
sp.std(fish_data, ddof=1)

1.155

### <font color='blue'>標準化</font>

データの平均を０に、標準偏差（分散）を１にする変換を標準化という<br>

In [17]:
# 平均
mu = sp.mean(fish_data)

In [18]:
mu

4.000

In [19]:
# 魚のデータから平均値を引いて平均値を０にする
sp.mean(fish_data - mu)

0.000

In [20]:
# データを標準偏差で割る
fish_data / sigma

array([ 1.732,  2.598,  2.598,  3.464,  3.464,  3.464,  3.464,  4.33 ,
        4.33 ,  5.196])

In [22]:
# 標準偏差は１となっている
sp.std(fish_data / sigma, ddof=1)

1.000

In [23]:
standard = (fish_data - mu) / sigma
standard

array([-1.732, -0.866, -0.866,  0.   ,  0.   ,  0.   ,  0.   ,  0.866,
        0.866,  1.732])

In [25]:
sp.mean(standard)

0.000

In [26]:
sp.std(standard, ddof=1)

1.000

### <font color='blue'>その他の統計量</font>

最も重要な統計量は「平均と分散」である。<br>
しかし、これでは上手くデータを表現できないこともある。<br>

In [27]:
# 最大値
sp.amax(fish_data)

6

In [28]:
# 最小値
sp.amin(fish_data)

2

In [29]:
# 中央値
sp.median(fish_data)

4.000

fish_dataだと平均値と中央値が同じになるが、左右非対称であると、両者は異なる値になることに注意。<br>

In [31]:
fish_data_2 = np.array([2,3,3,4,4,4,4,5,5,100])

In [32]:
# 最大値に引っ張られる
sp.mean(fish_data_2)

13.400

In [34]:
# 中央値なので変わりなし
sp.median(fish_data_2)

4.000

### <font color='blue'>scipy.statsと四分位点</font>

In [36]:
# 統計分析に特化した関数
from scipy import stats

In [38]:
# 下から25%にくる値
fish_data_3 = np.array([1,2,3,4,5,6,7,8,9])
stats.scoreatpercentile(fish_data_3, 25)

3.000

In [39]:
# 下から75%にくる値
stats.scoreatpercentile(fish_data_3, 75)

7.000