# Pythonによる記述統計: 1変量データ

In [1]:
import numpy as np
import scipy as sp

In [2]:
%precision 3

'%.3f'

## 1変量データの管理

魚の体調だけ、と行ったように、１種類しかないデータを１変量データと呼ぶ.

１変量データを扱う場合は、numpyアレイを使うのが簡単。

In [3]:
fish_data = np.array([2,3,3,4,4,4,4,5,5,6])
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

## 合計とサンプルサイズ

In [4]:
sp.sum(fish_data)

40

In [5]:
len(fish_data)

10

## 平均値（期待値）

In [6]:
N = len(fish_data)
sum_value = sp.sum(fish_data)
mu = sum_value / N
mu

4.0

In [7]:
sp.mean(fish_data) # mean関数を使うと簡単に求めることができる

4.0

## 標本分散

In [8]:
sigma_2_sample = sp.sum((fish_data - mu) ** 2) / N
sigma_2_sample

1.2

In [9]:
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [10]:
fish_data - mu

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [11]:
(fish_data - mu) **2

array([4., 1., 1., 0., 0., 0., 0., 1., 1., 4.])

In [12]:
sp.sum((fish_data - mu) ** 2)

12.0

In [13]:
# こちらもvar関数を使うと簡単に計算できる
sp.var(fish_data)

1.2

## 不偏分散

標本分散は分散を過少に見積もってしまうというバイアスがある。

そのバイアスを無くしたものが不偏分散

In [14]:
sigma_2 = sp.sum((fish_data - mu) ** 2) / (N - 1)
sigma_2

1.3333333333333333

In [15]:
# var関数の引数ddofに1を設定することで不偏分散を計算できる
sp.var(fish_data, ddof = 1)

1.3333333333333333

## 標準偏差

分散の平方根をとった値

In [16]:
sigma = sp.sqrt(sigma_2)
sigma

1.1547005383792515

In [17]:
# std関数を使うと簡単に計算できる. 不偏分散の標準偏差をとる場合ddof=1を指定する
sp.std(fish_data, ddof = 1)

1.1547005383792515

## 標準化

データの平均を0に、標準偏差を1にする変換のことを標準化という

平均値が大きな変数や小さな変数が入り混じっていると特徴を掴みにくいため、標準化をしてからデータ比較することがある

データの平均値をにするには、全てのデータから一律に平均値を引けば良い

In [18]:
fish_data - mu

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [19]:
sp.mean(fish_data - mu)

0.0

標準偏差を1にしようと思ったら、データを一律に標準偏差で割ればよい

In [20]:
fish_data / sigma

array([1.732, 2.598, 2.598, 3.464, 3.464, 3.464, 3.464, 4.33 , 4.33 ,
       5.196])

In [21]:
sp.std(fish_data / sigma, ddof = 1)

1.0

両方の変換を合わせると平均0, 標準偏差1にすることができる

In [22]:
standard = (fish_data - mu) / sigma
standard

array([-1.732, -0.866, -0.866,  0.   ,  0.   ,  0.   ,  0.   ,  0.866,
        0.866,  1.732])

In [26]:
sp.mean(standard)

2.2204460492503132e-17

In [27]:
sp.std(standard, ddof = 1)

1.0

## その他の統計量

In [28]:
# 最大値
sp.amax(fish_data)

6

In [29]:
# 最小値
sp.amin(fish_data)

2

In [31]:
# 中央値 一般的に中央値の方が外れ値に強い
sp.median(fish_data)

4.0

# scipy.statsと四分位点

四分位点とは、データを照準に並び替えた時に、下から25%, 75%に来る値のこと

In [35]:
from scipy import stats

In [36]:
fish_data3 = np.array([1,2,3,4,5,6,7,8,9])
stats.scoreatpercentile(fish_data3, 25)

3.0

In [37]:
stats.scoreatpercentile(fish_data3, 75)

7.0