# 第3部　Pythonによるデータ分析｜Pythonで学ぶ統計学入門

## 1章　Pythonによる記述統計：1変量データ編

### 統計処理とscipy

In [1]:
# 数値計算に使うライブラリ
import numpy as np
import scipy as sp

# 表示桁数の指定
%precision 3

'%.3f'

### 1変量データとnumpyアレイ

In [2]:
fish_data = np.array([2,3,3,4,4,4,4,5,5,6])
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

### 実装：合計とサンプルサイズ

In [3]:
# 合計
sp.sum(fish_data)

40

In [4]:
# 参考
np.sum(fish_data)

40

In [5]:
# 参考
fish_data.sum()

40

In [6]:
# 参考
sum(fish_data)

40

In [7]:
# サンプルサイズ
len(fish_data)

10

### 実装：平均値(期待値)

In [8]:
# 平均値の計算
N = len(fish_data)
sum_value = sp.sum(fish_data)
mu = sum_value / N
mu

4.000

In [9]:
# 関数を使った平均値の計算
sp.mean(fish_data)

4.000

### 実装：標本分散

In [10]:
# 標本分散
sigma_2_sample = sp.sum((fish_data - mu) ** 2) / N
sigma_2_sample

1.200

In [11]:
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [12]:
fish_data - mu

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [13]:
(fish_data - mu) ** 2

array([ 4.,  1.,  1.,  0.,  0.,  0.,  0.,  1.,  1.,  4.])

In [14]:
sp.sum((fish_data - mu) ** 2)

12.000

In [15]:
# 関数を使った標本分散
sp.var(fish_data, ddof = 0)

1.200

### 実装：不偏分散

In [16]:
# 不偏分散
sigma_2 = sp.sum((fish_data - mu) ** 2) / (N - 1)
sigma_2

1.333

In [17]:
# 不偏分散
sp.var(fish_data, ddof = 1)

1.333

### 実装：標準偏差

In [18]:
# 標準偏差
sigma = sp.sqrt(sigma_2)
sigma

1.155

In [19]:
# 関数を使った標準偏差
sp.std(fish_data, ddof = 1)

1.155

### 補足：標準化

In [20]:
fish_data - mu

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [21]:
sp.mean(fish_data - mu)

0.000

In [22]:
fish_data / sigma

array([ 1.732,  2.598,  2.598,  3.464,  3.464,  3.464,  3.464,  4.33 ,
        4.33 ,  5.196])

In [23]:
sp.std(fish_data / sigma, ddof = 1)

1.000

In [28]:
standard = (fish_data - mu) / sigma
standard

array([-1.732, -0.866, -0.866,  0.   ,  0.   ,  0.   ,  0.   ,  0.866,
        0.866,  1.732])

In [29]:
sp.mean(standard)

0.000

In [30]:
sp.std(standard, ddof = 1)

1.000

### 補足：その他の統計量

In [31]:
# 最大
sp.amax(fish_data)

6

In [32]:
# 最小
sp.amin(fish_data)

2

In [33]:
# 中央値
sp.median(fish_data)

4.000

In [34]:
fish_data_2 = np.array([2,3,3,4,4,4,4,5,5,100])

In [35]:
sp.mean(fish_data_2)

13.400

In [36]:
sp.median(fish_data_2)

4.000

### 実装：scipy.statsと四分位点

In [37]:
from scipy import stats

In [38]:
fish_data_3 = np.array([1,2,3,4,5,6,7,8,9])
stats.scoreatpercentile(fish_data_3, 25)

3.000

In [39]:
stats.scoreatpercentile(fish_data_3, 75)

7.000