In [1]:
from IPython.display import Math
import numpy as np
import scipy as sp
from scipy import stats
import sympy as sym

In [2]:
# 1変量データ
fish_data = np.array([2, 3, 3, 4, 4 ,4 ,4, 5, 5, 6])
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [3]:
# 合計値
sp.sum(fish_data)

40

In [4]:
# サンプルサイズ
len(fish_data)

10

In [5]:
# 平均値
x = sym.IndexedBase('x')
(μ, i, N) = sym.symbols('μ, i, N')
right = sym.Sum(x[i], (i, 1, N))
equation = sym.Eq(μ, right)
Math(sym.latex(equation))

<IPython.core.display.Math object>

In [6]:
# 平均値を素朴に計算
N = len(fish_data)
sum_value = sp.sum(fish_data)
mu = sum_value / N
mu

4.0

In [7]:
# Scipyで平均値
sp.mean(fish_data)

4.0

In [8]:
# 標本分散
x = sym.IndexedBase('x')
(σ, μ, i, N) = sym.symbols('σ, μ, i, N')
right = sym.Sum((x[i] - μ)**2, (i, 1, N)) / N
equation = sym.Eq(σ**2, right)
Math(sym.latex(equation))

<IPython.core.display.Math object>

In [9]:
# 標本分散を素朴に計算してみる
N = len(fish_data)
sigma_2_sample = sp.sum((fish_data - mu) ** 2) / N
sigma_2_sample

1.2

In [10]:
# もともとのデータ
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [11]:
# もともとのデータから平均で引く
fish_data - mu

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [12]:
# もともとのデータから平均で引いてから、2乗する
(fish_data - mu) ** 2

array([4., 1., 1., 0., 0., 0., 0., 1., 1., 4.])

In [13]:
# もともとのデータから平均で引いてから、2乗して、合計
sp.sum((fish_data - mu) ** 2)

12.0

In [14]:
# Scipyで標本分散
sp.var(fish_data, ddof=0)

1.2

In [15]:
# 不遍分散
# 標本分散は標本平均をもとに分散を計算するため、分散を過少に見積もる
# 過少に見積もったバイアスを無くしたものが不偏分散
x = sym.IndexedBase('x')
(σ, μ, i, N) = sym.symbols('σ, μ, i, N')
right = sym.Sum((x[i] - μ)**2, (i, 1, N)) / (N - 1)
equation = sym.Eq(σ**2, right)
Math(sym.latex(equation))

<IPython.core.display.Math object>

In [16]:
# 不偏分散を素朴に計算してみる
N = len(fish_data)
sigma_2 = sp.sum((fish_data - mu) ** 2) / (N - 1)
sigma_2

1.3333333333333333

In [17]:
# Scipyで不偏分散
sp.var(fish_data, ddof=1)

1.3333333333333333

In [18]:
# 標準偏差
x = sym.IndexedBase('x')
(σ, μ, i, N) = sym.symbols('σ, μ, i, N')
right = sym.sqrt(sym.Sum((x[i] - μ)**2, (i, 1, N)) / (N - 1))
equation = sym.Eq(σ, right)
Math(sym.latex(equation))

<IPython.core.display.Math object>

In [19]:
# 標準偏差を素朴に計算してみる
N = len(fish_data)
sigma = sp.sqrt(sigma_2)
sigma

1.1547005383792515

In [20]:
# Scipyで標準偏差
sp.std(fish_data, ddof=1)

1.1547005383792515

In [21]:
# データの標準化についてみていく
# データの標準化は、データから平均を引いて標準偏差で割ると完了する
# データから平均を引く
fish_data - mu

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [22]:
# データから平均を引いたデータの平均は0になる
sp.mean(fish_data - mu)

0.0

In [23]:
# データを標準偏差で割る
fish_data / sigma

array([1.73205081, 2.59807621, 2.59807621, 3.46410162, 3.46410162,
       3.46410162, 3.46410162, 4.33012702, 4.33012702, 5.19615242])

In [24]:
# 標準偏差で割ったデータの標準偏差は1
sp.std(fish_data / sigma, ddof=1)

1.0

In [25]:
# 実際に標準化して見る
standard = (fish_data - mu) / sigma
standard

array([-1.73205081, -0.8660254 , -0.8660254 ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.8660254 ,  0.8660254 ,  1.73205081])

In [26]:
# 平均が0になったことを確認する
sp.mean(standard)

2.2204460492503132e-17

In [27]:
# 標準偏差が1になったことを確認する
sp.std(standard, ddof=1)

1.0

In [28]:
# データの最大値
sp.amax(fish_data)

6

In [29]:
# データの最小値
sp.amin(fish_data)

2

In [30]:
# データの中央値
sp.median(fish_data)

4.0

In [31]:
# fish_dataのような左右対称のデータだと平均値と中央値は同じか近い値になる
# 左右非対称のデータでは平均値が中央値から離れていく
fish_data_2 = np.array([2, 3, 3, 4, 4, 4, 4, 5, 5, 100])
sp.mean(fish_data_2)

13.4

In [32]:
# 左右非対称データでも中央値は変化しづらい
sp.median(fish_data_2)

4.0

In [33]:
# 四分位点についてみていく
# データを昇順に並べて下から25%にくる値を取得する
fish_data_3 = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
stats.scoreatpercentile(fish_data_3, 25)

3.0

In [34]:
# データを昇順に並べて下から75%にくる値を取得する
stats.scoreatpercentile(fish_data_3, 75)

7.0