#2-4 t分布

## 概要

統計学および確率論において、t分布（ティーぶんぷ、または、スチューデントのt分布）は、連続確率分布の一つであり、正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に平均を推定する問題に利用されます。また、2つの平均値の差の統計的有意性を検討するt検定で利用されます。

t 分布は正規分布の形だが、裾が少し厚くて長い。これは標本統計量の分布の記述によく使われます。標本平均値の分布は、通常t分布の形になり、標本の大きさに依存して異なる一群のt分布が存在する。標本が大きくなると、t分布はそれだけ正規分布の形に近づきます。

t 分布についても特徴を明らかにするため、確率密度関数を描画してみまししょう。

In [0]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t, norm
x = np.linspace(-6, 6, 1000)
fig,ax = plt.subplots(1,1)
 
linestyles = [':', '--', '-.', '-']
deg_of_freedom = [1, 3, 30]
for k, ls in zip(deg_of_freedom, linestyles):
  ax.plot(x, t.pdf(x, k), linestyle=ls, label=r'$k=%i$' % k)
 
ax.plot(x, norm.pdf(x, 0, 1), linestyle='-', label="Standard Normal Distribution")
 
plt.xlim(-6, 6)
plt.ylim(0, 0.4)
 
plt.legend()
plt.show()

グラフから確認できる通り、正規分布と同様で左右対称となっています。
また、t 分布と正規分布の確率密度関数を比較すると以下のような特徴があります。


*   t分布の確率密度関数は自由度kによって形状が変わる
*   kが大きいほど中心部分が高くなる
*   kが大きくなればなるほど、標準正規分布の形に近づく
*   kが30を超えると標準正規分布とほぼ同になじ形る
*   t分布はサンプル数が少ない場合や母分散が未知のときの検定/推定に活用される

# 2-4(参考) χ2分布

カイ二乗分布（カイにじょうぶんぷ）、またはχ2分布は確率分布の一種で、推計統計学で広く利用されています。

Webテストでは、しばしばA/Bテストの範囲を超えて、複数の処置を一度に検定する。カイ二乗検定は、カウントデータに対して、期待した分布にどの程度適合しているか検定するのに使われます。統計の現場で、カイ二乗統計量が使われるのは、通常、r ×c 分割表で変数間の独立性に関する帰無仮説が成り立つかどうか評価するためです。

カイ二乗検定は、ピアソンが1900 年に開発し、用語「カイ」はピアソンが原論文で使用したギリシャ文字χ によるものです。

χ2  分布は平方和や分散と密な関係があることから、母分散の検定/推定によく活用されます。

また、確率密度関数の分布は以下の通りです。
自由度によって形状が大きく異なるため、今回は4つのパターンの自由度でグラフを描画しました。

In [0]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import chi2
x = np.linspace(0, 8, 1000)
fig,ax = plt.subplots(1,1)
 
linestyles = [':', '--', '-.', '-']
deg_of_freedom = [1, 2, 3, 4]
for k, ls in zip(deg_of_freedom, linestyles):
  ax.plot(x, chi2.pdf(x, k), linestyle=ls, label=r'$k=%i$' % k)
 
plt.xlim(0, 8)
plt.ylim(0, 1.0)
 
plt.legend()
plt.show()