In [None]:
# 母平均の区間推定
# 母平均の区間推定（母集団分布が未知の場合）
# 母比率の推定
# 母平均の検定
# ウェルチの検定

In [37]:
# 推測統計学
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy as sp
df = pd.DataFrame([168.2, 172.3, 165.4, 170.8, 178.9, 173.5, 169.5, 167.1, 176.4, 174.5])

In [35]:
# 母平均の区間推定（母分散が既知）
from scipy.stats import norm
p_var = 33  # 母分散
s_mean = df.mean()  # 標本平均
n = len(df)  # 標本数
 
# norm.intervalを使用するには、信頼度、loc（標本平均）、scale（√分散/n）を引数に渡す
bottom, up = norm.interval(0.95, loc=s_mean, scale=math.sqrt(p_var/n))
print(bottom)
print(up)

[168.09954861]
[175.22045139]


In [34]:
# 母平均の区間推定（母分散が未知）
from scipy.stats import t #t分布
s_mean = df.mean()  # 標本平均
n = len(df)  # 標本数
u_var = df.var() #不偏分散
deg_of_freedom = len(df)-1#自由度
 
# t.intervalを使用するには、自由度、信頼度、loc（標本平均）、scale（√分散/n）を引数に渡す
bottom, up = t.interval(0.95, deg_of_freedom, loc=s_mean, scale=math.sqrt(u_var/n))
print(bottom)
print(up)

[168.60535249]
[174.71464751]


In [33]:
# 母平均の区間推定（母集団分布が未知）
s_mean = df.mean()  # 標本平均
n = len(df)  # 標本数
u_var = df.var() #不偏分散
 
# t.intervalを使用するには、自由度、信頼度、loc（標本平均）、scale（√分散/n）を引数に渡す
bottom, up = norm.interval(0.95, loc=s_mean, scale=math.sqrt(u_var/n))
print(bottom)
print(up)

[169.01341151]
[174.30658849]


In [43]:
# 母比率の区間推定
alpha=0.95 # 信頼区間
n=200      # 試行回数
p=0.035    # 標本比率(成功回数を試行回数で割ったもの)
# binom.intervalを使用するには信頼区間、試行回数、標本比率、分布の変更（loc）を引数に渡す
bottom, up = sp.stats.binom.interval(alpha=alpha, n=n, p=p, loc=0)
print('母比率pの95%信頼区間: {:.2f} < p < {:.2f}'.format(bottom/n, up/n))

母比率pの95%信頼区間: 0.01 < p < 0.06


In [117]:
# 母平均の検定
mu_0 = 171.4 #帰無仮説の平均
n = 9 #標本数
bar_X = 172.8 #標本平均
U = 4 #不偏分散
df = n - 1 #自由度

# 標本平均のt分布を使用し信頼区間を算出（信頼度、自由度、標本平均、√不偏分散 / 標本数）
bottom, up = stats.t.interval(0.90, df, loc=bar_X, scale=math.sqrt(U / n))
print(bottom)
print(up)
print(not (bottom <= mu_0 <= up))

171.56030130831812
174.0396986916819
True


In [48]:
# ウェルチの検定
import scipy
import scipy.stats as st

group1 = [0.7, -1.6, -0.2, -1.2, -0.1, 3.4, 3.7, 0.8, 0.0, 2.0]
group2 = [1.9, 0.8, 1.1, 0.1, -0.1, 4.4, 5.5, 1.6, 4.6, 3.4]

# 二つの群の標本、等分散かどうか（false=ウェルチ,true=スチューデント）
p_value_welcht = st.ttest_ind(group1, group2, equal_var=False).pvalue
print(p_value_welcht)#値が小さいほど、母平均に差がある確率が高い

0.0793941401873582


In [114]:
# ウェルチの検定理解を深める（t値と自由度νのt分布のx%点と比較）

A = np.array([13.8, 10.2, 4.6, 10.0, 4.2, 16.1, 14.4, 4.9, 7.7, 11.4])
B = np.array([3.3, 2.6, 4.0, 4.7, 1.9, 2.9, 4.7, 5.3, 4.3, 3.0, 2.0])

#標本平均
X1 = A.mean()
X2 = B.mean()

#普遍分散
s1 = A.var()
s2 = B.var()

#サンプル数
n1 = len(A)
n2 = len(B)

#t値と自由度νを算出する
t_value = (X1-X2)/np.sqrt(s1/n1+s2/n2)
nu = int((s1/n1+s2/n2)**2 / (s1**2/(n1**2*(n1-1)) + s2**2/(n2**2*(n2-1))))
print('t:',t_value)
print('nu:',nu)

bottom, up = stats.t.interval(0.99, nu, loc=0)
print(bottom)
print(up)
print(not bottom <= t_value <= up)

t: 4.664436868844964
nu: 10
-3.169272667175838
3.169272667175838
True
