統計的仮説検定は、標本を使って、母集団に関する統計的な判断を下す方法<br>
標本だけを使って「母集団を対象とした判断」を下すことは本来とても難しいことである。<br>

### <font color = 'blue'>1変量データのt検定</font>

対象：平均値<br>
判断すること：平均値がある値と異なると言えるかどうか<brs>

スナック菓子の中身の平均は50gかどうか<br>

### <font color='blue'>有意差</font>

検定という枠組みに関わらず、意味のある差・意味のない差について考えを巡らす。<br>

### <font color='blue'>t検定：直感的な考え方</font>

スナック菓子を２袋空けたとする。<br>
1袋目が55gで、2袋目が44g<br>
平均は49.5g<br>

上記は意味のある差とはいえない。<br>

1.サンプル数<br>
2.測定方法<br>

有意差が存在するのは以下の条件がある時である。<br>
1. 大きなサンプルで調査。<br>
2. 精密な重量系で測定。<br>
3. 重量の平均値が50gから大きく離れている。<br>

t検定では、上記の３つの条件が満たされているときに、有意差ありと判断する。<br>

### <font color='blue'>平均値の差が大きいだけでは有意差は得られない</font>

バネが歪んでいる重量計で重さを測っても、分散が大きすぎてダメ。<br>
またサンプルサイズが小さくてもダメ。<br>

平均値以外に、サンプルサイズとデータのばらつき（分散）の大きさを加味することが必要。

### <font color='blue'>t値</font>

t検定における、有意差ありと考える条件。<br>
つまり、先ほどの３つの条件を満たしていること<br>

大きなサンプルで調査した：サンプルサイズが大きい<br>
精密な重量計で測定した：データのばらつき（分散）が小さい<br>
重量の平均値が50gから大きく離れている：平均値の差が大きい<br>

t値が大きければ、有意差ありということ<br>

### <font color ='blue'>統計的仮説検定の枠組み：帰無仮説・対立仮説</font>

統計的仮説検定では、ある仮説を立てて、その仮説を棄却するかしないかという判断<br>
を下すことで、データからの客観的な判断を試みる。<br>

棄却される対象となる最初の仮説を帰無仮説という。<br>
帰無仮説と対立する仮説を対立仮説という。<br>

帰無仮説：スナック菓子の平均重量は50gである。<br>
対立仮説：スナック菓子の平均重量は50gと異なる。<br>

帰無仮説が棄却された場合、「スナック菓子の平均値は50gと異なる」と判断可能。<br>

### <font color='blue'>p値</font>

p値とは、標本と帰無仮説との矛盾となる指標である。<br>
p値が小さいほど、帰無仮説と標本が矛盾していると考える。<br>
p値が大きいいと、帰無仮説と標本が矛盾していないと考える。<br>

p値は確率として表現される。<br>
p値も信頼区間と同様に、「まったく同じ条件で何度も何度も標本抽出~t値の計算を繰り返す」<br>
ということをやって、確率を解釈できる。<br>

### <font color = 'blue'>有意水準</font>

p値が有意水準を下回った時に、帰無仮説を棄却。<br>

### <font color='blue'>片側検定・両側検定</font>

片側よりも、両側検定がよく用いられる。<br>

### <font color = 'blue'>p値の計算方法</font>

両側検定を行うことを前提としてp値を計算する。<br>

今回の標本から計算されたt値のことをt標本とする。<br>

t分布の累積分布関数を用いると「母平均を50と仮定した時に、t値がt標本を下回る確率」を計算できる。<br>
この確率をαとする。<br>

p値は以下のように計算可能。<br>

p値 = (1 - α) * 2

### <font color = 'blue'>t値とp値の関係(ここまでの流れのまとめ)</font>

t値はp値に変換できる<br>

p値とは「たまたま、t値が大きくなって、差があるように見えてしまう確率」のことである<br>

p値が0.05を下回れば、（偶然である可能性が小さいから）t値は十分大きいとみなせる<br>

### <font color='blue'>t検定の実装：分析の準備</font>

In [1]:
# ライブラリのimport
import numpy as np
import pandas as pd
# 表示桁数の指定
%precision 3
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()
# グラフをjupyter notebook内に表示
%matplotlib inline
# ライブラリのimport
import scipy as sp
from scipy import stats
# 表示桁数の指定
%precision 3

'%.3f'

In [2]:
junk_food = pd.read_csv("3-8-1-junk-food-weight.csv")["weight"]
junk_food.head()

0    58.529820
1    52.353039
2    74.446169
3    52.983263
4    55.876879
Name: weight, dtype: float64

### <font color='blue'>t検定の実装：t値の計算（有意差の計算）</font>

In [3]:
# 標本平均
mu = sp.mean(junk_food)

In [4]:
mu

55.385

In [5]:
# 自由度
df = len(junk_food) - 1

In [6]:
# 標準誤差
sigma = sp.std(junk_food, ddof = 1)
se = sigma / sp.sqrt(len(junk_food))

In [7]:
t_value = (mu - 50) / se
t_value

2.750

### <font color='blue'>t検定の実装：p値の計算</font>

母集団に正規分布を仮定すると、t値はt分布に従うと考えられるので<br>
t分布の累積密度関数が使える。<br>

t分布の累積分布関数を用いると<br>
「母平均を50と仮定した時に、t値がt標本を下回る確率」を計算することができる。<br>
この確率をαとする<br>

1-αを求めると<br>
「母平均を50と仮定した時に、t値がt標本を上回る確率」を計算できる。<br>

1-αが小さければ「t値がt標本を上回る確率が低い（すなわち、t標本は十分に大きい）」ということになり<br>
有意差が得られそうである。<br>

In [8]:
alpha = stats.t.cdf(t_value, df = df)
(1 - alpha) * 2

0.013

p値が有意水準0.05を下回っているので、有意差ありとみなせる。<br>
スナック菓子の平均重量は50gと優位に異なっていると判断できる。<br>

In [9]:
# もっと簡単にt検定を行うことができる
stats.ttest_1samp(junk_food, 50)

Ttest_1sampResult(statistic=2.750339683171343, pvalue=0.012725590012524182)

### <font color='blue'>シミュレーションによるp値の計算</font>

p値の意味を解釈するために、p値をシミュレーションで求めてみる。<br>

p値は「帰無仮説が正しいと仮定して、何度も標本抽出 ~ t値計算を繰り返した時<br>
t標本と同じかそれより大きなt値が得られる割合」と解釈できる。<br>

割合が小さいということは、t標本を越えることが滅多にないということである。<br>
t標本が十分に大きいと考えられ、有意差が得られると判断できる。<br>

In [11]:
size = len(junk_food)
sigma = sp.std(junk_food, ddof=1)

In [12]:
# 50000個のt値を格納する入れ物を用意
t_value_array = np.zeros(50000)

帰無仮説が正しいと仮定して、50000回、標本抽出 ~ t値計算を行う。<br>

In [13]:
np.random.seed(1)
norm_dist = stats.norm(loc=50, scale=sigma)
for i in range(0, 50000):
    sample = norm_dist.rvs(size = size)
    sample_mean = sp.mean(sample)
    sample_std = sp.std(sample, ddof = 1)
    sample_se = sample_std / sp.sqrt(size)
    t_value_array[i] = (sample_mean - 50) / sample_se

In [14]:
(sum(t_value_array > t_value) / 50000) * 2

0.013