# 対応のあるt検定
```
平均値の差の検定
2群のデータに対するt検定を行います。
2つの変数の間で平均値に差があるかどうか判断します。
広告施策施策前と広告施策の後でWEBサイトへのアクセス数に差が出るかどうか判断します。
```

In [309]:
# ライブラリのimport
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline
from scipy import stats

In [318]:
# サンプルデータの作成
columns = np.array(['site','access count before','access count after'])
values = np.array([['A',100,120],
                 ['B',1000,1100],
                 ['C',10,110],
                 ['D',50,59],
                 ['E',60,600],
                 ['F',60,100]])
data = pd.DataFrame(columns=columns,data=values)
print(data)

  site access count before access count after
0    A                 100                120
1    B                1000               1100
2    C                  10                110
3    D                  50                 59
4    E                  60                600
5    F                  60                100


In [319]:
"""
# サンプルデータの作成
columns = np.array(['site','access count before','access count after'])
values = np.array([['A',36.2,36.8],
                 ['B',36.2,36.1],
                 ['C',35.3,36.8],
                 ['D',36.1,37.1],
                 ['D',36.1,36.9]])
data = pd.DataFrame(columns=columns,data=values)
print(data)
"""

"\n# サンプルデータの作成\ncolumns = np.array(['site','access count before','access count after'])\nvalues = np.array([['A',36.2,36.8],\n                 ['B',36.2,36.1],\n                 ['C',35.3,36.8],\n                 ['D',36.1,37.1],\n                 ['D',36.1,36.9]])\ndata = pd.DataFrame(columns=columns,data=values)\nprint(data)\n"

```
「施策前後の差分」に注目する。
差分の列の平均値が0と異なれば「広告施策前と後でサイトアクセス数が異なる」と主張することができる。
対応のあるt検定では、このように差分を取ってから「差分値が0と有意に異なるか」という1群のt検定を行う。
```

In [322]:
# 差分を追加
diff_lsit = []
for i in range(len(data)):
    diff = float(data.loc[i]['access count after']) - float(data.loc[i]['access count before'])
    diff_lsit.append(diff)
data['diff'] = diff_lsit
data['diff'] = data['diff']
print(data)

  site access count before access count after   diff
0    A                 100                120   20.0
1    B                1000               1100  100.0
2    C                  10                110  100.0
3    D                  50                 59    9.0
4    E                  60                600  540.0
5    F                  60                100   40.0


```
サンプル数1つでP値が大きく変わった。
```

In [321]:
# サンプル数
n = len(data)
print("sample count：{}".format(n))
# 自由度
N = n - 1 
print("degree of freedom：{}".format(N))

#　平均
mean_score = data['diff'].mean()
print("diff mean score：{}".format(mean_score))

# 不偏分散
V = np.sum(np.square(data['diff'] - mean_score)) / (n - 1)
print("variance：{:.5f}".format(V))

# 不偏標準偏差
std =  np.sqrt(V)
print("standard division：{:.5f}".format(std))

# 標準誤差
se = std / N
print("standard error：{:.5f}".format(se))

# t値
t_value = (mean_score - 0)/se
print("t value：{}".format(t_value)) 

# p値
alpha = stats.t.cdf(t_value, df = N)
p = (1-alpha)*2
print("p value：{:.9f}".format(p))

sample count：6
degree of freedom：5
diff mean score：134.83333333333334
variance：40920.16667
standard division：202.28734
standard error：40.45747
t value：3.332718088172629
p value：0.020717136
