# 4. t検定（対応なし）

## 4.1　ハンバーガーの味を評価する

- URL : http://kogolab.chillout.jp/elearn/hamburger/chap4/sec1.html
- テーマ
   1. これまでの復習
    - csvファイルの読み込み
    - 統計量の算出(平均値、標本分散)
    - 転置行列への変換

In [1]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
import math

# csvからデータの読み込み(先頭行はヘッダーとして認識、num列は不要のため削除)
df_1 = pd.read_csv('./data/chapter4-1.csv').drop('num', axis=1)

# 列を店単位にする(これまでは行が店単位だった)
mean_var_list = pd.concat([df_1.mean(), df_1.var(ddof=0)], axis=1).T
mean_var_list.index = ['mean', 'var']
mean_var_list

Unnamed: 0,wakwak,mogmog
mean,76.875,81.875
var,49.609375,55.859375


## 4.2　平均差の信頼区間

- URL : http://kogolab.chillout.jp/elearn/hamburger/chap4/sec2.html
- テーマ
   1. 読み物オンリーページ
    
## 4.3　t検定

- URL : http://kogolab.chillout.jp/elearn/hamburger/chap4/sec3.html
- テーマ
   1. t検定の実施
    - t値とp値を算出する
    - 算出にはscipy.stats.tを使用する
   2. if文の使用
    - 今まで使っていなかったので・・・試しに使ってみる
- その他
    - t検定は等分散であるかどうかで、使用する関数が変わる(ttest_rel = not 等分散 / ttest_ind = 等分散)
        - 参考URL1 : http://stat.biopapyrus.net/statistic/t-test.html
        - 参考URL2 : http://kusuri-jouhou.com/statistics/fkentei.html
    - 2つのテストデータが等分散であるかどうかは、本来は別途「F検定」で確認する必要がある
        - Chapter4では、ttest_indを使用する
    - t値とp値の違いは以下の通り
        - 参考URL : http://xica.net/ipyecaes/

In [2]:
# F検定
f_1 = np.var(df_1.mogmog) / np.var(df_1.wakwak)

dfx_1 = len(df_1.mogmog) - 1
dfy_1 = len(df_1.wakwak) - 1
p_val_ftest_1 = stats.f.cdf(f_1, dfx_1, dfy_1)

# p_val_ftest = 0.56 > 0.05(5%) のため、帰無仮説は棄却しない = 有意な差は無い = 等分散である とみなす
# このため、ttest_ind (等分散である場合のt検定)を使用する
t_val_1, p_val_ttest_1 = stats.ttest_ind(df_1.mogmog, df_1.wakwak)

# 有意水準指定
t_alpha_bt_1 = 0.05

# 表示
print('p_val(F検定) = ', p_val_ftest_1)

print('t_val = ', t_val_1)
print('p_val = ', p_val_ttest_1)

if (p_val_ttest_1 < t_alpha_bt_1) :
    print('結論 ： 帰無仮説を棄却する(有意な差が有る)')
else :
    print('結論 ： 帰無仮説を棄却しない(有意な差は無い)')


p_val(F検定) =  0.560184625468
t_val =  1.28812237744
p_val =  0.218587022202
結論 ： 帰無仮説を棄却しない(有意な差は無い)


## 4.4　実践編：ポテトの評価は？

- URL : http://kogolab.chillout.jp/elearn/hamburger/chap4/sec4.html
- テーマ
   1. t検定の実施
    - csvファイルの読み込みから結果の出力まで通しで実施
- その他
    - t値はマイナスになる場合がある。(平均値の小さい方から大きい方を引いたとき)
        - 引数の順番を逆にすると、絶対値は変わらず正負だけ入れ替わる
        - t分布表で結果を確認する場合は、絶対値を使用する

In [3]:
# 有意水準指定
t_alpha_bt_2 = 0.01

# csvからデータの読み込み(先頭行はヘッダーとして認識、num列は不要のため削除)
df_2 = pd.read_csv('./data/chapter4-4.csv').drop('num', axis=1)

# t検定 : 等分散、ということになっているようなので、ttest_indを使用する
t_val_2, p_val_ttest_2 = stats.ttest_ind(df_2.mogmog, df_2.wakwak)

# 表示
print('t_val = ', t_val_2)
print('p_val = ', p_val_ttest_2)

if (p_val_ttest_2 < t_alpha_bt_2) :
    print('結論 ： 帰無仮説を棄却する(有意な差が有る)')
else :
    print('結論 ： 帰無仮説を棄却しない(有意な差は無い)')

t_val =  -2.46306042692
p_val =  0.0273475658515
結論 ： 帰無仮説を棄却しない(有意な差は無い)


## 4.9　通過テスト

- URL : http://kogolab.chillout.jp/elearn/hamburger/chap4/sec9.html
- テーマ
   1. t検定の実施
    - csvファイルの読み込みから結果の出力まで通しで実施
   2. データ数が異なる場合のデータフレームの取り扱い
    - .dropna()を使うことで、Nan(データの欠損部分)を削除することが出来る

In [4]:
# 有意水準指定
t_alpha_bt_3 = 0.01

# csvからデータの読み込み(先頭行はヘッダーとして認識)
df_3 = pd.read_csv('./data/chapter4-9.csv')

# t検定
# sakuraのデータは18個、momoのデータは20個あるため、sakura側は2個のデータが"Nan"になる
# Nanを削除するため、.dropna()を使用する
t_val_3, p_val_ttest_3 = stats.ttest_ind(df_3.sakura.dropna(), df_3.momo.dropna())

# 表示
print('t_val = ', t_val_3)
print('p_val = ', p_val_ttest_3)
print('alpha = ', t_alpha_bt_3)

if (p_val_ttest_3 < t_alpha_bt_3) :
    print('結論 ： 帰無仮説を棄却する(有意な差が有る)')
else :
    print('結論 ： 帰無仮説を棄却しない(有意な差は無い)')



t_val =  -1.97305018989
p_val =  0.056205929944
alpha =  0.01
結論 ： 帰無仮説を棄却しない(有意な差は無い)
