# データ分析に役立つ「仮説の検定」超入門

データ分析に役立つ手法である、「仮説の検定」について勉強します。

参考文献：

[1]石村園子, やさしく学べる統計学. 東京: 共立出版, 2006. <br>
[2]統計WEB － 統計学、調べる、学べる、BellCurve（ベルカーブ）. bellcurve.jp/statistics/


## 日本人男性の2007年の平均身長は1950年と比べて伸びているかどうかを検証

https://ai-trend.jp/basic-study/normal-distribution/example/ を参考に、身長の分布はほぼ正規分布に従うものとして扱う。

http://www.natubunko.net/rekishi05.html　を参考に、データは乱数で生成

In [1]:
!pip install numpy



In [2]:
%config IPCompleter.greedy=True
import math
import random
import numpy as np

## 母平均の検定を行う

架空の身長のデータを生成し、データを分析する。
1950年も、2007年も身長のばらつき具合（分散）は等しいものと仮定する。（実際には... (´ε｀；)）


In [3]:
random_range=30
height_1950 = [161.5 - (random_range/2) + random.random()*random_range  for _ in range(0,30)]
random_range=30
height_2007 = [173.3 - (random_range/2) + random.random()*random_range  for _ in range(0,30)]

In [4]:
height_1950
np_height_1950 = np.array(height_1950)
np_height_2007 = np.array(height_2007)
print(np.array(height_1950).mean())
print(np.array(height_2007).mean())

161.24029757914224
173.8686968360577


# 「1950年代の人の身長は170cmである」かどうかを検定

「母平均の検定」をやってみる

不偏分散を求める。

$$
s^2 = \frac{1}{n - 1} \sum_{i = 1}^n {(x_i - \overline{x})^2}
$$

In [5]:
def calc_unbiased_estimate_of_variance(dataset,mean,sample_size):
    diff_sample_to_mean = [(x - mean) for x in dataset]
    
    return sum(list(map(lambda x: x ** 2, diff_sample_to_mean))) / (sample_size - 1)

## 統計量t  (t値)を求める
$$
t=\frac{\bar{x}-\mu}{\sqrt{\frac{s^{2}}{n}}}
$$

式については https://bellcurve.jp/statistics/course/9317.html の2.を参照しました。

## 注意

t検定は、母集団の分散が等しいと思われる場合でしか使えないので、注意しましょう。（等分散性の検定という手法もあるので、そちらも調べるのも良いかもと思います）

In [6]:
#統計量t(t値)を求める

def calc_t_value(dataset, examine_height):
    sample_size = len(dataset)
    mean = sum(dataset) / sample_size
    sample_variance  = calc_unbiased_estimate_of_variance(dataset,mean,sample_size)
    t = (mean - examine_height)  / math.sqrt(sample_variance / sample_size)
    
    return t

In [7]:
print(calc_t_value(height_1950, 170))
print("自由度は"+str(len(height_1950))+"-1="+str(len(height_1950)-1))
print("自由度29で、（0.1　÷ 2 )= 0.05%の場合、数表は1.699を示す")
print("-4.22は t<-1.699, 1.699<t までの値の範囲（棄却域）にあるので、1950年代の平均身長は170cmであるという仮説は棄却される")

-5.0932403981180245
自由度は30-1=29
自由度29で、（0.1　÷ 2 )= 0.05%の場合、数表は1.699を示す
-4.22は t<-1.699, 1.699<t までの値の範囲（棄却域）にあるので、1950年代の平均身長は170cmであるという仮説は棄却される


## 結論

1950年代の人の身長は170cmでない

## Tips 数表の見方のコツ

（メモ：　https://bellcurve.jp/statistics/course/8970.html を参照しながら、説明する）

αの値が大きいと、0付近の小さなt値（棄却域）でも十分棄却できることが証明できる。標本数が増えれば増えるほど、小さな値のt値（棄却域）でも十分棄却できることが証明できる。

αの値が小さいと（、つまり調査結果が偶然こうなったと言える確率が限りなく小さい場合は）、より大きなt値の場合のみ棄却できるよう、厳格に棄却域を設けなくてはならない。また、標本数が少ない時もより大きなt値のみ棄却できるよう、厳格に棄却域を決めないといけない（偶然一サンプルだけ外れ値だったとしても、全体のサンプル数が少ないため普通に計算すると大きく影響を受けてしまう）



# 2つの集団に有意な差があるか調べる「母平均の差の検定」

同じ時期に能登半島の西側で取れる魚の大きさと、東側で採れる魚の大きさの平均に差があるかどうか検定する <br><br>
※データは完全にデタラメです。あくまでチュートリアルです。 <br>
※何の魚なんでしょうか...?

In [8]:
#　基本統計量を求める

random_range=5.0
size_east = [25.0 - (random_range/2) + random.random()*random_range  for _ in range(0,8)]
size_west = [25.0 - (random_range/2) + random.random()*random_range  for _ in range(0,9)]

print("今回は東側で調べた魚の数が8匹、西側が9匹だとする。")
print("")
print(size_east)
print(size_west)

今回は東側で調べた魚の数が8匹、西側が9匹だとする。

[27.452673045017345, 24.8779310416039, 23.388867720431744, 26.488527679376837, 24.04132031509798, 24.694861004176342, 26.40697356000186, 25.53518539449822]
[23.45364398975521, 24.57717914624512, 23.920309686858484, 27.39817160777781, 25.36994285844903, 25.026116291543428, 27.232108306490968, 25.722677851172403, 26.44089091358322]


In [9]:
#分散を求める。
def calc_sample_variance(dataset):
    sample_size = len(dataset)
    mean = sum(dataset) / sample_size # 単純な平均を求める
    dataset_squared = list(map(lambda x: x ** 2, dataset))
    # (標本サンプルをそれぞれ2乗したものの和 - 標本数 x 平均^2) / (標本数 - 1)
    sample_variance=(sum(dataset_squared)  - sample_size*mean**2)/(sample_size-1)
    return sample_variance

In [10]:

size_east_sam_var = calc_sample_variance(size_east)
print("標本分散"+str(size_east_sam_var))

size_west_sam_var = calc_sample_variance(size_west)
print("標本分散"+str(size_west_sam_var))


標本分散1.8683960956462085
標本分散1.9124840337386786


In [11]:
# 分散の平均を求める
def calc_mean_variance(dataset_x, x_sample_var, dataset_y, y_sample_var):
    sample_size_x = len(dataset_x)
    sample_size_y = len(dataset_y)
    
    tmp = (sample_size_x - 1) * x_sample_var + (sample_size_y -1) * y_sample_var
    mean_var = tmp / (sample_size_x + sample_size_y -2)
    return mean_var

In [12]:

size_mean_variance=calc_mean_variance(size_east, size_east_sam_var, size_west, size_west_sam_var)
print("分散の平均"+str(size_mean_variance))

分散の平均1.8919096626288592


## 検定を実際に行う
有意水準 

$$
\alpha =0.01
$$

仮説H

$$
H_{0}:\mu _{x}=\mu _{y}
$$

対立仮説
$$
H_{1}:\mu _{x}\neq \mu _{y}
$$

対立仮説は、「母平均は等しい」という仮説$H_{0}$を否定するもの

（メモ：検定統計量Tとは何かを説明）

In [13]:
# test_statisticとは、検定統計量のこと（t検定でいうt値のこと）
def calc_test_statistic(dataset_x,dataset_y,mean_variance):
    sample_size_x = len(dataset_x)
    sample_size_y = len(dataset_y)
    mean_x = sum(dataset_x) / len(dataset_x)
    mean_y = sum(dataset_y) / len(dataset_y)
    
    return  (mean_x - mean_y) / math.sqrt((1/sample_size_x + 1/sample_size_y) * mean_variance)

In [16]:

t_fish=calc_test_statistic(size_east, size_west, size_mean_variance)
print("t値："+str(t_fish))



t値：-0.14860797259144473


## 棄却域に入るかどうかチェック（数表を参考にする）

自由度が（8+9-2=）15かつ有意水準α=0.001だったので、
両側検定のためα÷2=0.005の確率（面積）の棄却域を設ける。
自由度15で0.005の確率の場合、tの値が2.947より大きかったり、
（マイナス）-2.947より小さかった場合、対立仮説は棄却されない。


## t値が棄却域に入らない場合の結論

対立仮説である「二つの集団に差はない」が棄却されず、有意な差は無いという結論になった。
能登半島の東側で取れる魚と西側で取れる魚の大きさに、有意な差はない。

## t値が棄却域に入った場合の結論

対立仮説である「二つの集団に差はない」が棄却され、有意な差はあるという結論になった。
能登半島の東側で取れる魚と西側で取れる魚の大きさに、有意な差があった。

## 最後にTips

数式をLaTexで書くの、大変ですよね... 画像認識で数式をLaTexに変換してくれるサイトが二つほどあります！

写真を読み込んで、数式に変換
- http://haikara-city.com/2016/05/28/mathpix/
- https://webdemo.myscript.com/views/math/index.html

手書きの文字をLaTexの数式に変換
- https://webdemo.myscript.com/views/math/index.html