# Hypothesis Testing

In [2]:
#import scikit_posthocs as sp
import numpy as np
from scipy import stats
import pandas as pd
pd.options.display.float_format = '{:,.4f}'.format

In [3]:
def check_normality(data):
    test_stat_normality, p_value_normality=stats.shapiro(data)
    print("p value:%.4f" % p_value_normality)
    if p_value_normality <0.05:
        print("Reject null hypothesis >> The data is not normally distributed")
    else:
        print("Fail to reject null hypothesis >> The data is normally distributed")       

In [4]:
def check_variance_homogeneity(group1, group2):
    test_stat_var, p_value_var= stats.levene(group1,group2)
    print("p value:%.4f" % p_value_var)
    if p_value_var <0.05:
        print("Reject null hypothesis >> The variances of the samples are different.")
    else:
        print("Fail to reject null hypothesis >> The variances of the samples are same.")

# Q1.

A university professor gave online lectures instead of face-to-face classes due to Covid-19. Later, he uploaded recorded lectures to the cloud for students who followed the course asynchronously (those who did not attend the lesson but later watched the records). However, he believes that the students who attend class at the class time and participate in the process are more successful. Therefore, he recorded the average grades of the students at the end of the semester. The data is below.

synchronous = [94. , 84.9, 82.6, 69.5, 80.1, 79.6, 81.4, 77.8, 81.7, 78.8, 73.2, 87.9, 87.9, 93.5, 82.3, 79.3, 78.3, 71.6, 88.6, 74.6, 74.1, 80.6]
asynchronous = [77.1, 71.7, 91. , 72.2, 74.8, 85.1, 67.6, 69.9, 75.3, 71.7, 65.7, 72.6, 71.5, 78.2]

**Conduct the hypothesis testing to check whether the professor's belief is statistically significant by using a 0.05 significance level to evaluate the null and alternative hypotheses. Before doing hypothesis testing, check the related assumptions. Comment on the results.**

## Assumptions
Observations in each sample are independent and identically distributed (iid).

Observations in each sample are normally distributed.

Observations in each sample have the same variance.

# Q1.
ある大学の先生が，Covid-19の関係で対面授業ではなく，オンライン講義を行った。その後，非同期で受講する学生（授業に出席せず，後で記録を見る人）のために，録画した講義をクラウドにアップロードしています。しかし、授業時間に出席し、そのプロセスに参加した学生の方が、より成果を上げることができると彼は考えている。そこで、彼は学期末に学生の平均成績を記録した。そのデータは以下の通りである。

同期 = [94. , 84.9, 82.6, 69.5, 80.1, 79.6, 81.4, 77.8, 81.7, 78.8, 73.2, 87.9, 87.9, 93.5, 82.3, 79.3, 78.3, 71.6, 88.6, 74.6, 74.1, 80.6]

非同期 = [77.1, 71.7, 91. , 72.2, 74.8, 85.1, 67.6, 69.9, 75.3, 71.7, 65.7, 72.6, 71.5, 78.2]

**帰無仮説と対立仮説を評価するために、有意水準0.05を用いて、教授の信念が統計的に有意であるかどうかを確認する仮説検定を実施しなさい。仮説検証を行う前に、関連する仮定を確認する。その結果についてコメントしなさい。**

# 前提条件
各標本の観測値は独立同分布（iid）である。

各標本の観測値は，正規分布している．

各標本の観測値は，同じ分散である。


In [5]:
sync = np.array([94. , 84.9, 82.6, 69.5, 80.1, 79.6, 81.4, 77.8, 81.7, 78.8, 73.2,
       87.9, 87.9, 93.5, 82.3, 79.3, 78.3, 71.6, 88.6, 74.6, 74.1, 80.6])
asyncr =np.array([77.1, 71.7, 91. , 72.2, 74.8, 85.1, 67.6, 69.9, 75.3, 71.7, 65.7, 72.6, 71.5, 78.2])

## 1.仮説の定義

成績はさまざまな個人から取得されるため、データは対になっていない。

H₀： μₛ≤μₐ

H₁ ：μₛ >μₐ

## 2.仮定チェック
H₀：データは正規分布しています。
H₁：データは正規分布していません。
α=0.05と仮定します。p値が>0.05の場合、データは正規分布していると言えます。

正規性をチェックするために、私はシャピロ-ウィルクのW検定を使用しました。これは一般的に小さいサンプルに好まれますが、コルモゴロフ-スミルノフとダゴスティーノのような他のオプションとピアソンの検定があります。[詳細_docs.scipy](https://docs.scipy.org/doc/scipy/reference/stats.html)

In [6]:
check_normality(sync)
check_normality(asyncr)

p value:0.6556
Fail to reject null hypothesis >> The data is normally distributed
p value:0.0803
Fail to reject null hypothesis >> The data is normally distributed


H₀：サンプルの分散は同じです。

H₁：サンプルの分散が異なります。

これは母分散が等しいという帰無仮説を検定する（分散の均質性または均分散性と呼ばれる)

Leveneの検定の結果のp値がある有意水準（通常0.05）より小さい場合，標本分散の得られた差は，分散が等しい集団からの無作為抽出に基づいて発生したとは考えにくい。

分散の均一性をチェックするために、Leveneのテストを使用、Bartlettのテストをチェックすることもできます

[bartlett_test](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.bartlett.html#scipy.stats.bartlett)

In [7]:
def check_variance_homogeneity(group1, group2):
    test_stat_var, p_value_var= stats.levene(group1,group2)
    print("p value:%.4f" % p_value_var)
    if p_value_var <0.05:
        print("Reject null hypothesis >> The variances of the samples are different.")
    else:
        print("Fail to reject null hypothesis >> The variances of the samples are same.")

In [8]:
check_variance_homogeneity(sync, asyncr)

p value:0.8149
Fail to reject null hypothesis >> The variances of the samples are same.


帰無仮説を棄却できない→標本の分散は同じである。

$ H_{0}:μ_{s} <= μ_{α}$

$ H_{1}:μ_{s} > μ_{α}$

## 3.適切なテストの選択
仮定が満たされているので、2つのグループと対になっていないデータに対してパラメトリックバージョンのテストを実行できます。

In [9]:
ttest,p_value = stats.ttest_ind(sync,asyncr)
print("p value:%.8f" % p_value)
print("since the hypothesis is one sided >> use p_value/2 >> p_value_one_sided:%.4f" %(p_value/2))
if p_value/2 <0.05:
    print("Reject null hypothesis")
else:
    print("Fail to reject null hypothesis") 

p value:0.00753598
since the hypothesis is one sided >> use p_value/2 >> p_value_one_sided:0.0038
Reject null hypothesis


**仮説は片側なので、p_value/2を使用 >> p_value_one_sided:0.0038**

**帰無仮説を棄却**

# 4.決定と結論
この有意水準では、コースを同期的にフォローする学生の平均成績が、コースを非同期的にフォローする学生よりも高いと結論付けるのに十分な証拠があります。

# Q2. ANOVA

小児科医は、乳児の平均月間体重増加（gr）に対する粉ミルクの消費の影響を確認したいと考えています。このため、彼女は3つの異なるグループからデータを収集しました。最初のグループは母乳だけで育てられた子供（母乳のみを受け取る）であり、2番目のグループは粉ミルクのみを与えられた子供であり、最後のグループは粉ミルクと母乳で育てられた子供です。これらのデータは以下のとおりです。

only_breast = [794.1、716.9、993.、724.7、760.9、908.2、659.3、690.8、768.7、717.3、630.7、729.5、714.1、810.3、583.5、679.9、865.1]

only_formula = [898.8、881.2、940.2、966.2、957.5、1061.7、1046.2、980.4、895.6、919.7、1074.1、952.5、796.3、859.6、871.1、1047.5、919.1、1160.5、996.9]

両方=[976.4、656.4、861.2、706.8、718.5、717.1、759.8、894.6、867.6、805.6、765.4、800.3、789.9、875.3、740。、799.4、790.3、795.2、823.6、818.7、926.8、791.7、948.3]

この情報に従って、0.05の有意水準を使用して、これら3つのグループの平均月間ゲインに差があるかどうかを確認するために仮説検定を実行します。大きな違いがある場合は、さらに分析を実行して、違いの原因を見つけます。仮説検定を行う前に、関連する仮定を確認してください。

## 1.仮説の定義

H3 ： μ3=μ²=μ3またはサンプルの平均は同じです。

H₁：少なくとも1つは異なります。

## 2.仮定チェック


In [10]:
only_breast=np.array([794.1, 716.9, 993. , 724.7, 760.9, 908.2, 659.3 , 690.8, 768.7,
       717.3 , 630.7, 729.5, 714.1, 810.3, 583.5, 679.9, 865.1])

only_formula=np.array([ 898.8,  881.2,  940.2,  966.2,  957.5, 1061.7, 1046.2,  980.4,
        895.6,  919.7, 1074.1,  952.5,  796.3,  859.6,  871.1 , 1047.5,
        919.1 , 1160.5,  996.9])

both=np.array([976.4, 656.4, 861.2, 706.8, 718.5, 717.1, 759.8, 894.6, 867.6,
       805.6, 765.4, 800.3, 789.9, 875.3, 740. , 799.4, 790.3, 795.2 ,
       823.6, 818.7, 926.8, 791.7, 948.3])

H₀：データは正規分布しています。

H₁：データは正規分布していません。

In [12]:
check_normality(only_breast)
check_normality(only_formula)
check_normality(both)

p value:0.4694
Fail to reject null hypothesis >> The data is normally distributed
p value:0.8879
Fail to reject null hypothesis >> The data is normally distributed
p value:0.7973
Fail to reject null hypothesis >> The data is normally distributed


p値:0.4694 : 帰無仮説を棄却できない→データは正規分布している

p値:0.8879 : 帰無仮説を棄却できない場合 >> データは正規に分布している

p値:0.7973 : 帰無仮説の棄却に失敗 >> データは正規に分布している

$H_{0}$ : 標本の分散は同じである。

$H_{1}$ : 標本の分散は異なっている。

In [13]:
stat, pvalue_levene= stats.levene(only_breast,only_formula,both)

print("p value:%.4f" % pvalue_levene)
if pvalue_levene <0.05:
    print("Reject null hypothesis >> The variances of the samples are different.")
else:
    print("Fail to reject null hypothesis >> The variances of the samples are same.")

p value:0.7673
Fail to reject null hypothesis >> The variances of the samples are same.


p値:0.7673 : 帰無仮説を棄却できない場合 >> 標本の分散は同じである。

$H_{0} : μ_{1}=μ_{2}=μ_{3}$ : または、標本の平均が同じである。

$H_{1}$ : 少なくともどちらかが異なる。


## 3.適切なテストの選択

仮定が満たされているため、2つ以上のグループと対になっていないデータに対してパラメトリックバージョンのテストを実行できます

In [14]:
F, p_value = stats.f_oneway(only_breast,only_formula,both)
print("p value:%.6f" % p_value)
if p_value <0.05:
    print("Reject null hypothesis")
else:
    print("Fail to reject null hypothesis")

p value:0.000000
Reject null hypothesis


帰無仮説を棄却する

この有意水準では、少なくともどちらかのグループの月平均体重増加率が異なっていると結論づけることができる。

## 4.決定と結論
この有意水準では、少なくとも1つのグループの平均月間体重増加が異なると結論付けることができます。

どのグループが違いを引き起こしているのかを見つけるには、以下のように事後テスト/ペアワイズ比較を実行する必要があります。

注：[家族ごとのp値のインフレを回避するために、ボンフェローニ補正を使用しました。ここから他の選択肢を見ることができます](https://scikit-posthocs.readthedocs.io/en/latest/generated/scikit_posthocs.posthoc_ttest/)

In [17]:
import scikit_posthocs as sp

posthoc_df= sp.posthoc_ttest([only_breast,only_formula,both], equal_var=True, p_adjust="bonferroni")

group_names= ["only breast", "only formula","both"]
posthoc_df.columns= group_names
posthoc_df.index= group_names
posthoc_df.style.applymap(lambda x: "background-color:violet" if x<0.05 else "background-color: black")

Unnamed: 0,only breast,only formula,both
only breast,1.0,0.0,0.129454
only formula,0.0,1.0,4e-06
both,0.129454,4e-06,1.0


**この有意水準では、次のように結論付けることができます。**

・"母乳だけ "は "粉ミルクだけ "とは異なる
・"粉ミルクのみ "は "母乳のみ "と "両方 "の両方と異なる
・"両方 "は "粉ミルクのみ "よりも異なる

In [18]:
sp.posthoc_ttest([only_breast,only_formula,both], equal_var=True)

Unnamed: 0,1,2,3
1,1.0,0.0,0.0432
2,0.0,1.0,0.0
3,0.0432,0.0,1.0


# Q3. マンホイットニーU

テクノロジー企業で働く人材スペシャリストは、さまざまなチームの過労時間に関心があります。ソフトウェア開発チームとテストチームの残業に違いがあるかどうかを調査するために、彼女は2つのチームのそれぞれで17人の従業員をランダムに選択し、1時間単位で週平均の残業時間を記録しました。データは以下の通りです。

test_team = [ 6.2、7.1、1.5、2,3、2、1.5、6.1、2.4、2.3、12.4、1.8、5.3、3.1、9.4、2.3、4.1]

developer_team = [2.3、2.1、1.4、2.0、8.7 、 2.2、3.1、4.2、3.6、2.5、3.1、6.2、12.1、3.9、2.2、1.2、3.4]

**この情報に従って、0.05の有意水準を使用して、2つのチームの過労時間に差があるかどうかを確認するための仮説検定を実行します。仮説検定を行う前に、関連する仮定を確認してください。**

## 1.仮説の定義

H₀： μ₁≤μ₂

H₁ ：μ₁ >μ₂

## 2.仮定チェック

In [20]:
test_team=np.array([6.2,  7.1,  1.5,  2,3 ,  2,  1.5,  6.1,  2.4,  2.3, 12.4,  1.8,  5.3,  3.1, 9.4,  2.3, 4.1])
developer_team=np.array([2.3,  2.1,  1.4,  2.0, 8.7,  2.2,  3.1,  4.2,  3.6, 2.5,  3.1,  6.2, 12.1,  3.9,  2.2, 1.2 ,3.4])

H₀：データは正規分布しています。

H₁：データは正規分布していません。

In [21]:
check_normality(test_team)
check_normality(developer_team)

p value:0.0046
Reject null hypothesis >> The data is not normally distributed
p value:0.0005
Reject null hypothesis >> The data is not normally distributed


p値:0.0046 : 帰無仮説を棄却する >> データは正規分布していない

p値:0.0005 : 帰無仮説を棄却する >> データは正規分布していない

H₀：サンプルの分散は同じです。

H₁：サンプルの分散が異なります。

# 3.適切なテストの選択

2つのグループがあり、データは異なる個人から収集されるため、ペアにはなりません。
ただし、正規性の仮定は満たされていません。

したがって、対になっていないデータには、ノンパラメトリックバージョンの2グループ比較を使用する必要があります。マンホイットニーU検定です。

In [22]:
check_variance_homogeneity(test_team, developer_team)

p value:0.5410
Fail to reject null hypothesis >> The variances of the samples are same.


p値:0.5410 : 帰無仮説を棄却できない→サンプルの分散は同じである。

$H_{0} : μ_{1}=μ_{2} or μ_{1}-μ_{2}=0 or$  標本の平均が同じである。

$H_{0} : μ_{1}≠μ_{2} or μ_{1}-μ_{2}≠0 or$  標本の平均が異なる。

In [23]:
ttest,pvalue = stats.mannwhitneyu(test_team,developer_team, alternative="two-sided")
print("p-value:%.4f" % pvalue)
if pvalue <0.05:
    print("Reject null hypothesis")
else:
    print("Fail to recejt null hypothesis")

p-value:0.8226
Fail to recejt null hypothesis


p値:0.8226 : 帰無仮説の不成立

**この有意水準では、両チームの平均過労時間には統計的に有意な差はないと言える。**

# Q4. クラスカル・ウォリス

eコマース企業は、キャンペーンのためにYouTube、Instagram、Facebookで定期的に宣伝しています。

しかし、新しいマネージャーは、これらのプラットフォームに惹かれる顧客の数に違いがあるかどうかについて興味を持っていました。

そのため、彼女は、ユーザーがどこから来たのかを知ることができるアプリケーションであるAdjustを使い始めました。

各プラットフォームのAdjustから報告される1日あたりの数値は次のとおりです。

Youtube = [1913、1879、1939、2146、2040、2127、2122、2156、2036、1974、1956、2146、2151、1943、2125]

Instagram = [2305.、2355.、2203.、2231.、2185.、2420.、2386.、2410.、2340.、2349.、2241.、2396.、2244.、2267.、2281。]

Facebook = [2133.、2522.、2124.、2551.、2293.、2367.、2460.、2311.、2178.、2113.、2048.、2443.、2265.、2095.、2528。]

**この情報に従って、仮説検定を実行して、0.05の有意水準を使用してこれら3つのプラットフォームの平均的な顧客獲得に違いがあるかどうかを確認します。**

**大きな違いがある場合は、さらに分析を実行して、違いの原因を見つけます。仮説検定を行う前に、関連する仮定を確認してください。**

## 1.仮説の定義

H3 ： μ3=μ²=μ3またはサンプルの平均は同じです。

H₁：少なくとも1つは異なります。

In [24]:
youtube=np.array([1913, 1879, 1939, 2146, 2040, 2127, 2122, 2156, 2036, 1974, 1956,
       2146, 2151, 1943, 2125])
       
instagram =  np.array([2305., 2355., 2203., 2231., 2185., 2420., 2386., 2410., 2340.,
       2349., 2241., 2396., 2244., 2267., 2281.])
       
facebook = np.array([2133., 2522., 2124., 2551., 2293., 2367., 2460., 2311., 2178.,
       2113., 2048., 2443., 2265., 2095., 2528.]) 

H₀：データは正規分布しています。

H₁：データは正規分布していません。

In [25]:
check_normality(youtube)
check_normality(instagram)
check_normality(facebook)

p value:0.0285
Reject null hypothesis >> The data is not normally distributed
p value:0.4156
Fail to reject null hypothesis >> The data is normally distributed
p value:0.1716
Fail to reject null hypothesis >> The data is normally distributed


p値:0.0285 : 帰無仮説を棄却する >> データは正規分布していない

p値:0.4156 : 帰無仮説を棄却できない場合 >> データは正規に分布している

p値:0.1716 : 帰無仮説の棄却に失敗 >> データは正規に分布している


H₀：サンプルの分散は同じです。

H₁：サンプルの分散が異なります。

# 3.適切なテストの選択
正規性と分散の均一性の仮定が満たされていないため、

対になっていないデータにはノンパラメトリックバージョンのANOVAを使用する必要があります（データはさまざまなソースから収集されます）。

In [26]:
stat, pvalue_levene= stats.levene(youtube, instagram, facebook)

print("p value:%.4f" % pvalue_levene)
if pvalue_levene <0.05:
    print("Reject null hypothesis >> The variances of the samples are different.")
else:
    print("Fail to reject null hypothesis >> The variances of the samples are same.")

p value:0.0012
Reject null hypothesis >> The variances of the samples are different.


p値:0.0012 : 帰無仮説を棄却する >> 標本の分散は異なっている。

$H_{0}: μ_{1} = μ_{2} = μ_{3}$または、標本の平均が同じである。

$H_{1} : $ 少なくともどちらかが異なる。

In [27]:
F, p_value = stats.kruskal(youtube, instagram, facebook)
print("p value:%.6f" % p_value)
if p_value <0.05:
    print("Reject null hypothesis")
else:
    print("Fail to reject null hypothesis")

p value:0.000015
Reject null hypothesis


p値:0.000015 : 帰無仮説を棄却する

この有意水準では、平均顧客獲得数のうち少なくとも1つが異なっている。

注：データは正規分布ではないので、ノンパラメトリック版ポストホックテストを使用します。

In [29]:
posthoc_df = sp.posthoc_mannwhitney([youtube,instagram, facebook], p_adjust = 'bonferroni')
group_names= ["youtube", "instagram","facebook"]
posthoc_df.columns= group_names
posthoc_df.index= group_names
posthoc_df.style.applymap(lambda x: "background-color:violet" if x<0.05 else "background-color: black")

Unnamed: 0,youtube,instagram,facebook
youtube,1.0,1e-05,0.002337
instagram,1e-05,1.0,1.0
facebook,0.002337,1.0,1.0


YouTubeからの平均顧客数は、他の顧客とは異なります（実際には他の顧客よりも少ないです）。

# Q5. t検定に依存

大学保健センターは、前学期に高コレステロールの18人の学生を診断しました。医療関係者はこれらの患者に高コレステロールの危険性について話し、食事療法プログラムを処方しました。1か月後、患者はコントロールのために来て、彼らのコレステロール値が再検査されました。患者のコレステロール値に違いがあるかどうかをテストします。

この情報に従って、0.05の有意水準を使用して、食事療法後の患者のコレステロール値が低下しているかどうかを確認するための仮説検定を実行します。仮説検定を行う前に、関連する仮定を確認してください。結果にコメントする

test_results_before_diet = [224、235、223、253、253、224、244、225、259、220、242、240、239、229、276、254、237、227]

test_results_after_diet = [198、195、213、190、 246、206、225、199、214、210、188、205、200、220、190、199、191、218]

## 1.仮説の定義

H₀： μd>=0または真の平均差がゼロ以上。

H3： μd<0または真の平均差がゼロよりも小さい。

## 2.仮定チェック

•従属変数は連続でなければなりません（間隔/比率）

•観測値は互いに独立しています。

•従属変数は、ほぼ正規分布している必要があります。

In [30]:
test_results_before_diet=np.array([224, 235, 223, 253, 253, 224, 244, 225, 259, 220, 242, 240, 239, 229, 276, 254, 237, 227])
test_results_after_diet=np.array([198, 195, 213, 190, 246, 206, 225, 199, 214, 210, 188, 205, 200, 220, 190, 199, 191, 218])

$H_{0}$ : データは正規分布である。

$H_{1}$ : データは正規分布していない。

In [31]:
check_normality(test_results_before_diet)
check_normality(test_results_after_diet)

p value:0.1635
Fail to reject null hypothesis >> The data is normally distributed
p value:0.1003
Fail to reject null hypothesis >> The data is normally distributed


p値:0.1635 : 帰無仮説を棄却できない場合→データは正規分布である

p値:0.1003 : 帰無仮説を棄却できない場合 >> データは正規に分布している

$H_{0}: μ_{d} >=0 or$ : 真の平均の差はゼロと等しいか、それより大きい。

$H_{1}: μ_{d} <0 or$ : 真の平均の差はゼロより小さい。

# 3.適切なテストの選択

データは同じ個人から収集され、仮定が満たされているため、データはペアになり、従属 t検定 を使用できます。

In [32]:
test_stat, p_value_paired = stats.ttest_rel(test_results_before_diet,test_results_after_diet)
print("p value:%.6f" % p_value_paired , "one tailed p value:%.6f" %(p_value_paired/2))
if p_value_paired <0.05:
    print("Reject null hypothesis")
else:
    print("Fail to reject null hypothesis")

p value:0.000008 one tailed p value:0.000004
Reject null hypothesis


帰無仮説を棄却する

この有意水準では、食事療法後に患者の平均コレステロール値が減少したと結論づけるのに十分な証拠がある。

# Q6. ウィルコクソンの符号付き順位検定

ベンチャーキャピタリストは、品質を損なうことなくデータ圧縮を提供するスタートアップに投資したいと考えていましたが、競合他社はPiedPiperとEndFrameの2つです。当初、彼女はEndFrameのパフォーマンスが向上する可能性があると信じていましたが、それでも投資前にテストしたいと考えていました。次に、彼女は各企業に同じファイルを渡して、パフォーマンススコアを圧縮して記録しました。データは以下の通りです。

piedpiper = [4.57、4.55、5.47、4.67、5.41、5.55、5.53、5.63、3.86、3.97、5.44、3.93、5.31、5.17、4.39、4.28、5.25]

エンドフレーム= [4.27、3.93、4.01、4.07、3.87、 4.、4。、3.72、4.16、4.1、3.9、3.97、4.08、3.96、3.96、3.77、4.09]

この情報に従って、0.05の有意水準を使用して関連する仮説検定を実行します。仮説検定を行う前に、関連する仮定を確認してください。結果についてコメントします。

## 1.仮説の定義
パフォーマンススコアは同じファイルから取得されるため、データはペアになります。

H₀： μd>=0または真の平均差がゼロ以上。

H3： μd<0または真の平均差がゼロよりも小さい。

## 2.仮定チェック

•従属変数は連続でなければなりません（間隔/比率）

•観測値は互いに独立しています。

•従属変数は、ほぼ正規分布している必要があります。

H₀：データは正規分布しています。

H₁：データは正規分布していません。

α=0.05とする p値が0.05以上であれば、データは正規分布であると言える。

In [33]:
piedpiper=np.array([4.57, 4.55, 5.47, 4.67, 5.41, 5.55, 5.53, 5.63, 3.86, 3.97, 5.44, 3.93, 5.31, 5.17, 4.39, 4.28, 5.25])
endframe = np.array([4.27, 3.93, 4.01, 4.07, 3.87, 4.  , 4.  , 3.72, 4.16, 4.1 , 3.9 , 3.97, 4.08, 3.96, 3.96, 3.77, 4.09])
check_normality(piedpiper)
check_normality(endframe)

p value:0.0304
Reject null hypothesis >> The data is not normally distributed
p value:0.9587
Fail to reject null hypothesis >> The data is normally distributed


## 3.適切なテストの選択
正規性の仮定は満たされていません。したがって、ペア検定のノンパラメトリックバージョン、
つまりウィルコクソン符号順位検定を使用する必要があります。



H₀： μd>=0または真の平均差がゼロ以上。

H1： μd<0または真の平均差がゼロよりも小さい。

In [35]:
test,pvalue = stats.wilcoxon(endframe,piedpiper) ##alternative default two sided
print("p-value:%.6f" %pvalue, ">> one_tailed_pval:%.6f" %(pvalue/2))

test,one_sided_pvalue = stats.wilcoxon(endframe,piedpiper, alternative="less")
print("one sided pvalue:%.6f" %(one_sided_pvalue))
if pvalue <0.05:
    print("Reject null hypothesis")
else:
    print("Fail to recejt null hypothesis")

p-value:0.000214 >> one_tailed_pval:0.000107
one sided pvalue:0.000107
Reject null hypothesis


p値:0.000214 >> 片側p値:0.000107

片側p値:0.000107

帰無仮説を棄却する


$H_{0}$棄却 >> この有意水準では、PiedPaperの性能がEndFrameより優れていると結論づけるのに十分な証拠がある。

# Q7. フリードマンカイ二乗

研究者は、自分が開発した方法論Cと、パフォーマンスの点でベースライン方法AおよびBの間に違いがあるかどうかについて興味を持っていました。そのため、彼女はさまざまな実験を設計し、それぞれの方法で達成された精度を記録することにしました。次の表は、各方法でテストセットで達成された精度を示しています。それぞれの方法で同じトレインとテストセットが使用されたことに注意してください。

**この情報に従って、0.05の有意水準を使用して、方法のパフォーマンスに違いがあるかどうかを確認するために仮説検定を実行します。有意差がある場合は、さらに分析を実行して、どちらが違いを引き起こしたかを見つけます。仮説検定を行う前に、関連する仮定を確認してください。結果についてコメントします。**


##1.仮説の定義
H3 ： μ3=μ²=μ3またはサンプルの平均は同じです。

H₁：少なくとも1つは異なります。

### 前提条件
各標本の観測値は独立同分布(iid)である。

各標本のオブザベーションは，正規分布である．

各標本のオブザベーションは，同じ分散を持つ．

## 2.仮定チェック

In [36]:
method_A = np.array([89.8, 89.9, 88.6, 88.7, 89.6, 89.7, 89.2, 89.3])
method_B =   np.array([90.0, 90.1, 88.8, 88.9, 89.9, 90.0, 89.0, 89.2])
method_C = np.array([91.5, 90.7, 90.3, 90.4, 90.2, 90.3, 90.2, 90.3])

check_normality(method_A)
check_normality(method_B)
check_normality(method_C)

p value:0.3076
Fail to reject null hypothesis >> The data is normally distributed
p value:0.0515
Fail to reject null hypothesis >> The data is normally distributed
p value:0.0016
Reject null hypothesis >> The data is not normally distributed


p値:0.3076 : 帰無仮説を棄却できない場合 >> データは正規分布である

p値:0.0515 : 帰無仮説を棄却できない場合 >> データは正規分布である

p値:0.0016 : 帰無仮説を棄却する >> データは正規分布ではない

H₀：データは正規分布しています。

H₁：データは正規分布していません。

In [37]:
stat, pvalue_levene= stats.levene(method_A, method_B, method_C)

print("p value:%.4f" % pvalue_levene)
if pvalue_levene <0.05:
    print("Reject null hypothesis >> The variances of the samples are different.")
else:
    print("Fail to reject null hypothesis >> The variances of the samples are same.")

p value:0.1953
Fail to reject null hypothesis >> The variances of the samples are same.


p値:0.1953 : 帰無仮説を棄却できない→サンプルの分散は同じである。

H₀：サンプルの分散は同じです。
H₁：サンプルの分散が異なります。

## 3.適切なテストの選択
3つのグループがありますが、正規性の仮定に違反しています。したがって、精度スコアは同じテストセットから取得されるため、ペアデータにはノンパラメトリックバージョンのANOVAを使用する必要があります。

In [38]:
test_stat,p_value = stats.friedmanchisquare(method_A,method_B, method_C)
print("p value:%.4f" % p_value)
if p_value <0.05:
    print("Reject null hypothesis")
else:
    print("Fail to reject null hypothesis")
    
print(np.round(np.mean(method_A),2), np.round(np.mean(method_B),2), np.round(np.mean(method_C),2))    

p value:0.0015
Reject null hypothesis
89.35 89.49 90.49


p値:0.0015 : 帰無仮説を棄却する

89.35 89.49 90.49

この有意水準では、少なくとも1つのメソッドのパフォーマンスが異なります。

注：データは正常ではないため、事後検定のノンパラメトリックバージョンが使用されます。

In [40]:
data = np.array([method_A, method_B, method_C]) 
posthoc_df=sp.posthoc_wilcoxon(data, p_adjust="holm")
# posthoc_df = sp.posthoc_nemenyi_friedman(data.T) ## another option for the posthoc test

group_names= ["Method A", "Method B","Method C"]
posthoc_df.columns= group_names
posthoc_df.index= group_names
posthoc_df.style.applymap(lambda x: "background-color:violet" if x<0.05 else "background-color: balck")

Unnamed: 0,Method A,Method B,Method C
Method A,1.0,0.078125,0.023438
Method B,0.078125,1.0,0.023438
Method C,0.023438,0.023438,1.0


方法Cは、他の方法よりも優れた精度のスコアを達成しました。

# Q8. 適合度（ボーナス:)

金融投資会社のアナリストは、性別とリスク食欲の関係に興味を持っています。データベースから660人の顧客からランダムサンプルを取得しました。
サンプルの顧客は、性別とリスク意欲に従って分類されました。結果を次の表に示します。

この会社の顧客のリスク食欲は性別とは無関係であるという仮説を検証します。α=0.01を使用します。

## 1.仮説の定義

H₀：性別とリスクに対する食欲は独立しています。

H₁：性別とリスクに対する食欲は依存しています。

## 2.適切なテストと仮定のチェックの選択

この質問にはカイ2乗検定を使用する必要があります。

このテストは、適合度テストとして知られています。

これは、観測されたデータが期待されるデータに非常に近い場合を意味します。Ei≥5（セルの少なくとも80％）ごとにこのテストの仮定が満たされます。



In [41]:
from scipy.stats import chi2_contingency

obs =np.array([[53, 23, 30, 36, 88],[71, 48, 51, 57, 203]])
chi2, p, dof, ex = chi2_contingency(obs, correction=False)

print("expected frequencies:\n ", np.round(ex,2))
print("degrees of freedom:", dof)
print("test stat :%.4f" % chi2)
print("p value:%.4f" % p)

expected frequencies:
  [[ 43.21  24.74  28.23  32.41 101.41]
 [ 80.79  46.26  52.77  60.59 189.59]]
degrees of freedom: 4
test stat :7.0942
p value:0.1310


In [42]:
from scipy.stats import chi2
## calculate critical stat

alpha = 0.01
df = (5-1)*(2-1)
critical_stat = chi2.ppf((1-alpha), df)
print("critical stat:%.4f" % critical_stat)

critical stat:13.2767


## 3.決定と結論

臨界統計量：13.2767

p 値が α=0.01 より大きい（あるいは計算された統計量=7.14 が臨界統計量=13.28 より小さい）ので、H0 を棄却することはできない。

この有意水準では、性別とリスク選好は独立であると結論づけられる。

[参照１](https://github.com/eceisik/eip/blob/main/hypothesis_testing_examples.ipynb)

[参照２](https://towardsdatascience.com/hypothesis-testing-with-python-step-by-step-hands-on-tutorial-with-practical-examples-e805975ea96e)