# __``Hypothesis Testing``__

<hr>  

Uji hipotesis adalah metode pengambilan keputusan yang didasarkan dari analisis data, baik dari percobaan yang terkontrol, maupun dari observasi (tidak terkontrol). Dalam statistik sebuah hasil bisa dikatakan signifikan secara statistik jika kejadian tersebut hampir tidak mungkin disebabkan oleh faktor yang kebetulan, sesuai dengan batas probabilitas yang sudah ditentukan sebelumnya.

Uji hipotesis kadang disebut juga "konfirmasi analisis data". Keputusan dari uji hipotesis hampir selalu dibuat berdasarkan pengujian hipotesis nol. Ini adalah pengujian untuk menjawab pertanyaan yang mengasumsikan hipotesis nol adalah benar. [[1]](https://id.wikipedia.org/wiki/Uji_hipotesis)

In [1]:
# import Libraries
import pandas as pd
import numpy as np

In [2]:
df=pd.read_csv('bestsellers with categories.csv')
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         550 non-null    object 
 1   Author       550 non-null    object 
 2   User Rating  550 non-null    float64
 3   Reviews      550 non-null    int64  
 4   Price        550 non-null    int64  
 5   Year         550 non-null    int64  
 6   Genre        550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


<hr>

## **Hypothesis Testing** : ``Numerical``

Kita akan mempraktikkan beberapa uji hipotesis di antaranya _One Sample T-Test, Two Sample Independent T-Test, T-Test Paired,_ dan _One-Way Anova F-test for more than two population mean._

Berikut ini contoh praktik uji hipotesis untuk jenis data numerikal:

### **a) One Sample T-Test**  
Uji-t adalah uji hipotesis statistik. One Sample T-Test digunakan untuk membandingkan mean (rata-rata) pengukuran dari satu kelompok A dengan nilai teoritis yang diharapkan. [[2]](https://simple.wikipedia.org/wiki/Student%27s_t-test)

Pada dataset ini, kita ingin membuktikan hipotesis apakah harga buku 10 atau di atasnya

**Hypothesis**:
<br>
**Ho**: Rata-rata harga buku = 10 
<br>
**Ha**: Rata-rata harga buku > 10 --> one tailed

In [7]:
#import libraries
from scipy.stats import ttest_1samp

In [6]:
#one sample t-test
ttest_1samp(df['Price'],10) #(data,estimasi rata-rata)

Ttest_1sampResult(statistic=6.705376094208877, pvalue=5.001628960126041e-11)

In [9]:
tset,pval=ttest_1samp(df['Price'],10)
# print(tset,pval)

print('pvalue =', pval/2) #one tailed

pvalue = 2.5008144800630206e-11


In [11]:
#conclusion
if pval/2<= 0.05: #alpha= 0.05
    print('Tolak Ho, rata-rata harga >10')
else:
    print('Terima Ho, rata-rata harga =10')

Tolak Ho, rata-rata harga >10


**Conclusion**:
P-Value lebih rendah dari tingkat signifikansi kita 0,05, artinya kita memiliki cukup bukti untuk menolak Hipotesis Nol. Jadi, Rata-rata harga buku lebih tinggi dari 10 dengan tingkat signifikansi 5%.

Kita dapat cek rata-rata harga buku menggunakan pandas seperti code di bawah ini. Kita dapati memang rata-rata harga buku di atas 10, yaitu 13,1.

In [12]:
df['Price'].mean()

13.1

<hr>

### **b) Two Sample Independent T-Test**
Two Sample Independent T-Test digunakan untuk membandingkan rata-rata dari pengukuran dua kelompok A dan B. Mereka ingin memutuskan apakah rata-rata dalam kelompok A berbeda dengan nilai teoritis atau mean dalam kelompok B.[[3]](https://simple.wikipedia.org/wiki/Student%27s_t-test)

Pada dataset ini, kita hendak menguji hipotesis apakah rata-rata harga buku antara buku fiksi dan non-fiksi, sama ataukah berbeda?

In [13]:
df[['Price','Genre']].head()

Unnamed: 0,Price,Genre
0,8,Non Fiction
1,22,Fiction
2,15,Non Fiction
3,6,Fiction
4,12,Non Fiction


**Hypothesis**:
<br>
**Ho**: Rata-rata harga buku non fiksi = rata-rata harga buku fiksi
<br>
**Ha**: Rata-rata harga buku non fiksi > rata-rata harga buku fiksi -->one tailed

*a) Non Equal Variance Assumption**

In [16]:
df[df['Genre']=='Non Fiction']['Price']

0       8
2      15
4      12
8       3
11      2
       ..
539    11
546     8
547     8
548     8
549     8
Name: Price, Length: 310, dtype: int64

In [17]:
#import
from scipy.stats import ttest_ind

ttest_ind(
    df[df['Genre']=='Non Fiction']['Price'],
    df[df['Genre']=='Fiction']['Price']
)

Ttest_indResult(statistic=4.351608076818746, pvalue=1.612435071812073e-05)

In [19]:
ttes,pval=ttest_ind(
    df[df['Genre']=='Non Fiction']['Price'],
    df[df['Genre']=='Fiction']['Price']
) #default: variance unequal
# print(ttes,pval)
print('p-value=', pval/2)

p-value= 8.062175359060365e-06


In [21]:
#conclusion
if pval/2<0.05:
    print('Tolak Ho, harga buku nonfiksi lebih mahal dari buku fiksi')
else:
    print('Terima Ho,harga buku nonfiksi sama dengan buku fiksi')

Tolak Ho, harga buku nonfiksi lebih mahal dari buku fiksi


**b) Equal Variance Assumption**

In [23]:
ttes,pval=ttest_ind(
    df[df['Genre']=='Non Fiction']['Price'],
    df[df['Genre']=='Fiction']['Price'],
    equal_var=True
) 
('p-value=', pval/2)

#conclusion

if pval/2<=0.05:
    print('Tolak Ho, harga buku nonfiksi lebih mahal dari buku fiksi')
else:
    print('Terima Ho,harga buku nonfiksi sama dengan buku fiksi')

Tolak Ho, harga buku nonfiksi lebih mahal dari buku fiksi


**Conclusion**: P-value lebih rendah dari tingkat signifikan 0,05, itu berarti kita memiliki cukup bukti untuk menolak Hipotesis Nol. Jadi, Harga Rata-Rata Buku Non Fiksi lebih tinggi dari Harga Buku Fiksi.

Kita bisa cek manual menggunakan _pandas groupby_. Data harga (_price_) kita kelompokkan berdasarkan genre buku. Memang kita dapati dari hasil code di bawah ini, bahwa rata-rata harga buku non fiksi (14,8) lebih tinggi dari buku fiksi (10,8).

In [24]:
df[['Price','Genre']].groupby('Genre').mean()

Unnamed: 0_level_0,Price
Genre,Unnamed: 1_level_1
Fiction,10.85
Non Fiction,14.841935


In [25]:
# cek variance
(df[df['Genre']=='Non Fiction']['Price']).var()

145.0396596721994

In [26]:
(df[df['Genre']=='Fiction']['Price']).var()

73.49205020920503

In [27]:
(df[df['Genre']=='Non Fiction']['Price']).var()/(df[df['Genre']=='Fiction']['Price']).var() 
#karena rasio variancenya tidak lebih besar dari 2, maka seharusnya kita pakai ttest equal variance

1.9735421621702545

<hr>

### **c) T-Test Paired**  
Kita akan menguji hipotesis kecepatan reaksi seseorang saat mengendarai mobil antara sambil membuka Smartphone dan tidak membuka Smartphone atau fokus berkendara saja.

In [3]:
# creating dummy dataset
df_paired=pd.DataFrame({'using smartphone':[604,556,540,522,469,544,513,470,556,531,599,537,619,536,554,467],
 'no smartphone':[636, 623, 615, 672, 601, 600, 542, 554, 543, 520,609, 559, 595, 565, 573, 554]})

In [6]:
df_paired['diff']=df_paired['using smartphone']-df_paired['no smartphone']
df_paired

Unnamed: 0,using smartphone,no smartphone,diff
0,604,636,-32
1,556,623,-67
2,540,615,-75
3,522,672,-150
4,469,601,-132
5,544,600,-56
6,513,542,-29
7,470,554,-84
8,556,543,13
9,531,520,11


**Ho** : Mean Population of difference (yes-no) = 0
<br>
**Ha** : Mean Population of difference (yes-no) < 0

In [8]:
tset, pval= ttest_1samp(df_paired['diff'],0)
print(pval/2)
print(tset)

#conclusion
if pval/2<= 0.05:
    print('Tolak Ho')
else:
    print('Terima Ho')

0.0010497189034628326
-3.7091357792693707
Tolak Ho


Karena p-value kurang dari tingkat signifikansi 0.05, maka kita  memiliki cukup bukti untuk menolak hipotesis nol. Artinya, kecepatan reaksi seseorang menurun telah memegang Smartphone ketika mengendarai mobil.

<hr>

### **d) One-Way Anova F-test for more than two population mean**

In [11]:
df['Year'].value_counts()

2019    50
2018    50
2017    50
2016    50
2015    50
2014    50
2013    50
2012    50
2011    50
2010    50
2009    50
Name: Year, dtype: int64

Kita ingin mencari apakah ada perbedaan rata-rata harga buku di tahun 2009,2014,2019

In [12]:
df[df['Year']==2009]['Price']

14     17
25      5
38     13
50     14
60      4
72     15
78      6
80     12
91      1
92     14
95      7
96     18
131    11
134     6
139    14
160     4
177     7
216    15
228    27
241    10
254    12
260    20
271    46
299    25
304    17
313    18
330    12
331    24
346    53
364    11
369     6
374     9
387    16
388     2
398    10
402     6
417     9
418     7
429    19
430    13
459     8
470     6
471     9
473    82
498    11
512    15
513     9
520    20
524    42
535    13
Name: Price, dtype: int64

**Hipotesis**  
**Ho** : Rata-rata harga buku tahun 2009 = 2014 = 2019  
**Ha** : Minimal satu pasang di antara rata-rata harga buku di tahun 2009, 2014 dan 2019 tidak sama. (Kita tidak bisa menentukan pasangan mana yang berbeda, dan berbedanya gimana)

In [13]:
from scipy.stats import f_oneway

stats,pval= f_oneway(
    df[df['Year']==2009]['Price'],
    df[df['Year']==2014]['Price'],
    df[df['Year']==2019]['Price']
    )
print(stats)
print(pval)

#conclusion
if pval<=0.05:
    print('Tolak Ho')
else:
    print('Terima Ho')

2.5039981564696396
0.0852395551613879
Terima Ho


P value **tidak** kurang dari tingkat signifikansi yang kita tentukan (0.05), artinya, kita **tidak** memiliki cukup bukti bahwa ada perbedaan harga buku di tahun 2009,2014 dan 2019. Maka kita tidak bisa menolak Ho.

In [15]:
df.groupby('Year').mean()['Price'].loc[[2009,2014,2019]]

Year
2009    15.40
2014    14.64
2019    10.08
Name: Price, dtype: float64

## **Hypothesis Testing** : ``Non Parametric``

### **a) Mann Whitney U**   
Dipakai untuk menguji 2 populasi independen. Contoh: rata-rata harga buku fiksi dan non fiksi, jika dataset tersebut tidak memenuhi asumsi untuk uji t-test.

In [22]:
from scipy.stats import normaltest, mannwhitneyu

In [20]:
stats, pval=normaltest(df['Price'])
if pval<=0.05:
    print('tolak Ho, distribusi tidak normal')
else:
    print('terima Ho, distribusi normal')

tolak Ho, distribusi tidak normal


Karena distribusi harga tidak normal, maka kita menguji perbedaan nilai pusat menggunakan Mann Whitney U

**Hypothesis**:
<br>
**Ho**: Nilai pusat harga buku non fiksi = nilai pusat harga buku fiksi
<br>
**Ha**: Nilai pusat harga buku non fiksi > nilai pusat harga buku fiksi

In [41]:
stats, pval=mannwhitneyu(df[df['Genre']=='Non Fiction']['Price'],
            df[df['Genre']=='Fiction']['Price'],
            alternative='greater')

print(pval)

#conclusion
if pval<=0.05:
    print('Tolak Ho')
else:
    print('Terima Ho')

3.990608885835803e-08
Tolak Ho


Karena p-value lebih kecil dari alpha, artinya kita punya cukup bukti untuk menolak Ho, maka kesimpulan kita adalah harga buku Non Fiksi > dari Fiksi

### **b) Wilcoxon**
Test non parametric untuk dua data berpasangan

In [28]:
df_paired

Unnamed: 0,using smartphone,no smartphone,diff
0,604,636,-32
1,556,623,-67
2,540,615,-75
3,522,672,-150
4,469,601,-132
5,544,600,-56
6,513,542,-29
7,470,554,-84
8,556,543,13
9,531,520,11


In [32]:
from scipy.stats import shapiro,wilcoxon

In [31]:
stats, pval=shapiro(df_paired['diff'])
if pval<=0.05:
    print('tolak Ho, distribusi tidak normal')
else:
    print('terima Ho, distribusi normal') #anggap tidak normal untuk coba uji wilcoxon

terima Ho, distribusi normal


**Ho** : central tendency Population of difference (yes-no) = 0
<br>
**Ha** : central tendency Population of difference (yes-no) < 0

In [36]:
stats, pval=wilcoxon(df_paired['diff'],alternative='less')

print(pval)

#conclusion
if pval<=0.05:
    print('Tolak Ho')
else:
    print('Terima Ho')

0.0008392333984375
Tolak Ho


Karena p-value kurang dari 0.05, artinya kita punya cukup bukti bahwa nilai pusat data difference lebih kecil dari 0, atau bahwa reaksi orang yang fokus mengemudi lebih baik/cepat dibanding yang menggunakan smartphone

### **c) Kruskal Wallis**
Test Non Parametric untuk lebih dari 2 sampel

Kita ingin mencari apakah ada perbedaan rata-rata harga buku di tahun 2009,2014 dan 2019.  
Distribusi harga buku tidak normal.

**Hipotesis**  
**Ho** : Nilai pusat harga buku tahun 2009 = 2014 = 2019  
**Ha** : Minimal satu pasang di antara nilai pusat harga buku di tahun 2009, 2014 dan 2019 tidak sama. (Kita tidak bisa menentukan pasangan mana yang berbeda, dan berbedanya gimana)

In [38]:
from scipy.stats import kruskal

In [39]:
stats,pval= kruskal(
    df[df['Year']==2009]['Price'],
    df[df['Year']==2014]['Price'],
    df[df['Year']==2019]['Price']
    )
print(stats)
print(pval)

#conclusion
if pval<=0.05:
    print('Tolak Ho')
else:
    print('Terima Ho')

4.406312885328423
0.11045396593880222
Terima Ho


Karena p-value **tidak** lebih kecil dari 0.05, maka kita **tidak** punya cukup bukti untuk menolak Ho, artinya kesimpulan kita adalah tidak ada perbedaan harga signifikan dari buku di tahun 2009, 2014 dan 2019.

## **Hypothesis Testing** : ``Proporsi``
Kalau data kita kategorikal/qualitatif

In [51]:
df=pd.read_csv('titanic.csv')
df.head()

Unnamed: 0,sex,age,parch,fare,class,deck,embark_town,alive,alone
0,male,22.0,0,7.25,Third,,Southampton,no,False
1,female,38.0,0,71.2833,First,C,Cherbourg,yes,False
2,female,26.0,0,7.925,Third,,Southampton,yes,True
3,female,35.0,0,53.1,First,C,Southampton,yes,False
4,male,35.0,0,8.05,Third,,Southampton,no,True


### Z test untuk Populasi Tunggal  
Untuk menguji proporsi dari satu populasi, di mana isi kategorinya berupa dikotomi/binari.

contoh: apakah proporsi penumpang wanita di titanic lebih banyak dari pria  

**Hypothesis**  
**Ho** : proporsi penumpang wanita = proporsi penumpang pria --> proporsi penumpang wanita =0.5  
**Ha** : proporsi penumpang wanita > proporsi penumpang pria --> proporsi penumpang wanita >0.5

In [56]:
jumlah_wanita=(df['sex']=='female').sum()
n=len(df)
print('proporsi', jumlah_wanita,'\njumlah data', n)

proporsi 314 
jumlah data 891


In [44]:
from statsmodels.stats.proportion import proportions_ztest

In [62]:
stats, pval=proportions_ztest(jumlah_wanita,n,0.5, 'larger') 
#count data yg ingin dihitung proporsinya, jumlah observasi/data, jumlah proporsi yang diharapkan

print(pval)
#conclusion
if pval<=0.05:
    print('Tolak Ho')
else:
    print('Terima Ho')

1.0
Terima Ho


karena p-value **tidak** lebih kecil dari alpha (0.05), maka kita tidak punya cukup bukti untuk menolak Ho, artinya, proporsi penumpang wanita tidak lebih besar dari pria

In [63]:
proporsi_wanita

0.35241301907968575

### Z test untuk dua Populasi  
Untuk menguji proporsi dari dua populasi, di mana isinya berupa data kategori dikotomi/binari.  

contoh: apakah proporsi penumpang wanita yang selamat di titanic lebih banyak dari proporsi penumpang pria yang selamat

**Hypothesis**  
**Ho** : proporsi penumpang wanita = proporsi penumpang pria
**Ha** : proporsi penumpang wanita > proporsi penumpang pria 

In [64]:
df[['sex','alive']]

Unnamed: 0,sex,alive
0,male,no
1,female,yes
2,female,yes
3,female,yes
4,male,no
...,...,...
886,male,no
887,female,yes
888,female,no
889,male,yes


In [66]:
df_count=pd.crosstab(df['sex'],df['alive'])
df_count

alive,no,yes
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,81,233
male,468,109


In [69]:
from statsmodels.stats.proportion import proportions_ztest

In [72]:
df_count['yes'] #jumlah penumpang yang selamat berdasarkan gender

sex
female    233
male      109
Name: yes, dtype: int64

In [73]:
df_count.sum(axis=1) #proporsi total penumpang wanita dan pria

sex
female    314
male      577
dtype: int64

In [75]:
stats, pval=proportions_ztest(df_count['yes'],df_count.sum(axis=1), alternative='larger')

print(pval)
#conclusion
if pval<=0.05:
    print('Tolak Ho')
else:
    print('Terima Ho')

1.8558738850567398e-59
Tolak Ho


p-value < dari alpha (0.05) maka, kita punya cukup bukti untuk menolak Ho, artinya, proporsi wanita yang selamat lebih besar dari pria

In [79]:
pd.crosstab(df['sex'],df['alive'], normalize='index')

alive,no,yes
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,0.257962,0.742038
male,0.811092,0.188908


### Chi Square

Untuk menguji apakah dua variabel kategorikal memiliki hubunga  satu sama lain. Tiap variabel bisa memiliki banyak kategori.  
[Bacaan lanjut](https://towardsdatascience.com/gentle-introduction-to-chi-square-test-for-independence-7182a7414a95)

Apakah asal kota penumpang mempengaruhi keselamatan penumpang tersebut

In [78]:
df['embark_town'].value_counts()

Southampton    644
Cherbourg      168
Queenstown      77
Name: embark_town, dtype: int64

**Hypothesis**    
**Ho**: Asal kota tidak memiliki keterkaitan dengan keselamatan penumpang  
**Ha**: Asal kota memiliki keterkaitan dengan keselamatan penumpang

In [80]:
from scipy.stats import chi2_contingency

In [82]:
df_count=pd.crosstab(df['embark_town'],df['alive'])
df_count

alive,no,yes
embark_town,Unnamed: 1_level_1,Unnamed: 2_level_1
Cherbourg,75,93
Queenstown,47,30
Southampton,427,217


In [86]:
stats, pval, dof, expected=chi2_contingency(df_count)

print(pval)
#conclusion
if pval<=0.05:
    print('Tolak Ho')
else:
    print('Terima Ho')

1.769922284120912e-06
Tolak Ho


p-value< alpha (0.05), maka kita punya cukup bukti untuk menolak Ho, artinya ada keterkaitan antara kota asal penumpang dengan keselamatan

In [87]:
pd.crosstab(df['embark_town'],df['alive'], normalize='index')

alive,no,yes
embark_town,Unnamed: 1_level_1,Unnamed: 2_level_1
Cherbourg,0.446429,0.553571
Queenstown,0.61039,0.38961
Southampton,0.663043,0.336957
