# __``Hypothesis Testing``__

<hr>

Uji hipotesis adalah metode pengambilan keputusan yang didasarkan dari analisis data, baik dari percobaan yang terkontrol, maupun dari observasi (tidak terkontrol). Dalam statistik sebuah hasil bisa dikatakan signifikan secara statistik jika kejadian tersebut hampir tidak mungkin disebabkan oleh faktor yang kebetulan, sesuai dengan batas probabilitas yang sudah ditentukan sebelumnya.

Uji hipotesis kadang disebut juga "konfirmasi analisis data". Keputusan dari uji hipotesis hampir selalu dibuat berdasarkan pengujian hipotesis nol. Ini adalah pengujian untuk menjawab pertanyaan yang mengasumsikan hipotesis nol adalah benar. [[1]](https://id.wikipedia.org/wiki/Uji_hipotesis)

### **1. Import Libraries**

Pada sesi ini, kita menggunakan library Pandas untuk membuka dataset. Sedangkan numpy atau disingkat np digunakan untuk membantu data analysis. Library lain yang dipakai untuk uji berbagai jenis uji hipotesis akan di-import saat akan melakukan pengujian di bawah nanti.

In [1]:
import pandas as pd
import numpy as np

### **2. Intro to Dataset: ``Amazon Best Selling Books``**

Dataset ``Amazon Best Selling Books`` adalah data publik dan legal. Anda dapat membaca deskripsi dan mengunduhnya di website [Kaggle](https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019). Dataset ini berisi tentang 50 buku penjualan terbaik di Amazon dari tahun 2009 sampai tahun 2019. Data telah dikategorikan ke dalam buku fiksi dan non-fiksi menggunakan Goodreads.

Mari kita buka dataset menggunakan pandas (_pd.read_csv_), lalu simpan dataset ke dalam variabel dengan nama df. Data dapat kita lihat sekilas (5 baris awal) terlebih dahulu dengan _df.head()_

In [None]:
df = pd.read_csv('bestsellers with categories.csv')
df.head()

**Data Info**

Gambaran awal mengenai dataset dapat kita lihat menggunakan (_df.info()_). Melalui cara ini kita dapat melihat kolom apa saja di dataset, jumlah baris data yang terisi (tidak kosong), dan tipe datanya.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         550 non-null    object 
 1   Author       550 non-null    object 
 2   User Rating  550 non-null    float64
 3   Reviews      550 non-null    int64  
 4   Price        550 non-null    int64  
 5   Year         550 non-null    int64  
 6   Genre        550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


<hr>

## **Hypothesis Testing** : ``Numerical``

Kita akan mempraktikkan beberapa uji hipotesis di antaranya _One Sample T-Test, Two Sample Independent T-Test, T-Test Paired,_ dan _One-Way Anova F-test for more than two population mean._

Berikut ini contoh praktik uji hipotesis untuk jenis data numerikal:

### **a) One Sample T-Test**

Uji-t adalah uji hipotesis statistik. One Sample T-Test digunakan untuk membandingkan mean (rata-rata) pengukuran dari satu kelompok A dengan nilai teoritis yang diharapkan. [[2]](https://simple.wikipedia.org/wiki/Student%27s_t-test)

Pada dataset ini, kita ingin membuktikan hipotesis apakah harga buku 10 atau di atasnya.

**Hypothesis**:
<br>
**Ho**: Rata-rata harga buku = 10 
<br>
**Ha**: Rata-rata harga buku > 10

In [None]:
# Import Library
from scipy.stats import ttest_1samp

# One Sample T-test
tset, pval = ttest_1samp(df['Price'], 10)
print('p-value:', pval/2)

# Conclusion
if pval/2 < 0.05:
    print('Reject H0')
else:
    print('Fail to reject H0')

p-value: 2.5008144800630206e-11
Tolak H0


**Conclusion**:
P-Value lebih rendah dari tingkat signifikansi kita 0,05, artinya kita memiliki cukup bukti untuk menolak Hipotesis Nol. Jadi, Rata-rata harga buku lebih tinggi dari 10 dengan tingkat signifikansi 5%.

Kita dapat cek rata-rata harga buku menggunakan pandas seperti code di bawah ini. Kita dapati memang harga buku di atas 10, yaitu 13,1.

In [None]:
df['Price'].mean()

13.1

<hr>

### **b) Two Sample Independent T-Test**

Two Sample Independent T-Test digunakan untuk membandingkan rata-rata dari pengukuran dua kelompok A dan B. Mereka ingin memutuskan apakah rata-rata dalam kelompok A berbeda dengan nilai teoritis atau mean dalam kelompok B.[[3]](https://simple.wikipedia.org/wiki/Student%27s_t-test)

Pada dataset ini, kita hendak menguji hipotesis apakah rata-rata harga buku antara buku fiksi dan non-fiksi, sama ataukah berbeda?

In [None]:
df[['Price', 'Genre']].head()

Unnamed: 0,Price,Genre
0,8,Non Fiction
1,22,Fiction
2,15,Non Fiction
3,6,Fiction
4,12,Non Fiction


**Hypothesis**:
<br>
**Ho**: Rata-rata harga buku non fiksi = rata-rata harga buku fiksi
<br>
**Ha**: Rata-rata harga buku non fiksi > rata-rata harga buku fiksi

**a) Non Equal Variance Assumption**

In [None]:
# Import Library
from scipy.stats import ttest_ind

# Two sample independent t-test
result = list(ttest_ind(
              df[df['Genre'] == 'Non Fiction']['Price'],
              df[df['Genre'] == 'Fiction']['Price'],
              equal_var = False
             ))

print('T-Statistic:', result[0])
print('P-Value:', result[1]/2)

# Conclusion
if result[1]/2 < 0.05:
    print('Reject H0')
else:
    print('Fail to reject H0')

T-Statistic: 4.537208093329263
P-Value: 3.5095048008863544e-06
Tolak H0


**b) Equal Variance Assumption**

In [None]:
# Import Library
from scipy.stats import ttest_ind

# Two sample independent t-test
result = list(ttest_ind(
              df[df['Genre'] == 'Non Fiction']['Price'],
              df[df['Genre'] == 'Fiction']['Price'],
              equal_var = True
             ))

print('T-Statistic:', result[0])
print('P-Value:', result[1]/2)

# Conclusion
if result[1]/2 < 0.05:
    print('Reject H0')
else:
    print('Fail to reject H0')

T-Statistic: 4.351608076818746
P-Value: 8.062175359060365e-06
Tolak H0


**Conclusion**: P-value lebih rendah dari tingkat signifikan 0,05, itu berarti kita memiliki cukup bukti untuk menolak Hipotesis Nol. Jadi, Harga Rata-Rata Buku Non Fiksi lebih tinggi dari Harga Buku Fiksi.

Kita bisa cek manual menggunakan _pandas groupby_. Data harga (_price_) kita kelompokkan berdasarkan genre buku. Memang kita dapati dari hasil code di bawah ini, bahwa rata-rata harga buku non fiksi (14,8) lebih tinggi dari buku fiksi (10,8).

In [None]:
df[['Price', 'Genre']].groupby(['Genre']).mean()

Unnamed: 0_level_0,Price
Genre,Unnamed: 1_level_1
Fiction,10.85
Non Fiction,14.841935


<hr>

### **c) T-Test Paired**

Kita akan menguji hipotesis kecepatan reaksi seseorang saat mengendarai mobil antara sambil membuka Smartphone dan tidak membuka Smartphone atau fokus berkendara saja.

In [None]:
# Creating Dummy Dataset
using_Smartphone = [604,556,540,522,469,544,513,470,556,531,599,537,619,536,554,467]
no_Smartphone = [636,623,615,672,601,600,542,554,543,520,609,559,595,565,573,554]

df_paired = pd.DataFrame({
    'No':no_Smartphone,
    'Yes':using_Smartphone
})

df_paired['diff'] = df_paired['Yes'] - df_paired['No']

In [None]:
df_paired.head(10)

Unnamed: 0,No,Yes,diff
0,636,604,-32
1,623,556,-67
2,615,540,-75
3,672,522,-150
4,601,469,-132
5,600,544,-56
6,542,513,-29
7,554,470,-84
8,543,556,13
9,520,531,11


**Ho** : Mean Population of difference (yes-no) = 0
<br>
**Ha** : Mean Population of difference (yes-no) < 0

In [None]:
tset, pval = ttest_1samp(df_paired['diff'], 0)
print(pval/2)
print(tset)

# Conclusion
if pval/2 < 0.05:
    print('Reject H0')
else:
    print('Fail to reject H0')

0.0010497189034628326
-3.7091357792693707
Tolak H0


Karena p-value kurang dari tingkat signifikansi 0.05, maka kita  memiliki cukup bukti untuk menolak hipotesis nol. Artinya, kecepatan reaksi seseorang menurun telah memegang Smartphone ketika mengendarai mobil.

<hr>

### **d) One-Way Anova F-test for more than two population mean**

Kita buat dummy dataset yang berisi data jam belajar siswa serta jenis transportasi yang digunakan untuk berangkat ke sekolah. Kita hendak menguji apakah ada perbedaan rata-rata belajar antara kelompok siswa yang berjalan kaki ke sekolah, dengan yang menggunakan transportasi publik, serta dengan yang mengendarai kendaraan pribadi.

In [None]:
# Create Dummy Dataset

transport = []
method = ['Walking ', 'Public ', 'Private ']
for i in method:
    transport.extend((i*10).split())
    
transportdf = pd.concat([pd.Series(transport, name = 'Transportation'), 
                         pd.Series([5,4,5,6,5,3,2,4,5,5,7,7,5,6,4,6,5,5,6,7,5,4,5,6,6,5,5,5,7,7], name = 'Study Hour')], axis =1)
transportdf.sample(5)

Unnamed: 0,Transportation,Study Hour
20,Private,5
2,Walking,5
25,Private,5
15,Public,6
1,Walking,4


**Hipotesis**

**Ho** : Rata-rata jam belajar siswa yang berjalan kaki = siswa yang memakai transportasi publik = siswa yang menggunakan kendaraan pribadi
<br>
**Ha** : Minimal ada satu pasang yang rata-rata jam belajarnya tidak sama. Tapi kita tahu.

In [None]:
# Importing One-Way ANOVA from Scipy. One-way ANOVA is called F one-way as well because the test follow the F-Distribution
from scipy.stats import f_oneway

stat, pval = f_oneway(transportdf[transportdf['Transportation'] == 'Walking']['Study Hour'],
                      transportdf[transportdf['Transportation'] == 'Public']['Study Hour'],
                      transportdf[transportdf['Transportation'] == 'Private']['Study Hour'],
                     )
print('Statistic', stat)
print('P-Value', pval)

# Conclusion
if pval < 0.05:
    print('Reject H0')
else:
    print('Fail to reject H0')

Statistic 4.809836065573772
P-Value 0.0163405142361861
Tolak H0


P-value kurang dari tingkat signifikansi yang telah kita tetapkan yaitu 0,05. Artinya, kita cukup bukti untuk menolak Hipotesis Nol. Sehingga minimal ada satu pasangan yang tidak sama.

Jika kita lihat dengan agregasi data, berapa rata-rata jam belajar di tiap kelompok?

In [None]:
transportdf.groupby(['Transportation']).mean()

Unnamed: 0_level_0,Study Hour
Transportation,Unnamed: 1_level_1
Private,5.5
Public,5.8
Walking,4.4


<hr>

<br>

# __``Hypothesis Testing``__

<hr>

Uji hipotesis adalah metode pengambilan keputusan yang didasarkan dari analisis data, baik dari percobaan yang terkontrol, maupun dari observasi (tidak terkontrol). Dalam statistik sebuah hasil bisa dikatakan signifikan secara statistik jika kejadian tersebut hampir tidak mungkin disebabkan oleh faktor yang kebetulan, sesuai dengan batas probabilitas yang sudah ditentukan sebelumnya.

Uji hipotesis kadang disebut juga "konfirmasi analisis data". Keputusan dari uji hipotesis hampir selalu dibuat berdasarkan pengujian hipotesis nol. Ini adalah pengujian untuk menjawab pertanyaan yang mengasumsikan hipotesis nol adalah benar. [[1]](https://id.wikipedia.org/wiki/Uji_hipotesis)

### **1. Import Libraries**

Pada sesi ini, kita menggunakan library Pandas untuk membuka dataset. Sedangkan numpy atau disingkat np digunakan untuk membantu data analysis. Library lain yang dipakai untuk uji berbagai jenis uji hipotesis akan di-import saat akan melakukan pengujian di bawah nanti.

In [None]:
import pandas as pd
import numpy as np

### **2. Intro to Dataset: ``Amazon Best Selling Books``**

Dataset ``Amazon Best Selling Books`` adalah data publik dan legal. Anda dapat membaca deskripsi dan mengunduhnya di website [Kaggle](https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019). Dataset ini berisi tentang 50 buku penjualan terbaik di Amazon dari tahun 2009 sampai tahun 2019. Data telah dikategorikan ke dalam buku fiksi dan non-fiksi menggunakan Goodreads.

Mari kita buka dataset menggunakan pandas (_pd.read_csv_), lalu simpan dataset ke dalam variabel dengan nama df. Data dapat kita lihat sekilas (5 baris awal) terlebih dahulu dengan _df.head()_

In [None]:
df = pd.read_csv('bestsellers with categories.csv')
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


**Data Info**

Gambaran awal mengenai dataset dapat kita lihat menggunakan (_df.info()_). Melalui cara ini kita dapat melihat kolom apa saja di dataset, jumlah baris data yang terisi (tidak kosong), dan tipe datanya.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         550 non-null    object 
 1   Author       550 non-null    object 
 2   User Rating  550 non-null    float64
 3   Reviews      550 non-null    int64  
 4   Price        550 non-null    int64  
 5   Year         550 non-null    int64  
 6   Genre        550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


<hr>

## **Hypothesis Testing**: ``Categorical``

Kita akan mempraktikkan beberapa uji hipotesis untuk jenis data kategorikal di antaranya _Proportion One Population Z-Test, Proportion Two Population Z-Test,_ dan _Chi-squared Test for Independence between Two Categorical Variables._ 

Berikut ini contoh praktik uji hipotesis untuk jenis data kategorikal:

<hr>

### **a) Proportion One Population Z-test**

Proportion One Population Z-Test ini kita gunakan untuk menguji apakah proporsi suatu data kategorikal sesuai dengan asumsi teoritis yang kita tetapkan. Misalnya, pada dataset yang kita miliki di bawah ini, kita uji apakah proporsi jumlah buku fiksi di atas 50%. Atau dengan kata lain, jumlahnya lebih banyak dibanding buku non-fiksi.

In [None]:
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


Sebelum kita lakukan uji hipotesis Z-Test, kita ubah dulu data kategorikal menjadi angka (numerikal). Genre _Fiction_ kita ubah menjadi 1, lalu genre _Non Fiction_ menjadi 0. Kita buat kolom baru (_Genre_Bin_) hasil konversi dari kolom _Genre_.

In [None]:
df['Genre_Bin'] = np.where(df['Genre'] == 'Fiction', 1, 0)
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre,Genre_Bin
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction,0
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction,1
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction,0
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction,1
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction,0


Kita hitung dulu berdasarkan data yang ada, berapa proporsi jumlah buku fiksi di toko buku kita. Kemudian kita uji hipotesis proporsi jumlah buku fiksi ini.

In [None]:
number_fiction = np.sum(df['Genre_Bin'])
total = len(df['Genre_Bin'])
fiction_rate = number_fiction / total

print('Proporsi jumlah buku fiksi di toko buku kita adalah', fiction_rate)

Proporsi jumlah buku fiksi di toko buku kita adalah 0.43636363636363634


**Hypothesis**:
<br>
**Ho**: Proporsi jumlah buku fiksi = 0.5
<br>
**Ha**: Proporsi jumlah buku fiksi > 0.5

In [None]:
# Import Library
from statsmodels.stats.proportion import proportions_ztest

# Proportion One Population Z-test
z_stat, p_value = proportions_ztest(fiction_rate, total, 0.5, alternative = 'larger')

print('p-value', p_value)

p-value 1.0


**Conclusion**: P-value lebih besar dari 0,05 dengan taraf signifikan 5%. Artinya, tidak ada cukup bukti bahwa proporsi jumlah buku fiksi lebih besar dari 50%.

Kita bisa hitung menggunakan pandas (_.value_counts()_). Seperti hasil code di bawah ini, proporsi buku fiksi memang tidak lebih banyak dibanding buku non-fiksi.

In [None]:
df['Genre'].value_counts()

Non Fiction    310
Fiction        240
Name: Genre, dtype: int64

<hr>

### **b) Proportion Two Population Z-test**

**Studi Kasus: AB Testing**

Sebuah toko online meluncurkan desain web baru. Mereka secara acak menugaskan pengunjung ke desain lama atau desain baru. Jumlah pengunjung tiap desain ditetapkan sebanyak 1000 pengunjung. Anda diminta kembali melakukan pengujian hipotesis apakah tingkat konversi meningkat atau tidak? Atau dengan kata lain, apakah pengunjung desain baru lebih banyak melakukan transaksi pembelian dibanding desain lama.

**Membuat Dummy Dataset**

In [3]:
visitor_data_before = np.random.binomial(1, 0.5, 1000)
visitor_data_after = np.random.binomial(1, 0.7, 1000)
visitor_data_before = np.where(visitor_data_before == 1, 'buying','no buying')
visitor_data_after = np.where(visitor_data_after == 1,'buying','no buying')

In [4]:
df_before = pd.DataFrame({'layout':'old layout', 'conversion': visitor_data_before})
df_after = pd.DataFrame({'layout':'new layout', 'conversion': visitor_data_after})

In [5]:
df_full = df_before.append(df_after)
df_full

Unnamed: 0,layout,conversion
0,old layout,buying
1,old layout,buying
2,old layout,buying
3,old layout,no buying
4,old layout,no buying
...,...,...
995,new layout,no buying
996,new layout,no buying
997,new layout,buying
998,new layout,buying


Eksplorasi jumlah pengunjung yang beli dan tidak beli antara desain lama dengan desain baru.

In [6]:
pd.crosstab(df_full['layout'], df_full['conversion'])

conversion,buying,no buying
layout,Unnamed: 1_level_1,Unnamed: 2_level_1
new layout,692,308
old layout,486,514


**Hypothesis**:
<br>
**Ho**: p-after = p-before
<br>
**Ha**: p-after > p-before (the conversion rate after change the web layout is increasing)
<br>
atau
<br>
**Ho**: Pengunjung toko online yang menerima Desain Baru **tidak akan** memiliki rasio konversi akhir kunjungan yang lebih tinggi dibandingkan dengan pengunjung yang menerima Desain Lama
<br>
**Ha**: Pengunjung toko online yang menerima Desain Baru **akan** memiliki rasio konversi akhir kunjungan yang lebih tinggi dibandingkan dengan pengunjung yang menerima Desain Lama

**Perhitungan tingkat konversi sebelum dan sesudah pergantian desain web**

In [7]:
# Conversion Rate Before Change the web layout

n_succes_before = len(df_full[(df_full['layout']=='old layout') & (df_full['conversion']=='buying')])
n_before = len(df_full[(df_full['layout']=='old layout')])
success_rate_before = n_succes_before / n_before

print('Tingkat konversi sebelum pergantian desain web (desain lama) adalah', success_rate_before)

Tingkat konversi sebelum pergantian desain web (desain lama) adalah 0.486


In [8]:
# Conversion Rate After Change the we layout

n_succes_after = len(df_full[(df_full['layout']=='new layout') & (df_full['conversion']=='buying')])
n_after = len(df_full[(df_full['layout']=='new layout')])
success_rate_after = n_succes_after / n_after

print('Tingkat konversi setelah pergantian desain web (desain bar) adalah', success_rate_after)

Tingkat konversi setelah pergantian desain web (desain bar) adalah 0.692


**Proportion Two Sample Z-Test**

In [9]:
# Total number buying transaction (success)
number_success = np.array([n_succes_before, n_succes_after])

# Total trafic (all visitor = not buying + buying)
total = np.array([n_before, n_after])

In [24]:
total

array([1000, 1000])

In [23]:
number_success

array([486, 692])

In [10]:
# Import library
from statsmodels.stats.proportion import proportions_ztest

# Proportion Two Population Z-test
z_stat, p_value = proportions_ztest(number_success, total, alternative = 'smaller') 

print(p_value)

3.908058129101085e-21


**Conclusion**: P-Value lebih rendah dari 0,05, dengan tingkat signifikan 5% terdapat cukup bukti bahwa pengunjung Toko Online yang menerima Desain Baru akan memiliki rasio konversi akhir kunjungan yang lebih tinggi dibandingkan dengan pengunjung yang menerima Desain Lama.

<hr>

### **c) Chi-Squared Test for Independence between Two Categorical Variables**

Kita buat tabel Cross Tabulation berisi jumlah buah Pisang, Mangga, dan Nanas yang dibeli konsumen laki-laki dan perempuan. Kita hendak menguji apakah variabel jenis kelamin konsumen berkaitan dengan pilihan buah yang dibeli atau tidak.

In [11]:
# Creating Dummy Cross Tabulation 
df_c = pd.DataFrame(data = [[207, 282, 241], [234, 242, 232]],
                   columns = ['Banana', 'Mango', 'Pineapple'],
                   index = ['Male Customer', 'Female Customer'])
df_c

Unnamed: 0,Banana,Mango,Pineapple
Male Customer,207,282,241
Female Customer,234,242,232


**Hypothesis:**

* Ho : The two variables are independent
* Ha :  The two variables are dependent.

In [26]:
from scipy.stats import chi2_contingency

# defining the table
data = [[207, 282, 241], [234, 242, 232]]
stat, pvalue, dof, expected = chi2_contingency(data)

# Conclusion
alpha = 0.05
print('p value:', pvalue)
if pvalue <= alpha:
    print('Dependent (reject H0)')
else:
    print('Independent (failed to reject H0)')

p value: 0.1031971404730939
Independent (failed to reject H0)


In [29]:
stat

4.542228269825232

In [27]:
dof

2

In [28]:
expected

array([[223.87343533, 266.00834492, 240.11821975],
       [217.12656467, 257.99165508, 232.88178025]])

Kedua variabel independen. Artinya, variabel jenis kelamin tidak berkaitan dengan pilihan buah yang dibeli.

<hr>

## **Hypothesis Testing**: ``Non-Parametric Statistics``

> **Statistik Non-parametrik** adalah salah satu cabang dari statistik. Berbeda halnya dengan statistik parametrik yang memiliki parameter pada probabilitas distribusinya seperti rata-rata (_mean_) dan varians (_variance_). Statistik non-parametrik tidak mengikuti asumsi distribusi normal atau dia memiliki pola distribusi sendiri. Singkatnya, statistik non-parametrik digunakan jika asumsi atau syarat-syarat statistik parametrik tidak tercapai seperti distribusi normal, sampel diambil secara acak, cukup data (>100), dan lainnya. [[4]](https://en.wikipedia.org/wiki/Nonparametric_statistics)


Kita akan mempraktikkan beberapa uji hipotesis untuk non-parametrik, di antaranya: _Mann Whitney, Wilcoxon_ dan _Krukal Wallis_.

Berikut ini contoh praktik uji hipotesis untuk statistik non-parametrik:

### **a) Mann Whitney**

Mann Whitney Test mirip seperti Two Sample Independent T-Test, tetapi untuk versi Statistik Non-parametrik-nya. Pada studi kasus ini kita hendak menguji apakah ada perbedaan median nilai (_Score_) kinerja antara karyawan yang baca buku atau tidak.

**Membuat Dummy Dataset**

In [13]:
training = pd.concat([pd.Series(data = ['Yes', 'No', 'Yes', 'Yes', 'No', 'No', 'No','Yes','Yes', 'No','Yes','Yes','No','Yes','No','Yes','No','No','No','Yes'],name = 'Read Book'),
                pd.Series(data = [70,85,80,45,80,70,90,70,55,80,75,60,70,85,80,85,55,75,65,70], name ='Score')], axis = 1)

training.head()

Unnamed: 0,Read Book,Score
0,Yes,70
1,No,85
2,Yes,80
3,Yes,45
4,No,80


**Hypothesis**:
<br>
**Ho**: Median nilai karyawan yang tidak baca buku = Median nilai karyawan yang baca buku
<br>
**Ha**: Median nilai karyawan yang tidak baca buku > Median nilai karyawan yang baca buku

**Mann Whitney Test**

In [14]:
# Import Library
from scipy.stats import mannwhitneyu


# Mann Whitney Test
result = list(mannwhitneyu(
    training[training['Read Book'] == 'No']['Score'],
    training[training['Read Book'] == 'Yes']['Score'],
    alternative = 'greater' # M (no read) > M (read)
))

print('U-Statistic', result[0])
print('P-Value', result[1])

U-Statistic 61.5
P-Value 0.1996116335589066


**Conclusion**: P-value lebih tinggi dari tingkat signifikansi 0,05, itu berarti kita tidak memiliki cukup bukti untuk menolak Hipotesis Nol. Jadi, median nilai antara karyawan yang tidak membaca dan membaca tidak terlalu berbeda.

Kita lihat nilai median keduanya dengan groupby analysis.

In [15]:
training.groupby(['Read Book']).median()

Unnamed: 0_level_0,Score
Read Book,Unnamed: 1_level_1
No,77.5
Yes,70.0


<hr>

### **b) Wilcoxon**

Wilcoxon Test mirip dengan Two Paired T-test (Dua sampel berpasangan), tapi untuk versi statistik non-parametrik-nya. Dua sampel berpasangan banyak digunakan untuk situasi eksperimen. Jadi, kita sebagai peneliti hendak menguji apakah ada perbedaan sebelum dan setelah tindakan, peristiwa, atau kondisi tertentu.

Pada studi kasus di bawah ini, kita membuat Dummy Dataset yang berisi perbandingan kinerja antara karyawan yang menggunakan dan tidak menggunakan Smartphone saat bekerja. Kita bandingkan apakah ada perbedaan kinerja di antara 2 kondisi tersebut.

**Membuat Dummy Dataset**: Working performance without and using Smartphone

In [16]:
with_smartphone = [604,556,540,522,469,544,513,470,556,531,599,537,619,536,554,467]
without_smartphone = [636,623,615,672,601,600,542,554,543,520,609,559,595,565,573,554]

df_paired = pd.DataFrame({
    'no':without_smartphone,
    'yes':with_smartphone
})

df_paired['diff'] = df_paired['yes'] - df_paired['no']
df_paired.head()

Unnamed: 0,no,yes,diff
0,636,604,-32
1,623,556,-67
2,615,540,-75
3,672,522,-150
4,601,469,-132


**Hypothesis**:
<br>
**Ho**: Median Population of difference (yes-no) = 0 (Tidak ada perbedaan antara dengan dan tanpa SmartPhone)
<br>
**Ha**: Median Population of difference (yes-no) < 0 (Ada perbedaan antara dengan dan tanpa SmartPhone)
<br>

**Wilcoxon Test**

In [17]:
# Import Library
from scipy.stats import wilcoxon

# Wilcoxon Test
sumrank, p_value = wilcoxon(df_paired['diff'], alternative = 'less')

print(p_value)
print(sumrank)

0.0008392333984375
11.0


**Conclusion:** P-value lebih rendah dari tingkat signifikansi 0,05, itu berarti kita memiliki cukup bukti untuk menolak Hipotesis Nol. Jadi, performa kerja karyawan yang menggunakan Smartphone lebih rendah dibanding yang tidak menggunakannya saat bekerja.

<hr>

### **c) Kruskal Wallis**
Kruskal Wallis Test digunakan untuk menguji perbandingan lebih dari 2 sampel independent dalam statistik non-parametrik. Pada studi kasus ini kita hendak membandingkan jumlah investasi bulanan antar karyawan. Karyawan dibagi tiga berdasarkan transportasi yang dipakai, yaitu pejalan kaki, pengguna transportasi umum, dan pengendara transporatasi pribadi. Kita uji apakah ada perbedaan jumlah investasi bulanan di antara ketiganya.

**Membuat Dummy Dataset**: Comparing Montly Investment among Worker who go to work using private transportation, public transportation, or walking.

In [18]:
transport = []
method = ['Walking ', 'Public ', 'Private ']
for i in method:
    transport.extend((i*10).split())
    
transportdf = pd.concat([pd.Series(transport, name = 'Transportation'), 
                         pd.Series([5,4,5,6,5,3,2,4,5,5,7,7,5,6,4,6,5,5,6,7,5,4,5,6,6,5,5,5,7,7], name = 'Monthly Investment')], axis =1)

transportdf

Unnamed: 0,Transportation,Monthly Investment
0,Walking,5
1,Walking,4
2,Walking,5
3,Walking,6
4,Walking,5
5,Walking,3
6,Walking,2
7,Walking,4
8,Walking,5
9,Walking,5


**Perbandingan Median Nilai Investasi Ketiga Kelompok Karyawan**

In [19]:
for i in transportdf['Transportation'].unique():
    print('Median of Monthly Investment Group {}: {}'.format(i, transportdf[transportdf['Transportation'] == i]['Monthly Investment'].median()))

Median of Monthly Investment Group Walking: 5.0
Median of Monthly Investment Group Public: 6.0
Median of Monthly Investment Group Private: 5.0


In [20]:
print('Total Monthly Investment Median: ', transportdf['Monthly Investment'].median())

Total Monthly Investment Median:  5.0


**Hypothesis:**
<br>
**Ho**: Median Investasi Bulanan Kelompok Karyawan Pejalan Kaki = Pengguna Transportasi Umum = Pengendara Kendaraan Pribadi
<br>
**Ha**: Setidaknya ada satu pasang yang tidak sama (dan kita tidak tahu yang mana)


In [21]:
# Import Library
from scipy.stats import kruskal

# Kruskal wallis test
kruskal(transportdf[transportdf['Transportation'] == 'Walking']['Monthly Investment'],
        transportdf[transportdf['Transportation'] == 'Public']['Monthly Investment'],
        transportdf[transportdf['Transportation'] == 'Private']['Monthly Investment'],
       )

KruskalResult(statistic=7.01891293654697, pvalue=0.029913168775421856)

**Conclusion:** P-value lebih rendah dari tingkat signifikansi 0,05, itu berarti kita memiliki cukup bukti untuk menolak Hipotesis Nol. Jadi, setidaknya satu pasang dari median populasi tidak sama.

Kita bisa bandingkan secara manual menggunakan _pandas groupby_. Dari hasil code di bawah ini memang median investasi bulanan kelompok karyawan pengguna transportasi umum lebih tinggi dibanding kelompok lainnya.

In [22]:
transportdf.groupby(['Transportation']).median()

Unnamed: 0_level_0,Monthly Investment
Transportation,Unnamed: 1_level_1
Private,5.0
Public,6.0
Walking,5.0


<hr>