# Hypothesis Testing
------------
Uji hipotesis adalah metode pengambilan keputusan yang didasarkan dari analisis data, baik dari percobaan yang terkontrol, maupun dari observasi (tidak terkontrol). Dalam statistik, sebuah hasil bisa dikatakan signifikan secara statistik jika kejadian tersebut hampir tidak mungkin disebabkan oleh faktor yang kebetulan, sesuai dengnan batas probabilitas yang sudah ditentukan sebelumnya.

Uji hipotesis kadang disebut juga "konfirmasi analisis data". Keputusan dari uji hipotesis hampir selalu dibuat berdasarkan pengujian hipotesis nol. Ini adalah pengujian untuk menjawab pertanyaan yang mengasumsikan hipotesis nol adalah benar.

-----------------------
## 1. Import Libraries
Pada sesi ini, kita menggunakan library pandas untuk membuka dataset. Sedangkan numpy atau disingkat np digunakan untuk membantu analisis data. Library lain yang dipakai untuk uji berbagai jenis uji hipotesis akan di-import saat akan melakukan pengujian dibawah nanti.

In [2]:
import pandas as pd
import numpy as np

## 2. Intro to Dataset: <mark>Amazon Best Selling Boooks</mark>
Datasets <mark>Amazon Best Selling Boooks</mark> adalah data publik dan legal. Anda dapat membaca deskripsi dan mengunduhnya di website Kaggle. Dataset inin berisi tentang 50 buku penjualan terbaik di Amazon dari tahub 2009 sampai tahun 2019. Data telah dikategorikan ke dalam buku fiksi dan non-fiksi menggunakan Goodreads.

Mari kita buka dataset menggunakan pandas <i>(pd.read_csv)</i>, lalu simpan dataset ke dalam variabel dengan nama df. Data dapat kita lihat sekilas (5 baris awal) terlebih dahulu dengan <i>df.head()</i>

In [3]:
df = pd.read_csv('./datasets/bestsellers with categories.csv')
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


### Data Info
Gambaran awal mengenai dataset dapat kita lihat menggunakan <i>(df.info())</i>. Melalui cara ini kita dapat melihat kolom apa saja di dataset, jumlah baris data yang terisi(tidak kosong), dan tipe datanya.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         550 non-null    object 
 1   Author       550 non-null    object 
 2   User Rating  550 non-null    float64
 3   Reviews      550 non-null    int64  
 4   Price        550 non-null    int64  
 5   Year         550 non-null    int64  
 6   Genre        550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


-----------
# Hypotesis Testing: <mark>Categorical</mark>
Kita akan mempraktikkan beberapa uji hipotesis untuk data kategorikal diantaranya diantaranya <i>Proportion One Population Z-test</i>, <i>Proportion Two Population Z-test</i>, dan <i>Chi-squared Test for Independence Between Two Categorical Variables</i>.

Berikut ini contoh praktik uji hipotesis untuk jenis data kategorikal:

------------
## a). Proportion One Population Z-test
Proportion One Population Z-test ini kita gunakan untuk menguji paakah proporsi suatu data kategorikal sesuai dengan asumsi teoritis yang kita tetapkan. Misalnya, pada dataset yang kita miliki dibawah ini, kita uji apakah proporsi jumlah buku fiksi diatas 50%. Atau dengan kata lain, jumlahnya lebih banyak daripada buku non fiksi.

In [5]:
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


Sebelum kita lakukan uji hipotesis Z-test, kita ubah dulu data kategorikal menjadi angka(numerikal). <i>Genre fiction</i> kita ubah menjadi 1, lalu <i>genre non-fiction</i> menjadi 0. Kita buat kolom baru (<i>Genre_Bin</i>) hasil konversi dari kolom <i>Genre</i>.

In [6]:
df['Genre_Bin'] = np.where(df['Genre'] == 'Fiction', 1, 0)
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre,Genre_Bin
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction,0
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction,1
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction,0
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction,1
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction,0


Kita hitung dulu berdasarkan data yang ada, berapa proporsi jumlah buku fiksi di data tersebut. Kemudian kita uji hipotesis proporsi jumlah buku fiksi tersebut.

In [8]:
number_fiction = np.sum(df['Genre_Bin'])
total = len(df['Genre_Bin'])
fiction_rate = number_fiction / total

print('Proporsi jumlah buku fiksi: ', fiction_rate)

Proporsi jumlah buku fiksi:  0.43636363636363634


<b>Hypothesis</b>:

<b>H<sub>0</sub></b>: Proporsi jumlah buku fiksi = 0.5

<b>H<sub>a</sub></b>: Proporsi jumlah buku fiksi > 0.5

In [12]:
# import library
from statsmodels.stats.proportion import proportions_ztest

# proportion one population z-test
zstat, pval = proportions_ztest(fiction_rate, total, 0.5, alternative='larger')

print('p-value', pval)

p-value 1.0


<b>Conclusion</b>: P-value lebih besar dari tingkat signifikansi 0.05, artinya tidak ada cukup bukti proporsi jumlah buku fiksi sama dengan 50%

Kita bisa hitung menggunakan pandas (<i>.value_counts()</i>). Seperti hasil code di bawah ini, proporsi buku fiksi memang tidak lebih banyak daripada buku non fiksi.

In [13]:
df['Genre'].value_counts()

Non Fiction    310
Fiction        240
Name: Genre, dtype: int64

------------
## b). Proportion Two Population Z-test
<b>Studi Kasus: A/B Testing</b>

Sebuah toko online meluncurkan desain web baru. mereka secara acak menugaskan pengunjung ke desain lama atau desain baru. Jumlah pengunjung tiap desain ditetapkan sebanyak 1000 pengunjung. Anda diminta kembali melakukan pengujian hipotesis apakah tingkat konversi meningkat atau tidak. Atau dengan kata lain, apakah pengunjung desain baru lebih banyak melakukan transaksi pembelian dibanding desain lama.

<b>Membuat Dummy Dataset</b>

In [14]:
visitor_data_before = np.random.binomial(1, 0.5, 1000)
visitor_data_after = np.random.binomial(1, 0.7, 1000)
visitor_data_before = np.where(visitor_data_before == 1, 'buying', 'no buying')
visitor_data_after = np.where(visitor_data_after == 1, 'buying', 'no buying')

In [21]:
df_before = pd.DataFrame({'layout':'old layout', 'conversion': visitor_data_before})
df_after = pd.DataFrame({'layout':'new layout', 'conversion': visitor_data_after})

In [22]:
df_full = df_before.append(df_after)
df_full

Unnamed: 0,layout,conversion
0,old layout,buying
1,old layout,no buying
2,old layout,no buying
3,old layout,buying
4,old layout,buying
...,...,...
995,new layout,buying
996,new layout,buying
997,new layout,buying
998,new layout,no buying


Eksplorasi jumlah pengunjung yang beli dan tidak beli antara desain lama dengan desain baru.

In [23]:
pd.crosstab(df_full['layout'], df_full['conversion'])

conversion,buying,no buying
layout,Unnamed: 1_level_1,Unnamed: 2_level_1
new layout,710,290
old layout,507,493


<b>Hypothesis</b>:

<b>H<sub>0</sub></b>: P-after = P-before

<b>H<sub>a</sub></b>: P-after > P-before (the conversion rate after change the web layout is increasing)

atau

<b>H<sub>0</sub></b>: Pengunjung toko online yang menerima desain baru <b>tidak akan</b> memiliki rasio konversi akhir kunjungan yang lebih tinggi dibandingkan dengan pengunjung yang menerima desain lama

<b>H<sub>a</sub></b>: Pengunjung toko online yang menerima desain baru <b>akan</b> memiliki rasio konversi akhir kunjungan yang lebih tinggi dibandingkan dengan pengunjung yang menerima desain lama

<b>Perhitungan tingkat konversi sebelum dan sesudah pergantian desain web</b>

In [24]:
# conversion rate before layout change

n_success_before = len(df_full[(df_full['layout'] == 'old layout') & (df_full['conversion'] == 'buying')])
n_before = len(df_full[(df_full['layout'] == 'old layout')])
success_rate_before = n_success_before / n_before

print('Tingkat konversei sebelum penggantiaan layout adalah ', success_rate_before)

Tingkat konversei sebelum penggantiaan layout adalah  0.507


In [27]:
# conversion rate after layout change

n_success_after = len(df_full[(df_full['layout'] == 'new layout') & (df_full['conversion'] == 'buying')])
n_after = len(df_full[(df_full['layout'] == 'new layout')])
success_rate_after = n_success_after / n_after

print('Tingkat konversei setelah penggantiaan layout adalah ', success_rate_after)

Tingkat konversei setelah penggantiaan layout adalah  0.71


<b>Proportion Two Sample Z-test</b>

In [28]:
# total number buying transaction (success)
number_success = np.array([n_success_before, n_success_after])

# total traffic (all visitor)
total = np.array([n_before, n_after])

In [31]:
# import library
from statsmodels.stats.proportion import proportions_ztest

# proportion two sample z-test
zstat, pval = proportions_ztest(number_success, total, alternative = 'smaller')

print(pval)

7.019573457701898e-21


<b>Conclusion</b>: P-value lebih rendah dari tingkat signifikansi 0.05, dengan tingkat signifikan 5% terdapat cukup bukti bahwa pengunjung toko online yang menerima desain baru akan memiliki rasio konversi akhir kunjungan yang lebih tinggi dibandingkan dengan pengunjung yang menerima desain lama.

-----------------

## c). Chi-Squared Test for Independence between Two Categorical Variables
Kita buat tabel Cross Tabulation berisi jumlah buah pisang, mangga, dan nanas yang dibeli konsumen laki-laki dan perempuan. Kita hendak menguji apakah variabel jenis kelamin konsumen berkaitan dengan pilihan buah yang dibeli atau tidak.

In [32]:
# creating dummy cross tabulation
df_c = pd.DataFrame(data = [[207, 282, 241], [234, 242, 232]],
                    columns = ['Banana', 'Mango', 'Pineapple'],
                    index = ['Male Customer', 'Female Customer'])
df_c

Unnamed: 0,Banana,Mango,Pineapple
Male Customer,207,282,241
Female Customer,234,242,232


<b>Hypothesis</b>:

<b>H<sub>0</sub></b>: The two variables are independent

<b>H<sub>a</sub></b>: The two variables are dependent

In [33]:
# import library
from scipy.stats import chi2_contingency

# defining the table
data = data = [[207, 282, 241], [234, 242, 232]]
stat, pval, dof, expected = chi2_contingency(data)

# conclution
alpha = 0.05
print('p-value: ', pval)
if pval <= alpha:
    print('Dependent (tolak H0)')
else:
    print('Independent (terima H0)')

p-value:  0.1031971404730939
Independent (terima H0)


Kedua variabel independen. Artinya, variabel jenis kelamin tidak berkaitan dengan pilihan buah yang dibeli.

--------------------------------
# Hypotesis testing: <mark>Non-Parametric Statistics</mark>
> <b>Statistik Non-parametrik</b> adalah salahs atu cabang dari statistik. Berbeda dengan statistik parametrik yang memiliki parameter pada probabilitas distribusinya seperti rata-rata (<i>mean</i>) dan varians (<i>variance</i>). Statistik non-parametrik digunakan jika asumsi atau syarat-syarat statistik parametrik tidak tercapai seperti distribusi normal, sampel diambil secara acak, cukup data (> 100), dan lainnya.

Kita akan mempraktikkan beberapa uji hipotesis untuk non-parametrik, diantaranya: <i>Mann Whitney</i>, <i>Wilcoxon</i>, dan <i>Kruskal Wallis</i>.

Berikut ini contoh praktik uji hipotesis untuk statistik non-parametrik:

## a). Mann Whitney
Mann Whitney Test mirip seperti Two Sample Independent T-test, tetapi untuk versi statistik non-parametrik. Pada studi kasus ini kita hendak menguji apakah ada perbedaan median nilai (<i>score</i>) kinerja antara karyawan yang baca buku dan tidak.

<b>Membuat Dummy Dataset</b>

In [38]:
training = pd.concat([pd.Series(data = ['yes', 'no', 'yes', 'yes', 'no', 'no', 'no', 'yes', 'yes', 'no', 'yes', 'yes', 'no', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes'], name = 'Read Book'), 
                      pd.Series(data = [70,85,80,45,80,70,90,70,55,80,75,60,70,85,80,85,55,75,65,70], name = 'Score')], axis=1)
training.head()

Unnamed: 0,Read Book,Score
0,yes,70
1,no,85
2,yes,80
3,yes,45
4,no,80


<b>Hypothesis</b>:

<b>H<sub>0</sub></b>: Median nilai karyawan yang tidak baca buku = Median nilai karyawan yang baca buku

<b>H<sub>a</sub></b>: Median nilai karyawan yang tidak baca buku > Median nilai karyawan yang baca buku

<b>Mann Whitney Test</b>

In [39]:
# import library
from scipy.stats import mannwhitneyu

# mann whitney test
result = list(mannwhitneyu(
    training[training['Read Book'] == 'no']['Score'],
    training[training['Read Book'] == 'yes']['Score'],
    alternative = 'greater' # median (no read) > median (read)
))

print('U-statistic', result[0])
print('P-value', result[1])

U-statistic 61.5
P-value 0.1996116335589066


<b>Conclusion</b>: P-value lebih tinggi dari tingkat signifikansi 0.05, itu berarti kita tidak memiliki cukup bukti untuk menolak hipotesis nol. Jadi, median nilai antara karyawan yang tidak membaca buku dengan yang membaca buku tidak berbeda.

Kita lihat nilai median keduanya dengan <i>groupby analysis</i>.

In [40]:
training.groupby(['Read Book']).median()

Unnamed: 0_level_0,Score
Read Book,Unnamed: 1_level_1
no,77.5
yes,70.0


## b). Wilcoxon
Wilcoxon Test mirip dengan Two Paired T-test, tetapi untuk versi statistik non-parametrik. Dua sampel berpasangan banyak digunakan untuk situasi eksperimen. Jadi, Wilcoxon test digunakan untuk menguji apakah ada perbedaan sebelum dan setelah tindakan, peristiwa, atau kondisi tertentu.

Pada studi kasus dibawah ini, kita membuat Dummy Dataset yang berisi perbandingan kinerja antara karyawan yang menggunakan dan tidak menggunakan smartphone saat bekerja.

<b>Membuat Dummy Dataset</b>: <i>Working performance without and using smartphone</i>

In [41]:
# Creating dummy dataset
using_smartphone = [604,556,540,522,469,544,513,470,556,531,599,537,619,536,554,467]
no_smartphone = [636,623,615,672,601,600,542,554,543,520,609,559,595,565,573,554]

df_paired = pd.DataFrame({
    'no':no_smartphone,
    'yes':using_smartphone
})

df_paired['diff'] = df_paired['yes'] - df_paired['no']
df_paired.head()

Unnamed: 0,no,yes,diff
0,636,604,-32
1,623,556,-67
2,615,540,-75
3,672,522,-150
4,601,469,-132


<b>Hypothesis</b>:

<b>H<sub>0</sub></b>: Median population of difference (yes-no) = 0 (tidak ada perbedaan antara dengan dan tanpa smartphone)

<b>H<sub>a</sub></b>: Median population of difference (yes-no) < 0 (ada perbedaan antara dengan dan tanpa smartphone)

<b>Wilcoxon Test</b>

In [42]:
# import library
from scipy.stats import wilcoxon

# wilcoxon test
sumrank, pval = wilcoxon(df_paired['diff'], alternative='less')

print('Sumrank:', sumrank)
print('P-value:', pval)

Sumrank: 11.0
P-value: 0.0008392333984375


<b>Conclusion</b>: P-value lebih rendah dari tingkat signifikansi 0.05, itu berarti kita memiliki cukup bukti untuk menolak hipotesis nol. Jadi, performa karyawan yang menggunakan smartphone lebih rendah daripada karyawan yang tidak menggunakannya ketika bekerja.

------------------------
## c). Kruskal Wallis
Kruskal Wallis test digunakan untuk menguji perbandingan lebih dari 2 sample independen dalam statistik non-parametrik. Pada studi kasus ini kita hendak membandingkan jumlah investasi bulanan antar karyawan. Karyawan dibagi tiga berdasarkan transportasi yang dipakai, yaitu pejalan kaki, pengguna transportasi umum, dan pengendara trasportasi pribadi. Kita uji apakah ada perbedaan jumlah investasi bulanan diantara ketiganya.

<b>Membuat Dummy Dataset</b>: <i>Compating monthly investment among worker who go to work using private transportaion, public transportation, and walking</i>

In [43]:
# Create dummy dataset
transport = []
method = ['Walking ', 'Public ', 'Private ']
for i in method:
    transport.extend((i*10).split())

transportdf = pd.concat([pd.Series(transport, name = 'transportation'),
                        pd.Series([5,4,5,6,5,3,2,4,5,5,7,7,5,6,4,6,5,5,6,7,5,4,5,6,6,5,5,5,7,7], name = 'Monthly Investment')], axis=1)
transportdf

Unnamed: 0,transportation,Monthly Investment
0,Walking,5
1,Walking,4
2,Walking,5
3,Walking,6
4,Walking,5
5,Walking,3
6,Walking,2
7,Walking,4
8,Walking,5
9,Walking,5


<b>Perbandingan Median Nilai Investasi Ketiga Kelompok Karyawan</b>

In [49]:
for i in transportdf['transportation'].unique():
    print('Median of Monthly Investment Group {}: {}'.format(i, transportdf[transportdf['transportation'] == i]['Monthly Investment'].median()))

Median of Monthly Investment Group Walking: 5.0
Median of Monthly Investment Group Public: 6.0
Median of Monthly Investment Group Private: 5.0


In [50]:
print('Total Monthly Investment Median: ', transportdf['Monthly Investment'].median())

Total Monthly Investment Median:  5.0


<b>Hypothesis</b>:

<b>H<sub>0</sub></b>: Median investasi bulanan kelompok karyawan pejalan kaki = Pengguna transportasi umum = Pengendara kendaraan pribadi

<b>H<sub>a</sub></b>: Setidaknya ada satu pasang yang tidak sama

<b>Kruskal Wallis test</b>

In [53]:
# import library
from scipy.stats import kruskal

# kruskal wallis test
kruskal(transportdf[transportdf['transportation'] == 'Walking']['Monthly Investment'], 
        transportdf[transportdf['transportation'] == 'Public']['Monthly Investment'],
        transportdf[transportdf['transportation'] == 'Private']['Monthly Investment'],
       )

KruskalResult(statistic=7.01891293654697, pvalue=0.029913168775421856)

<b>Conclusion</b>: P-value lebih rendah dari tingkat signifikansi 0.05, itu berarti kita memiliki cukup bukti untuk menolak hipotesis nol. Jadi, setidaknya ada satu pasanag dari median populasi yang tidak sama.

Kita bisa bandingkan secara manual mengguanakan <i>pandas groupby</i>. Dari hasil code dibawah ini, didapatkan median investasi bulanan kelompok karyawan pengguna transportasi umum lebih tinggi dibanding kelompok lainnya.

In [54]:
transportdf.groupby(['transportation']).median()

Unnamed: 0_level_0,Monthly Investment
transportation,Unnamed: 1_level_1
Private,5
Public,6
Walking,5


------------------
# <center>Thank you and keep learning!</center>