# Hypothesis Testing
------------
Uji hipotesis adalah metode pengambilan keputusan yang didasarkan dari analisis data, baik dari percobaan yang terkontrol, maupun dari observasi (tidak terkontrol). Dalam statistik, sebuah hasil bisa dikatakan signifikan secara statistik jika kejadian tersebut hampir tidak mungkin disebabkan oleh faktor yang kebetulan, sesuai dengnan batas probabilitas yang sudah ditentukan sebelumnya.

Uji hipotesis kadang disebut juga "konfirmasi analisis data". Keputusan dari uji hipotesis hampir selalu dibuat berdasarkan pengujian hipotesis nol. Ini adalah pengujian untuk menjawab pertanyaan yang mengasumsikan hipotesis nol adalah benar.

-----------------------
## 1. Import Libraries
Pada sesi ini, kita menggunakan library pandas untuk membuka dataset. Sedangkan numpy atau disingkat np digunakan untuk membantu analisis data. Library lain yang dipakai untuk uji berbagai jenis uji hipotesis akan di-import saat akan melakukan pengujian dibawah nanti.

In [1]:
import pandas as pd
import numpy as np

------------------------
## 2. Intro to Dataset: <mark>Amazon Best Selling Boooks</mark>
Datasets <mark>Amazon Best Selling Boooks</mark> adalah data publik dan legal. Anda dapat membaca deskripsi dan mengunduhnya di website Kaggle. Dataset inin berisi tentang 50 buku penjualan terbaik di Amazon dari tahub 2009 sampai tahun 2019. Data telah dikategorikan ke dalam buku fiksi dan non-fiksi menggunakan Goodreads.

Mari kita buka dataset menggunakan pandas <i>(pd.read_csv)</i>, lalu simpan dataset ke dalam variabel dengan nama df. Data dapat kita lihat sekilas (5 baris awal) terlebih dahulu dengan <i>df.head()</i>

In [2]:
df = pd.read_csv('./datasets/bestsellers with categories.csv')
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


### Data Info
Gambaran awal mengenai dataset dapat kita lihat menggunakan <i>(df.info())</i>. Melalui cara ini kita dapat melihat kolom apa saja di dataset, jumlah baris data yang terisi(tidak kosong), dan tipe datanya.

-----------------------

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         550 non-null    object 
 1   Author       550 non-null    object 
 2   User Rating  550 non-null    float64
 3   Reviews      550 non-null    int64  
 4   Price        550 non-null    int64  
 5   Year         550 non-null    int64  
 6   Genre        550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


-----------
# Hypotesis Testing: <mark>Numerical</mark>
Kita akan mempraktikkan beberapa uji hipotesis diantaranya <i>One sample T-test</i>,<i>Two Sample Independent T-test</i>,<i>T-test Paired</i>, dan <i>One-Way Annova F-test for more than two population mean</i>.

Berikut ini contoh praktik uji hipotesis untuk jenis data numerikal:
## a). One Sample T-test
T-test adalah uji hipotesis statistik. One Sample T-test digunakan untuk membandingkan mean (rata-rata) pengukuran dari satu kelompok A dengan nilai teoritis yang diharapkan.

Pada dataset ini, kita ingin membuktikan hipotesis apakah harga buku 10 atau diatasnya.


<b>Hypothesis</b>:

<b>H<sub>0</sub></b>: Rata-rata harga buku = 10

<b>H<sub>a</sub></b>: Rata-rata harga buku > 10

In [6]:
# import library
from scipy.stats import ttest_1samp

# one sample t-test
tset, pval = ttest_1samp(df['Price'], 10)
print('p-value:', pval/2)

# conclusion
if pval/2 < 0.05:
    print('Tolak H0')
else:
    print('Terima H0')

p-value: 2.5008144800630206e-11
Tolak H0


<b>Conclusion</b>: P-value lebih rendah dari tingkat signifikansi 0.05, artinya kita memiliki cukup bukti untuk menolak hipotesis nol. Jadi, rata-rata harga buku lebih tinggi dari 10 dengan tingkat signifikasi 5%.

Kita dapat cek rata-rata harga buku menggunakan pandas seperti code dibawah ini. Kita dapati memang harga buku diatas 10, yaitu 13.1.

In [7]:
df['Price'].mean()

13.1

## b). Two Sample Independent T-test
Two Sample Independet T-test digunakan untuk membandingkan mean (rata-rata) dari pengukuran dua kelompok A dan B. Mereka ingin memutuskan apakah rata-rata dalam kelompok A berbeda dengan nilai teoritis atau mean dalam kelompok B.

Pada dataset ini, kita ingin membuktikan hipotesis apakah rata-rata harga buku antara buku fiksi dan non-fiksi adalah sama atau berbeda.

In [8]:
df[['Price', 'Genre']].head()

Unnamed: 0,Price,Genre
0,8,Non Fiction
1,22,Fiction
2,15,Non Fiction
3,6,Fiction
4,12,Non Fiction


<b>Hypothesis</b>:

<b>H<sub>0</sub></b>: Rata-rata harga buku non-fiksi = rata-rata harga buku fiksi

<b>H<sub>a</sub></b>: Rata-rata harga buku non-fiksi > rata-rata harga buku fiksi

#### a). Non-Equal Variance Assumption

In [10]:
# import library
from scipy.stats import ttest_ind

# two sample independent t-test
result = list(ttest_ind(df[df['Genre'] == 'Non Fiction']['Price'],
                        df[df['Genre'] == 'Fiction']['Price'],
                        equal_var = False
                       ))

print('T-statistic:', result[0])
print('P-value:', result[1]/2)

# conclusion
if result[1]/2 < 0.05:
    print('Tolak H0')
else:
    print('Terima H0')

T-statistic: 4.537208093329263
P-value: 3.5095048008863536e-06
Tolak H0


#### b). Equal Variance Assumption

In [11]:
# import library
from scipy.stats import ttest_ind

# two sample independent t-test
result = list(ttest_ind(df[df['Genre'] == 'Non Fiction']['Price'],
                        df[df['Genre'] == 'Fiction']['Price'],
                        equal_var = True
                       ))

print('T-statistic:', result[0])
print('P-value:', result[1]/2)

# conclusion
if result[1]/2 < 0.05:
    print('Tolak H0')
else:
    print('Terima H0')

T-statistic: 4.351608076818746
P-value: 8.062175359060365e-06
Tolak H0


<b>Conclusion</b>: P-value lebih rendah dari tingkat signifikan 0.05, artinya kita memiliki cukup bukti untuk menolak hipotesis nol. Jadi, rata-rata harga buku non-fiksi lebih tinggi dari dari harga buku fiksi.

Kita dapat cek rata-rata harga buku menggunakan <i>pandas groupby</i> seperti code dibawah ini. Data harga (<i>price</i>) kita kelompokkan berdasarkan genre buku. Kita dapati rata-rata harga buku non-fiksi(14.8) lebih tinggi dari buku fiksi(10.8).

In [12]:
df[['Price', 'Genre']].groupby(['Genre']).mean()

Unnamed: 0_level_0,Price
Genre,Unnamed: 1_level_1
Fiction,10.85
Non Fiction,14.841935


## c). T-test Paired
Kita akan menguji hipotesis kecepatan reaksi seseorang saat mengendarai mobil antara sambil membuka smartphon dan tidak membuka smartphone atau fokus berkendara saja.

In [14]:
# Creating dummy dataset
using_smartphone = [604,556,540,522,469,544,513,470,556,531,599,537,619,536,554,467]
no_smartphone = [636,623,615,672,601,600,542,554,543,520,609,559,595,565,573,554]

df_paired = pd.DataFrame({
    'no':no_smartphone,
    'yes':using_smartphone
})

df_paired['diff'] = df_paired['yes'] - df_paired['no']

In [15]:
df_paired.head(10)

Unnamed: 0,no,yes,diff
0,636,604,-32
1,623,556,-67
2,615,540,-75
3,672,522,-150
4,601,469,-132
5,600,544,-56
6,542,513,-29
7,554,470,-84
8,543,556,13
9,520,531,11


<b>Hypothesis</b>:

<b>H<sub>0</sub></b>: Mean Population of difference (yes-no) = 0

<b>H<sub>a</sub></b>: Mean Population of difference (yes-no) < 0

In [26]:
# t-test paired
tset, pval = ttest_1samp(df_paired['diff'],0)

print('T-statistic:', tset)
print('P-value:', pval/2)

# conclusion
if pval/2 < 0.05:
    print('Tolak H0')
else:
    print('Terima H0')

T-statistic: -3.7091357792693707
P-value: 0.0010497189034628326
Tolak H0


<b>Conclusion</b>: P-value lebih rendah dari tingkat signifikansi 0.05, artinya kita memiliki cukup bukti untuk menolak hipotesis nol. Jadi, kecepatan reaksi seseorang menurun ketika pengemudi memegang smartphone saat mengendarai mobil.

## d). One-way Annova F-test for more than two population mean
Kita buat dummy dataset yang berisi data jam belajar siswa serta jenis transportasi yang digunakan untuk berangkat ke sekolah. Kita hendak menguji apakah ada perbedaan rata-rata belajar antara kelompok siswa yang berjalan kaki ke sekolah, dengan yang mmenggunakan transportasi publik, serta dengan yang mengendarai kendaraan pribadi.

In [29]:
# Create dummy dataset
transport = []
method = ['Walking ', 'Public ', 'Private ']
for i in method:
    transport.extend((i*10).split())

transportdf = pd.concat([pd.Series(transport, name = 'transportation'),
                        pd.Series([5,4,5,6,5,3,2,4,5,5,7,7,5,6,4,6,5,5,6,7,5,4,5,6,6,5,5,5,7,7], name = 'Study Hour')], axis=1)
transportdf.sample(5)

Unnamed: 0,transportation,Study Hour
2,Walking,5
15,Public,6
19,Public,7
9,Walking,5
6,Walking,2


<b>Hypothesis</b>:

<b>H<sub>0</sub></b>: Rata-rata jam belajar siswa yang berjalan kaki = siswa yang memakai transportasi publik = siswa yang menggunakan kendaraan pribadi

<b>H<sub>a</sub></b>: Minimal ada satu pasang yang rata-rata jam belajarnya tidak sama.

In [30]:
# import library
from scipy.stats import f_oneway

# one-way annova f-test
tstat, pval = f_oneway(transportdf[transportdf['transportation'] == 'Walking']['Study Hour'],
                       transportdf[transportdf['transportation'] == 'Public']['Study Hour'],
                       transportdf[transportdf['transportation'] == 'Private']['Study Hour'],
                      )

print('T-statistic:', tstat)
print('P-value:', pval)

# conclusion
if pval < 0.05:
    print('Tolak H0')
else:
    print('Terima H0')

T-statistic: 4.809836065573772
P-value: 0.0163405142361861
Tolak H0


<b>Conclusion</b>: P-value lebih rendah dari tingkat signifikansi 0.05, artinya kita memiliki cukup bukti untuk menolak hipotesis nol. Sehingga, ada minimal satu pasangan yang tidak sama.

Jika kita lihat dengan agregasi data, kita dapat mengetahui berapa rata-rata jam belajar di tiap kelompok.

In [31]:
transportdf.groupby(['transportation']).mean()

Unnamed: 0_level_0,Study Hour
transportation,Unnamed: 1_level_1
Private,5.5
Public,5.8
Walking,4.4


----------------------
# <center>Thank you and keep learning!</center>