# HYPOTHESIS TESTING FOR PROPORTION

Kita ingin menguji hipotesis antara variabel kategorikal

In [1]:
import numpy as np 
import pandas as pd

In [2]:
df = pd.read_csv('bestsellers with categories.csv')
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


## a. One Sample Z-test

Menguji apakah proporsi suau data data kategorikal sesuai dengan asumsi teoritis yang ditetapkan

**Hypothesis**

- Ho: proporsi buku Fiksi sama dengan 0.5
- Ha: proporsi buku Fiksi TIDAK sama dengan 0.5

In [3]:
df['Genre'].value_counts()

Non Fiction    310
Fiction        240
Name: Genre, dtype: int64

In [7]:
df[df['Genre']=='Fiction'].count()['Name']

240

In [10]:
len(df[df['Genre']=='Fiction'])

240

In [8]:
len(df['Genre'])

550

In [11]:
len(df[df['Genre']=='Fiction']) / len(df['Genre'])

0.43636363636363634

In [14]:
# jumlah buku fiksi
number_of_fiction = len(df[df['Genre']=='Fiction'])

#  jumlah buku non fiksi
number_of_non_fiction = len(df[df['Genre']=='Non Fiction'])

# total keseluruhan buku
total_genre = len(df['Genre'])

In [12]:
from statsmodels.stats.proportion import proportions_ztest

**alternative='two-sided'**

In [17]:
# uji proporsi one sample z test (two tail)

zstat, pvalue = proportions_ztest(count=number_of_fiction, nobs=total_genre, value=0.5, alternative='two-sided')
pvalue

0.0026186572865008824

In [18]:
if pvalue > 0.05:
    print('p-value > 0.05. Failed to reject H null. Artinya proporsi buku Fiksi sama dengan 0.5')
else:
    print('p-value <= 0.05. Reject H null. Artinya proporsi buku Fiksi TIDAK sama dengan 0.5')

p-value <= 0.05. Reject H null. Artinya proporsi buku Fiksi TIDAK sama dengan 0.5


In [19]:
df['Genre'].value_counts()

Non Fiction    310
Fiction        240
Name: Genre, dtype: int64

**alternative='smaller'**

In [20]:
# uji proporsi one sample z test (one tail)

zstat, pvalue = proportions_ztest(count=number_of_fiction, nobs=total_genre, value=0.5, alternative='smaller')
pvalue

0.0013093286432504412

In [22]:
if pvalue > 0.05:
    print('p-value > 0.05. Failed to reject H null. Artinya proporsi buku Fiksi sama dengan 0.5')
else:
    print('p-value <= 0.05. Reject H null. Artinya proporsi buku Fiksi LEBIH KECIL DARI 0.5')

p-value <= 0.05. Reject H null. Artinya proporsi buku Fiksi LEBIH KECIL DARI 0.5


**alternative='larger'**

In [23]:
# uji proporsi one sample z test (one tail - lebih besar) --> ini salah menbuat hipotesis alternatif

zstat, pvalue = proportions_ztest(count=number_of_fiction, nobs=total_genre, value=0.5, alternative='larger')
pvalue

0.9986906713567496

In [24]:
if pvalue > 0.05:
    print('p-value > 0.05. Failed to reject H null. Artinya proporsi buku Fiksi sama dengan 0.5')
else:
    print('p-value <= 0.05. Reject H null. Artinya proporsi buku Fiksi LEBIH BESAR DARI 0.5')

p-value > 0.05. Failed to reject H null. Artinya proporsi buku Fiksi sama dengan 0.5


## b. Two Sample Z-test

**Kasus: A/B testing**

Sebuah e commerce membuat design UI baru. Di tes dgn 1000 user diberi design lama dan 1000 user diberi design baru. Apakan konversi atau transaksi meningkat dengan design baru?

- Ho: transaksi kelompok design layout baru = layout lama
- Ha: transaksi kelompok design layout baru > layout lama

In [25]:
# buat data dummy
visitor_data_before = np.random.binomial(1, 0.5, 1000)
visitor_data_after = np.random.binomial(1, 0.7, 1000)
visitor_data_before = np.where(visitor_data_before ==1, 'buying', 'no buying')
visitor_data_after = np.where(visitor_data_after ==1, 'buying', 'no buying')

df_before = pd.DataFrame({'layout':'old layout', 'conversion': visitor_data_before})
df_after = pd.DataFrame({'layout':'new layout', 'conversion': visitor_data_after})

df_full = df_before.append(df_after)
df_full


Unnamed: 0,layout,conversion
0,old layout,buying
1,old layout,no buying
2,old layout,no buying
3,old layout,buying
4,old layout,no buying
...,...,...
995,new layout,no buying
996,new layout,no buying
997,new layout,buying
998,new layout,buying


In [27]:
pd.crosstab(index=df_full['layout'], columns=df_full['conversion'])

conversion,buying,no buying
layout,Unnamed: 1_level_1,Unnamed: 2_level_1
new layout,684,316
old layout,531,469


In [31]:
len(df_full[(df_full['layout']=='old layout') & (df_full['conversion']=='buying')])

531

In [40]:
len(df_full[(df_full['layout']=='new layout') & (df_full['conversion']=='buying')])


684

In [35]:
# jumlah orang dengan transaksi berhasil pada tampilan lama
n_success_old = len(df_full[(df_full['layout']=='old layout') & (df_full['conversion']=='buying')])

# jumlah orang pada tampilan lama
n_old = len(df_full[df_full['layout']=='old layout'])


# jumlah orang dengan transaksi berhasil pada tampilan baru
n_success_new = len(df_full[(df_full['layout']=='new layout') & (df_full['conversion']=='buying')])

# jumlah orang pada tampilan lama
n_new = len(df_full[df_full['layout']=='new layout'])

In [37]:
# poporsi transaksi berhasil pada tampilan lama dari seluruh yg dapat tampilan lama
conv_rate_old = n_success_old / n_old
conv_rate_old

0.531

In [38]:
# poporsi transaksi berhasil pada tampilan baru dari seluruh yg dapat tampilan baru
conv_rate_new = n_success_new / n_new
conv_rate_new

0.684

- Ho: proporsi transaksi berhasil kelompok design layout baru = layout lama
- Ha: proporsi transaksi berhasil kelompok design layout baru > layout lama

In [39]:
from statsmodels.stats.proportion import proportions_ztest

In [42]:
# untuk dimasukkan ke parameter count
n_success = np.array([n_success_new, n_success_old])
n_success

array([684, 531])

In [43]:
# untuk dimasukkan ke parameter nobs
total_transaction = np.array([n_new, n_old])
total_transaction

array([1000, 1000])

In [45]:
# two sample z-test
z_stat, pvalue = proportions_ztest(count=n_success, nobs=total_transaction, alternative='larger')
pvalue

1.2242577053081567e-12

In [46]:
if pvalue > 0.05:
    print('p-value > 0.05. Failed to reject H null. Artinya proporsi transaksi berhasil di layout baru sama dengan proporsi transaksi berhasil di layout lama')
else:
    print('p-value <= 0.05. Reject H null. Artinya proporsi transaksi berhasil di layout baru LEBIH BESAR DARI proporsi transaksi berhasil di layout lama')

p-value <= 0.05. Reject H null. Artinya proporsi transaksi berhasil di layout baru LEBIH BESAR DARI proporsi transaksi berhasil di layout lama


**Kesimpulan**

Kita punya cukup bukti secara statistik untuk menolak H null, yang artinya proporsi transaksi berhasil di layout baru LEBIH BESAR DARI proporsi transaksi berhasil di layout lama

# CHI-SQUARE TEST

Kita ingin menguji independence/keterkaitan antara 2 categorical variable (Apakah 2 sample yang kita uji berkaitan/dependent)

Di bawah ini ada crosstab. Kita akan menguji apakah jenis kelamin ada kaitannya dengan buah yang akan dibeli

- Ho: kedua variable independent (tidak berhubungan)
- Ha: kedua variable 

In [47]:
df_c = pd.DataFrame(
    data = [[207,282,241],[234,242,232]],
    columns = ['Banana','Mango','Pineapple'],
    index = ['Male Cust','Female Cust'])

df_c

Unnamed: 0,Banana,Mango,Pineapple
Male Cust,207,282,241
Female Cust,234,242,232


- Ho: Gender tidak berhubungan dengan pilihan buah yang dibeli
- Ha: Gender berhubungan dengan pilihan buah yang dibeli

In [49]:
from scipy.stats import chi2_contingency

In [50]:
result = chi2_contingency(df_c)
result

(4.542228269825232,
 0.1031971404730939,
 2,
 array([[223.87343533, 266.00834492, 240.11821975],
        [217.12656467, 257.99165508, 232.88178025]]))

In [52]:
# uji keterkaitan (chi square)
stat, pvalue, dof, expected = chi2_contingency(df_c)
pvalue

0.1031971404730939

In [53]:
if pvalue > 0.05:
    print('p-value > 0.05. Failed to reject H null. Artinya Gender tidak berhubungan dengan pilihan buah yang dibeli')
else:
    print('p-value <= 0.05. Reject H null. Artinya Gender berhubungan dengan pilihan buah yang dibeli')

p-value > 0.05. Failed to reject H null. Artinya Gender tidak berhubungan dengan pilihan buah yang dibeli


**Contoh kalau reject H null**

In [54]:
df_x = pd.DataFrame(
    data = [[400,282,241],[234,242,232]],
    columns = ['Banana','Mango','Pineapple'],
    index = ['Male Cust','Female Cust'])

df_x

Unnamed: 0,Banana,Mango,Pineapple
Male Cust,400,282,241
Female Cust,234,242,232


In [56]:
# uji keterkaitan (chi square)
stat, pvalue, dof, expected = chi2_contingency(df_x)
print('p-value=', pvalue)

if pvalue > 0.05:
    print('p-value > 0.05. Failed to reject H null. Artinya Gender tidak berhubungan dengan pilihan buah yang dibeli')
else:
    print('p-value <= 0.05. Reject H null. Artinya Gender berhubungan dengan pilihan buah yang dibeli')

p-value= 8.822042000421979e-05
p-value <= 0.05. Reject H null. Artinya Gender berhubungan dengan pilihan buah yang dibeli
