# Hypothesis Testing for Mean

In [47]:
import numpy as np 
import pandas as pd

In [48]:
df = pd.read_csv('bestsellers with categories.csv')
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


In [49]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         550 non-null    object 
 1   Author       550 non-null    object 
 2   User Rating  550 non-null    float64
 3   Reviews      550 non-null    int64  
 4   Price        550 non-null    int64  
 5   Year         550 non-null    int64  
 6   Genre        550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


## a. One Sample T-Test

Membandingkan nilai mean pengukuran dari seautu kelompok A dengan nilai rata-rata teoritis yang diharapkan

- Ho: mean Harga Buku keseluruhan = 10
- Ha: mean Harga Buku keseluruhan > 10 

In [50]:
# library
from scipy.stats import ttest_1samp

In [51]:
df['Price'].mean()

13.1

In [52]:
# Hypothesis testing 1 sample ttest
tstat, pvalue = ttest_1samp(a=df['Price'], popmean=10)

print('p-value: ', pvalue/2)

p-value:  2.5008144800630206e-11


In [53]:
hasil = ttest_1samp(a=df['Price'], popmean=10)
hasil

Ttest_1sampResult(statistic=6.705376094208877, pvalue=5.001628960126041e-11)

In [54]:
if pvalue > 0.05:
    print('p-value > 0.05, failed to reject Ho, mean Harga Buku keseluruhan = 10')
else:
    print('p-value <= 0.05, reject Ho, mean Harga Buku keseluruhan > 10')


p-value <= 0.05, reject Ho, mean Harga Buku keseluruhan > 10


**Kesimpulan**

pvalue lebih kecil dari significance level (alpha) 0.05. 
Artinya kita punya cukup bukti untuk mereject H null.
Kita pindah ke kepercayaan baru bahwa mean Harga Buku keseluruhan > 10 secara signifikan

In [55]:
df['Price'].mean()

13.1

##

## b. Two Sample T-Test Independent

- Membandingkan mean (rata-rata) pengukuran dari 2 kelompok A dan B, yang TIDAK saling berkaitan. 
- Tujuannya ingin memutuskan apakah rata-rata dari kelompok A berbeda signifikan dengan rata-rata dari kelompok B atau tidak.

In [65]:
# Kita akan membandingkan rata-rata Price dari 2 kelompok Genre: Finction dan Non Fiction
df[['Genre', 'Price']].head()

Unnamed: 0,Genre,Price
0,Non Fiction,8
1,Fiction,22
2,Non Fiction,15
3,Fiction,6
4,Non Fiction,12


In [66]:
df.groupby('Genre').mean()[['Price']]

Unnamed: 0_level_0,Price
Genre,Unnamed: 1_level_1
Fiction,10.85
Non Fiction,14.841935


**Hypothesis**

- Ho: mean Harga buku Non Fiction = mean Harga buku Fiction.
- Ha: mean Harga buku Non Fiction > mean Harga buku Fiction. 

In [67]:
df[df['Genre']=='Non Fiction']['Price'].var()

145.0396596721994

In [68]:
from scipy.stats import ttest_ind

# Non Equal Variance

result = ttest_ind(
    a= df[df['Genre']=='Non Fiction']['Price'],
    b= df[df['Genre']=='Fiction']['Price'],
    equal_var = False   # Kalau variance kelompok A dan B sama, maka equal_var diganti jadi True
)

result

Ttest_indResult(statistic=4.537208093329263, pvalue=7.019009601772707e-06)

In [69]:
# Hasil uji hipotesis

pvalue = result[1]/2 
print(f"pvalue = {pvalue}")

if pvalue > 0.05:
    print(f'p-value > 0.05, failed to reject Ho. rata-rata harga buku Non Fiction sama dengan rata-rata harga buku Fiction')
else:
    print(f'p-value <= 0.05, reject Ho. rata-rata harga buku Non Fiction lebih besar rata-rata harga buku Fiction')

pvalue = 3.5095048008863536e-06
p-value <= 0.05, reject Ho. rata-rata harga buku Non Fiction lebih besar rata-rata harga buku Fiction


**Kesimpulan**

pvalue lebih kecil dari significance level (alpha) 0.05. Artinya kita punya cukup bukti untuk mereject H null. Dengan kata lain kita yakin bahwa rata-rata harga buku Non Fiction lebih besar rata-rata harga buku Fiction secara signifikan.

## c. Two Sample T-Test Paired

Kita ingin membangdingkan rata-ratapengukuran dari 2 kelompok A dan B yang saling berkaitan

Case:

Kita akan menguji kecepatan respons orang yang mengendarai mobil ketika sedang menggunakan Smartphone dan sedang tidak menggunakan Smartphone

In [70]:
# Creating dummy dataset
using_Smartphone = [604,556,542,522,469,544,513,470,556,531,599,537,619,536,554,467]
no_Smartphone = [636,623,615,672,601,600,542,554,543,520,609,559,595,565,573,554]

# create dataframe
df_paired = pd.DataFrame({
    'No':no_Smartphone,
    'Yes':using_Smartphone
})

df_paired

Unnamed: 0,No,Yes
0,636,604
1,623,556
2,615,542
3,672,522
4,601,469
5,600,544
6,542,513
7,554,470
8,543,556
9,520,531


In [71]:
df_paired['diff'] = df_paired['Yes']- df_paired['No']
df_paired

Unnamed: 0,No,Yes,diff
0,636,604,-32
1,623,556,-67
2,615,542,-73
3,672,522,-150
4,601,469,-132
5,600,544,-56
6,542,513,-29
7,554,470,-84
8,543,556,13
9,520,531,11


**Hypothesis**

- Ho: rata-rata selisih (Yes-No) = 0
- Ho: rata-rata selisih (Yes-No) < 0


In [72]:
from scipy.stats import ttest_1samp 

In [74]:
# Uji hipotesis

ttest, pvalue = ttest_1samp(a=df_paired['diff'], popmean=0)

print(f"pvalue = {pvalue/2}")

pvalue = 0.0010595522508415644


In [75]:
# Kesimpulan 

if pvalue > 0.05:
    print(f'p-value > 0.05, failed to reject Ho. rata-rata selisih nilai respon (Yes-No) sama dengan 0')
else:
    print(f'p-value <= 0.05, reject Ho. rata-rata selisih nilai respon (Yes-No) kurang dari 0')

p-value <= 0.05, reject Ho. rata-rata selisih nilai respon (Yes-No) kurang dari 0


**Kesimpulan**

p-value kurang dari significance level (alpha) 0.05. Sehingga kita punya cukup bukti untuk mereject H null. Artinya kita yakin secara statistik bahwa rata-rata selisih nilai respon antara kodisi memakai smartphone dan tidak memakai smartphone kurang dari 0

In [76]:
df_paired['diff'].mean()

-46.375

In [78]:
df_paired['Yes'].mean(), df_paired['No'].mean()

(538.6875, 585.0625)

In [79]:
df_paired['Yes'].mean() - df_paired['No'].mean()

-46.375

## d. One Way Anova F-test (>2 sample mean)

Dataset berisi cara siswa berangkat ke sekolah dan jam belajar di sekolah. 
Kita ingin menguji apakah ada perbedaan rata-rata jam sekolah pada setiap method atau cara berangkat ke sekolah


In [88]:
# create dummy dataset
transport = []
method = ['Walking ','Public ','Private ']

for i in method:
    transport.extend((i*10).split())

df_transport = pd.concat([
    pd.Series(transport, name='Transportation'),
    pd.Series([5,4,5,6,5,3,2,4,5,5,7,7,5,6,4,6,5,5,6,7,5,4,5,6,6,5,5,5,7,7], name='Study Hours')], 
    axis=1)

df_transport.sample(5)


Unnamed: 0,Transportation,Study Hours
16,Public,5
25,Private,5
11,Public,7
7,Walking,4
19,Public,7


In [89]:
# df_transport

**Hypothesis**

- Ho: rata-rata jam belajar siswa yang berangkat ke sekolah jalan kaki = yang dengan kendaraan umum = yg dengan kendaraan pribadi.
- Ha: minimal ada satu kelompok yang rata-rata jam belajarnya tidak sama dengan yang lain, tapi kita tidak tahu yang mana. 


In [90]:
from scipy.stats import f_oneway

In [93]:
df_transport[df_transport['Transportation']=='Walking']['Study Hours']

0    5
1    4
2    5
3    6
4    5
5    3
6    2
7    4
8    5
9    5
Name: Study Hours, dtype: int64

In [95]:
fstat, pvalue = f_oneway(
    df_transport[df_transport['Transportation']=='Walking']['Study Hours'], 
    df_transport[df_transport['Transportation']=='Public']['Study Hours'], 
    df_transport[df_transport['Transportation']=='Private']['Study Hours']
)

pvalue

0.0163405142361861

In [96]:
# Kesimpulan 

if pvalue > 0.05:
    print(f'p-value > 0.05, failed to reject Ho. Rata-rata jam belajar siswa yang ke sekolah jalan kaki sama dengan yang naik kendaraan umum sama dengan yang naik kendaraan pribadi')
else:
    print(f'p-value <= 0.05, reject Ho. Minimal salah satu kelompok ada yang jam belajarnya berbeda. Tapi kita tidak tahu kelompok yang mana')

p-value <= 0.05, reject Ho. Minimal salah satu kelompok ada yang jam belajarnya berbeda. Tapi kita tidak tahu kelompok yang mana


In [97]:
#  cek nilai rata-rata study hour tiap kelompok transportation

df_transport.groupby('Transportation').mean()

Unnamed: 0_level_0,Study Hours
Transportation,Unnamed: 1_level_1
Private,5.5
Public,5.8
Walking,4.4


### Coba kalau bandingkan dari 2 kelompok saja

In [99]:
# Ho: rata-rata jam belajar yg naik kendaraan umum sama dengan yang naik kendaraan pribadi
# Ha: rata-rata jam belajar yg naik kendaraan umum TIDAK sama dengan yang naik kendaraan pribadi


ttest, pvalue = ttest_ind(
    a= df_transport[df_transport['Transportation']=='Public']['Study Hours'],
    b= df_transport[df_transport['Transportation']=='Private']['Study Hours']
)

pvalue

0.5120073137681896

In [100]:
# Kesimpulan 

if pvalue > 0.05:
    print(f'p-value > 0.05, failed to reject Ho. rata-rata jam belajar yg naik kendaraan umum sama dengan yang naik kendaraan pribadi')
else:
    print(f'p-value <= 0.05, reject Ho. rata-rata jam belajar yg naik kendaraan umum TIDAK sama dengan yang naik kendaraan pribadi')

p-value > 0.05, failed to reject Ho. rata-rata jam belajar yg naik kendaraan umum sama dengan yang naik kendaraan pribadi


**Kesimpulan**

p value lebih dari significance level (alpha) 0.05. Kita gagal mereject H null. 
Jadi kita tidak punya cukup bukti untuk mengatakan bahwa rata-rata jam belajar yg naik kendaraan umum TIDAK sama dengan yang naik kendaraan pribadi

In [101]:
df_transport.groupby('Transportation').mean()

Unnamed: 0_level_0,Study Hours
Transportation,Unnamed: 1_level_1
Private,5.5
Public,5.8
Walking,4.4


## **Latihan**
### Apakah rata-rata review dari seluruh buku di Amazon sama dengan 13000?

- Ho: Rata-rata review dari seluruh buku yg ada di Amazon sama dengan 13000
- Ha: Rata-rata review dari seluruh buku yg ada di Amazon TIDAK sama dengan 13000


In [None]:
# Hypothesis testing 1 sample ttest
tstat, pvalue = ttest_1samp(a=df['Reviews'], popmean=13000)

print('p-value: ', pvalue)
# print('t-stat: ', tstat)

p-value:  0.03684991373619996


In [None]:
if pvalue > 0.05:
    print('p-value > 0.05, failed to reject Ho, mean Review seluruh buku di Amazon sama dengan 13000')
else:
    print('p-value <= 0.05, reject Ho, mean Review seluruh buku di Amazon tidak sama dengan 13000')    

p-value <= 0.05, reject Ho, mean Review seluruh buku di Amazon tidak sama dengan 13000


**Kesimpulan**

Kita punya cukup bukti untuk menolak H null, sehingga kita yakin secara statistik, Rata-rata Review seluruh buku di Amazon tidak sama dengan 13000

**Cara Manual**

In [None]:
df['Reviews'].mean()

11953.281818181818

In [None]:
df['Reviews'].std()

11731.132017431895

In [None]:
np.sqrt(len(df['Reviews']))

23.45207879911715

In [None]:
t_score = 1.96 # dapat dari table z score
se = df['Reviews'].std() / np.sqrt(len(df['Reviews']))

t_score * se

980.4256139132572

In [None]:
critical_value = df['Reviews'].mean() + t_score * se
critical_value

12933.707432095076

Kita lakukan t-test untuk mean = 13000

In [None]:
# mencari t-score untuk mean=13000

t_stat = ( 13000 - df['Reviews'].mean() ) / se
t_stat

# p-value dan t-stat yg dicari dengan scipy hasilnya sama dengan p-value dan t-stat yg dicari dengan cara hitung manual

2.0925275790939786

In [None]:
# kebalikan rumus di atas
# mencari nilai mean dari hypotesis yg kita buat

mean_assumption = df['Reviews'].mean() + se * 2.0925
mean_assumption

12999.986204464212

Kita lihat di table z score, jika nilai t = 2.09, pvaluenya berapa.
- Ternyata pvalue = 0.036