# **Module 2: Data Analysis**
# Inferential Statistics: Hypothesis Testing For Mean
___

In [1]:
import pandas as pd 
import numpy as np 

In [2]:
df = pd.read_csv('bestsellers with categories.csv')
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         550 non-null    object 
 1   Author       550 non-null    object 
 2   User Rating  550 non-null    float64
 3   Reviews      550 non-null    int64  
 4   Price        550 non-null    int64  
 5   Year         550 non-null    int64  
 6   Genre        550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


## **a. One Sample t-test**

Membandingkan mean dari suatu kelompok (kelompok A) dengan nilai mean teoritis yang diharapkan.

- Ho: Mean Harga Buku = 10 dollar
- Ha: Mean Harga Buku ≠ 10 dollar

Significance level (alpha) = 0.05

In [4]:
from scipy.stats import ttest_1samp

In [5]:
df['Price'].mean()
# apakah 13.1 dollar (mean of price) berbeda signifikan dengan 10 dollar (mean teoritis)

13.1

In [6]:
ttest_1samp(a=df['Price'], popmean=10)
# popmean: population mean atau rata-rata teoritis (10 dollars)

TtestResult(statistic=6.705376094208877, pvalue=5.001628960126041e-11, df=549)

In [7]:
stat, pvalue = ttest_1samp(a=df['Price'], popmean=10)
pvalue

5.001628960126041e-11

In [8]:
# summary

if pvalue > 0.05:
    print(f'''
    pvalue={pvalue}. pvalue > 0.05. Gagal menolak Ho.
    Kita tidak punya cukup bukti kalau rata-rata harga buku tidak sama dengan 10 dollar.
    (Rata-ratanya tidak berbeda signifikan)
    ''')
else:
    print(f'''
    pvalue={pvalue}. pvalue <= 0.05. Berhasil menolak Ho.
    Kita punya cukup bukti untuk mengatakan kalau rata-rata harga buku tidak sama dengan 10 dollar.
    (Rata-ratanya berbeda signifikan)
    ''')


    pvalue=5.001628960126041e-11. pvalue <= 0.05. Berhasil menolak Ho.
    Kita punya cukup bukti untuk mengatakan kalau rata-rata harga buku tidak sama dengan 10 dollar.
    (Rata-ratanya berbeda signifikan)
    


## **b. Two Sample t-test (Unpaired)**

Membandingkan mean dari 2 kelompok (kelompok A dan B) yang tidak saling berkaitan

In [9]:
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


In [10]:
df['Genre'].value_counts()

Non Fiction    310
Fiction        240
Name: Genre, dtype: int64

In [11]:
df.groupby(by='Genre').mean()[['Price']]

# apakah 10.85 dollar (mean of Fiction) berbeda signifikan dengan 14.84 dollar (mean of Non Fiction)

  df.groupby(by='Genre').mean()[['Price']]


Unnamed: 0_level_0,Price
Genre,Unnamed: 1_level_1
Fiction,10.85
Non Fiction,14.841935


Membandingkan rata-rata harga buku pada 2 kelompok Genre (Fiction dan Non Fiction)

- Ho: Mean harga Fiction = Mean harga Non Fiction
- Ha: Mean harga Fiction < Mean harga Non Fiction


In [12]:
from scipy.stats import ttest_ind

In [13]:
df[df['Genre']=='Fiction']['Price'].var()

73.49205020920502

In [14]:
df[df['Genre']=='Non Fiction']['Price'].var()

145.03965967219958

In [15]:
# rule of thumb: perbandingan variance of bigger_variance:smaller_variance kurang dari 4 bisa dianggap equal variance

df[df['Genre']=='Non Fiction']['Price'].var() / df[df['Genre']=='Fiction']['Price'].var()

1.9735421621702571

In [16]:
stat, pvalue = ttest_ind(
    a= df[df['Genre']=='Fiction']['Price'],
    b= df[df['Genre']=='Non Fiction']['Price'],
    equal_var= True,    # rule of thumb: jika perbandingan variance of Non Fiction dan Fiction kurang dari 4, maka bisa dianggap equal variance  
    alternative='less'  # one tail (fiction < non fiction)
)

pvalue

8.062175359060365e-06

In [17]:
stat, pvalue = ttest_ind(
    a= df[df['Genre']=='Fiction']['Price'],
    b= df[df['Genre']=='Non Fiction']['Price'],
    equal_var= True,
    alternative='two-sided' # two tail
)

pvalue

1.612435071812073e-05

In [18]:
if pvalue > 0.05:
    print(f'''
    pvalue={pvalue}. pvalue > 0.05. Gagal menolak Ho.
    Kita TIDAK punya cukup bukti kalau rata-rata harga buku Fiction tidak sama dengan rata-rata harga buku Non Fiction.
    (Rata-ratanya tidak berbeda signifikan)
    ''')
else:
    print(f'''
    pvalue={pvalue}. pvalue <= 0.05. Berhasil menolak Ho.
    Kita punya cukup bukti kalau rata-rata harga buku Fiction tidak sama dengan rata-rata harga buku Non Fiction.
    (Rata-ratanya berbeda signifikan)
    ''')


    pvalue=1.612435071812073e-05. pvalue <= 0.05. Berhasil menolak Ho.
    Kita punya cukup bukti kalau rata-rata harga buku Fiction tidak sama dengan rata-rata harga buku Non Fiction.
    (Rata-ratanya berbeda signifikan)
    


In [19]:
# mencari nilai margin of error

standard_error = df[df['Genre']=='Fiction']['Price'].sem()
t_value = 1.96 # didapatkan dari t table

margin_error = standard_error * t_value
margin_error

1.0846025771445846

## **c. Two Sample t-test (Paired)**

- Membandingkan mean dari 2 kelompok (kelompok A dan B) yang saling berkaitan.
- Kelompok A dan B adalah object sama, tapi pada waktu yang berbeda.

Case:

Kita akan menguji kecepatan respons orang yang mengendarai mobil ketika sedang menggunakan Smartphone 
dan sedang tidak menggunakan Smartphone


In [20]:
# Creating dummy dataset
using_Smartphone = [604,556,542,522,469,544,513,470,556,531,599,537,619,536,554,467]
no_Smartphone = [636,623,615,672,601,600,542,554,543,520,609,559,595,565,573,554]

# create dataframe
df_paired = pd.DataFrame({
    'No':no_Smartphone,
    'Yes':using_Smartphone
})

# buat kolom selisih antara No dan Yes
df_paired['diff'] = df_paired['No'] - df_paired['Yes']
df_paired

Unnamed: 0,No,Yes,diff
0,636,604,32
1,623,556,67
2,615,542,73
3,672,522,150
4,601,469,132
5,600,544,56
6,542,513,29
7,554,470,84
8,543,556,-13
9,520,531,-11


In [21]:
# Tidak menggunakan samrtphone
df_paired['No'].mean()

585.0625

In [22]:
# Menggunakan samrtphone
df_paired['Yes'].mean()

538.6875

In [23]:
df_paired['diff'].mean()

46.375

Hipotesis:
- Ho: Mean score kelompok 'No' = Mean score kelompok 'Yes'
- Ha: Mean score kelompok 'No' > Mean score kelompok 'Yes'

Dengan kata lain, hipotesisnya juga bisa ditulis seperti ini:
- Ho: Mean score kelompok 'No' - Mean score kelompok 'Yes' = 0
- Ha: Mean score kelompok 'No' - Mean score kelompok 'Yes' > 0

In [24]:
# rata-rata dari selisih score kelompok 'No' dan 'Yes'
df_paired['diff'].mean()

46.375

In [25]:
ttest_1samp(a=df_paired['diff'], popmean=0, alternative='greater')

TtestResult(statistic=3.7045829209261782, pvalue=0.0010595522508415644, df=15)

Menggunakan function ttest_rel

In [26]:
from scipy.stats import ttest_rel

In [27]:
stat, pvalue = ttest_rel(
    a= df_paired['No'],
    b= df_paired['Yes'],
    alternative='greater'
)

pvalue

0.0010595522508415644

In [28]:
if pvalue > 0.05:
    print(f'''
    pvalue={pvalue}. pvalue > 0.05. Gagal menolak Ho.
    Kita TIDAK punya cukup bukti kalau rata-rata score kelompok 'No' lebih besar dari rata-rata score kelompok 'Yes'
    (Rata-ratanya tidak berbeda signifikan)
    ''')
    
else:
    print(f'''
    pvalue={pvalue}. pvalue <= 0.05. Berhasil menolak Ho.
    Kita punya cukup bukti kalau rata-rata score kelompok 'No' lebih besar dari rata-rata score kelompok 'Yes'
    (Rata-ratanya berbeda signifikan)
    ''')


    pvalue=0.0010595522508415644. pvalue <= 0.05. Berhasil menolak Ho.
    Kita punya cukup bukti kalau rata-rata score kelompok 'No' lebih besar dari rata-rata score kelompok 'Yes'
    (Rata-ratanya berbeda signifikan)
    


## **d. One Way Anova f-test (>2 sample mean)**

Dataset berisi cara siswa berangkat ke sekolah dan jam belajar di sekolah. Kita ingin menguji apakah ada perbedaan rata-rata jam sekolah pada setiap method atau cara berangkat ke sekolah

In [29]:
# create dummy dataset
transport = []
method = ['Walking ','Public ','Private ']

for i in method:
    transport.extend((i*10).split())

df_transport = pd.concat([
    pd.Series(transport, name='Transportation'),
    pd.Series([5,4,5,6,5,3,2,4,5,5,7,7,5,6,4,6,5,5,6,7,5,4,5,6,6,5,5,5,7,7], name='Study Hours')], 
    axis=1)

df_transport.sample(10)

Unnamed: 0,Transportation,Study Hours
6,Walking,2
17,Public,5
19,Public,7
29,Private,7
18,Public,6
21,Private,4
3,Walking,6
2,Walking,5
25,Private,5
20,Private,5


Hypothesis:
- Ho: Mean study hour dari semua kelompok adalah sama. (mean kelompok walking = mean kelompok private  = mean kelompok public
)
- Ha: Minimal ada 1 kelompok yang mean study hour berbeda. Tapi kita tidak tahu kelompok yang mana.

In [30]:
from scipy.stats import f_oneway

In [31]:
df_transport[df_transport['Transportation']=='Walking']['Study Hours']

0    5
1    4
2    5
3    6
4    5
5    3
6    2
7    4
8    5
9    5
Name: Study Hours, dtype: int64

In [32]:
stat, pvalue = f_oneway(
    df_transport[df_transport['Transportation']=='Walking']['Study Hours'],
    df_transport[df_transport['Transportation']=='Public']['Study Hours'],
    df_transport[df_transport['Transportation']=='Private']['Study Hours'],
)

pvalue

0.0163405142361861

In [33]:
if pvalue > 0.05:
    print(f'''
    pvalue={pvalue}. pvalue > 0.05. Gagal menolak Ho.
    Kita TIDAK punya cukup bukti bahwa 
    minimal salah satu kelompok ada yang berbeda rata-rata study hours-nya. Tapi kita tidak tahu yang mana.
    (Rata-ratanya tidak berbeda signifikan)
    ''')
    
else:
    print(f'''
    pvalue={pvalue}. pvalue <= 0.05. Berhasil menolak Ho.
    Kita punya cukup bukti bahwa 
    minimal salah satu kelompok ada yang berbeda rata-rata study hours-nya. Tapi kita tidak tahu yang mana.
    (Rata-ratanya berbeda signifikan)
    ''')


    pvalue=0.0163405142361861. pvalue <= 0.05. Berhasil menolak Ho.
    Kita punya cukup bukti bahwa 
    minimal salah satu kelompok ada yang berbeda rata-rata study hours-nya. Tapi kita tidak tahu yang mana.
    (Rata-ratanya berbeda signifikan)
    


In [34]:
df_transport.groupby('Transportation').mean()

Unnamed: 0_level_0,Study Hours
Transportation,Unnamed: 1_level_1
Private,5.5
Public,5.8
Walking,4.4


## **Soal: Apakah rata-rata study hours kelompok 'Private' berbeda dari kelompok 'Public'**

- Ho: rata-rata study hours kelompok 'Private' = rata-rata study hours kelompok 'Public'
- Ha: rata-rata study hours kelompok 'Private' != rata-rata study hours kelompok 'Public'


In [35]:
stat, pvalue = ttest_ind(
    a= df_transport[df_transport['Transportation']=='Private']['Study Hours'],
    b= df_transport[df_transport['Transportation']=='Public']['Study Hours'],
    equal_var= True,
    alternative='two-sided' 
)

pvalue

0.5120073137681896

In [36]:
if pvalue > 0.05:
    print(f'''
    pvalue={pvalue}. pvalue > 0.05. Gagal menolak Ho.
    Kita TIDAK punya cukup bukti kalau rata-rata study hours kelompok 'Private' tidak sama dengan rata-rata study hours kelompok 'Public'.
    (Rata-ratanya tidak berbeda signifikan)
    ''')
else:
    print(f'''
    pvalue={pvalue}. pvalue <= 0.05. Berhasil menolak Ho.
    Kita punya cukup bukti kalau rata-rata study hours kelompok 'Private' tidak sama dengan rata-rata study hours kelompok 'Public'.
    (Rata-ratanya berbeda signifikan)
    ''')


    pvalue=0.5120073137681896. pvalue > 0.05. Gagal menolak Ho.
    Kita TIDAK punya cukup bukti kalau rata-rata study hours kelompok 'Private' tidak sama dengan rata-rata study hours kelompok 'Public'.
    (Rata-ratanya tidak berbeda signifikan)
    
