## Uji Kenormalan Distribusi Menggunakan Shapiro Test

Shapiro-Wilk Test adalah sebuah uji statistik yang digunakan untuk menguji apakah suatu sampel data berasal dari distribusi normal.
Tujuan dari Shapiro-Wilk Test adalah untuk menguji hipotesis nol (H0) bahwa suatu sampel data berasal dari populasi yang terdistribusi normal. Hipotesis alternatifnya (Ha) adalah bahwa sampel tersebut tidak berasal dari distribusi normal.

**Masalah** : Suatu gerai pizza ingin mengetahui apakah pizza yang dibuatnya memiliki diameter dengan distribusi normal

In [1]:
import pandas as pd
data = pd.read_csv('diameter.csv')
data.head()

Unnamed: 0,Diameter
0,6.7703
1,7.5093
2,6.73
3,6.7878
4,7.1522


In [2]:
H0 = 'Data is normal'
Ha = 'Data is not normal'

In [3]:
alpha = 0.05

In [5]:
# Uji H0/Ha (Normalitas) dengan manual
# import shapiro dari scipy, perhitungan langsung test-statistic dan p-value

from scipy.stats import shapiro
shapiro(data)

# hasilnya test statistic=0,9727... dan p-value=0.52251, karena p-value > alpha maka H0 diterima (data normal)

ShapiroResult(statistic=0.9727305769920349, pvalue=0.5225146412849426)

In [6]:
# Uji H0/Ha (Normalitas) dengan logical

p = round(shapiro(data)[1], 2)  # [1] maksudnya disini mengambil nilai Shapiro result indeks 1 yaitu p-value. Kemudian 2 maksudnya 'round' hasil dgn 2 desimal

if p > alpha:
  print(f"{p} > {alpha}. We fail to reject Null Hypothesis. {H0}")
else:
	print(f"{p} <= {alpha}. We reject Null Hypothesis. {Ha}")

0.52 > 0.05. We fail to reject Null Hypothesis. Data is normal


## Uji Perbedaan Rata-Rata dari Dua Kelompok Berbeda

**Masalah** : Sebuah perusahaan pizza telah memiliki dua gerai di kota Bandung. Perusahaan tersebut ingin mengetahui apakah terdapat perbedaan signifikan untuk diameter pizza di kedua gerai yang dimilikinya

In [5]:
import pandas as pd
pizzas = pd.read_csv('/pizzas.csv')
pizzas.head()

Unnamed: 0,Making Unit 1,Making Unit 2
0,6.809,6.7703
1,6.4376,7.5093
2,6.9157,6.73
3,7.3012,6.7878
4,7.4488,7.1522


**Uji Normalitas Kedua Kelompok**

In [7]:
# Uji normalitas kedua kelompok secara sedrhana
from scipy.stats import shapiro

unit_1 = pizzas["Making Unit 1"]
unit_2 = pizzas["Making Unit 2"]
shapiro(unit_1)
# Karena pvalue > dari alpha maka H0 diterima, data berdistribusi normal

ShapiroResult(statistic=0.9649459719657898, pvalue=0.31998491287231445)

In [9]:
shapiro(unit_2)
# Karena pvalue > dari alpha maka H0 diterima, data berdistribusi normal

ShapiroResult(statistic=0.9727305769920349, pvalue=0.5225146412849426)

In [11]:
# Uji normalitas kedua kelompok secara kompleks dengan membandingkan secara langsung

# Defining Alpha, Null, and Alternative Hypotheses
alpha = 0.05
H0 = 'data is Normally distributed'
Ha = 'data is not Normally distributed'

from scipy.stats import shapiro

def check_normality(df):    # Fungsi check_normality menerima DataFrame (df) sebagai argumen.
  for columnName, columnData in pizzas.iteritems():
    print('n' + "*** Shapiro Test Results of '{}' ***".format(columnName))
    p = round(shapiro(columnData.values)[1], 2)   # [1] disini maksudnya hanya mengambil p-value dari uji shapiro
    if p>alpha:
      print(f"{p} > {alpha}. We fail to reject Null Hypothesis. '{columnName}' {H0}")
    else:
      print(f"{p} <= {alpha}. We reject Null Hypothesis. '{columnName}' {Ha}")
check_normality(pizzas)

n*** Shapiro Test Results of 'Making Unit 1' ***
0.32 > 0.05. We fail to reject Null Hypothesis. 'Making Unit 1' data is Normally distributed
n*** Shapiro Test Results of 'Making Unit 2' ***
0.52 > 0.05. We fail to reject Null Hypothesis. 'Making Unit 2' data is Normally distributed


  for columnName, columnData in pizzas.iteritems():


**Uji variansi kedua kelompok**

In [12]:
H0 = 'Variance of Unit A is approximately equal to Variance of Unit B'
Ha = 'Variance of Unit A is not equal to Variance of Unit B'

# import levene, digunakan untuk menguji apakah dua data yang kita punya mempunyai variansi yang sama
from scipy.stats import levene

def check_variances(df):
  print('n' + "*** Variances Test Results' ***")
  p = round(levene(pizzas['Making Unit 1'], pizzas['Making Unit 1'])[1],2)
  if p>alpha:
    print(f"{p} > {alpha}. We fail to reject Null Hypothesis. {H0}")
  else:
    print(f"{p} <= {alpha}. We reject Null Hypothesis. {Ha}")

check_variances(pizzas)

n*** Variances Test Results' ***
1.0 > 0.05. We fail to reject Null Hypothesis. Variance of Unit A is approximately equal to Variance of Unit B


**2 Sample t-Test for Equal Variance**

In [17]:
# mengetes apakah terjadi perbedaan varians yg signifikan antara dua sampel (t-test) secara sederhana

from scipy.stats import ttest_ind
H0 = 'There is no significant difference.'
Ha = 'There exist a significant difference.'

ttest_ind(unit_1, unit_2)
# karena p-value > alpha maka unit_ dan unit_2 tidak berbeda secara signifikan

TtestResult(statistic=0.7228688704678063, pvalue=0.4722394724599501, df=68.0)

In [13]:
# mengetes apakah terjadi perbedaan varians yg signifikan antara dua sampel (t-test) secara kompleks

from scipy.stats import ttest_ind

def t_test(df):

  print('n' + "*** 2 Sample T Test Results ***")
  test_results = ttest_ind(pizzas['Making Unit 1'], pizzas['Making Unit 1'], equal_var=True)
  p = round(test_results[1],2)

  if p>alpha:
    print(f"{p} > {alpha}. We fail to reject Null Hypothesis. {H0}")
  else:
    print(f"{p} <= {alpha}. We reject Null Hypothesis. {Ha}")

t_test(pizzas)

n*** 2 Sample T Test Results ***
1.0 > 0.05. We fail to reject Null Hypothesis. There is no significant difference.
