In [13]:
from statsmodels.stats import weightstats as stests
from statsmodels.stats.proportion import proportions_ztest
import scipy.stats as stats
import numpy as np
import pandas as pd

# Load dataset
df = pd.read_csv('anggur.csv')

# given std
def z_score (x_bar_1, x_bar_2, d0, sigma_1, sigma_2, n1, n2):
    return ((x_bar_1 - x_bar_2) - d0) / np.sqrt(((sigma_1 ** 2) / n1) + ((sigma_2 ** 2) / n2))

# same std but not given
def sp (s1, s2, n1, n2):
    return ((n1 - 1) * (s1 ** 2) + (n2 - 1) * (s2 ** 2)) / (n1 + n2 - 2)

def t_val_1 (x_bar_1, x_bar_2, d0, sp, n1, n2):
    return ((x_bar_1 - x_bar_2) - d0) / (sp * np.sqrt((1 / n1) + (1 / n2)))

# std not same && not given
def t_val_2 (x_bar_1, x_bar_2, d0, s1, s2, n1, n2):
    return ((x_bar_1 - x_bar_2) - d0) / np.sqrt(((s1 ** 2) / n1) + ((s2 ** 2) / n2))

# Tes Hipotesis 2 Sampel

## 5.1 Data kolom fixed acidity dibagi 2 sama rata: bagian awal dan bagian akhir kolom. Benarkah rata-rata kedua bagian tersebut sama?

1. Tentukan Hipotesis nol 

    $$H_0: \mu_1 = \mu_2$$

2. Pilih hipotesis alternatif H1

    $$H_1: \mu_1 ≠ \mu_2$$

3. Tentukan tingkat signifikan α.

    $$\alpha = 0.05$$

4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis

    Uji statistik yang digunakan : <u>Two Sample Two-Tailed Mean Test</u>
    
    <h4 align="center">Daerah Kritis                : z_val < -1.96 or z_val > 1.96
</h4>

5. Hitung nilai uji statistik dari data sample.

In [14]:
fixed_acidity = df["fixed acidity"]

d0 = 0

z_alpha = stats.t.ppf(0.975, fixed_acidity.size - 1)

# Get 2 section
bag_1 = fixed_acidity.head(fixed_acidity.size // 2)
bag_2 = fixed_acidity.tail(fixed_acidity.size // 2)

# Find mean
mean_1 = bag_1.mean()
mean_2 = bag_2.mean()

# Find std
std_1 = bag_1.std()
std_2 = bag_2.std()

# Size
size = fixed_acidity.size // 2

# Find z value
z_val = z_score(mean_1, mean_2, d0, std_1, std_2, size, size)

# Result
print(f'z-score: {z_val:.2f}')
print(f'Critical value: {z_alpha:.2f}')

# Decision
if z_val < -z_alpha or z_val > z_alpha:
    print("Tolak H0. μ kedua bagian tidak sama")
else:
    print("Gagal menolak H0. μ kedua bagian sama")

z-score: 0.03
Critical value: 1.96
Gagal menolak H0. μ kedua bagian sama


6. Ambil keputusan

    <h4 align="center"><font color='green'>Berdasarkan langkah no 5 didapat bahwa nilai z tidak berada di daerah kritis maka gagal menolak H0 (μ kolom fixed acidity bagian awal sama dengan bagian akhirnya)</font></h4>

## 5.2 Data kolom chlorides dibagi 2 sama rata: bagian awal dan bagian akhir kolom. Benarkah rata-rata bagian awal lebih besar daripada bagian akhir sebesar 0.001?

1. Tentukan Hipotesis nol 

    $$H_0: \mu_1 - \mu_2 = 0.001$$

2. Pilih hipotesis alternatif H1

    $$H_1: \mu_1 - \mu_2 ≠ 0.001$$

3. Tentukan tingkat signifikan α.

    $$\alpha = 0.05$$

4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis

    Uji statistik yang digunakan : <u>Two Sample Two-Tailed Mean Test</u>
    
    <h4 align="center">Daerah Kritis                : z_val < -1.96 or z_val > 1.96
</h4>

5. Hitung nilai uji statistik dari data sample.

In [15]:
chlorides = df["chlorides"]

d0 = 0.001

z_alpha = stats.t.ppf(0.975, chlorides.size - 1)

# Get 2 section
bag_1 = chlorides.head(chlorides.size // 2)
bag_2 = chlorides.tail(chlorides.size // 2)

# Find mean
mean_1 = bag_1.mean()
mean_2 = bag_2.mean()

# Find std
std_1 = bag_1.std()
std_2 = bag_2.std()

# Size
size = chlorides.size // 2

# Find z value
z_val = z_score(mean_1, mean_2, d0, std_1, std_2, size, size)

# Result
print(f'z-score: {z_val:.2f}')
print(f'Critical value: {z_alpha:.2f}')

# Decision
if z_val < -z_alpha or z_val > z_alpha:
    print("Tolak H0. μ bagian awal tidak lebih besar daripada bagian akhir sebesar 0.001")
else:
    print("Gagal menolak H0. μ bagian awal lebih besar daripada bagian akhir sebesar 0.001")

z-score: -0.47
Critical value: 1.96
Gagal menolak H0. μ bagian awal lebih besar daripada bagian akhir sebesar 0.001


6. Ambil keputusan

    <h4 align="center"><font color='green'>Berdasarkan langkah no 5 didapat bahwa nilai z tidak berada di daerah kritis maka gagal menolak H0 (μ bagian awal kolom chlorides lebih besar daripada bagian akhirnya sebesar 0.001)</font></h4>

## 5.3 Benarkah rata-rata sampel 25 baris pertama kolom Volatile Acidity sama dengan rata-rata 25 baris pertama kolom Sulphates?

1. Tentukan Hipotesis nol 

    $$H_0: \mu_1 = \mu_2$$

2. Pilih hipotesis alternatif H1

    $$H_1: \mu_1 ≠ \mu_2$$

3. Tentukan tingkat signifikan α.

    $$\alpha = 0.05$$

4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis

    Uji statistik yang digunakan : <u>Two Sample Two-Tailed Mean Test</u>
    
    <h4 align="center">Daerah Kritis                : z_val < -2.06 or z_val > 2.06
</h4>

5. Hitung nilai uji statistik dari data sample.

In [16]:
volatile_acidity = df["volatile acidity"]
sulphates = df["sulphates"]

d0 = 0

z_alpha = stats.t.ppf(0.975, 24)

# Get 2 section
bag_1 = volatile_acidity.head(25)
bag_2 = sulphates.head(25)

# Find mean
mean_1 = bag_1.mean()
mean_2 = bag_2.mean()

# Find std
std_1 = bag_1.std()
std_2 = bag_2.std()

# Size
size = 25

# Find z value
z_val = z_score(mean_1, mean_2, d0, std_1, std_2, size, size)

# Result
print(f'z-score: {z_val:.2f}')
print(f'Critical value: {z_alpha:.2f}')

# Decision
if z_val < -z_alpha or z_val > z_alpha:
    print("Tolak H0. μ sampel 25 baris pertama kolom Volatile Acidity tidak sama dengan rata-rata 25 baris pertama kolom Sulphates")
else:
    print("Gagal menolak H0. μ sampel 25 baris pertama kolom Volatile Acidity sama dengan rata-rata 25 baris pertama kolom Sulphates")

z-score: -2.64
Critical value: 2.06
Tolak H0. μ sampel 25 baris pertama kolom Volatile Acidity tidak sama dengan rata-rata 25 baris pertama kolom Sulphates


6. Ambil keputusan

    <h4 align="center"><font color='red'>Berdasarkan langkah no 5 didapat bahwa nilai z berada di daerah kritis maka tolak H0 (μ sampel 25 baris pertama kolom Volatile Acidity tidak sama dengan rata-rata 25 baris pertama kolom Sulphates)</font></h4>

## 5.4 Bagian awal kolom residual sugar memiliki variansi yang sama dengan bagian akhirnya?

1. Tentukan Hipotesis nol 

    $$H_{0}: \sigma^{2}_1 = \sigma^{2}_2$$

2. Pilih hipotesis alternatif H1

    $$H_{1}: \sigma^{2}_1 ≠ \sigma^{2}_2$$

3. Tentukan tingkat signifikan α.

    $$\alpha = 0.05$$

4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis

    Uji statistik yang digunakan : <u>Two Sample Two-Tailed Mean Test</u>
    
    <h4 align="center">Daerah Kritis                : f_val < 0.84 or f_val > 1.19
</h4>

5. Hitung nilai uji statistik dari data sample.

In [17]:
residual_sugar = df["residual sugar"]

## Get 2 section
bag_1 = residual_sugar.head(residual_sugar.size // 2)
bag_2 = residual_sugar.tail(residual_sugar.size // 2)

# Find degree of freedom of each section
v1 = bag_1.count()-1
v2 = bag_2.count()-1

# Find critical value
f_awal = stats.f.ppf(0.05/2, v1, v2)
f_akhir = stats.f.ppf(1 - 0.05/2, v1, v2)
print(f'Critical value: {f_awal:.2f} and {f_akhir:.2f}')

# Find variance of each section
r1_sqr = bag_1.var(ddof=1)
r2_sqr = bag_2.var(ddof=1)

# Find f-value
f_val = r1_sqr/r2_sqr
print(f'f-value: {f_val:.2f}')

# Decision 
if f_val < f_awal or f_val > f_akhir:
    print("Tolak H0. Variansi bagian awal kolom residual sugar tidak sama dengan variansi bagian akhirnya")
else:
    print("Gagal menolak H0. Variansi bagian awal kolom residual sugar sama dengan variansi bagian akhirnya")

Critical value: 0.84 and 1.19
f-value: 0.94
Gagal menolak H0. Variansi bagian awal kolom residual sugar sama dengan variansi bagian akhirnya


6. Ambil keputusan

    <h4 align="center"><font color='green'>Berdasarkan langkah no 5 didapat bahwa nilai f tidak berada di daerah kritis maka gagal menolak H0 (Variansi bagian awal kolom residual sugar sama dengan variansi bagian akhirnya)</font></h4>

## 5.5 Proporsi nilai setengah bagian awal alcohol yang lebih dari 7, adalah lebih besar daripada, proporsi nilai yang sama di setengah bagian akhir alcohol?

1. Tentukan Hipotesis nol 

    $$H_{0}: p_{1} - p_{2} = 0$$

2. Pilih hipotesis alternatif H1

    $$H_{1}: p_{1} - p_{2} > 0$$

3. Tentukan tingkat signifikan α.

    $$\alpha = 0.05$$

4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis

    Uji statistik yang digunakan : <u>Two Sample Two-Tailed Mean Test</u>
    
    <h4 align="center">Daerah Kritis                : z_val > 1.64
</h4>

5. Hitung nilai uji statistik dari data sample.

In [18]:
alcohol = df["alcohol"]

## Get 2 section
bag_1 = alcohol.head(alcohol.size // 2)
bag_2 = alcohol.tail(alcohol.size // 2)

# Find degree of freedom of each section
v1 = bag_1.count()-1
v2 = bag_2.count()-1

# Find critical value
norm = stats.norm()
z_alpha = norm.ppf(1-0.05)
print(f'Critical value: {z_alpha:.2f}')

# Find p_hat
x1 = bag_1[bag_1 > 7].count()
x2 = bag_2[bag_2 > 7].count()
n1 = bag_1.count()
n2 = bag_2.count()
p_hat = (x1+x2)/(n1+n2)

# Find p1, p2, and q
p1 = x1/n1
p2 = x2/n2
q = 1 - p_hat

# Find z0
z_val = (p1 - p2)/(np.sqrt(p_hat*q*(1/n1+1/n2)))
print(f'z-value: {z_val:.2f}')

# Decision 
if z_val > z_alpha:
    print("Tolak H0. Proporsi nilai setengah bagian awal alcohol yang lebih dari 7, adalah lebih besar daripada, proporsi nilai yang sama di setengah bagian akhir alcohol")
else:
    print("Gagal menolak H0. Proporsi nilai setengah bagian awal alcohol yang lebih dari 7, adalah sama dengan, proporsi nilai yang sama di setengah bagian akhir alcohol")

Critical value: 1.64
z-value: 0.00
Gagal menolak H0. Proporsi nilai setengah bagian awal alcohol yang lebih dari 7, adalah sama dengan, proporsi nilai yang sama di setengah bagian akhir alcohol


6. Ambil keputusan

    <h4 align="center"><font color='green'>Berdasarkan langkah no 5 didapat bahwa nilai z tidak berada di daerah kritis maka gagal menolak H0 (Proporsi nilai setengah bagian awal alcohol yang lebih dari 7, adalah sama dengan, proporsi nilai yang sama di setengah bagian akhir alcohol)</font></h4>