# Additional Materials
by Lis Wahyuni

# Z-score

## Arah dan Besaran

- Nilai positif menunjukkan data di atas rata-rata
- Nilai negatif menunjukkan data di bawah rata-rata
- Besarnya nilai menunjukkan seberapa ekstrem data tersebut

## Interpretasi Umum

- Z-score 0 berarti tepat pada rata-rata.
- Z-score ±1 berarti 1 standar deviasi di atas/bawah rata-rata.
- Z-score ±2 berarti 2 standar deviasi di atas/bawah rata-rata.
- dst.

In [None]:
import numpy as np

In [None]:
# Data tinggi badan anak dalam cm
tinggi_badan = [
    145, 150, 148, 152, 147, 149, 151, 146, 153, 148,
    150, 147, 149, 151, 148, 152, 146, 150, 149, 147,
    153, 148, 151, 149, 150, 152, 147, 151, 148, 150
]

# Hitung rata-rata dan standar deviasi
rata_rata = np.mean(tinggi_badan)
standar_deviasi = np.std(tinggi_badan)

print(f"Rata-rata tinggi badan: {rata_rata:.2f} cm")
print(f"Standar deviasi: {standar_deviasi:.2f} cm")

Rata-rata tinggi badan: 149.23 cm
Standar deviasi: 2.11 cm


In [None]:
# Fungsi untuk menghitung z-score
def hitung_z_score(nilai, rata_rata, standar_deviasi):
    return (nilai - rata_rata) / standar_deviasi

In [None]:
# Menghitung z-score untuk beberapa anak
anak_1 = 145
anak_2 = 150
anak_3 = 153

z_score_1 = hitung_z_score(anak_1, rata_rata, standar_deviasi)
z_score_2 = hitung_z_score(anak_2, rata_rata, standar_deviasi)
z_score_3 = hitung_z_score(anak_3, rata_rata, standar_deviasi)

print(f"Z-score Anak 1 (145 cm): {z_score_1:.2f}")
print(f"Z-score Anak 2 (150 cm): {z_score_2:.2f}")
print(f"Z-score Anak 3 (153 cm): {z_score_3:.2f}")

Z-score Anak 1 (145 cm): -2.01
Z-score Anak 2 (150 cm): 0.36
Z-score Anak 3 (153 cm): 1.79


## Perbandingan Nilai Siwa dengan Z-score

In [None]:
# Data nilai siswa
sekolah_A = [75, 80, 85, 90, 95]  # Nilai maksimum 100
sekolah_B = [3.0, 3.2, 3.4, 3.6, 3.8]  # Nilai maksimum 4.0

# Nilai siswa yang ingin dibandingkan
siswa_A = 85
siswa_B = 3.2

In [None]:
# Fungsi untuk menghitung z-score
def hitung_z_score(nilai, data):
    return (nilai - np.mean(data)) / np.std(data)

In [None]:
# Hitung z-score
z_score_A = hitung_z_score(siswa_A, sekolah_A)
z_score_B = hitung_z_score(siswa_B, sekolah_B)

print(f"Z-score Siswa A: {z_score_A:.2f}")
print(f"Z-score Siswa B: {z_score_B:.2f}")

Z-score Siswa A: 0.00
Z-score Siswa B: -0.71


In [None]:
# Membandingkan siswa A dan B
if z_score_A > z_score_B:
    print("Siswa A memiliki performa relatif lebih baik di sekolahnya.")
elif z_score_B > z_score_A:
    print("Siswa B memiliki performa relatif lebih baik di sekolahnya.")
else:
    print("Kedua siswa memiliki performa relatif yang setara di sekolah masing-masing.")

Siswa A memiliki performa relatif lebih baik di sekolahnya.


# ANOVA (Analysis of Variance)
## Studi Kasus
Menguji hubungan antara ketiga metode belajar (variabel independen) dan nilai ujian (variabel dependen).
## Hipotesis
**H0 (Hipotesis Nol)**: Tidak ada perbedaan signifikan nilai ujian antara ketiga metode pembelajaran.

**H1 (Hipotesis Alternatif)**: Terdapat perbedaan signifikan nilai ujian antara minimal dua metode pembelajaran.
## Eta-squared
Eta-squared (η²) adalah ukuran effect size untuk ANOVA yang menunjukkan proporsi variabilitas dalam variabel dependen yang dapat dijelaskan oleh variabel independen. <br>
Formula: https://researchutopia.wordpress.com/wp-content/uploads/2013/03/es1.png <br>

Formula details: https://cdn1.byjus.com/wp-content/uploads/2020/09/one-way-ANOVA-formulas.png
### SS_between (Sum of Squares between groups)
Ini mengukur seberapa berbeda rata-rata setiap kelompok dari rata-rata keseluruhan.
Misal: ada 3 kelompok siswa yang belajar dengan cara berbeda

- Kelompok A rata-rata dapat nilai 85
- Kelompok B rata-rata dapat nilai 75
- Kelompok C rata-rata dapat nilai 90
- Rata-rata semua siswa adalah 83.3

SS_between melihat seberapa jauh rata-rata tiap kelompok (85, 75, 90) dari rata-rata total (83.3). Semakin besar perbedaannya, semakin besar SS_between.

### SS_within (Sum of Squares within groups)
Ini mengukur seberapa beragam nilai siswa dalam satu kelompok yang sama
Contoh:

Dalam kelompok A ada yang dapat 82, 85, 88, 84, dst.

SS_within melihat seberapa jauh nilai-nilai ini dari rata-rata kelompok mereka sendiri (85). Semakin beragam nilai dalam kelompok, semakin besar SS_within.

### SS_total
Ini adalah total variasi dari semua nilai ("total ketidaksamaan" dalam semua nilai).

SS_total = SS_between + SS_within

**Interpretasinya**: <br>
η² ≈ 0.01: efek kecil <br>
η² ≈ 0.06: efek sedang <br>
η² ≈ 0.14: efek besar


In [None]:
import numpy as np
import pandas as pd
from scipy import stats

In [None]:
def hitung_eta_squared(groups):
    """
    Menghitung eta-squared dari hasil ANOVA
    Eta squared = SS_between / SS_total
    dimana:
    SS_between: variasi antarkelompok
    SS_between = sum(n_i * (mean_i - grand_mean)^2)

    SS_within: variasi dalam kelompok
    SS_within = sum((x_ij - mean_i)^2)

    SS_total = SS_between + SS_within
    SS_total = SS_between + SS_within

    """
    # Menggabungkan semua data
    all_data = np.concatenate(groups)
    grand_mean = np.mean(all_data)
    n_total = len(all_data)

    # Menghitung SS_between
    ss_between = sum(len(group) * (np.mean(group) - grand_mean) ** 2 for group in groups)

    # Menghitung SS_within
    ss_within = sum(sum((x - np.mean(group)) ** 2) for group, x in zip(groups, groups))

    # Menghitung SS_total
    ss_total = ss_between + ss_within

    # Menghitung eta squared
    eta_squared = ss_between / ss_total
    return eta_squared, ss_between, ss_within, ss_total

In [None]:
# Data nilai ujian siswa berdasarkan 3 metode belajar berbeda
metode_a = np.array([85, 82, 88, 84, 86, 85, 87, 84])
metode_b = np.array([75, 78, 77, 76, 79, 75, 78, 77])
metode_c = np.array([90, 92, 91, 89, 93, 90, 92, 91])

In [None]:
# Melakukan uji ANOVA
f_stat, p_value = stats.f_oneway(metode_a, metode_b, metode_c)

# Menghitung eta squared dan komponen-komponennya
eta_sq, ss_between, ss_within, ss_total = hitung_eta_squared([metode_a, metode_b, metode_c])

print("\nKomponen ANOVA")
print(f"SS between groups: {ss_between:.4f}")
print(f"SS within groups: {ss_within:.4f}")
print(f"SS total: {ss_total:.4f}")
print(f"\nHasil ANOVA")
print(f"F-statistic: {f_stat:.4f}")
print(f"p-value: {p_value:.4f}")
print(f"Eta squared: {eta_sq:.4f}")


Komponen ANOVA
SS between groups: 805.5833
SS within groups: 51.7500
SS total: 857.3333

Hasil ANOVA
F-statistic: 163.4517
p-value: 0.0000
Eta squared: 0.9396


### Interpretasi Hasil
Dari hasil analisis di atas, nilai p-value 0.00 maka p-value < 0.05 sehingga H0 ditolak. Dapat disimpulkan terdapat perbedaan signifikan nilai ujian antara minimal dua metode pembelajaran.

Kekuatan efek (eta-squared) sebesar 0.9396 artinya efek sangat besar.

# Chi-squared Test
## Studi Kasus
Menguji korelasi antara tingkat pendidikan dengan preferensi bekerja.
## Hipotesis
H0: Tidak ada hubungan antara tingkat pendidikan dan preferensi bekerja.

H1: Terdapat hubungan antara tingkat pendidikan dan preferensi bekerja.
## Cramer's V
Cramer's V adalah ukuran effect size untuk chi-squared test yang menunjukkan kekuatan asosiasi antara dua variabel kategorikal. <br>
Formula Cramer's V: https://miro.medium.com/v2/resize:fit:1096/1*yKdRzVeGCixBmhFb4cIouA.png <br>
## Minimum Dimension (min_dim)
Angka yang lebih kecil antara jumlah baris atau kolom dalam tabel.

Misal:

3 tingkat pendidikan (SMA, D3, S1) = 3 baris

2 status kerja (Bekerja, Tidak Bekerja) = 2 kolom

maka min_dim = 2 (karena 2 < 3)

# Degrees of Freedom/Derajat kebebasan (dof)
Ini menunjukkan berapa angka yang bisa berubah-ubah secara bebas dalam tabel.
> The degrees of freedom for a Chi-square grid are equal to the number of rows minus one times the number of columns minus one.

Misalkan dalam tabel 3x2 (3 baris, 2 kolom):

Total baris = 3

Total kolom = 2

dof = (3-1) × (2-1) = 2

Semakin besar dof, semakin banyak kemungkinan variasi dalam data.

**Interpretasinya**: <br>
V ≈ 0.10: asosiasi lemah <br>
V ≈ 0.30: asosiasi sedang <br>
V ≈ 0.50: asosiasi kuat

In [None]:
# Data tingkat pendidikan dan status pekerjaan
data_pendidikan_pekerjaan = {
    'Pendidikan': ['SMA'] * 30 + ['D3'] * 30 + ['S1'] * 30,
    'Status_Kerja': ['Bekerja'] * 20 + ['Tidak Bekerja'] * 10 +
                    ['Bekerja'] * 15 + ['Tidak Bekerja'] * 15 +
                    ['Bekerja'] * 25 + ['Tidak Bekerja'] * 5
}
data_pendidikan_pekerjaan

{'Pendidikan': ['SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'SMA',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'D3',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1',
  'S1'],
 'Status_Kerja': ['Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja',
  'Bekerja'

In [None]:
def hitung_cramers_v(chi2, n, min_dim):
    """
    Menghitung Cramer's V dari hasil Chi-squared
    Cramer's V = sqrt(chi2 / (n * (min_dim - 1)))
    dimana:
    chi2 = nilai chi-square
    n = ukuran sampel total
    min_dim = minimum dari jumlah baris atau kolom
    """
    return np.sqrt(chi2 / (n * (min_dim - 1)))


In [None]:
# Membuat contingency table
df = pd.DataFrame(data_pendidikan_pekerjaan)
cont_table = pd.crosstab(df['Pendidikan'], df['Status_Kerja'])
print("Tabel Kontingensi")
print(cont_table)

Tabel Kontingensi
Status_Kerja  Bekerja  Tidak Bekerja
Pendidikan                          
D3                 15             15
S1                 25              5
SMA                20             10


In [None]:
cont_table.shape

(3, 2)

In [None]:
# Melakukan uji Chi-squared
chi2, p_value_chi2, dof, expected = stats.chi2_contingency(cont_table)

print(f"Hasil Chi-squared")
print(f"Chi-square statistic: {chi2:.4f}")
print(f"p-value: {p_value_chi2:.4f}")
print(f"Degrees of freedom: {dof}")
print(f"Expected: {expected}")

Hasil Chi-squared
Chi-square statistic: 7.5000
p-value: 0.0235
Degrees of freedom: 2
Expected: [[20. 10.]
 [20. 10.]
 [20. 10.]]


In [None]:
# Menghitung Cramer's V
n = len(df)
min_dim = min(cont_table.shape)
cramers_v = hitung_cramers_v(chi2, n, min_dim)

print(f"Cramer's V: {cramers_v:.3f}")

Cramer's V: 0.289


### Interpretasi
Dari hasil analisis, diperoleh nilai p-value ... karena p-value ... 5% maka H0 di... artinya ...

Kekuatan hubungan (Cramer's V) adalah ... karena nilai tersebut < ... maka dapat disimpulkan hubungan ...