# Z Test

Uji-z adalah uji hipotesis statistik yang membandingkan rata-rata sampel dengan rata-rata populasi, atau rata-rata dua sampel, dan menghitung z-score. Z-score ini menunjukkan seberapa jauh rata-rata sampel menyimpang dari rata-rata populasi (atau rata-rata sampel lainnya) dalam satuan simpangan baku. Uji-z didasarkan pada distribusi normal standar.

### Z-Test digunakan saat:
- Ukuran sampel besar (biasanya 𝑛 ≥ 30)

- Standar deviasi populasi (𝜎) diketahui

- Data berdistribusi normal atau mendekati normal (berlaku CLT)

### Jenis-Jenis Uji-z
Sama seperti Uji-t, Uji-z juga memiliki beberapa jenis:

1. Uji-z Satu Sampel (One-Sample Z-Test)

- Tujuan: Membandingkan rata-rata sampel tunggal dengan nilai hipotesis atau rata-rata populasi yang diketahui.
- Contoh:
    - Sebuah perusahaan mengklaim bahwa rata-rata berat produk mereka adalah 500 gram dengan simpangan baku populasi 10 gram. Anda mengambil sampel 100 produk dan menemukan rata-rata 498 gram. Apakah ini signifikan berbeda dari klaim perusahaan?

2. Uji-z Dua Sampel Independen (Independent Two-Sample Z-Test)

- Tujuan: Membandingkan rata-rata dari dua kelompok yang tidak saling terkait atau independen, di mana simpangan baku populasi dari kedua kelompok diketahui.
- Contoh:
    - Anda ingin membandingkan rata-rata skor IQ siswa dari dua sekolah yang berbeda, dan Anda mengetahui simpangan baku IQ di seluruh populasi siswa dari kedua sekolah tersebut.

3. Uji-z untuk Proporsi (Z-Test for Proportions)

- Tujuan: Digunakan untuk membandingkan proporsi (persentase) dari satu sampel dengan proporsi populasi yang diketahui, atau membandingkan proporsi dua sampel. Ini sangat umum dalam survei dan jajak pendapat.
- Contoh:
    - Sebuah jajak pendapat mengklaim 60% pemilih akan memilih kandidat A. Anda mengambil sampel 200 orang dan 100 di antaranya memilih kandidat A. Apakah proporsi ini signifikan berbeda dari klaim jajak pendapat?

In [1]:
import numpy as np
import pandas as pd

from scipy.stats import ttest_1samp # one t test
from scipy.stats import ttest_ind # two t test
from scipy.stats import ttest_rel # paired t test

In [2]:
data = pd.read_csv('train.csv')

data.shape

(1460, 81)

In [3]:
from statsmodels.stats import weightstats as stests

help(stests.ztest)

Help on function ztest in module statsmodels.stats.weightstats:

ztest(x1, x2=None, value=0, alternative='two-sided', usevar='pooled', ddof=1.0)
    test for mean based on normal distribution, one or two samples

    In the case of two samples, the samples are assumed to be independent.

    Parameters
    ----------
    x1 : array_like, 1-D or 2-D
        first of the two independent samples
    x2 : array_like, 1-D or 2-D
        second of the two independent samples
    value : float
        In the one sample case, value is the mean of x1 under the Null
        hypothesis.
        In the two sample case, value is the difference between mean of x1 and
        mean of x2 under the Null hypothesis. The test statistic is
        `x1_mean - x2_mean - value`.
    alternative : str
        The alternative hypothesis, H1, has to be one of the following

           'two-sided': H1: difference in means not equal to value (default)
           'larger' :   H1: difference in means larger than va

### One-Sample Z-Test
 Kami menguji apakah rata-rata harga rumah adalah 180000 atau bukan

In [4]:
from scipy import stats

ztest, pval = stests.ztest(x1 = data['SalePrice'], x2=None, value=180000)

print("P-value :", float(pval))

if pval < 0.5:
    print("We reject the null hypothesis")
else:
    print("We fail to reject the null hypothesis")

P-value : 0.6577127747949538
We fail to reject the null hypothesis


### Two-Sample Z-Test

In [9]:
ztest, pval = stests.ztest(x1=data['1stFlrSF'], x2=data['2ndFlrSF'], value=0, alternative='smaller')

print('P-value', pval)

if pval <0.5:
    print("we reject null hypothesis")
else:
    print("we accept null hypothesis")

P-value 1.0
we accept null hypothesis
