In [None]:
import pandas as pd
from statsmodels.stats.weightstats import ztest
import scipy.stats as st
from IPython.display import display, Markdown

df = pd.read_csv("water_potability.csv", 
                    names=["id", 
                            "pH", 
                            "Hardness", 
                            "Solids", 
                            "Chloramines", 
                            "Sulfate", 
                            "Conductivity", 
                            "OrganicCarbon", 
                            "Trihalomethanes", 
                            "Turbidity", 
                            "Potability"]
                    ).set_index("id")

### a. Data kolom Sulfate dibagi 2 sama rata: bagian awal dan bagian akhir kolom. Benarkah rata-rata kedua bagian tersebut sama?

###### Tentukan Hipotesis nol ($H_0: θ = θ_0$), dimana θ bisa berupa $\mu$, $σ^2$, $p$, atau data lain berdistribusi tertentu (normal, binomial, dsc.).

$H_0:\mu1 - \mu2= 0 $

###### Pilih hipotesis alternatif $H_1$ salah dari dari $θ > θ_0$ , $θ < θ_0$ , atau $θ ≠ θ_0$.

$H_1:\mu1 - \mu2 ≠ 0$

###### Tentukan tingkat signifikan α.

$α = 0.05$

###### Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

Daerah kritis:

In [None]:
crit = st.norm.ppf(1-0.05/2)
display(Markdown(f'$z< -{crit}$ dan $z> {crit} $'))

Tes Statistik

$$ z = \frac{(\bar{x_{1}} - \bar{x_{2}}) - d_{0}} {\sqrt{\sigma_{1}^{2}/n_{1} + \sigma_{2}^{2}/n_{2}}}$$

###### Hitung nilai uji statistik dari data sample. Hitung p-value sesuai dengan uji statistik yang digunakan.

In [None]:
df1 = df["Sulfate"][:1005]
df2 = df["Sulfate"][1005:]

z, p = ztest(df1, x2=df2, value=0, alternative="two-sided")

display(Markdown(f'$z={z}$'))
display(Markdown(f'$p={p}$'))
display(Markdown(f'Ambil keputusan dengan TOLAK $H_0$ jika nilai uji terletak di daerah kritis atau dengan tes signifikan, TOLAK $H_0$ jika p-value lebih kecil dibanding tingkat signifikansi α yang diinginkan.'))

In [None]:
if ((z < -1 * crit or z > crit) and p < 0.05):
    if (z < -1 * crit):
        display(Markdown(f"**Keputusan:**\n\nTolak $H_0$ karena $z = {z} <- {crit}$"))
    else:
        display(Markdown(f"**Keputusan:**\n\nTolak $H_0$ karena $z = {z} > {crit}$"))
    display(Markdown(f"**Tes signifikan:**\n\nTolak $H_0$ karena $p = {p} < α = 0.05$"))
    display(Markdown("**Jadi, rata-rata bagian awal dan akhir data Sulfate tidak sama**"))
else:
    display(Markdown(f"**Keputusan:**\n\nTidak menolak $H_0$ karena $z = {z}$ berada pada $-{crit} ≤ z ≤ {crit}$"))
    display(Markdown(f"**Tes signifikan:**\n\nTidak menolak $H_0$ karena $p = {p} ≥ α = 0.05$"))
    display(Markdown("**Jadi, rata-rata bagian awal dan akhir data Sulfate sama**"))

### b. Data kolom OrganicCarbon dibagi 2 sama rata: bagian awal dan bagian akhir kolom. Benarkah rata-rata bagian awal lebih besar dari pada bagian akhir sebesar 0.15?

###### Tentukan Hipotesis nol ($H_0: θ = θ_0$), dimana θ bisa berupa $\mu$, $σ^2$, $p$, atau data lain berdistribusi tertentu (normal, binomial, dsc.).

$H_0:\mu1 - \mu2 = 0.15 $

###### Pilih hipotesis alternatif $H_1$ salah dari dari $θ > θ_0$ , $θ < θ_0$ , atau $θ ≠ θ_0$.

$H_1:\mu1 - \mu2 \ne 0.15$

###### Tentukan tingkat signifikan α.

$α = 0.05$

###### Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

Daerah kritis:

In [None]:
crit = st.norm.ppf(1-0.05/2)
display(Markdown(f'$z< -{crit}$ dan $z> {crit} $'))

Tes Statistik

$$ z = \frac{(\bar{x_{1}} - \bar{x_{2}}) - d_{0}} {\sqrt{\sigma_{1}^{2}/n_{1} + \sigma_{2}^{2}/n_{2}}}$$

###### Hitung nilai uji statistik dari data sample. Hitung p-value sesuai dengan uji statistik yang digunakan.

In [None]:
df1 = df["OrganicCarbon"][:1005]
df2 = df["OrganicCarbon"][1005:]

z, p = ztest(df1, x2=df2, value=0.15, alternative="two-sided")

display(Markdown(f'$z={z}$'))
display(Markdown(f'$p={p}$'))
display(Markdown(f'Ambil keputusan dengan TOLAK $H_0$ jika nilai uji terletak di daerah kritis atau dengan tes signifikan, TOLAK $H_0$ jika p-value lebih kecil dibanding tingkat signifikansi α yang diinginkan.'))

In [None]:
if ((z < -1 * crit or z > crit) and p < 0.05):
    if (z < -1 * crit):
        display(Markdown(f"**Keputusan:**\n\nTolak $H_0$ karena $z = {z} <- {crit}$"))
    else:
        display(Markdown(f"**Keputusan:**\n\nTolak $H_0$ karena $z = {z} > {crit}$"))
    display(Markdown(f"**Tes signifikan:**\n\nTolak $H_0$ karena $p = {p} < α = 0.05$"))
    display(Markdown("**Jadi, rata-rata bagian awal data OrganicCarbon tidak lebih besar sebesar 0.15 dari bagian akhir datanya**"))
else:
    display(Markdown(f"**Keputusan:**\n\nTidak menolak $H_0$ karena $z = {z}$ berada pada $-{crit} ≤ z ≤ {crit}$"))
    display(Markdown(f"**Tes signifikan:**\n\nTidak menolak $H_0$ karena $p = {p} ≥ α = 0.05$"))
    display(Markdown("**adi, rata-rata bagian awal data OrganicCarbon lebih besar sebesar 0.15 dari bagian akhir datanya**"))

### c. Rata-rata 100 baris pertama kolom Chloramines sama dengan 100 baris terakhirnya?

###### Tentukan Hipotesis nol ($H_0: θ = θ_0$), dimana θ bisa berupa $\mu$, $σ^2$, $p$, atau data lain berdistribusi tertentu (normal, binomial, dsc.).

$H_0:\mu1 - \mu2 = 0 $

###### Pilih hipotesis alternatif $H_1$ salah dari dari $θ > θ_0$ , $θ < θ_0$ , atau $θ ≠ θ_0$.

$H_1:\mu1 - \mu2 \ne 0$

###### Tentukan tingkat signifikan α.

$α = 0.05$

###### Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

Daerah kritis:

In [None]:
crit = st.norm.ppf(1-0.05/2)
display(Markdown(f'$z< -{crit}$ dan $z> {crit} $'))

Tes Statistik

$$ z = \frac{(\bar{x_{1}} - \bar{x_{2}}) - d_{0}} {\sqrt{\sigma_{1}^{2}/n_{1} + \sigma_{2}^{2}/n_{2}}}$$

###### Hitung nilai uji statistik dari data sample. Hitung p-value sesuai dengan uji statistik yang digunakan.

In [None]:
df1 = df["Chloramines"][:100]
df2 = df["Chloramines"][len(df)-100:]

z, p = ztest(df1, x2=df2, value=0, alternative="two-sided")

display(Markdown(f'$z={z}$'))
display(Markdown(f'$p={p}$'))
display(Markdown(f'Ambil keputusan dengan TOLAK $H_0$ jika nilai uji terletak di daerah kritis atau dengan tes signifikan, TOLAK $H_0$ jika p-value lebih kecil dibanding tingkat signifikansi α yang diinginkan.'))

In [None]:
if ((z < -1 * crit or z > crit) and p < 0.05):
    if (z < -1 * crit):
        display(Markdown(f"**Keputusan:**\n\nTolak $H_0$ karena $z= {z} <- {crit}$"))
    else:
        display(Markdown(f"**Keputusan:**\n\nTolak $H_0$ karena $z= {z} > {crit}$"))
    display(Markdown(f"**Tes signifikan:**\n\nTolak $H_0$ karena $p = {p} < α = 0.05$"))
    display(Markdown("**Jadi, rata-rata 100 data awal Chloramines tidak sama dengan rata-rata 100 data akhir Chloramines**"))
else:
    display(Markdown(f"**Keputusan:**\n\nTidak menolak $H_0$ karena $z = {z}$ berada pada $-{crit} ≤ z ≤ {crit}$"))
    display(Markdown(f"**Tes signifikan:**\n\nTidak menolak $H_0$ karena $p = {p} ≥ α = 0.05$"))
    display(Markdown("**Jadi, rata-rata 100 data awal Chloramines sama dengan rata-rata 100 data akhir Chloramines**"))

### d. Proporsi nilai bagian awal Turbidity yang lebih dari 4, adalah lebih besar daripada, proporsi nilai yang sama di bagian akhir Turbidity ?

###### Tentukan Hipotesis nol ($H_0: θ = θ_0$), dimana θ bisa berupa $\mu$, $σ^2$, $p$, atau data lain berdistribusi tertentu (normal, binomial, dsc.).

$H_0:p1 > p2 $

###### Pilih hipotesis alternatif $H_1$ salah dari dari $θ > θ_0$ , $θ < θ_0$ , atau $θ ≠ θ_0$.

$H_1:p1 \le p2 $

###### Tentukan tingkat signifikan α.

$α = 0.05$

###### Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

Daerah kritis:

In [None]:
display(Markdown(f'$z > {crit} $'))

$$ z = \frac{\hat{p_{1}}-\hat{p_{2}}}{\sqrt{\hat{p}\hat{q}(1/n_{1}+1/n_{2})}} $$

###### Hitung nilai uji statistik dari data sample. Hitung p-value sesuai dengan uji statistik yang digunakan.

In [None]:
crit = st.norm.ppf(1-0.05)

df1 = df["Turbidity"][:1005]
df1 = df1[df1 > 4]
df2 = df["Turbidity"][1005:]
df2 = df2[df2 > 4]

x1 = len(df1)
x2 = len(df2)
p1 = x1/1005
p2 = x2/1005

p = (x1 + x2)/(2010)
q = 1 - p

z = (p1 - p2)/((p*q*(1/1005 + 1/1005))**0.5)

if z < 0:
  pValue = (st.norm.cdf(z))
else:
  pValue = (st.norm.sf(z))

display(Markdown(f'$z={z}$'))
display(Markdown(f'$p={pValue}$'))

In [None]:
if (z > crit and pValue < 0.05):
    display(Markdown(f"**Keputusan:**\n\nTolak $H_0$ karena $z = {z} > {crit}$"))
    display(Markdown(f"**Tes signifikan:**\n\nTolak $H_0$ karena $p={pValue} < α = 0.05$"))
    display(Markdown("**Jadi, proporsi nilai bagian awal Turbidity yang lebih dari 4, tidak lebih besar daripada, proporsi nilai yang sama di bagian akhir Turbidity**"))
else:
    display(Markdown(f"**Keputusan:**\n\nTidak menolak $H_0$ karena $z = {z}$ berada pada $z ≤ {crit}$"))
    display(Markdown(f"**Tes signifikan:**\n\nTidak menolak $H_0$ karena $p={pValue} ≥ α = 0.05$"))
    display(Markdown("**Jadi, proporsi nilai bagian awal Turbidity yang lebih dari 4, lebih besar daripada, proporsi nilai yang sama di bagian akhir Turbidity**"))

### e. Bagian awal kolom Sulfate memiliki variansi yang sama dengan bagian akhirnya?

###### Tentukan Hipotesis nol ($H_0: θ = θ_0$), dimana θ bisa berupa $\mu$, $σ^2$, $p$, atau data lain berdistribusi tertentu (normal, binomial, dsc.).

$H_0:σ1^2 = σ2^2 $

###### Pilih hipotesis alternatif $H_1$ salah dari dari $θ > θ_0$ , $θ < θ_0$ , atau $θ ≠ θ_0$.

$H_1:σ1^2 \ne σ2^2 $

###### Tentukan tingkat signifikan α.

$α = 0.05$

###### Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

Daerah kritis:

In [None]:
display(Markdown(f'$f < f(1-α/2) (v1,v2) atau f > f(α/2)(v1,v2)$'))

$$ f = \frac{s_{1}^{2}}{s_{2}^{2}} $$

###### Hitung nilai uji statistik dari data sample. Hitung p-value sesuai dengan uji statistik yang digunakan.

In [None]:
df1 = df["Sulfate"][:1005]
df2 = df["Sulfate"][1005:]

s1 = df1.var()
s2 = df2.var()

f = s1**2/s2**2

critLeft = st.f.ppf(1-0.05/2, 1004, 1004)
critRight = st.f.ppf(0.05/2, 1004, 1004)

display(Markdown(f'$f={f}$'))
display(Markdown(f'$critLeft={critLeft}$'))
display(Markdown(f'$critRight={critRight}$'))

In [None]:
if (f < critLeft or f > critRight):
    if (f < critLeft):
        display(Markdown(f"**Keputusan:**\n\nTolak $H_0$ karena $f = {f} < {critLeft}$"))
    else:
        display(Markdown(f"**Keputusan:**\n\nTolak $H_0$ karena $f = {f} > {critRight}$"))
    display(Markdown("**Jadi, bagian awal kolom Sulfate tidak memiliki variansi yang sama dengan bagian akhirnya**"))
else:
    display(Markdown(f'**Keputusan:**\n\nTidak menolak $H_0$ karena $f = {critLeft} ≤ {f} ≤ {critRight}$'))
    display(Markdown("**Jadi, bagian awal kolom Sulfate memiliki variansi yang sama dengan bagian akhirnya**"))