In [2]:
from numpy import sqrt
import pandas as pd
from IPython.display import Markdown, display
import scipy.stats as st

df = pd.read_csv('anggur.csv')
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,5.9,0.4451,0.1813,2.049401,0.070574,16.593818,42.27,0.9982,3.27,0.71,8.64,7
1,8.4,0.5768,0.2099,3.10959,0.101681,22.555519,16.01,0.996,3.35,0.57,10.03,8
2,7.54,0.5918,0.3248,3.673744,0.072416,9.316866,35.52,0.999,3.31,0.64,9.23,8
3,5.39,0.4201,0.3131,3.371815,0.072755,18.2123,41.97,0.9945,3.34,0.55,14.07,9
4,6.51,0.5675,0.194,4.404723,0.066379,9.360591,46.27,0.9925,3.27,0.45,11.49,8


## 4. Melakukan test hipotesis 1 sampel

### a. Nilai rata-rata pH di atas 3.29?

1. $H_0$: $μ = 3.29$
2. $H_1$: $μ > 3.29$
3. $α = 0.05$
4. Uji statistik: 
$$z = \frac{\bar{x} - μ_0}{σ/\sqrt{n}} $$
&emsp;&emsp; Dengan critical region:
$$ z > z_{\alpha} $$
$$ z > 1.645 $$
5. Dapat dihitung:

In [3]:
x_bar = df['pH'].mean()
mu = 3.29
sigma = df['pH'].std()
n = df['pH'].count()

z_value = (x_bar - mu) * (n**(0.5)) / (sigma)
p_value = 1 - st.norm.cdf(z_value)

display(Markdown(f"Diketahui: <br> $\\bar{{x}} = {x_bar}$ &emsp; $\\mu = {mu}$ <br> $\\sigma = {sigma:.5f}$ &emsp; $n = {n}$"))
display(Markdown(f"Didapatkan nilai: <br>$z = {z_value:.3f} $ <br> $p = {p_value} $"))

Diketahui: <br> $\bar{x} = 3.30361$ &emsp; $\mu = 3.29$ <br> $\sigma = 0.10488$ &emsp; $n = 1000$

Didapatkan nilai: <br>$z = 4.104 $ <br> $p = 2.032263004325685e-05 $

6. Karena $z = 4.104 > z_{\alpha/2}$, $z$ berada di critical section sehingga <u>hipotesis $H_0$ ditolak</u>. 
<br> Dengan tes signifikan, disimpulkan bahwa <u>hipotesis $H_0$ ditolak</u> karena <i>p-value</i> lebih kecil dari nilai signifikan yang ditetapkan ($p < 0.05$).
<br> Dapat disimpulkan bahwa rata-rata pH lebih besar dari 3.29.

### b. Nilai rata-rata Residual Sugar tidak sama dengan 2.50?

1. $H_0$: $μ = 2.50$
2. $H_1$: $μ \neq 2.50$ &emsp; ($\mu < 2.50$ atau    $\mu > 2.50$)
3. $α = 0.05$
4. Uji statistik: 
$$z = \frac{\bar{x} - μ_0}{σ/\sqrt{n}} $$
&emsp;&emsp; Dengan critical region:
$$ z < -z_{\alpha/2} \quad atau \quad z > z_{\alpha/2} $$
$$ z < -1.96 \quad atau \quad z > 1.96 $$
5. Dapat dihitung:

In [4]:
x_bar = df['residual sugar'].mean()
mu = 2.5
sigma = df['residual sugar'].std()
n = df['residual sugar'].count()

z_value = (x_bar - mu) * (n**(0.5)) / (sigma)
p_value = 2*(1 - st.norm.cdf(z_value))

display(Markdown(f"Diketahui: <br> $\\bar{{x}} = {x_bar}$ &emsp; $\\mu = {mu}$ <br> $\\sigma = {sigma:.5f}$ &emsp; $n = {n}$"))
display(Markdown(f"Didapatkan nilai: <br>$z = {z_value:.3f} $ <br> $p = {p_value} $"))

Diketahui: <br> $\bar{x} = 2.5671036825069997$ &emsp; $\mu = 2.5$ <br> $\sigma = 0.98792$ &emsp; $n = 1000$

Didapatkan nilai: <br>$z = 2.148 $ <br> $p = 0.03171677881789692 $

6. Karena $z = 2.148 > z_{\alpha/2}$, $z$ berada di critical section sehingga <u>hipotesis $H_0$ ditolak</u>. 
<br> Dengan tes signifikan, disimpulkan bahwa <u>hipotesis $H_0$ ditolak</u> karena <i>p-value</i> lebih kecil dari nilai signifikan yang ditetapkan ($p < 0.05$).
<br> Dapat disimpulkan bahwa nilai residual sugar tidak sama dengan 2.148.

### c. Nilai rata-rata 150 baris pertama kolom sulphates bukan 0.65?

1. $H_0$: $μ = 0.65$
2. $H_1$: $μ \neq 0.65$ &emsp; ($\mu < 0.65$ atau    $\mu > 0.65$)
3. $α = 0.05$
4. Uji statistik: 
$$z = \frac{\bar{x} - μ_0}{σ/\sqrt{n}} $$
&emsp;&emsp; Dengan critical region:
$$ z < -z_{\alpha/2} \quad atau \quad z > z_{\alpha/2} $$
$$ z < -1.96 \quad atau \quad z > 1.96 $$
5. Dapat dihitung:

In [5]:
x_bar = df.loc[:150, 'sulphates'].mean()
mu = 0.65
sigma = df.loc[:150, 'sulphates'].std()
n = df.loc[:150, 'sulphates'].count()

z_value = (x_bar - mu) * (n**(0.5)) / (sigma)
p_value = 2*(1 - st.norm.cdf(abs(z_value)))

display(Markdown(f"Diketahui: <br> $\\bar{{x}} = {x_bar}$ &emsp; $\\mu = {mu}$ <br> $\\sigma = {sigma:.5f}$ &emsp; $n = {n}$"))
display(Markdown(f"Didapatkan nilai: <br>$z = {z_value:.3f} $ <br> $p = {p_value} $"))

Diketahui: <br> $\bar{x} = 0.6064900662251657$ &emsp; $\mu = 0.65$ <br> $\sigma = 0.10878$ &emsp; $n = 151$

Didapatkan nilai: <br>$z = -4.915 $ <br> $p = 8.868285241714347e-07 $

6. Karena $z = -4.915 < z_{\alpha/2}$, $z$ berada di critical section sehingga <u>hipotesis $H_0$ ditolak</u>. 
<br> Dengan tes signifikan, disimpulkan bahwa <u>hipotesis $H_0$ ditolak</u> karena <i>p-value</i> lebih kecil dari nilai signifikan yang ditetapkan ($p < 0.05$).
<br> Dapat disimpulkan bahwa nilai rata-rata 150 baris pertama kolom sulphates bukan 0.65.

### d. Nilai rata-rata total sulfur dioxide di bawah 35?

1. $H_0$: $μ = 35$
2. $H_1$: $\mu < 35$
3. $α = 0.05$
4. Uji statistik: 
$$z = \frac{\bar{x} - μ_0}{σ/\sqrt{n}} $$
&emsp;&emsp; Dengan critical region:
$$ z < -z_{\alpha}$$
$$ z < -1.645$$
5. Dapat dihitung:

In [12]:
x_bar = df['total sulfur dioxide'].mean()
mu = 35
sigma = df['total sulfur dioxide'].std()
n = df['total sulfur dioxide'].count()

z_value = (x_bar - mu) * (n**(0.5)) / (sigma)
p_value = st.norm.cdf(z_value)

display(Markdown(f"Diketahui: <br> $\\bar{{x}} = {x_bar}$ &emsp; $\\mu = {mu}$ <br> $\\sigma = {sigma:.5f}$ &emsp; $n = {n}$"))
display(Markdown(f"Didapatkan nilai: <br>$z = {z_value:.3f} $ <br> $p = {p_value} $"))

Diketahui: <br> $\bar{x} = 40.290150000000004$ &emsp; $\mu = 35$ <br> $\sigma = 9.96577$ &emsp; $n = 1000$

Didapatkan nilai: <br>$z = 16.786 $ <br> $p = 1.0 $

6. Karena $z = 16.915 > z_{\alpha}$, $z$ tidak berada di critical section sehingga <u>hipotesis $H_0$ tidak ditolak</u>. 
<br> Dengan tes signifikan, disimpulkan juga bahwa <u>hipotesis $H_0$ tidak ditolak</u> karena <i>p-value</i> lebih besar dari nilai signifikan yang ditetapkan ($p > 0.05$).
<br> Tidak dapat disimpulkan bahwa nilai rata-rata total sulfur dioxide di bawah 35.

### e. Proporsi nilai total Sulfat Dioxide yang lebih dari 40, adalah tidak sama dengan 50%?

1. $H_0$: $p = 0.5$
2. $H_1$: $p \neq 0.5$ &emsp; ($p < 0.5$ atau    $p > 0.5$)
3. $α = 0.05$
4. Uji statistik: 
$$z = \frac{\hat{p} - p_0}{\sqrt{p_0q_0/n}} $$
&emsp;&emsp; Dengan critical region:
$$ z < -z_{\alpha/2} \quad atau \quad z > z_{\alpha/2} $$
$$ z < -1.96 \quad atau \quad z > 1.96 $$
5. Dapat dihitung:

In [24]:
p_0 = 0.5
q_0 = 1 - p_0
n = df['total sulfur dioxide'].count()
p_hat = df.loc[df['total sulfur dioxide'] > 40]['total sulfur dioxide'].count() / n

z_value = (p_hat - p_0) * (n ** 0.5) / ((p_0 * q_0) ** 0.5)
p_value = 2 * (1 - st.norm.cdf(abs(z_value)))

display(Markdown(f"Diketahui: <br> $p_0 = {p_0}$ $&emsp; $q_0 = {q_0}$ <br> $n = {n}$ &emsp; $\\hat{{p}} = {p_hat}$"))
display(Markdown(f"Didapatkan nilai: <br>$z = {z_value:.3f} $ <br> $p = {p_value} $"))

Diketahui: <br> $p_0 = 0.5$ $&emsp; $q_0 = 0.5$ <br> $n = 1000$ &emsp; $\hat{p} = 0.512$

Didapatkan nilai: <br>$z = 0.759 $ <br> $p = 0.4478844782641116 $

6. Karena $-z_{\alpha/2} < z = 0.759 < z_{\alpha/2}$, $z$ tidak berada di critical section sehingga <u>hipotesis $H_0$ tidak ditolak</u>. 
<br> Dengan tes signifikan, disimpulkan juga bahwa <u>hipotesis $H_0$ tidak ditolak</u> karena <i>p-value</i> lebih besar dari nilai signifikan yang ditetapkan ($p > 0.05$).
<br> Tidak dapat disimpulkan bahwa proporsi nilai total Sulfat Dioxide yang lebih dari 40, adalah tidak sama dengan 50%.