In [2]:
# mengimport library pandas
import pandas as pd
import scipy.stats as s
import math
# membaca file csv
df = pd.read_csv("water_potability.csv",
        names = ["id", "pH", "Hardness", "Solids", "Chloramines", "Sulfate", "Conductivity", "OrganicCarbon", "Trihalomethanes",
                "Turbidity", "Potability"])

def tvalue(x, mean, std, n):
        return (x-mean)*math.sqrt(n)/std

def binomial(p1,p0, n):
        q0 = 1 - p0
        return(p1-p0) / math.sqrt(p0*q0/n)

# Nomor 4 Test Hipotesis Sampel 1
## A) Nilai Rata-rata pH di atas 7 
1. Tentukan hipotesis nol 

      $H_0$ : $\mu$ = 7
      
2. Tentukan hipotesis alternatif

      $H_1$ : $\mu$ > 7
    
3. Tentukan tingkat signifikan 
    
      $\alpha$ = 0.05
    
4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

      Uji statistik : Mean Test with variance unknown
      
      Daerah kritis : t > $t_{\alpha}$  :   t > 1.645

5. Hitung nilai uji statistik
6. t > $t_{\alpha}$, maka tolak hipotesis null. Jadi rata-rata pH di atas 7.

In [13]:
mean = 7
rataan = df['pH'].mean()
std = df['pH'].std()
n = df['pH'].count()

print("Nilai t : " +str(tvalue(rataan, mean, std, n)))
print("Nilai t-alpha : " +str(s.t.ppf(0.95, n - 1)))

pValue = s.norm.sf(abs(tvalue(rataan, mean, std, n)))
print("\nNilai P-value :" , pValue)
if (pValue > 0.05) :
    print("H0 gagal ditolak")
else :
    print("H0 ditolak")

Nilai t : 2.485445147379887
Nilai t-alpha : 1.6456124504017113

Nilai P-value : 0.006469476288896462
H0 ditolak


## B) Nilai Rata-rata Hardness tidak saama dengan 205
1. Tentukan hipotesis nol 

      $H_0$ : $\mu$ = 205
      
2. Tentukan hipotesis alternatif

      $H_1$ : $\mu$ $\neq$ 205
    
3. Tentukan tingkat signifikan 
    
      $\alpha$ = 0.05
    
4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

      Uji statistik : Two-Tailed Test
      
      Daerah kritis : t > $t_{\alpha/2}$ or t < -$t_{\alpha/2}$ 
      
                  : t > 1.96 or t < -1.96

5. Hitung nilai uji statistik
6. t < -$t_{\alpha/2}$, maka tolak hipotesis null. Jadi rata-rata Hardness tidak sama dengan 205.

In [15]:
mean = 205
rataan = df['Hardness'].mean()
std = df['Hardness'].std()
n = df['Hardness'].count()

print("Nilai t : " + str(tvalue(rataan, mean, std, n)))
print("Nilai t-alpha : " + str(s.t.ppf(0.975, n - 1)))

pValue = s.norm.sf(abs(tvalue(rataan, mean, std, n)))
print("\nNilai P-value :" , pValue)
if (pValue > 0.05) :
    print("H0 gagal ditolak")
else :
    print("H0 ditolak")

Nilai t : -12.403137170010732
Nilai t-alpha : 1.9611455060885261

Nilai P-value : 1.2564452447572327e-35
H0 ditolak


## C) Nilai Rata-rata 100 baris pertama kolom Solids bukan 21900  
1. Tentukan hipotesis nol 

      $H_0$ : $\mu$ = 21900
      
2. Tentukan hipotesis alternatif

      $H_1$ : $\mu$ $\neq$ 21900
    
3. Tentukan tingkat signifikan 
    
      $\alpha$ = 0.05
    
4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

      Uji statistik : Two-Tailed Test
      
      Daerah kritis : t > $t_{\alpha/2}$ or t < -$t_{\alpha/2}$ 
                    : t > 1.98 or t < -1.98

5. Hitung nilai uji statistik
6. t tidak berada pada daerah kritis. Hipotesis nol gagal ditolak sehingga tidak cukup bukti untuk menyimpulkan bahwa rata-rata 100 baris pertama kolom Solids bukan 21900.

In [16]:
sampel = df['Solids'].head(100)
mean = 21900
rataan = sampel.mean()
std = sampel.std()
n = sampel.size

print("Nilai t : " + str(tvalue(rataan, mean, std, n)))
print("Nilai t-alpha : " + str(s.t.ppf(0.975, n - 1)))

pValue = s.norm.sf(abs(tvalue(rataan, mean, std, n)))
print("\nNilai P-value :" , pValue)
if (pValue > 0.05) :
    print("H0 gagal ditolak")
else :
    print("H0 ditolak")

Nilai t : 0.5636797715721551
Nilai t-alpha : 1.9842169515086827

Nilai P-value : 0.2864860432327587
H0 gagal ditolak


## D) Proporsi nilai Conductivity yang lebih dari 450, adalah tidak sama dengan 10%
1. Tentukan hipotesis nol 

      $H_0$ : $p$ = 0.1
      
2. Tentukan hipotesis alternatif

      $H_1$ : $p$ $\neq$ 0.1
    
3. Tentukan tingkat signifikan 
    
      $\alpha$ = 0.05
    
4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

      Uji statistik : Uji Variabel Binomial X dengan p = p0
      
      Daerah kritis : z > $z_{\alpha/2}$ or z < -$z_{\alpha/2}$ 
                    : z > 1.96 or z < -1.96

5. z > $z_{\alpha/2}$. Hipotesis nol ditolak sehingga **Proporsi nilai Conductivity yang lebih dari 450, adalah tidak sama dengan 10%**.

In [18]:
sampel = df['Conductivity'].loc[df['Conductivity'] > 450]
p0 = 0.1
q0 = 1 - p0
n_sampel = sampel.size
n = df['Conductivity'].size
p1 = n_sampel / n

z = (p1-p0) / math.sqrt(p0*q0/n)
zalpha = s.norm.ppf(0.975)
print("Nilai z : " + str(z))
print("Nilai zalpha : " + str(zalpha))

pValue = s.norm.sf(abs(z))
print("\nNilai P-value :" , pValue)
if (pValue > 0.05) :
    print("H0 gagal ditolak")
else :
    print("H0 ditolak")

Nilai z : 40.44637613158932
Nilai zalpha : 1.959963984540054

Nilai P-value : 0.0
H0 ditolak


## E) Proporsi nilai Trihalomethanes yang kurang dari 40, adalah kurang dari 5%?
    
1. Tentukan hipotesis nol 

      $H_0$ : $p$ = 0.05
      
2. Tentukan hipotesis alternatif

      $H_1$ : $p$ < 0.05 (one-tailed test)
    
3. Tentukan tingkat signifikan 
    
      $\alpha$ = 0.05
    
4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

      Uji statistik : Uji Variabel Binomial X dengan p = p0

      Daerah kritis : z < -$z_\alpha$ : z < -1.645

5. Hitung nilai uji statistik
6. z tidak berada pada daerah kritis. Hipotesis nol gagal ditolak sehingga tidak cukup bukti untuk menyimpulkan bahwa Proporsi nilai Trihalomethanes yang kurang dari 40, adalah kurang dari 5%

In [19]:
sampel = df['Trihalomethanes'].loc[df['Trihalomethanes'] < 40]
p0 = 0.05
q0 = 1 - p0
n_sampel = sampel.size
n = df['Trihalomethanes'].size
zalpha = s.norm.ppf(0.95)
p1 = n_sampel / n

z = (p1-p0) / math.sqrt(p0*q0/n)

print("Nilai z : " + str(z))
print("Nilai zalpha : " + str(zalpha))

pValue = s.norm.sf(abs(z))
print("\nNilai P-value :" , pValue)
if (pValue > 0.05) :
    print("H0 gagal ditolak")
else :
    print("H0 ditolak")

Nilai z : 0.5628826416670951
Nilai zalpha : 1.6448536269514722

Nilai P-value : 0.286757400490763
H0 gagal ditolak
