In [2]:
# mengimport library pandas
import pandas as pd
import scipy.stats as s
import math


# membaca file csv
df = pd.read_csv("water_potability.csv",
        names = ["id", "pH", "Hardness", "Solids", "Chloramines", "Sulfate", "Conductivity", "OrganicCarbon", "Trihalomethanes",
                "Turbidity", "Potability"])

def zvalue(x, mean, std, n):
  return (x-mean)*math.sqrt(n)/std
def ptoz(p):
  return s.norm.ppf(p)
def ztop(z):
  return s.norm.cdf(z)
def ztwotestmean(d0, x1, x2, var1, var2, n1, n2):
  return((x1 - x2) - d0)/math.sqrt((var1/n1) + (var2/n2))

# Nomor 4 Test Hipotesis Sampel 1
## A) Nilai Rata-rata pH di atas 7 
1. Tentukan hipotesis nol 

      $H_0$ : $\mu$ = 7
      
2. Tentukan hipotesis alternatif

      $H_1$ : $p$ > 7
    
3. Tentukan tingkat signifikan 
    
      $\alpha$ = 0.05
    
4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

      Uji statistik : One-Tailed Test
      
      Daerah kritis : z > -$z_{\alpha}$ 
                    : z > 1.645

5. Hitung nilai uji statistik
6. z > -$z_{\alpha}$, maka tolak hipotesis null. Jadi rata-rata pH di atas 7.

In [20]:
mean = 7
rataan = df['pH'].mean()
std = df['pH'].std()
n = df['pH'].count()

print("Nilai z : " +str(zvalue(rataan, mean, std, n)))
print("Nilai z-alpha : " +str(ptoz(0.95)))

Nilai z : 2.485445147379887
Nilai z-alpha : 1.6448536269514722


## B) Nilai Rata-rata Hardness tidak saama dengan 205
1. Tentukan hipotesis nol 

      $H_0$ : $\mu$ = 205
      
2. Tentukan hipotesis alternatif

      $H_1$ : $p$ $\neq$ 205
    
3. Tentukan tingkat signifikan 
    
      $\alpha$ = 0.05
    
4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

      Uji statistik : Two-Tailed Test
      
      Daerah kritis : z > $z_{\alpha/2}$ or z < -$z_{\alpha/2}$ 
                    : z > 1.96 or z < -1.96

5. Hitung nilai uji statistik
6. z < $z_{\alpha/2}$, maka tolak hipotesis null. Jadi rata-rata Hardness tidak sama dengan 205.

In [21]:
mean = 205
rataan = df['Hardness'].mean()
std = df['Hardness'].std()
n = df['Hardness'].count()

print("Nilai t : " + str(zvalue(rataan, mean, std, n)))
print("Nilai t-alpha : " + str(ptoz(0.975)))

Nilai t : -12.403137170010732
Nilai t-alpha : 1.959963984540054


## C) Nilai Rata-rata 100 baris pertama kolom Solids bukan 21900  
1. Tentukan hipotesis nol 

      $H_0$ : $\mu$ = 21900
      
2. Tentukan hipotesis alternatif

      $H_1$ : $p$ $\neq$ 21900
    
3. Tentukan tingkat signifikan 
    
      $\alpha$ = 0.05
    
4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

      Uji statistik : Two-Tailed Test
      
      Daerah kritis : z > $z_{\alpha/2}$ or z < -$z_{\alpha/2}$ 
                    : z > 1.96 or z < -1.96

5. Hitung nilai uji statistik
6. z < $z_{\alpha/2}$, maka tolak hipotesis null. Jadi rata-rata 100 baris pertama kolom solids bukan 21900.

In [18]:
sampel = df['Solids'].head(100)
mean = 21900
rataan = sampel.mean()
std = sampel.std()
n = sampel.count()

print("Nilai t : " + str(zvalue(rataan, mean, std, n)))
print("Nilai t-alpha : " + str(ptoz(0.975)))

Nilai t : 0.5636797715721551
Nilai t-alpha : 1.959963984540054


## D) Proporsi nilai Conductivity yang lebih dari 450, adalah tidak sama dengan 10%
1. Tentukan hipotesis nol 

      $H_0$ : $p$ = 0.1
      
2. Tentukan hipotesis alternatif

      $H_1$ : $p$ $\neq$ 0.1
    
3. Tentukan tingkat signifikan 
    
      $\alpha$ = 0.05
    
4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

      Uji statistik : Uji Variabel Binomial X dengan p = p0
      
      Daerah kritis : z > $z_{\alpha/2}$ or z < -$z_{\alpha/2}$ 
                    : z > 1.96 or z < -1.96

5. Hitung nilai uji statistik

In [19]:
sampel = df['Conductivity'].loc[df['Conductivity'] > 450]
p0 = 0.1
q0 = 1 - p0
talpha = ptoz(0.975)
n_sampel = sampel.count()
n = df['Conductivity'].count()
p1 = n_sampel / n

z = (p1-p0) / math.sqrt(p0*q0/n)

print("Nilai t : " + str(z))
print("Nilai talpha : " + str(talpha))

Nilai t : 40.44637613158932
Nilai talpha : 1.959963984540054


## E) Proporsi nilai Trihalomethanes yang kurang dari 40, adalah kurang dari 5%?
    
1. Tentukan hipotesis nol 

      $H_0$ : $p$ = 0.05
      
2. Tentukan hipotesis alternatif

      $H_1$ : $p$ < 0.05 (one-tailed test)
    
3. Tentukan tingkat signifikan 
    
      $\alpha$ = 0.05
    
4. Tentukan uji statistik yang sesuai dan tentukan daerah kritis.

      Uji statistik : Uji Variabel Binomial X dengan p = p0

      Daerah kritis : z < -$z_\alpha$ : z < -1.645

5. Hitung nilai uji statistik

In [20]:
sampel = df['Trihalomethanes'].loc[df['Trihalomethanes'] < 40]
p0 = 0.05
q0 = 1 - p0
talpha = ptoz(0.95)
n_sampel = sampel.count()
n = df['Trihalomethanes'].count()
p1 = n_sampel / n

z = (p1-p0) / math.sqrt(p0*q0/n)

print("Nilai t : " + str(z))
print("Nilai talpha : " + str(talpha))

Nilai t : 0.5628826416670951
Nilai talpha : 1.6448536269514722
