In [None]:
from IPython.display import display, Markdown
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as st
import seaborn as sns

colsName = ["id", 
            "pH", 
            "Hardness", 
            "Solids", 
            "Chloramines", 
            "Sulfate", 
            "Conductivity", 
            "OrganicCarbon", 
            "Trihalomethanes", 
            "Turbidity", 
            "Potability"]
wp = pd.read_csv("./water_potability.csv", names = colsName)
display(wp)

Anda diminta untuk melakukan analisis statistika sebagai berikut:

**1. Menulis deskripsi statistika (Descriptive Statistics)** 

dari semua kolom pada data yang bersifat numerik, terdiri dari 
- mean 
- median 
- modus 
- standar deviasi 
- variansi
- range
- nilai minimum 
- nilai maksimum 
- kuartil 
- IQR
- skewness
- kurtosis
    
Boleh juga ditambahkan deskripsi lain.

In [None]:

wp = wp.drop(["id"], axis = 1)
wp_stats = pd.DataFrame(columns = colsName)

def concate_df(df_stats : pd.DataFrame, desc_stat) -> pd.DataFrame:
    if (isinstance(desc_stat, tuple)):
        return pd.concat([df_stats, desc_stat[0].to_frame(name = desc_stat[1]).T])
    else:
        return pd.concat([df_stats, desc_stat])

wp_stats = concate_df(wp_stats, (wp.mean(), "mean"))
wp_stats = concate_df(wp_stats, (wp.median(), "median"))
wp_stats = concate_df(wp_stats, (wp.std(), "std deviasi"))

range_stat = wp.describe().loc["max"] - wp.describe().loc["min"]
wp_stats = concate_df(wp_stats, (range_stat, "range"))

wp_stats = concate_df(wp_stats, (wp.min(), "min"))
wp_stats = concate_df(wp_stats, (wp.max(), "maks"))

quartile_stat = wp.describe().loc[["25%", "50%", "75%"]]
wp_stats = concate_df(wp_stats, quartile_stat)

IQR_stat = wp_stats.loc["75%"] - wp_stats.loc["25%"]
wp_stats = concate_df(wp_stats, (IQR_stat, "IQR"))

wp_stats = concate_df(wp_stats, (wp.skew(), "skewness"))
wp_stats = concate_df(wp_stats, (wp.kurt(), "kurtosis"))

display(wp_stats.head(13))

wp_mode_stat = wp.mode()
wp_mode_stat.index.name = "modus"
display(wp_mode_stat)

**2.    Membuat visualisasi plot distribusi dalam bentuk histogram dan boxplot untuk setiap kolom numerik**

Berikan uraian penjelasan kondisi setiap kolom berdasarkan kedua plot tersebut.

In [None]:
def box_hist_plot(col_data):
    fig, (ax_box, ax_hist) = plt.subplots(  nrows = 2,
                                            figsize = (14,10),
                                            sharex = True,
                                            gridspec_kw = {"height_ratios": (.15, .85)})
    sns.set(style = "ticks")

    sns.boxplot(x = col_data, ax = ax_box)
    sns.histplot(x = col_data, kde = True, ax = ax_hist)

    ax_box.set(yticks = [])
    sns.despine(ax = ax_hist)
    sns.despine(ax = ax_box, left = True)

    plt.show()

In [None]:
box_hist_plot(wp[colsName[0]])

**id**

Berdasarkan visualisasi kedua plot id di atas, terlihat bahwa data id terdistribusi normal dengan keruncingan yang relatif sangat landai. Perlu diperhatikan bawah data ini merupakan index dataset water_potability dan nilainya unik.

In [None]:
box_hist_plot(wp[colsName[1]])

**pH**

Berdasarkan kedua grafik pH di atas, terlihat bahwa data relatif mendekati terdistribusi normal, dengan nilai median pH dan modus porsiran pH yang relatif hampir sama. Terlihat juga bahwa data tervisualisasi relatif agak runcing. Selain itu, terdapat *outliers* atas dan bawah.

In [None]:
box_hist_plot(wp[colsName[2]])

***Hardness***

Seperti pada data pH, terlihat bahwa persebaran data *hardness* relatif mendekati terdistribusi normal. Namun, data *hardness* terlihat lebih tidak runcing dibandingkan data pH. Data *hardness* memiliki *outliers* atas dan bawah yang tampak lebih banyak dibandingkan data pH.

In [None]:
box_hist_plot(wp[colsName[3]])

***Solids***

Berdasarkan kedua grafik *solids* di atas, terlihat bahwa data *positivelyy skewed*, yakni persebaran data yang cenderung lebih banyak di nilai *solids* yang lebih kecil. Terlihat juga bahwa nilai porsiran modus data lebih kecil dibandingkan nilai median data. Median data atau nilai Q2 juga tampak lebih dekat dengan nilai Q1 dan elemen "minimum" dibandingkan dengan nilai Q3 dan elemen "maksimum". Selain itu, terlihat bahwa nilai *outliers* atas yang relatif banyak dan tidak ada nilai *outliers* bawah. Jika dibandingkan dengan data *hardness*, visualisasi data *solids* tampak relatif lebih landai.

In [None]:
box_hist_plot(wp[colsName[4]])

***Chloramines***

Berdasarkan kedua grafik *chloramines* di atas, terlihat bahwa persebaran data relatif mendekati terdistribusi normal atau simetris. Terlihat bahwa nilai porsiran modus data relatif sedikit lebih besar dibandingkan nilai median data. Median data atau nilai Q2 juga relatif tampak simetris terhadap nilai Q1 & elemen "minimum" dan nilai Q3 & elemen "maksimum". Selain itu, terlihat bahwa terdapat *outliers* atas dan bawah. Visualisasi persebaran data terlihat relatif agak runcing.

In [None]:
box_hist_plot(wp[colsName[5]])

***Sulfate***

Berdasarkan kedua grafik *sulfate* di atas, terlihat bahwa persebaran data relatif mendekati terdistribusi normal atau simetris. Terlihat bahwa nilai porsiran modus data relatif sedikit lebih kecil dibandingkan nilai median data. Median data atau nilai Q2 relatif sedikit lebih mendekati nilai Q1 & elemen "minimum" dibandingkan nilai Q3 & elemen "maksimum". Visualisasi persebaran data terlihat relatif lebih berada pada nilai *sulfate* yang lebih tinggi, salah satunya disebabkan terdapat *outliers* bawah yang nilainya relatif jauh lebih kecil dari elemen "minimum" boxplot dan *outliers* bawah lainnya. Visualisasi persebaran data juga terlihat relatif lebih runcing dibandingkan data *chloramines*.

In [None]:
box_hist_plot(wp[colsName[6]])

***Conductivity***

Berdasarkan kedua grafik *conductivity* di atas, terlihat bahwa persebaran data relatif cukup mendekati terdistribusi normal atau simetris. Terlihat bahwa nilai porsiran modus data relatif sedikit lebih besar dibandingkan nilai median data. Namun, perlu diperhatikan bahwa terdapat satu porsiran data yang jumlahnya relatif hampir sama dengan nilai modus tersebut dan nilainya relatif sedikit lebih kecil dibandingkan median data. Terhadap nilai Q1 dan Q3, nilai median atau Q2 relatif hampir simetris. Pun, selisih nilai elemen "minimum" boxplot dan Q1 terhadap selisih nilai elemen "maksimum" boxplot dan Q3 tampak relatif hampir mirip. Visualisasi persebaran data terlihat relatif lebih berada pada nilai *conductivity* yang lebih kecil, salah satunya disebabkan terdapat beberapa *outliers* atas, tetapi tidak terdapat nilai *outliers* bawah. Visualisasi persebaran data juga terlihat relatif cukup landai.

In [None]:
box_hist_plot(wp[colsName[7]])

***OrganicCarbon***

Berdasarkan kedua grafik *OrganicCarbon* di atas, terlihat bahwa persebaran data relatif cukup mendekati terdistribusi normal atau simetris. Terlihat bahwa nilai porsiran modus data lebih kecil dibandingkan nilai median data. Namun, perlu diperhatikan bahwa nilai-nilai porsiran data yang jumlahnya relatif hampir sama dengan nilai modus, seluruhnya relatif mendekati median dan nilainya lebih besar daripada nilai modus. Terhadap nilai Q1 dan Q3, nilai median atau Q2 relatif hampir simetris. Pun, selisih nilai elemen "minimum" boxplot dan Q1 terhadap selisih nilai elemen "maksimum" boxplot dan Q3 tampak relatif hampir sama. Terdapat *outliers* bawah dan atas. Baik *outliers* bawah maupun atas, terdapat *outlier* yang nilainya relatif cukup jauh terhadap nilai *outliers* lainnya (pada kelompoknya) dan juga terhadap nilai elemen "minimum" atau "maksimum" boxplot. Visualisasi persebaran data terlihat relatif sedang, yaitu tidak terlalu runcing dan tidak terlalu landai.

In [None]:
box_hist_plot(wp[colsName[8]])

***Trihalomethanes***

Berdasarkan kedua grafik *trihalomethanes* di atas, terlihat bahwa persebaran data relatif cukup mendekati terdistribusi normal atau simetris. Terlihat bahwa nilai porsiran modus data relatif sedikit lebih kecil dibandingkan nilai median data. Terhadap nilai Q1 dan Q3, nilai median atau Q2 relatif hampir simetris. Pun, selisih nilai elemen "minimum" boxplot dan Q1 terhadap selisih nilai elemen "maksimum" boxplot dan Q3 tampak relatif hampir sama. Terdapat *outliers* bawah dan atas. Visualisasi persebaran data terlihat relatif cukup runcing.

In [None]:
box_hist_plot(wp[colsName[9]])

***Turbidity***

Berdasarkan kedua grafik *turbidity* di atas, terlihat bahwa persebaran data relatif mendekati terdistribusi normal atau simetris. Terlihat bahwa nilai porsiran modus data relatif lebih kecil dibandingkan nilai median data. Namun, terdapat beberapa nilai yang banyaknya relatif mirip dengan nilai modus data dan nilai tersebut lebih besar dibandingkan nilai modus data. Terhadap nilai Q1 dan Q3, nilai median atau Q2 relatif hampir simetris. Pun, selisih nilai elemen "minimum" boxplot dan Q1 terhadap selisih nilai elemen "maksimum" boxplot dan Q3 tampak relatif hampir sama. Terdapat relatif sedikit *outliers* bawah dan atas. Visualisasi persebaran data terlihat relatif cukup landai.

In [None]:
box_hist_plot(wp[colsName[10]])

***Potability***

Berdasarkan kedua grafik *potability* di atas, dapat dilihat bahwa data *potability* hanya bernilai 0 atau 1. Terlihat juga bahwa data *potability* memiliki nilai modus dan median nol. Karena nilai 0 yang dapat dipastikan lebih banyak dibandingkan nilai 1, distribusi data relatif sedikit *positively skewed*.

**4. Melakukan test hipotesis 1 sampel**

dengan menuliskan 6 langkah testing dan menampilkan juga boxplotnya untuk kolom/bagian yang bersesuaian.

In [None]:
SAMPLE_SIZE = 345
sample_wp = wp.sample(SAMPLE_SIZE)

SIGNIFICANCE_BASE = 0.05
z_area = None

def z_crit_area(alpha, z_alpha, tailed_test : int) -> str:
    if (tailed_test == 1):
        if (alpha < 0):
            cmpr_sign = '<'
            alpha = -alpha

        else:
            cmpr_sign = '>'

        return  (
                    "- $"
                    "z " + cmpr_sign + " z_{" + str(alpha) + "} = " + str(z_alpha) + 
                    "$\n\n"
                )

    if (tailed_test == 2):
        return  (
                    "- $"
                    "z < z_{" + str(-alpha) + "} = " + str(-z_alpha) + "\\\\"
                    "z > z_{" + str(alpha) + "} = " + str(z_alpha) + "\\\\"
                    "$\n\n"
                )

def conclusion_z_test(z_val, alpha, z_alpha, tailed_test : int) -> str:
    """ Return string about evaluating z value of sample stats over critical area of z by significance value, and\n
        conclusion about the one-tailed or two-tailed hypothesis test """

    if tailed_test == 1:
        global z_area

        if (alpha < 0):
            z_area = "neg"

            alpha = -alpha
            z_alpha = -z_alpha

            if (z_val <= z_alpha):    
                return  (   
                            "Berdasarkan pengujian tersebut, karena nilai uji $z$ berada di daerah kritis, yaitu\n\n"
                            "- $"
                            "z = " + str(z_val) + " < z_{" + str(alpha) + "} = " + str(z_alpha) +
                            "$\n\n" 
                                
                            "maka $H_{0}$ ditolak\n\n"
                        )
            else:
                return  (   
                            "Berdasarkan pengujian tersebut, karena nilai uji $z$ tidak berada di daerah kritis, yaitu\n\n"
                            "- $"
                            "z = " + str(z_val) + " > z_{" + str(alpha) + "} = " + str(z_alpha) +
                            "$\n\n" 
                                
                            "maka $H_{0}$ gagal ditolak\n\n"
                        )

        else:
            z_area = "pos"
            
            if (z_val >= z_alpha):    
                return  (   
                            "Berdasarkan pengujian tersebut, karena nilai uji $z$ berada di daerah kritis, yaitu\n\n"
                            "- $"
                            "z = " + str(z_val) + " > z_{" + str(alpha) + "} = " + str(z_alpha) +
                            "$\n\n" 
                                
                            "maka $H_{0}$ ditolak\n\n"
                        )
            else:
                return  (   
                            "Berdasarkan pengujian tersebut, karena nilai uji $z$ tidak berada di daerah kritis, yaitu\n\n"
                            "- $"
                            "z = " + str(z_val) + " < z_{" + str(alpha) + "} = " + str(z_alpha) +
                            "$\n\n" 
                                
                            "maka $H_{0}$ gagal ditolak\n\n"
                        )
    
    elif tailed_test == 2:
        if (z_val <= -z_alpha or z_val >= z_alpha):
            if z_val <= -z_alpha:
                cmpr_sign = '<'
                z_area = "neg"
                z_alpha = -z_alpha
                alpha = -alpha
                
            elif z_val >= z_alpha:
                z_area = "pos"
                cmpr_sign = '>'

            return  (   
                        "Berdasarkan pengujian tersebut, karena nilai uji $z$ berada di salah satu daerah kritis, yaitu\n\n"
                        "- $"
                        "z = " + str(z_val) + cmpr_sign + " z_{" + str(alpha) + "} = " + str(z_alpha) +
                        "$\n\n" 
                            
                        "maka $H_{0}$ ditolak\n\n"
                    )
            
        else:
            return  (   
                        "Berdasarkan pengujian tersebut, karena nilai uji $z$ tidak berada di daerah kritis, yaitu\n\n"
                        "- $"
                        "z = " + str(z_val) + " > z_{" + str(-alpha) + "} = " + str(-z_alpha) + ", dan\\\\"
                        "z = " + str(z_val) + " < z_{" + str(alpha) + "} = " + str(z_alpha) +
                        "$\n\n" 
                            
                        "maka $H_{0}$ gagal ditolak\n\n"
                    )

def conclusion_p_val(z_val, p_val, alpha, z_area : str, conclusion : str):
    if (z_area == "neg"):
        cmpr_sign = '<'
    else: # (z_area == "pos")
        cmpr_sign = '>'

    if (p_val < alpha):
        return  (
                    "- $"
                    "P(Z " + cmpr_sign + " " + str(z_val) +") = " + str(p_val) +
                    "$\n\n"

                    "Dengan turut mengevaluasi terhadap nilai-$P$, yaitu\n\n"
                    "- $"
                    "P(Z " + cmpr_sign + " " + str(z_val) +") = " + str(p_val) + " < \\alpha = " + str(alpha) +
                    "$\n\n" 
                    
                    "maka benar bahwa $H_{0}$ ditolak sehingga $H_{1}$ diterima, yakni " + conclusion
                )
    else:
        return  (
                    "- $"
                    "P(Z " + cmpr_sign + " " + str(z_val) +") = " + str(p_val) +
                    "$\n\n"

                    "Dengan turut mengevaluasi terhadap nilai-$P$, yaitu\n\n"
                    "- $"
                    "P(Z " + cmpr_sign + " " + str(z_val) +") = " + str(p_val) + " > \\alpha = " + str(alpha) +
                    "$\n\n" 
                    
                    "maka benar bahwa $H_{0}$ gagal ditolak, yakni " + conclusion
                )
    
    
def calc_mean_z(data_mean, hyp_mean, data_std, tot_data):
    return tot_data**(0.5)*(data_mean - hyp_mean)/data_std

def calc_bin_z(real_prop, obs_prop, n_data):
    return (real_prop - obs_prop)/(obs_prop*(1-obs_prop)/n_data)**0.5

Dari total 2010 data, akan digunakan 345 sampel data untuk dilakukan pengujian hipotesis.

In [None]:
display(Markdown("#### 4.a. Nilai rata-rata pH di atas 7?"))

display(Markdown(
                    "**1. Menentukan hipotesis nol**\n\n"

                    "- $"
                    "H_{0}: \\mu_{pH} = 7"
                    "$\n\n"
                ))

display(Markdown(   
                    "**2. Pilih hipotesis alternatif**\n\n"

                    "Dengan menerapkan **one-tailed test** maka $H_{1}$ akan ditentukan sebagai berikut.\n\n"

                    "- $"
                    "H_{1}: \\mu_{pH} > 7"
                    "$\n\n"
                ))


display(Markdown(   
                    "**3. Menentukan tingkat signifikan $\\alpha$**\n\n"

                    "- $"
                    "\\alpha = " + str(SIGNIFICANCE_BASE) + 
                    "$\n\n"
                ))

z_alpha = st.norm.ppf(1 - SIGNIFICANCE_BASE)
display(Markdown(   
                    "**4. Menentukan uji statistik dan daerah kritis**\n\n"

                     + z_crit_area(SIGNIFICANCE_BASE, z_alpha, 1)
                ))

z_val = calc_mean_z(sample_wp["pH"].mean(), 7, sample_wp["pH"].std(), SAMPLE_SIZE)
display(Markdown(   
                    "**5. Menghitung nilai uji statistik**\n\n"

                    "- $"
                    "z = \\frac{\\bar{x} - \\mu_{0}}{\\frac{\\sigma}{\\sqrt{n}}}\\\\"
                    "z = " + str(z_val) +
                    "$\n\n"

                    + conclusion_z_test(z_val, SIGNIFICANCE_BASE, z_alpha, 1)
                ))


p_val = st.norm.sf(abs(z_val))

if (p_val < SIGNIFICANCE_BASE):
    conclusion = "nilai rata-rata pH di atas 7"
else:
    conclusion = "nilai rata-rata pH sama dengan 7"

display(Markdown(
                    "**6. Menghitung nilai-$P$ berdasarkan uji statistik yang digunakan**\n\n"

                    + conclusion_p_val(z_val, p_val, SIGNIFICANCE_BASE, z_area, conclusion)
                ))

sample_wp.boxplot(["pH"], figsize=(14,10))

In [None]:
display(Markdown("#### 4.b. Nilai rata-rata Hardness tidak sama dengan 205?"))

display(Markdown(
                    "**1. Menentukan hipotesis nol**\n\n"

                    "- $"
                    "H_{0}: \\mu_{hardness} = 205"
                    "$\n\n"
                ))

display(Markdown(   
                    "**2. Pilih hipotesis alternatif**\n\n"

                    "Dengan menerapkan **two-tailed test** maka $H_{1}$ akan ditentukan sebagai berikut.\n\n"

                    "- $"
                    "H_{1}: \\mu_{hardness} \\neq 205"
                    "$\n\n"
                ))


display(Markdown(   
                    "**3. Menentukan tingkat signifikan $\\alpha$**\n\n"

                    "- $"
                    "\\alpha = " + str(SIGNIFICANCE_BASE) + 
                    "$\n\n"
                ))

z_alpha = st.norm.ppf(1 - SIGNIFICANCE_BASE/2)
display(Markdown(   
                    "**4. Menentukan uji statistik dan daerah kritis**\n\n"

                    + z_crit_area(SIGNIFICANCE_BASE/2, z_alpha, 2)
                ))

z_val = calc_mean_z(sample_wp["Hardness"].mean(), 205, sample_wp["Hardness"].std(), SAMPLE_SIZE)
display(Markdown(   
                    "**5. Menghitung nilai uji statistik**\n\n"

                    + conclusion_z_test(z_val, SIGNIFICANCE_BASE/2, z_alpha, 2)
                ))

p_val = st.norm.sf(abs(z_val))

if (p_val < SIGNIFICANCE_BASE):
    conclusion = "nilai rata-rata Hardness tidak sama dengan 205"
else:
    conclusion = "Nilai rata-rata Hardness sama dengan 205"
    
display(Markdown(
                    "**6. Menghitung nilai-$P$ berdasarkan uji statistik yang digunakan**\n\n"

                    + conclusion_p_val(z_val, p_val, SIGNIFICANCE_BASE, z_area, conclusion)
                ))

sample_wp.boxplot(["Hardness"], figsize=(14,10))

- Nilai Rata-rata Hardness tidak sama dengan 205?

In [None]:
display(Markdown("#### 4.c. Nilai Rata-rata 100 baris pertama kolom Solids bukan 21900?"))

display(Markdown(
                    "**1. Menentukan hipotesis nol**\n\n"

                    "- $"
                    "H_{0}: \\mu_{Solids_{1,100}} = 21900"
                    "$\n\n"
                ))

display(Markdown(   
                    "**2. Pilih hipotesis alternatif**\n\n"

                    "Dengan menerapkan **two-tailed test** maka $H_{1}$ akan ditentukan sebagai berikut.\n\n"

                    "- $"
                    "H_{1}: \\mu_{Solids_{1,100}} \\neq 21900"
                    "$\n\n"
                ))


display(Markdown(   
                    "**3. Menentukan tingkat signifikan $\\alpha$**\n\n"

                    "- $"
                    "\\alpha = " + str(SIGNIFICANCE_BASE) + 
                    "$\n\n"
                ))

z_alpha = st.norm.ppf(1 - SIGNIFICANCE_BASE/2)
display(Markdown(   
                    "**4. Menentukan uji statistik dan daerah kritis**\n\n"

                    "Dengan menguji terhadap **distribusi normal $z$**, didapat daerah-daerah kritis sebagai berikut.\n\n"

                    + z_crit_area(SIGNIFICANCE_BASE/2, z_alpha, 2)
                ))


z_val = calc_mean_z(sample_wp["Solids"].iloc[:100].mean(), 21900, sample_wp["Solids"].iloc[:100].std(), SAMPLE_SIZE)
display(Markdown(   
                    "**5. Menghitung nilai uji statistik**\n\n"

                    + conclusion_z_test(z_val, SIGNIFICANCE_BASE/2, z_alpha, 2)
                ))

p_val = st.norm.sf(abs(z_val))

if (p_val < SIGNIFICANCE_BASE):
    conclusion = "nilai Rata-rata 100 baris pertama kolom Solids bukan 21900"
else:
    conclusion = "nilai Rata-rata 100 baris pertama kolom Solids adalah 21900"

display(Markdown(
                    "**6. Menghitung nilai-$P$ berdasarkan uji statistik yang digunakan**\n\n"

                    + conclusion_p_val(z_val, p_val, SIGNIFICANCE_BASE, z_area, conclusion)
                ))

sample_wp.boxplot(["Solids"], figsize=(14,10))

In [None]:
display(Markdown("#### 4.d. Proporsi nilai Conductivity yang lebih dari 450, adalah tidak sama dengan 10%?"))

display(Markdown(
                    "**1. Menentukan hipotesis nol**\n\n"

                    "- $"
                    "H_{0}: P_{conductivity > 450} = 10\\%"
                    "$\n\n"
                ))

display(Markdown(   
                    "**2. Pilih hipotesis alternatif**\n\n"

                    "Dengan menerapkan ***two-tailed test*** maka $H_{1}$ akan ditentukan sebagai berikut.\n\n"

                    "- $"
                    "H_{1}: P_{conductivity > 450} \\neq 10\\%"
                    "$\n\n"
                ))


display(Markdown(   
                    "**3. Menentukan tingkat signifikan $\\alpha$**\n\n"

                    "- $"
                    "\\alpha = " + str(SIGNIFICANCE_BASE) + 
                    "$\n\n"

                ))

z_alpha = st.norm.ppf(1 - SIGNIFICANCE_BASE/2)
display(Markdown(   
                    "**4. Menentukan uji statistik dan daerah kritis**\n\n"

                    "Dengan menguji terhadap **Binomial didekati normal**, didapat daerah-daerah kritis sebagai berikut.\n\n"

                    + z_crit_area(SIGNIFICANCE_BASE/2, z_alpha, 2)
                ))

tot_obs_data = len(sample_wp["Conductivity"].loc[sample_wp["Conductivity"] > 450])
sample_prop = tot_obs_data / SAMPLE_SIZE
z_val = calc_bin_z(sample_prop, 0.1, SAMPLE_SIZE)
display(Markdown(   
                    "**5. Menghitung nilai uji statistik**\n\n"

                    "- $"
                    "z = \\frac{\\hat{p} - p_{0}}{\\sqrt{\\frac{p_{0}q_{0}}{n}}}\\\\"
                    "\\\\ \\\\"
                    "\\hat{p} = " + str(sample_prop) +
                    "\\\\"
                    "p_{0} = 0.1" 
                    "\\\\"
                    "q_{0} = 0.9"
                    "\\\\ \\\\"
                    "z = " + str(z_val) +
                    "$\n\n"

                    + conclusion_z_test(z_val, SIGNIFICANCE_BASE/2, z_alpha, 2)
                ))

p_val = st.norm.sf(abs(z_val))

if (p_val < SIGNIFICANCE_BASE):
    conclusion = "proporsi nilai Conductivity yang lebih dari 450, adalah tidak sama dengan 10%"
else:
    conclusion = "proporsi nilai Conductivity yang lebih dari 450, adalah sama dengan 10%"

display(Markdown(
                    "**6. Menghitung nilai-$P$ berdasarkan uji statistik yang digunakan**\n\n"

                    "- $"
                    "P(Z > " + str(z_val) +") = " + str(p_val) +
                    "$\n\n"

                    + conclusion_p_val(z_val, p_val, SIGNIFICANCE_BASE, z_area, conclusion)
                ))

sample_wp.boxplot(["Conductivity"], figsize = (14,10))


In [None]:
display(Markdown("#### 4.e. Proporsi nilai Trihalomethanes yang kurang dari 40, adalah kurang dari 5%?"))

display(Markdown(
                    "**1. Menentukan hipotesis nol**\n\n"

                    "- $"
                    "H_{0}: P_{Trihalomethanes < 450} = 5\\%"
                    "$\n\n"
                ))

display(Markdown(   
                    "**2. Pilih hipotesis alternatif**\n\n"

                    "Dengan menerapkan ***one-tailed test*** maka $H_{1}$ akan ditentukan sebagai berikut.\n\n"

                    "- $"
                    "H_{1}: P_{Trihalomethanes < 450} < 5\\%"
                    "$\n\n"
                ))


display(Markdown(   
                    "**3. Menentukan tingkat signifikan $\\alpha$**\n\n"

                    "- $"
                    "\\alpha = " + str(SIGNIFICANCE_BASE) + 
                    "$\n\n"
                ))

z_alpha = st.norm.ppf(1 - SIGNIFICANCE_BASE)
display(Markdown(   
                    "**4. Menentukan uji statistik dan daerah kritis**\n\n"

                    "Dengan menguji terhadap **Binomial didekati normal**, didapat daerah kritis sebagai berikut.\n\n"

                    + z_crit_area(SIGNIFICANCE_BASE, z_alpha, 1)
                ))

tot_obs_data = len(sample_wp["Trihalomethanes"].loc[sample_wp["Trihalomethanes"] < 40])
sample_prop = tot_obs_data / SAMPLE_SIZE
z_val = calc_bin_z(sample_prop, 0.05, SAMPLE_SIZE)
display(Markdown(   
                    "**5. Menghitung nilai uji statistik**\n\n"

                    "- $"
                    "z = \\frac{\\hat{p} - p_{0}}{\\sqrt{\\frac{p_{0}q_{0}}{n}}}\\\\"
                    "\\\\ \\\\"
                    "\\hat{p} = " + str(sample_prop) +
                    "\\\\"
                    "p_{0} = 0.05" 
                    "\\\\"
                    "q_{0} = 0.95"
                    "\\\\ \\\\"
                    "z = " + str(z_val) +
                    "$\n\n"

                    + conclusion_z_test(z_val, SIGNIFICANCE_BASE, z_alpha, 1)
                ))

p_val = st.norm.sf(abs(z_val))

if (p_val < SIGNIFICANCE_BASE):
    conclusion = "proporsi nilai Trihalomethanes yang kurang dari 40, adalah kurang dari 5%"
else:
    conclusion = "Proporsi nilai Trihalomethanes yang kurang dari 40, adalah 5%"

display(Markdown(
                    "**6. Menghitung nilai-$P$ berdasarkan uji statistik yang digunakan**\n\n"

                    + conclusion_p_val(z_val, p_val, SIGNIFICANCE_BASE, z_area, conclusion)
                ))

sample_wp.boxplot(["Trihalomethanes"], figsize = (14,10))


