<i> Markuis Graylee adalah seorang metuber yang membuat konten mengenai produk-produk elektronik. Untuk salah satu ide kontennya, ia ingin mereview smartphone yang telah dirilis oleh beberapa perusahaan. Sebagai pendukung penelitian kontennya, ia memiliki akses pada sebuah dataset yang berisi informasi-informasi relevan yang dapat diteliti untuk menilai produk-produk yang dirilis perusahaan. Markuis juga ingin menemukan pola-pola atau hubungan yang dimiliki oleh produk-produk tersebut agar ia dapat mengetahui tren yang ada pada dunia per-smartphone-an.

Atribut: 
- battery_power
- clock_speed
- ram
- n_cores
- use_time
- px_width
- px_height
- brand
- 5g
- grade
- price 
</i>

<b>Gunakan alpha = 0.05</b>


# No. 5 Hipotesis 1 Sampel

In [None]:
import pandas as pd
import scipy.stats as stats
from scipy.stats import norm
%run util.py

In [None]:
import scipy.stats as stats
import scipy.special as special
import math

def t_distribution(t, df):
    # distribusi t
    # f(x|df) = gamma((df+1)/2) / (sqrt(df*pi) * gamma(df/2)) * (1 + t^2/df)^-((df+1)/2)
    pembilang = special.gamma((df + 1) / 2)
    penyebut = (special.gamma(df / 2) * math.sqrt(df * math.pi))
    pengali = 1 + ((t ** 2) / df)
    pangkat = -((df + 1) / 2)

    return (((pembilang / penyebut) * (pengali ** pangkat)))

def count_p_value(t, df, tailed):
    # menghitung p-value
    if tailed == 2: # two-tailed
        return 2 * stats.t.sf(abs(t), df)
    elif tailed == 1: # one-tailed right
        return stats.t.sf(t, df)
    else:
        return stats.t.sf(-t, df)

def count_t(x_bar, mu, s, n):
    # menghitung t
    return (x_bar - mu) / (s / math.sqrt(n))

def count_p_value_with_z(z, tailed):
    # menghitung p-value
    if tailed == 2: # two-tailed
        return 2 * stats.norm.sf(abs(z))
    elif tailed == 1: # one-tailed right
        return stats.norm.sf(z)
    else:
        return stats.norm.sf(-z)

def count_z_in_proportion_test(p, p0, n):
    # menghitung z
    return (p - p0) / math.sqrt((p0 * (1 - p0)) / n)

In [None]:
def changeOutliers(data, atribut):
    # Mengganti outliers dengan nilai median
    Q1 = myQ1(data, atribut)
    Q3 = myQ3(data, atribut)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    data.loc[(data[atribut] < lower_bound) | (data[atribut] > upper_bound), atribut] = data[atribut].median()
    return data

# Mengganti outliers dengan nilai median
DATA = changeOutliers(DATA, "battery_power")
DATA = changeOutliers(DATA, "clock_speed")
DATA = changeOutliers(DATA, "ram")
DATA = changeOutliers(DATA, "n_cores")
DATA = changeOutliers(DATA, "use_time")
DATA = changeOutliers(DATA, "px_width")
DATA = changeOutliers(DATA, "px_height")
DATA = changeOutliers(DATA, "5g")
DATA = changeOutliers(DATA, "price")

## 5.1 Testimoni dari pengguna banyak yang menyatakan bahwa kapasitas baterai yang digunakan kurang dari sewajarnya. Periksa apakah battery_power memiliki rata-rata di atas 1800?

Untuk memeriksa apakah rata-rata kapasitas baterai (battery_power) di atas 1800, akan digunakan uji hipotesis untuk rata-rata populasi. <br>Dalam kasus ini, akan digunakan uji t satu sampel karena kita tidak mengetahui standar deviasi dari populasi.

Langkah-langkah:
1. Hipotesis :
      $$H_0 : μ = 1800$$                 
      $$H_1 : μ > 1800$$
      μ = 1800 akan mewakili testimoni pelanggan (μ ≤ 1800)
      
2. Tingkat signifikansi : 
      $$α = 0.05$$

3. Tes statistik :
   <br>Akan digunakan uji t. Statistik uji t untuk rata-rata populasi adalah:
      $$t = (x_{bar} - μ_0) / (s / √n)$$
      dengan derajat kebebasan
      $$v = n - 1$$
      dimana:
      - xbar      : rata-rata sampel
      - μ0        : rata-rata yang diuji
      - s         : standar deviasi sampel
      - n         : ukuran sampel

    Adapun daerah kritis untuk uji hipotesis satu arah kanan dengan 
    $$α = 0.05 $$
    $$v = 1999$$
    $$v → ∞$$ 
    adalah:

    $$t_{kritis} > t_{0.05}$$
    <br>dari tabel distribusi t, diperoleh
    $$t_{kritis} > 1.645$$

4. Hitung P_Value dari X
   - Pertama hitung nilai t_{score} untuk X_{bar} dengan rumus sebelumnya
   - Cari nilai P-Value untuk P(t > t_score)
      $$P_{Value} = P(t > t_{score})$$

In [None]:
miu_0 = 1800
alpha = 0.05
n = len(DATA)

# perhitungan rata-rata dan standar deviasi
my_x_bar = myMean(DATA, "battery_power")
my_s = myStdDev(DATA, "battery_power")

library_x_bar = DATA["battery_power"].mean()
library_s = DATA["battery_power"].std()

# ciritcal value
critical_value = stats.t.ppf(1 - alpha, len(DATA) - 1)  # dikurang 1 karena ppf menghitung kumulatif dari kiri, bukan kanan
                                                        # sedangkan uji yang dilakukan adalah uji one-tailed right

# perhitungan t
my_t = (count_t(my_x_bar, miu_0, my_s, len(DATA)))
library_t = (stats.ttest_1samp(DATA["battery_power"], miu_0))

# perhitungan p-value
my_p_value = count_p_value(my_t, n, 1)
library_p_value = library_t.pvalue

print("    My x_bar: ", my_x_bar.round(5))
print("    Library x_bar: ", library_x_bar.round(5))
print()
print("    My s: ", my_s.round(5))
print("    Library s: ", library_s.round(5))
print()
print("    Critical value: ", critical_value.round(5))
print()
print("    My t: ", my_t.round(5))
print("    Library t: ", library_t.statistic.round(5))
print()
print("    My P-value: ", my_p_value.round(5))
print("    Library P-value: ", library_p_value.round(5))

5. Diperoleh P_value untuk kedua perhitungan (fungsi buatan sendiri dan library) = 0.
    <br> Karena P_value < α (P_value < 0.05), maka hipotesis H0 ditolak dan kita menerima hipotesis H1.
    <br> Disimpulkan bahwa terdapat bukti yang signifikan bahwa rata-rata kapasitas baterai (μ) lebih besar dari 1800.

## 5.2 Standar RAM yang dimiliki oleh suatu smartphone sekarang adalah 8 GB. Periksalah apakah rata-rata ram smartphone pada dataset adalah 8 GB?

Untuk memeriksa apakah rata-rata RAM (ram) adalah 8 GB, akan digunakan uji hipotesis untuk rata-rata populasi. <br>Dalam kasus ini, akan digunakan uji t satu sampel karena kita tidak mengetahui standar deviasi dari populasi.

Langkah-langkah:
1. Hipotesis :
      $$H_0 : μ = 8$$                 
      $$H_1 : μ ≠ 8$$
      
2. Tingkat signifikansi : 
      $$α = 0.05$$

3. Tes statistik :
   <br>Akan digunakan uji t. Statistik uji t untuk rata-rata populasi adalah:
      $$t = (x_{bar} - μ_0) / (s / √n)$$
      dengan derajat kebebasan
      $$v = n - 1$$
      dimana:
      - xbar      : rata-rata sampel
      - μ0        : rata-rata yang diuji
      - s         : standar deviasi sampel
      - n         : ukuran sampel

    Adapun daerah kritis untuk uji hipotesis dua arah dengan 
    $$α = 0.05 $$
    $$v = 1999$$
    $$v → ∞$$ 
    adalah:

    $$t_{kritis} < t_{-0.025} ∪ t_{kritis} > t_{0.025}$$
    <br>dari tabel distribusi t, diperoleh
    $$t_{kritis} < -1.960 ∪ t_{kritis} > 1.960$$

4. Hitung P_Value dari X
   - Pertama hitung nilai t_score untuk X_bar dengan rumus sebelumnya
   - Cari nilai P-Value untuk P(t > t_score)
      $$P_{Value} = 2P(t > t_{score})$$

In [None]:
miu_0 = 8
alpha = 0.05
n = len(DATA)

# perhitungan rata-rata dan standar deviasi
my_x_bar = myMean(DATA, "ram")
my_s = myStdDev(DATA, "ram")

library_x_bar = DATA["ram"].mean()
library_s = DATA["ram"].std()

# ciritcal value uji 2 arah
# ciritcal value
critical_value_kanan = stats.t.ppf(1 - alpha / 2, n - 1)  # dikurang 1 karena ppf menghitung kumulatif dari kiri, bukan kanan
                                                          # sedangkan uji yang dilakukan adalah uji one-tailed right
critical_value_kiri = stats.t.ppf(alpha / 2, n - 1)

# perhitungan t
my_t = (count_t(my_x_bar, miu_0, my_s, len(DATA)))
library_t = (stats.ttest_1samp(DATA["ram"], miu_0))

# perhitungan p-value
my_p_value = count_p_value(my_t, n, 2)
library_p_value = library_t.pvalue

print("    My x_bar: ", my_x_bar.round(5))
print("    Library x_bar: ", library_x_bar.round(5))
print()
print("    My s: ", my_s.round(5))
print("    Library s: ", library_s.round(5))
print()
print("    Critical value: ", critical_value_kiri.round(5))
print("    Critical_value: ", critical_value_kanan.round(5))
print()
print("    My t: ", my_t.round(5))
print("    Library t: ", library_t.statistic.round(5))
print()
print("    My P-value: ", my_p_value.round(5))
print("    Library P-value: ", library_p_value.round(5))

5. Diperoleh P_value untuk kedua perhitungan (fungsi buatan sendiri dan library) = 0.
    <br> Karena P_value < α (P_value < 0.05), maka hipotesis H0 ditolak dan kita menerima hipotesis H1.
    <br> Disimpulkan bahwa rata-rata RAM dari smartphone yang terdapat di dalam dataset berbeda secara signifikan dari 8 GB (μ ≠ 8)

## 5.3 Periksa apakah 250 data pertama pada dataset memiliki rata-rata kecepatan clocking (clock_speed) tidak sama dengan 1!

Pertama, ambil terlebih dahulu 250 data pertama di dataset.

In [None]:
# Pertama, ambil terlebih dahulu 250 data pertama di dataset.
tempData = DATA.head(250)


Untuk memeriksa apakah rata-rata kecepatan clocking (clock_speed) tidak sama dengan 1, dapat dilakukan uji hipotesis dua arah. <br>Dalam kasus ini, akan digunakan uji t satu sampel karena kita tidak mengetahui standar deviasi dari populasi.

Langkah-langkah:
1. Hipotesis :
      $$H_0 : μ = 1$$                 
      $$H_1 : μ ≠ 1$$
      
2. Tingkat signifikansi : 
      $$α = 0.05$$

3. Tes statistik :
   <br>Akan digunakan uji t. Statistik uji t untuk rata-rata populasi adalah:
      $$t = (x_{bar} - μ_0) / (s / √n)$$
      dengan derajat kebebasan
      $$v = n - 1$$
      dimana:
      - xbar      : rata-rata sampel
      - μ0        : rata-rata yang diuji
      - s         : standar deviasi sampel
      - n         : ukuran sampel

    Adapun daerah kritis untuk uji hipotesis dua arah dengan 
    $$α = 0.05 $$
    $$v = 250$$
    $$v → ∞$$ 
    adalah:

    $$t_{kritis} < t_{-0.025} ∪ t_{kritis} > t_{0.025}$$
    <br>dari tabel distribusi t, diperoleh
    $$t_{kritis} < -1.960 ∪ t_{kritis} > 1.960$$

4. Hitung P_Value dari X
   - Pertama hitung nilai t_score untuk X_bar dengan rumus sebelumnya
   - Cari nilai P-Value untuk P(t > t_score)
      $$P_{Value} = 2P(t > t_{score})$$

In [None]:
miu_0 = 1
alpha = 0.05
n = len(tempData)

# perhitungan rata-rata dan standar deviasi
my_x_bar = myMean(tempData, "clock_speed")
my_s = myStdDev(tempData, "clock_speed")

library_x_bar = tempData["clock_speed"].mean()
library_s = tempData["clock_speed"].std()

# ciritcal value
critical_value_kanan = stats.t.ppf(1 - alpha / 2, n - 1)  # dikurang 1 karena ppf menghitung kumulatif dari kiri, bukan kanan
                                                          # sedangkan uji yang dilakukan adalah uji one-tailed right
critical_value_kiri = stats.t.ppf(alpha / 2, n - 1)
# perhitungan t
my_t = (count_t(my_x_bar, miu_0, my_s, n))
library_t = (stats.ttest_1samp(tempData["clock_speed"], miu_0))

# perhitungan p-value
my_p_value = count_p_value(my_t, n, 2)
library_p_value = library_t.pvalue

print("    My x_bar: ", my_x_bar.round(5))
print("    Library x_bar: ", library_x_bar.round(5))
print()
print("    My s: ", my_s.round(5))
print("    Library s: ", library_s.round(5))
print()
print("    Critical value: ", critical_value_kiri.round(5))
print("    Critical value: ", critical_value_kanan.round(5))
print()
print("    My t: ", my_t.round(5))
print("    Library t: ", library_t.statistic.round(5))
print()
print("    My P-value: ", my_p_value.round(5))
print("    Library P-value: ", library_p_value.round(5))
print("    is p-value < alpha? ", my_p_value < alpha)
print("    is p-value < alpha? ", library_p_value < alpha)

5. Diperoleh P_value untuk kedua perhitungan (fungsi buatan sendiri dan library) < α.
    <br> Karena P_value < α (P_value < 0.05), kita memiliki bukti yang cukup untuk menolak hipotesis nol. 
    <br> Oleh karena itu, kita menyimpulkan bahwa rata-rata kecepatan clocking (clock_speed) dari 250 data pertama pada dataset secara signifikan berbeda dari 1.

## 5.4 Periksalah apakah data smartphone dengan merek “appa” yang memiliki rata-rata waktu penggunaan (use_time) lebih dari 8.5 tidak sama dengan 35% dari data keseluruhan?

Pertama, ambil terlebih dahulu 250 data pertama di dataset.

In [None]:
tempData = DATA[DATA["brand"] == "appa"]

Untuk memeriksa apakah rata-rata data smartphone dengan merek “appa” yang memiliki rata-rata waktu penggunaan (use_time) lebih dari 8.5 tidak sama dengan 35% dari data keseluruhan dapat dilakukan uji hipotesis proporsi dua arah.

Langkah-langkah:
1. Hipotesis :
      $$H_0 : p = 0.35$$                 
      $$H_1 : p ≠ 0.35$$
      
2. Tingkat signifikansi : 
      $$α = 0.05$$

3. Tes statistik :
   <br>Akan digunakan uji z (distribusi binomial didekati dengan distribusi normal)
      $$z = (p_{hat} - p_0) / √(p_0q_0/n)$$
      dimana:
      - p_hat     : proporsi sample
      - p0        : proporsi yang dihipotesiskan
      - q0        : 1 - p0
      - n         : ukuran sampel

    Adapun daerah kritis untuk uji hipotesis dua arah dengan 
    $$α = 0.05 $$
    adalah:

    $$z_{kritis} < z_{-0.025} ∪ z_{kritis} > z_{0.975}$$
    <br>dari tabel distribusi normal, diperoleh
    $$z_{kritis} < -1.96 ∪ z_{kritis} > 1.96$$

4. Hitung P_Value dari X
   - Pertama hitung nilai z_score
   - Cari nilai P-Value untuk P(z > z_score)
      $$P_{Value} = 2P(t > t_{score})$$

In [None]:
# 5.4 Periksalah apakah data smartphone dengan merek “appa” yang memiliki rata-rata waktu penggunaan (use_time) lebih dari 8.5 tidak sama dengan 35% dari data keseluruhan?
p0 = 0.35
q0 = 1 - p0
alpha = 0.05
n = len(tempData)
x = len(tempData[tempData["use_time"] > 8.5])

# critical value
critical_value_kiri = stats.norm.ppf(alpha / 2)
critical_value_kanan = stats.norm.ppf(1 - alpha / 2)

# perhitungan z_score
p_hat = x / n

my_z = count_z_in_proportion_test(p_hat, p0, n)
library_z = count_z_in_proportion_test(p_hat, p0, n)

# perhitungan p-value
my_p_value = count_p_value_with_z(my_z, 2)
library_p_value = 2*stats.norm.sf(abs(library_z))

print("    p0: ", p0)
print("    n: ", n)
print("    x: ", x)
print()
print("    My z: ", round(my_z,5))
print("    Library z: ", round(library_z,5))
print()
print("    Critical value: ", critical_value_kiri.round(5))
print("    Critical value: ", critical_value_kanan.round(5))
print()
print("    My P-value: ", my_p_value)
print("    Library P-value: ", library_p_value)
print("    is p-value < alpha? ", my_p_value < alpha)
print("    is p-value < alpha? ", library_p_value < alpha)

5. Diperoleh P_value untuk kedua perhitungan (fungsi buatan sendiri dan library) > α.
    <br> Karena P_value > α (P_value > 0.05), kita tidak memiliki bukti yang cukup untuk menolak hipotesis nol. Artinya kita akan menerima hipotesis no
    <br> Oleh karena itu, kita menyimpulkan bahwa proporsi smartphone merek "appa" dengan rata-rata waktu penggunaan lebih dari 8.5 sama dengan 35% dari data keseluruhan.

- Tentukan Hipotesis nol (H0: θ = θ0), dimana θ bisa berupa μ, σ2, p, atau data lain berdistribusi tertentu (normal, binomial, dsc.). 
- Pilih hipotesis alternatif H1 salah dari dari θ > θ0, θ < θ0, atau θ ≠ θ0. 
- Tentukan tingkat signifikan α.
- Tentukan uji statistik yang sesuai dan tentukan daerah kritis. 
- Hitung nilai uji statistik dari data sample. Hitung p-value sesuai dengan uji statistik yang digunakan. 
- Ambil keputusan dengan TOLAK H0 jika nilai uji terletak di daerah kritis atau dengan tes signifikan, TOLAK H0 jika p-value lebih kecil dibanding tingkat signifikansi α yang diinginkan 