<h1 style="text-align: center">Statistika Inferensial</h1>

Ketika kita mengamati data, kemudian menghitung beberapa statistik deskriptif seperti rata-rata, proporsi, standar deviasi, dan lainnya, kita mungkin penasaran, **apakah statistik tersebut juga berlaku untuk seluruh data populasi** ataukah **statistik tersebut hanya disebabkan oleh keacakan data dan tidak mencerminkan populasi sebenarnya?**.

Statistika inferensial membahas tentang pemahaman dan pengukuran estimasi ketidakpastian parameter suatu populasi. Mulai dari pengujian hipotesis, selang kepercayaan, estimasi titik, dan lainnya.

<div align="middle">
<img src="../../assets/images/inferential-stats.png">
</div>

In [None]:
import matplotlib.pyplot as plt

plt.style.use("seaborn-dark")

## Distribusi Probabilitas

Distribusi probabilitas adalah hasil dari semua kejadian beserta dengan probabilitas masing-masing hasil yang mungkin terjadi. Dengan mengetahui distribusi probabilitas, kita bisa membuat estimasi dari semua kejadian yang mungkin terjadi dan menggunakannya untuk mengestimasi karakteristik distribusi pada populasi yang sebenarnya.

Pada pelemparan dadu bersisi 6, distribusi probabilitasnya adalah sebagai berikut.

| Hasil | Probabilitas |
| --- | :---: |
| 1 | $\frac{1}{6}$ |
| 2 | $\frac{1}{6}$ |
| 3 | $\frac{1}{6}$ |
| 4 | $\frac{1}{6}$ |
| 5 | $\frac{1}{6}$ |
| 6 | $\frac{1}{6}$ |

Suatu distribusi probabilitas harus memenuhi 3 aturan berikut:
1. *Outcome* harus saling lepas (*disjoint*)
2. Masing-masing probabilitas berada dalam interval 0 dan 1
3. Total probabilitas semua *outcome* sama dengan 1

> **Kuis**
>
> Misal didefinisikan tim sales dalam list berikut.
> ```python
> salesteam = ["Brian", "Paul", "Martha", "Agnes"]
> ```
>
> Jika kita akan memilih satu di antara tim sales untuk menghadiri satu rapat pada setiap hari. Bagaimanakah distribusi probabilitasnya?

Berdasarkan variabel acak, distribusi probabilitas dibedakan menjadi **distribusi probabilitas diskrit** dan **distribusi probabilitas kontinu**. Setiap jenis distribusi probabilitas, baik diskrit atau kontinu, memiliki properti yang disebut dengan **fungsi kepadatan probabilitas** yang merepresentasikan probabilitas suatu variabel acak $X$ bernilai (menghasilkan) $x$.

Secara matematika, fungsi kepadatan probabilitas dinotasikan dengan $P(X=x)$. Misalkan, probabilitas kemunculan angka 2 pada pelemparan dadu dapat dinotasikan sebagai

$$
P(X = 2) \; = \; \frac{1}{6}
$$

### Distribusi Probabilitas Diskrit

Kedua contoh sebelumnya, pelemparan dadu dan penugasan tim sales, adalah contoh dari distribusi probabilitas diskrit. Distribusi probabilitas diskrit adalah distribusi probabilitas dari sebuah variabel acak diskrit, yaitu variabel acak dengan nilai pada domain bilangan asli atau apapun yang dapat dihitung.

Misalkan sebuah restoran mengoptimasi desain jumlah kursi dalam satu meja makan berdasarkan daftar antrean pelanggan yang datang pada hari sebelumnya. Setiap grup pelanggan tersebut akan dipilih secara acak.

`group_size` pada contoh data berikut menggambarkan jumlah grup pelanggan yang datang. Untuk setiap jumlah pelanggan dalam satu grup, mulai dari 2 sampai 6 orang, kita bisa membuat sebuah distribusi probabilitas setiap jumlah pelanggan yang dipilih menggunakan pandas (`value_counts`).

<div align="middle">
    <img src="../../assets/images/restaurant_groups.png" width="30%">
</div>

In [None]:
import pandas as pd

restaurant_groups = pd.read_csv("../../data/restaurants.csv")
restaurant_groups.group_size.value_counts() / restaurant_groups.group_size.value_counts().sum()

#### Distribusi Diskrit Uniform

Misalkan kita punya 2 jenis dadu, dadu adil bersisi 6 dan dadu tak adil bersisi 6 dengan konfigurasi berikut.

<img src="../../assets/images/fair-die.png" style="float: left" width="50%">
<img src="../../assets/images/unfair-die.png" style="float: right" width="50%">

Distribusi probabilitas kedua jenis dadu di atas termasuk distribusi diskrit karena hasilnya merupakan variabel acak diskrit. Distribusi probabilitas diskrit pada ilustrasi sebelah kiri secara speisla disebut dengan **distribusi (diskrit) uniform**.

**Distribusi diskrit uniform** adalah distribusi probabilitas yang semua probabilitas dari setiap variabel acaknya adalah sama. Contohnya adalah seperti pelemparan dadu bersisi 6 yang adil di atas.

Secara matematik, fungsi distribusi probabilitas untuk distribusi diskrit uniform untuk suatu variabel acak $X$ adalah

$$
P(X=x) = \frac{1}{n}, \; n = \text{jumlah semua hasil yang mungkin terjadi}
$$

atau

$$
P(X=x) = \frac{1}{b - a + 1}, \; a, b = \text{parameter distribusi diskirt uniform } (a < b)
$$

In [None]:
# scipy.stats.uniform.pdf

Misalkan, kita ingin menghitung probabilitas angka yang muncul pada dadu kurang dari 2. Pernyataan tersebut bisa ekuivalen dengan probabilitas angka yang muncul adalah 1 atau 2. Karena kedua *event* tersebut besifat *mutually exclusive*, kita bisa dapatkan probabilitasnya dengan aturan penjumlahan pada probabilitas.

$$
P(X \leq 2) = P(X=1) + P(X=2) = \frac{1}{6} + \frac{1}{6} = \frac{1}{3}
$$

Dalam distribusi probabilitas, $P(X \leq 2)$, dapat dihitung menggunakan **fungsi kepadatan kumulatif** atau *cumulative distribution function* (CDF). Secara umum,

$$
P(X \leq x) = \frac{x - a + 1}{b - a + 1}
$$

In [None]:
# scipy.stats.uniform.cdf

<div align="middle">
<img src="../../assets/images/dist-unfair-die.png" width="50%">
</div>

> **Kuis:**
>
> Hitung $P(X \leq 2)$ untuk dadu dengan distribusi probabilitas seperti pada grafik di atas.

#### Distribusi Bernoulli

Distribusi bernoulli merupakan distribusi probabilitas diskrit dari sebuah variabel acak dengan hanya 2 kemungkinan hasil, **sukses** atau **gagal** dengan probabilitas $p$ dan $1-p$ secara berturut-turut, dalam satu percobaan. Analogi yang mungkin adalah kita bisa anggap distribusi bernoulli sebagai distribusi probabilitas pada suatu percobaan pelemparan koin yang bias, dengan probabilitas $p$ akan menghasilkan bagian *head* dan $1-p$ untuk *tail*.

Fungsi kepadatan probabilitas:

$$
\text{PMF} = P(X=x) =
\begin{cases}
    \hfill p &, \: x=1 \\
    \hfill 1-p &, \: x=0 \\
\end{cases}
$$

untuk $ 0 \leq p \leq 1$. Fungsi kepadatan probabilitas di atas bisa disederhanakan menjadi $P(X=x) = p^x \cdot (1-p)^{1-x},\, \text{dengan } x \in \{0, 1\}$.

Kita bisa menggunakan `scipy.stats.bernoulli.rvs` untuk membangkitkan bilangan acak berdistribusi bernoulli, menghitung *pmf* menggunakan `scipy.stats.bernoulli.pmf`, serta menghitung *cdf* menggunakan `scipy.stats.bernoulli.cdf`.

In [None]:
import numpy as np
from scipy.stats import bernoulli, binom

np.random.seed(11)

def perform_bernoulli_trials(n: int, p: float):
    """Perform n Bernoulli trials with success probability p
    and return number of successes."""
    # Initialize number of successes: n_success
    n_success = 0

    # Perform trials
    for i in range(n):
        # Choose random number between zero and one: random_number
        random_number = np.random.random(1)

        # If less than p, it's a success so add one to n_success
        if random_number < p:
            n_success += 1

    return n_success

perform_bernoulli_trials(5, .5)/5, binom.pmf(n=5, k=1, p=.05)

#### Distribusi Binomial

<img src="../../assets/images/binomial.png" width="20%" style="float: right;margin: 0 0 0 50px">

Secara umum, distribusi binomial adalah distribusi probabilitas yang menggambarkan jumlah sukses suatu kejadian dalam sekumpuluan percobaan yang independen. Distribusi binomial bisa dibilang sebagai generalisasi dari distribusi bernoulli. Distribusi binomial juga berdasarkan variabel acak diskrit dengan 2 kemungkinan hasil (*binary outcomes*).

Parameter yang digunakan dalam distribusi binomial hampir sama dengan bernoulli, yaitu $p$ yang merupakan probabilitas sukses suatu kejadian. Parameter lain yang membedakan distribusi binomial dengan bernoulli adalah $n$ yang merupakan jumlah percobaan **independen** yang dilakukan.

Sebagai contoh, misalkan kita melakukan percobaan pelemparan koin sebanyak 2 kali, nilai dari variabel acak yang mungkin terjadi dapat dibangkitkan menggunakan `scipy.stats.binom.rvs`.

```python
binom.rvs(n=2, 0.5, size=1)    # p = 0.5
```

* $n$: jumlah percobaan
* $p$: probabilitas sukses/berhasil
* `size`: frekuensi sejumlah percobaan yang dilakukan

Kita bisa menggunakan `scipy.stats.binom.pmf` dan `scipy.stats.binom.cdf` untuk menghitung fungsi kepadatan probabilitas dan fungsi kepadatan kumulatif dari distribusi binomial secara berturut-turut. Secara matematik, kita juga bisa menggunakna persamaan berikut

*Probability Mass Function*

$$
f(x) = P(X=x) = \binom{n}{x} \cdot p^x \cdot (1-p)^{n-x} = \frac{n!}{x! (n-x)!} p^x \cdot (1-p)^{n-x}
$$

*Cumulative Density Function*

$$
F(x) = P(X \leq x) = \sum_{i=0}^{\lfloor x \rfloor}{p^i \cdot (1-p)^{n-i}}
$$

In [None]:
# scipy.stats.binom.rvs
# scipy.stats.binom.pmf
# scipy.stats.binom.cdf

> **Kuis:**
>
> Sebuah bank menerbitkan 100 produk hipotek. Ada kemungkinan dari 100 produk tersebut akan terjadi wanprestasi atau gagal bayar. Misalkan ada kemungkinan 5 dari 100 produk mengalami gagal bayar. Jika diasumsikan bank akan rugi ketika terdapat 10 atau lebih hipotek yang mengalami wanprestasi, hitung probabilitas bank tersebut akan mengalami kerugian!

In [None]:
# KETIK DI SINI

#### Distribusi Poisson

Proses Poisson (*poisson process*) memodelkan peristiwa yang sebenarnya terjadi dalam tingkat tertentu (*rate*), tapi secara acak. Salah satu karakteristiknya adalah setiap peristiwa yang terjadi saling independen satu dengan yang lainnya.

Sebagai contoh, tercatat bahwa rata-rata 8 kali adopsi hewan per minggu, tapi angka ini mungkin bervariasi setiap minggunya. Jumlah adopsi dari minggu ke minggu mungkin berbeda dan setiap adopsi yang terjadi saling independen.

Beberapa contoh dari **proses poisson**.

* Jumlah kelahiran bayi dalam sebuah rumah sakit setiap hari
* Jumlah adopsi hewan pada suatu penampungan hewan tiap minggu
* Jumlah orang yang datang pada suatu restoran dalam tiap jam
* Jumlah gempa bumi yang terjadi di Jawa setiap tahun

Distribusi probabilitas poisson menggambarkan probabilitas sejumlah peristiwa terjadi dalam rentang waktu tertentu. Contohnya:
* Probabilitas $> 5$ hewan diadopsi dari sebuah penampungan hewan setiap minggu.
* Probabilitas $12$ orang mendatangi sebuah restoran setiap jam

<div align="middle">
    <img src="../../assets/images/poisson-failures.png" widht="50%">
</div>

> **Kuis:**
>
> Sebutkan contoh lain dari sebuah peristiwa yang probabilitas kejadiannya mengikuti distribusi poisson!

Probabilitas poisson dideskripsikan dengan parameter *lambda* ($\lambda$) yang merepresentasikan tingkat atau rata-rata peristiwa tersebut terjadi dalam rentang waktu tertentu. Contoh:
* Rata-rata adopsi hewan per minggu $= 8$

<div align="middle">
    <img src="../../assets/images/poisson-mean-8.png" width="50%">
</div>

Seperti pada gambar di atas, besar kemungkinan terjadi 8 (sesuai rata-rata) adopsi per minggu, tapi bisa juga terjadi 3 adopsi, meskipun probabilitasnya lebih kecil.

*Probability Mass Function*

$$
f(k) = P(X=k) = \frac{\lambda^k \cdot e^{-\lambda}}{k!}
$$

*Cumulative Distribution Function*

$$
F(k)
$$

In [None]:
# scipy.stats.poisson.rvs
# scipy.stats.poisson.pmf
# scipy.stats.poisson.cdf

# numpy.rng.poisson

In [None]:
# binomial vs poisson

### Distribusi Probabilitas Kontinu

Untuk variabel acak kontinu, yaitu variabel yang nilainya berada pada domain bilangan real, digunakan diterapkan distribusi probabilitas kontinu.

<div align="middle">
    <img src="../../assets/images/waiting-bus.png" width="50%">
</div>

Misalkan kita sedang menunggu kedatangan bus yang jadwal kedatangannya setiap 12 menit, seperti yang diilustrasikan pada gambar di atas. Kita bisa menunggu selama 0 menit ketika kita datang ke terminal tepat saat bus datang atau juga selama 12 menit penuh ketika kita datang tepat saat bus meninggalkan terminal.

Salah satu ciri khas dari distribusi probabilitas kontinu adalah kemungkinan hasil yang tak hingga yang merupakan efek dari variabel acak kontinu. Sebagai contoh, kita bisa menunggu bus datang selama 1 menit, 1.3 menit, 1.35 menit, dan seterusnya. Kita bisa buat distribusi probabilitas waktu tunggu seperti grafik berikut.

<div align="middle">
    <img src="../../assets/images/dist-cont-uniform.png" width="50%">
</div>

#### Distribusi Kontinu Uniform

Sama dengan distribusi diskrit uniform, karena probabilitas waktu tunggu untuk setiap satuan waktu selalu sama, maka contoh sebelumnya termasuk ke dalam distribusi kontinu uniform. Khusus contoh tersebut, kita langsung tahu bahwa $P(X=1.5) = \frac{1}{12}$. Secara umum, fungsi kepadatan probabilitas (PDF) dari distribusi kontinu uniform adalah

$$
P(X=x) = \frac{1}{b - a}, \, \text{dengan a, b adalah parameter ($a < b$)}
$$

Kita bisa menggunakan fungsi yang sama dengan distribusi diskrit uniform pada scipy, `scipy.stats.uniform.pdf`, untuk menghitung fungsi kepadatan probabilitas.

Untuk menghitung probabilitas waktu tunggu di bawah 7 menit, kita bisa menggunakan fungsi kepadatan kumulatif (CDF) untuk distribusi kontinu uniform berikut

$$
F(x) = P(X \leq x) =
\begin{cases}
0 \hfill & \text{for $x < a$} \\
\frac{x-a}{b-a} & \text{for $a \leq x \leq b$} \\
1 \hfill & \text{for $x > b$} \\
\end{cases}
$$

Kita masih bisa menggunakan fungsi `scipy.stats.uniform.cdf` untuk menghitung fungsi kepadatan kumulatif distribusi uniform.

In [None]:
# scipy.stats.uniform.rvs
# scipy.stats.uniform.cdf
# scipy.stats.unifor.pdf

> **Kuis:**
>
> Sebagai data scientist baru dalam sebuah perusahaan, tugas pertama kita adalah menyiapkan *pipeline* data untuk model yang akan digunakan untuk melatih model. Kita tidak tahu dengan pasti kapan model akan dilatih ulang, tapi kita diberitahu bahwa model tersebut akan dijalankan setiap 30 menit. Karena proses penyiapan data yang memakan waktu, kita ingin tahu berapa lama waktu yang seharusnya diperlukan sebelum model dijalankan agar data yang disiapkan optimal.
> 1. Hitung probabilitas *pipeline* data berjalan selama kurang dari 5 menit sebelum model dijalankan!
> 2. Hitung probabilitas *pipeline* berjalan selama lebih dari 5 menit sebelum model dijalankan!
> 3. Hitung probabilitas *pipeline* berjalan selama 10 sampai 20 menit sebelum model dijalankan!

#### Distribusi Normal

Salah satu distribusi kontinu yang paling banyak aplikasinya adalah distribusi normal. Distribusi normal banyak digunakan baik dalam metode statistik atau sebagi asumsi yang harus dipenuhi. Bentuk distribusi normal seperti di bawah ini.

<div align="middle">
    <img src="../../assets/images/dist-normal.png" width="50%">
</div>

Bentuk distribusi normal seperti gambar di atas sering juga disebut dengan "kurva lonceng" (*bell curve*) karena bentuk kurva yang menyerupai lonceng.

Properti distribusi normal:
* Kurva distribusi simetris
* Luas area di bawah kurva selalu sama dengan 1
* Probabilitas "tidak pernah sama dengan" 0
* Parameter yang mendeskripsikan distribusi berupa rata-rata dan standar deviasi

<div align="middle">
<img src="../../assets/images/dist-normal-symmetry.png" style="float: left" width="30%">
<img src="../../assets/images/dist-normal-area.png" style="float: left" width="30%">
<img src="../../assets/images/dist-normal-nozero.png" width="30%">
</div>

Sebagai contoh, distribusi data tinggi perempuan yang dihimpun oleh NHANES berdistribusi normal dengan rata-rata sekitar 160cm sampai 165cm.

<div align="middle">
    <img src="../../assets/images/dist-normal-nhanes.png" width="50%">
</div>

Distribusi normal dideskripsikan oleh parameter rata-rata ($\mu$) dan standar deviasi ($\sigma$). Misalkan, distribusi normal dengan $\mu = 20$ dan $\sigma = 3$ dapat digambarkan dengan grafik di bawah ini.

<div align="middle">
    <img src="../../assets/images/dist-normal-mean-std.png">
</div>

<div align="middle">
    <img src="../../assets/images/dist-normal-standard.png">
</div>

Jika sebuah distribusi normal memiliki rata-rata sama dengan 0 ($\mu = 0$) dan standar deviasi sama dengan 1 ($\sigma = 1$) seperti yang digambarkan di atas, distribusi normal ini juga disebut dengan **distribusi normal standar**.

In [None]:
# scipy.stats.norm.rvs
# scipy.stats.norm.cdf
# scipy.stats.norm.pdf

#### Distribusi Eksponensial

* Ingat bahwa proses poisson mendeskripsikan sebuah peristiwa yang terjadi dalam tingkat dan untuk rentang waktu tertentu
* Setiap peristiwa poisson saling independen
* Interval waktu dari satu peristiwa ke peristiwa selanjutnya bervariasi

<div align="middle">
    <img src="../../assets/images/poisson-failures.png" widht="50%">
</div>

**Distribusi eksponensial** menggambarkan probabilitas waktu antar proses poisson. Dengan kata lain, distribusi eksponensial menggambarkan **waktu tunggu** antar peristiwa poisson. Contohnya:
* Probabilitas rentang waktu antar adopsi hewan lebih dari 1 hari
* Probabilitas kurang dari 10 menit sebelum pelanggan lain datang pada sebuah restoran
* Probabilitas 6-8 bulan lamanya untuk gempa bumi di Jawa terjadi

*Probability Density Function*

$$
f(x) = P(X=x) =
\begin{cases}
\lambda e^{-\lambda x} & x > 0, \\
0 & x \leq 0.
\end{cases}
$$

*Cumulative Distribution Function*

$$
F(x) = P(X \leq x) =
\begin{cases}
1 - e^{-\lambda x} & x > 0, \\
0 & x \leq 0.
\end{cases}
$$

In [None]:
# scipy.stats.expon.rvs
# scipy.stats.expon.pdf
# scipy.stats.expon.cdf

# np.rng.exponential

> **Kuis:**
>
> Misalkan seorang CEO ingin mengevaluasi performa tim sales dalam merespon klien potensial. Mengingat anggota tim sales yang masih sedikit, rata-rata tim sales perlu meluangkan waktu $2.5$ jam dalam merespon.
> 1. Berapakah peluang tim sales membutuhkan waktu lebih dari 4 jam untuk merespon klien?
> 2. Berapakah peluang tim sales membutuhkan waktu antara 3-4 jam untuk merespon klien?

In [None]:
# KETIK DI SINI

#### Distribusi t-Student

Distribusi-$t$, atau yang dikenal juga sebagai *student's t distribution*, memiliki penampakan yang mirip dengan distribusi normal.

<div align="middle">
    <img src="../../assets/images/dist-t.png" width="50%">
</div>

Perbedaan dengan distribusi normal:
* Distribusi *t* memiliki ekor yang lebih tebal dan pendek dibanding distribusi normal
* Ukuran dispersi lebih besar (lebih banyak ketakpastian dan jauh dari *mean*)
* Biasanya digunakan (dibanding dist. normal) ketika jumlah sampel sedikit

Biasanya, distribusi ini digunakan dalam **uji hipotesis** untuk menarik kesimpulan pada keadaan populasi sebenarnya.

Distribusi $t$ dideskripsikan dengan parameter yang disebut dengan **derajat kebabasan** atau *degree of freedom* (df).
* Semakin kecil *df*, semakin tebal ekor dan semakin besar nilai deviasi
* Semakin besar *df*, semakin menyerupai distribusi normal

<div align="middle">
    <img src="../../assets/images/dist-t-df.png" width="50%">
</div>

> Degrees of Freedom refers to the maximum number of logically independent values, which are values that have the freedom to vary, in the data sample. ([detail here](https://www.investopedia.com/terms/d/degrees-of-freedom.asp))

In [None]:
# scipy.stats.t.rvs
# scipy.stats.t.pdf
# scipy.stats.t.cdf

# np.rng.standard_t

## Estimasi Titik

Salah satu tujuan dari statistika inferensial adalah memahami dan mengestimasi **parameter** dari suatu populasi menggunakan estimasi yang didapat dan dihitung dari data sampel. Sebagai contoh, rata-rata yang dihitung dari data sampel (*sample mean*) merupakan sebuah estimasi titik dari rata-rata populasi sesungguhnya.

Parameter adalah suatu ukuran deskriptif dari sebuah populasi yang biasanya digunakan sebagai masukan fungsi kepadatan probabilitas (PDF) untuk menghasilkan kurva distribusi.

| Distribusi | Parameter 1 | Parameter 2 |
| ---------- | :---------: | :---------: |
| Binomial | $n$ | $p$ |
| Normal | $\mu$ | $\sigma$ |
| Poisson | $\lambda$ | |
| Eksponensial | $\lambda$ | |

Misalkan hasil survey menyatakan bahwa 35% rakyat Amerika setuju Donald Trump dipertahankan. Kita bisa anggap bahwa angka $35\%$ merupakan sebuah **estimasi titik** dari angka yang mungkin akan kita peroleh ketika kita melakukan survey ke seluruh populasi. Ukuran **proporsi** pada populasi (dinotasikan dengan $p$) biasa disebut dengan *parameter of interest* dan proporsi sampel (dinotasikan dengan $\hat{p}$) biasa disebut dengan **estimator**.

```python
survey = (["setuju"]*700) + (["tidak setuju"]*1300)
```

Karena sulitnya mengumpulkan data untuk setiap individu dalam populasi, kita mungkin tidak akan pernah tahu berapa nilai $p$ sebenarnya, sehingga kita gunakan $\hat{p}$ sebuah estimasi dari $p$.

In [None]:
rng = np.random.default_rng(111)
pop_survey = (["setuju"]*750) + (["tidak setuju"]*1400)
print("populasi proporsi setuju:", pop_survey.count("setuju") / len(pop_survey))
print("populasi proporsi tidak setuju:", pop_survey.count("tidak setuju") / len(pop_survey))

sample_survey = rng.choice(pop_survey, replace=True, size=100).tolist()
print("sampel proporsi setuju:", sample_survey.count("setuju") / len(sample_survey))
print("sampel proporsi tidak setuju:", sample_survey.count("tidak setuju") / len(sample_survey))

In [None]:
# create function to bootstrap sample and replicate

### Variabilitas Estimasi Titik

Karena estimasi titik merupakan sebuah statistik dari data sampel, biasanya nilai estimasinya tidak persis sama dengan nilai parameter sebenarnya.

```python
rng = np.random.default_rng(111)
pop = rng.poisson(18, size=100000)
sample = rng.choice(pop, size=100)
```

Selisih atau eror antara nilai estimasi dan parameter terdiri dari 2 aspek:
* *Sampling error*<br>
    Misalkan, sebuah estimasi dari satu sampel mungkin $1%$ lebih rendah, sedangkan estimasi sampel yang lain mungkin $3%$ lebih tinggi. Kita bisa mempertimbangkan **ukuran sampel** ($n$) untuk mengukur eror ini. 
* Bias<br>
    Bias mendeksripsikan kesalahan sistematik atau kecenderungan *over-* atau *under-estimate* nilai parameter populasi. Contohnya, jika kita melakukan survey atas dukungan mereka terhadap pembangunan stadion kampus baru, kita mungkin mendapatkan bias dari redaksi pertanyaan seperti, "Apakah Anda mendukung kampus Anda untuk mendanai pembangunan stadion baru?".

In [None]:
rng = np.random.default_rng(111)
pop = rng.poisson(18, size=100000)
pop2 = rng.poisson(18.5, size=100000)
sample = rng.choice(pop, size=100)

print("pop mean:", pop.mean())
print("sample mean:", sample.mean())
print("sample std:", sample.std())
print("error in estimate:", pop.mean() - sample.mean())

pop.std(), pop.std() / np.sqrt(len(sample))

### Teorema Limit Pusat

Kadang satu simulasi pengambilan sampel tidak kurang meyakinkan apakah estimasi rata-rata populasi sudah sesuai. Oleh karena itu, kita bisa melakukan beberapa simulasi berulang kali menggunakan python.

Rata-rata sampel yang dihasilkan dari setiap simulasi yang dijalankan selanjutnya akan membentuk yang dinamakan dengan **_sampling distribution_**, yaitu distribusi dari ukuran statistik suatu data sampel. Kita juga bisa membuat visualisasi distribusi tersebut dalam bentuk histogram.

<div align="middle">
<img src="../../assets/images/sampling-dist-10.png">
<img src="../../assets/images/sampling-dist-100.png">
</div>

> *Sampling distributions are never obsered, but **we keep them in mind***.

Karakteristik dari distribusi sampel:
* Ukuran pusat (*center*)<br>
    Ukuran pusat yang dimaksud adalah rata-rata. Ingat bahwa akibat dari teorema limit pusat, maka sampel berdistribusi normal. Sehingga, pusat sampel sama dengan nilai estimasi nilai rata-rata sampel.
* Ukuran persebaran (*spread*)<br>
    Deviasi standar dari sampel yang dihasilkan. Biasanya, pada data sampel kita lebih sebut deviasi standar dengan istilah *standard error* yang dinotasikan dengan $SE$.
* Bentuk distribusi<br>
    Sudah jelas, akibat dari teorema limit pusat, maka bentuk kurva distribusi sampel yang dihasilkan menyerupai distribusi normal, yaitu simetris dan berbentuk seperti lonceng.

Jika kita tambah jumlah sampelnya, misalkan $n = 10000$, maka kita akan mendapatkan sebuah histogram yang menyerupai **distribusi normal** seperti di bawah ini.

<div align="middle">
<img src="../../assets/images/sampling-dist-10k.png">
</div>

Terlihat untuk $n=100$ dan $n=10000$, rata-rata sampel berkisar di angka 18 (sama dengan parameter populasi sebenarnya), kecuali untuk $n=10$ yang rata-ratanya sedikit di bawah angka 18. ***Central limit theorem*** menyatakan bahwa distribusi statistik dari suatu sampel yang diambil dari populasi secara **independen** dengan jumlah yang cukup banyak (secara relatif) akan mendekati distribusi normal.

In [None]:
def plot_sampling_dist(size=(10, 10000, 5)):
    rng = np.random.default_rng(111)
    sample_means = []
    for _ in range(size):
        sample = rng.choice(pop, size=5, replace=True)
        sample_means.append(sample.mean())

    plt.hist(sample_means)
    plt.axvline(np.mean(sample_means), c="skyblue", linestyle=(0, (5, 5)))
    plt.title("sample mean distribution with sample size of 5")
    plt.xlabel("Sample Mean")
    plt.ylabel("Frequency")
    plt.show()

## Selang Kepercayaan

Selain estimasi titik, cara untuk mengestimasi parameter dari sebuah populasi adalah dengan menggunakan **selang kepercayaan**. Jika estimasi titik adalah sebuah angka tunggal, maka dengan selang kepercayaan kita mendapatkan sebuah interval di mana parameter populasi tersebut berada di dalamnya.

Kenapa kita memerlukan selang kepercayaan dan tidak menggunakan titik estimasi saja?

> Karena pada kenyataannya, kita lebih mempedulikan dan menghawatirkan **seberapa percaya** kita terhadap estimasi tersebut. Sehingga, kita lebih. nyaman untuk mengatakan, "Kita percaya bahwa **95% kemungkinan** rata-rata tinggi orang indonesia berada pada **interval 150 cm sampai 185 cm**."

Sebagai analogi, konsep estimasi titik layaknya mencoba menangkap ikan menggunakan tombak. Dengan analogi yang sama, selang kepercayaan layaknya mencoba menangkap ikan menggunakan jala. Jika ingin menangkap lebih banyak ikan, maka kita gunakan jala yang lebih besar.

<p style="text-align: center"><b>Three-sigma rule of thumb</b></p>

<div align="middle">
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/2/22/Empirical_rule_histogram.svg/900px-Empirical_rule_histogram.svg.png" width="60%">
    <figcaption style="font-size: 10px"><a href="https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule">Wikipedia</a></figcaption>
</div>

Sebuah selang kepercayaan memiliki beberapa properti:
* *Confidence level*<br>
    Tingkat kepercayaan bukan merepresentasikan probabilitas, melainkan estimasi pada sampel yang dilakukan pengambilan beberapa kali 95% akan berada pada interval tersebut.
* *Margin of error*
    Besarnya ketakpastian dari estimasi titik dalam selang kepercayaan terhadap populasi sebenarnya.

<div align="middle">
    <img src="../../assets/images/CI-example.png" width="50%">
</div>

*Margin of Error*

$$
MOE = \text{z-score } \cdot SE
$$

*Confidence Interval*

$$
CI = \text{point estimate } \pm MOE = \text{point estimate } \pm \text{z-score } \cdot SE
$$

Perhatikan bahwa $SE$ untuk masing-masing estimasi titik berbeda. Sebagai contoh, *standard error* untuk rata-rata dan proporsi secara berturut-turut adalah $\frac{\sigma}{\sqrt{n}}$ dan $\sqrt{\frac{p(1-p)}{n}}$.

<div align="middle">
    <img src="../../assets/images/ci-proportion.png">
</div>

In [None]:
# CI proportion
rng = np.random.default_rng(11)
sample_size = 40
z_score = 1.96
p = pop_survey.count("setuju") / len(pop_survey)
CIs = []

for _ in range(25):
    sample_survey = rng.choice(pop_survey, size=sample_size).tolist()
    p_hat = sample_survey.count("setuju") / len(sample_survey)
    SE = np.sqrt(p_hat*(1-p_hat) / sample_size)
    CI = ((p_hat - z_score*SE, p_hat + z_score*SE), p_hat)
    CIs.append(CI)

for idx, ci in enumerate(CIs):
    if (ci[0][0] > p) or (ci[0][1] < p):
        color="red"
    else:
        color="dodgerblue"
    plt.plot(ci[0], [idx+1]*len(ci[0]), c=color)
    plt.plot(ci[1], idx+1, marker=".", c=color)
plt.axvline(p, linestyle=(0, (5, 5)), c="gray")
plt.axvline(p, linestyle=(0, (5, 5)), c="gray")
plt.title("CI for each sample proportion with 95% confidence level")
plt.xlabel("proportion")
plt.yticks([])
plt.show()

In [None]:
# CI for sample mean

> **Kuis:**
>
> Misalkan diketahui $88.7\%$ dari 1000 sampel acak warga Amerika menyatakan setuju terhadap penyebaran penggunaan tenaga surya.
> 1. Tentukan selang kepercayaan dari estimasi proporsi tersebut dengan tingkat kepercayaan 95%!
> 2. Tentukan *margin of error* dari selang kepercayaan tersebut!
> 3. Buatlah sebuah fungsi untuk menentukan selang kepercayaan untuk rata-rata dan proporsi!

In [None]:
# KETIK DI SINI

## Uji Hipotesis

Sebagai seorang data scientist, sangat penting untuk memiliki hipotesis awal saat mulai menganalisis data. Ini membantu kita untuk menentukan arah analisis yang akan ditempuh. Contoh hipotesis seperti "*data scientist lebih menyukai Python dibandingkan R*" atau "*kebanyakan orang lebih cenderung berpindah dari satu halaman ke halaman lainnya dalam sebuah situs jika kita memunculkan fitur "pop-up iklan" kecil yang mengganggu*".

Pengujian hipotesis dilakukan dengan cara mengukur seberapa **"masuk akal"** data sampel (observasi) yang digunakan, dengan mengasumsikan hipotesis tersebut **"benar"**, sehingga hipotesis juga berlaku untuk seluruh populasi.

Hipotesis yang sedang kita uji tersebut biasa disebut dengan istilah **hipotesis null** (*null hypothesis*). Sebagai contoh, mari kita lihat peta Pennsylvania dan Ohio di bawah ini. Dikarenakan kondisi geografis yang berdekatan, kita bisa anggap distribusi probabilitas dari data pemungutan suara kedua wilayah ini sama.

<div align="middle">
    <img src="../../assets/images/pa-oh-voting.png" width="50%">
</div>

Bagaimana kita bisa menguji hipotesis tersebut?

Kita mungkin tertarik untuk melihat statistik berikut.

|      | PA | OH | perbedaan PA - OH |
| ---- | :-: | :-: | :-: |
| mean | 45.5% | 42.5% | 1.2% |
| median | 44.0% | 43.7% | 0.4% |
| deviasi standar | 9.8% | 9.9% | -0.1% |

Tabel di atas mengindikasikan *mean* dan *median* dari kedua daerah tersebut sangat mirip, bahkan deviasi standarnya sangat mirip. Apakah cukup dengan menggunakan tabel di atas lalu kita katakan hipotesis kita benar?

Secara lebih terstruktur, dalam uji hipotesis, kita definisikan 2 jenis hipotesis yaitu hipotesis **null** dan hipotesis **alternatif**. Kedua hipotesis ini adalah 2 hipotesis yang saling bertolak belakang. Pada contoh kasus sebelumnya, kita bisa bisa seperti berikut:

$H_0$ : distribusi data voting pada negara bagian Ohio dan Pennsylvania adalah sama<br>
$H_A$ : distribusi data voting pada negara bagian Ohio dan Pennsylvania tidak sama

Pada prinsipnya:
* Hipotesis *null* ($H_0$) merepresentasikan perspektif skeptis atau perspektif "tidak ada perbedaan". Hipotesis ini menganggap **suatu kejadian yang terjadi hanyalah akibat dari fenomena acak (kebetulan)**.
* Hipotesis alternatif ($H_A$ atau $H_1$) merepresentasikan perspektif atau pendapat yang lebih kuat atau baru. Kebalikan dari $H_0$, hipotesis ini menganggap **suatu kejadian memang terjadi bukan karena kebetulan (dapat dibuktikan)**.

<div align="middle">
<img src="../../assets/images/null-hypothesis.png" width="75%">
</div>

Contoh kasus lain, kita akan gunakan data sampel hasil survey yang dilakukan oleh Hans Rosling tentang kesadaran publik pada vaksinasi terhadap anak umur 1 tahun yang diajukan kepada responden mahasiswa.

```python
vaccine = pd.read_csv("data/rosling_responses.csv")
vaccine_children = 
```

Pertanyaan yang diajukan pada survey:
> Berapa banyak dari anak-anak berusia 1 tahun di dunia saat ini yang telah divaksinasi terhadap suatu penyakit?

<div align="middle">
<img src="../../assets/images/hans-rosling.jpeg" width="50%">
</div>

Jawaban yang benar adalah **80% dari anak-anak berusia 1 tahun**. Proporsi responden keseluruhan yang menjawab proporsi yang benar (80%) adalah $33.3\%$. Angka yang cukup kecil mengindikasikan sebagian besar publik tidak tahu perkembangan kesehatan publik sekarang, terutama tingkat vaksinasi pada anak umur 1 tahun.

Sedangkan, pada data sampel kita akan lihat bahwa hanya sebesar $24\%$ responden yang menebak dengan benar. Karena perbedaan ini, kita ingin menguji hipotesis ini:
> Setelah kita tahu data tersebut, apakah data tersebut cukup membuktikan bahwa sebenarnya proporsi pada populasi mahasiswa yang menjawab benar berbeda dan tidak sama dengan $33.3\%$?

Salah satu cara untuk menguji hipotesis adalah menggunakan selang kepercayaan. Sesuai dengan kasusnya, kita gunakan estimasi statistik proporsi.

$H_0$: $p = 0.33$<br>
$H_1$: $p \neq 0.33$

Langkah-langkahnya adalah:

1. Hitung estimasi proporsi menggunakan 50 data sampel (haruslah $24\%$)
2. Hitung eror standar proporsi
3. Hitung *margin of error* untuk tingkat kepercayaan 95% (*z-score* $= 1.96$)
4. Tentukan selang kepercayaannya

Jika ternyata $p_0$ (proporsi sampel pada $H_0$) termasuk di dalam interval kepercayaan, kita akan terima $H_0$. Sebaliknya, jka $p_0$ tidak berada dalam interval kepercayaan, kita bisa tolak $H_0$.

In [None]:
df = pd.read_csv("../../data/rosling_responses.csv")
print(df.sample(5))
df_vaccination = df[df.question.str.endswith("vaccination")]

p_hat = df_vaccination.response.value_counts(normalize=True)["correct"]
print("sample proportion:", p_hat)

SE = round(np.sqrt((p_hat * (1-p_hat)) / len(df_vaccination)), 2)
print("standard error:", SE)

z_score = 1.96
MOE = round(z_score * SE, 3)
print("margin of error:", MOE)

ci_hi, ci_lo = p_hat + MOE, p_hat - MOE
print("The 95% confidence interval is between {}% and {}% with margin of error of {}%".format(
    ci_lo*100, ci_hi*100, MOE*100
))

> **Kuis:**
>
> Rosling juga menanyakan pertanyaan lain kepada mahasiswa: *Jika terdapat 2 milyar anak berusia 0-15 tahun per hari ini, berapa banyak jumlah anak-anak pada tahun 2100 menurut PBB?*
>
> Secara keseluruhan, terdapat $33.3%$ responden yang berhasil menjawab dengan benar (2 milyar). Dengan menggunakan data sampel `rosling_response.csv`:
> 1. Susunlah hipotesis yang akan diuji, baik $H_0$ ataupun $H_1$!
> 2. Berapa proporsi dari sampel yang berhasil menjawab pertanyaan tersebut dengan benar?
> 3. Dengan menggunakan proporsi sample tersebut, tentukan selang kepercayaan pada tingkat 95% untuk proporsi tersebut!
> 4. Kesimpulan apa yang bisa diambil?

In [None]:
# KETIK DI SINI

### Tipe Kesalahan pada Uji Hipotesis

Dalam melakukan uji hipotesis, kita bisa saja salah dalam membuat kesimpulan berdasarkan data.

<div align="middle">
<img src="../../assets/images/hypothesis-test-error.png" width="50%">
</div>

Sebagai contoh, dalam sebuah sistem pengadilan, terdakwa yang **sebenarnya tidak bersalah** bisa dijatuhi **hukuman** dan terdakwa yang **sebenarnya bersalah** bisa dinyatakan **bebas** atau tidak bersalah. Menurut tabel di atas, jika pengadilan menjatuhi hukuman pada terdakwa padahal dia sebenarnya tidak bersalah, maka pengadilan sudah membuat membuat kesalahan tipe I.

> Perlu diperhatikan bahwa kesalahan tipe 1 (*type 1 error*) terjadi jika kita telah **menolak $H_0$**.

Ingat bahwa selang kepercayaan pada tingkat 95% memiliki eror ketika estimasi titik yang didapat diluar $1.96$ *standard error* dari parameter populasi, yaitu sebesar 5% ($2.5\%$ pada masing-masing ujung kurva).

<div align="middle">
    <img src="../../assets/images/95-interval.jpeg" width="50%">
</div>

Kita bisa anggap untuk selang kepercayaan 95% ekuivalen dengan **tingkat signifikansi**, yang dinotasikan dengan $\alpha$, sebesar $0.005$.

### *p-value*

Uji hipotesis menggunakan selang kepercayaan tidak selalu berhasil. Kita tidak bisa menggunakan selang kepercayaan untuk menguji hipotesis kesamaan beberapa proporsi sekaligus yang membandingkan banyak selang kepercayaan secara bersamaan. Oleh karena itu, uji hipotesis statistik biasanya menggunakan *p-value*.

***P-value* adalah sebuah nilai yang menguantifikasi *strengh of evidence* dari data observasi/sampel melawan hipotesis null dan mendukung hipotesis alternatif**. Nilai tersebut merepresentasikan probabilitas data sampel setidaknya mendukung hipotesis alternatif dengan **asumsi hipotesis null benar**.

Contoh:

Sebuah lembaga riset di Amerika melakukan survey acak kepada 1000 warga Amerika apakah mereka mendukung peningkatan penggunaan batu bara untuk produksi energi. Kita ingin menguji hipotesis apakah mayoritas warga Amerika mendukung atau bahkan menolak penggunaan batu bara tersebut. Jika ternyata hasil survey ditemukan sebanyak $37\%$ dari responden setujua,
* apakah angka tersebut merepresentasikan keadaan sebenarnya atau hanya kebetulan saja?
* Berapa *p-value* dari kasus ini?
* Kesimpulan apa yang bisa diambil dari *p-value* tersebut?

Kita bisa formulasikan menjadi berikut.

$H_0: p = 0.5$<br>
$H_A: p = 0.5$

Untuk sampel,

$n = 1000$<br>
$\hat{p} = 0.37$

Dengan mengasumsikan $H_0$ benar, maka

$$
SE = \sqrt{\frac{p \cdot (1-p)}{n}} = \sqrt{\frac{0.5 \cdot (1 - 0.5)}{1000}} = 0.016
$$

> Hitung *standard error* di atas menggunakan Python.

Dengan mengasumsikan hipotesis null benar, kita akan dapatkan distribusi sampel proporsi seperti berikut. Jenis distribusi ini disebut juga dengan **_null distribution_**.

<img src="../../assets/images/null-dist.png">

Ingat bahwa *p-value* merepresentasikan probabilitas memperoleh hasil yang **setidaknya sama ekstremnya** dengan hasil yang kita amati, dalam hal ini yaitu $0.37$. Dari grafik sebelumnya terlihat bahwa proporsi sampel sangat jauh dari *standard error*, sehingga kita curigai proporsi sampel lain "se-ekstrem" itu sangatlah kecil.

Untuk memudahkan, kita bisa normalisasi nilai $\hat{p}$ dengan rata-rata $p$ dan deviasi standar $SE$ dengan menghitung nilai *z-score*.

$$
Z = \frac{0.37 - 0.5}{0.016} = -8.125
$$

Lalu kita gunakan `scipy.stats.norm.cdf`

```python
p_value = 2 * scipy.stats.norm.cdf(-8.125)    # 4.47362412888821e-16
```

Karena *p-value* kurang dari $\alpha$ ($\alpha = 0.5$), ini berarti data 1000 sampel tersebut memberikan cukup bukti untuk menolak $H_0$. Sehingga, kita bisa anggap mayoritas warga Amerika menentang peningkatan penggunaan batu bata untuk produksi energi.

In [None]:
# statsmodels.stats.proportion.proportion_ztest -> one-sided (larger, smaller) and two-sided

In [None]:
import scipy.stats

print(2*scipy.stats.norm.cdf(.37, loc=.5, scale=.016))
print(1-scipy.stats.norm.cdf(.63, loc=.5, scale=.016), 1-scipy.stats.norm.cdf(8.125))
print((.63-.5) / .016)

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=02c1c34a-e615-444a-9d35-b462281517d6' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>