## Prequisites

In [7]:
import statistics
import numpy as np

In [8]:
## Persiapan random data
data_num = np.random.randint(0,100,100)
data_num

array([81, 82, 13, 26,  9, 68, 75, 91, 25, 35, 73, 46, 23, 36, 64, 26, 60,
       50,  2, 84, 89, 24, 66, 78, 43, 95, 45, 27, 97, 88, 21, 76, 61, 38,
       51, 99, 95, 21,  3, 12, 62, 83, 67, 70, 21, 72, 81, 52, 82, 38, 82,
       86, 16, 48, 99, 93, 49, 72, 42, 49, 18, 44, 50, 22, 78, 46, 95, 83,
       62, 86, 33, 65, 71, 47, 76, 67, 76, 65, 30, 37, 58, 39, 99, 41, 86,
       64, 94, 50, 90, 31, 44, 87, 89, 82,  5, 29, 41, 29, 17,  1],
      dtype=int32)

In [10]:
data_cat = ["S", "M", "L", "XL", "L", "S"]
data_cat

['S', 'M', 'L', 'XL', 'L', 'S']

## Descriptive Statistics

### Measure of Central Tendency

#### 1. **Mean (Rata-rata):**  
   Rumus rata-rata adalah jumlah semua nilai dibagi dengan jumlah data.  
   $$\LARGE \text{Mean} = \frac{\sum_{i=1}^{n} x_i}{n}$$

#### 2. **Median (Nilai Tengah):**  
   Median adalah nilai tengah dari data terurut. Untuk \(n\) data:  
   
   $$\LARGE \text{Median} = 
   \begin{cases} 
   x_{\frac{n+1}{2}} & \text{jika } n \text{ ganjil} \\
   \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2} & \text{jika } n \text{ genap}
   \end{cases}$$
   

#### 3. **Modus (Nilai Terbanyak):**  
   Modus adalah nilai dengan frekuensi tertinggi.  
   $$\LARGE \text{Modus} = \text{nilai dengan frekuensi tertinggi dalam data}$$

#### Implementasi Python

In [11]:
## Mean
statistics.mean(data_num)

np.int32(55)

In [12]:
## Median
statistics.median(data_num)

np.float64(59.0)

In [14]:
## Modus
statistics.mode(data_num)

np.int32(82)

In [15]:
## Modus
statistics.mode(data_cat)

'S'

In [16]:
## Modus
statistics.multimode(data_cat)

['S', 'L']

### Measure of Variability-Spread

**Measure of Variability-Spread** adalah konsep dalam statistik yang digunakan untuk mengukur sejauh mana data dalam suatu kumpulan data tersebar atau bervariasi dari nilai tengahnya (seperti rata-rata). Ukuran ini membantu memahami tingkat penyebaran atau keragaman data. Berikut adalah penjelasan tentang beberapa ukuran variabilitas utama beserta contohnya:

#### **1. Jangkauan (Range)**

- **Definisi**: Selisih antara nilai maksimum dan minimum dalam kumpulan data.
- **Rumus**:  
  $$ \text{Jangkauan} = \text{Nilai Maksimum} - \text{Nilai Minimum} $$
- **Kelebihan**: Mudah dihitung.
- **Kekurangan**: Sangat sensitif terhadap nilai ekstrem (outlier).
- **Contoh**:  
  Misalkan data adalah `[3, 5, 7, 9, 12]`.  
  - Nilai maksimum = 12  
  - Nilai minimum = 3  
  - Jangkauan = \( 12 - 3 = \mathbf{9} \)

#### **2. Varians (Variance)**

- **Definisi**: Rata-rata kuadrat deviasi (selisih) setiap data dari rata-rata.
- **Rumus**:  
  - Untuk populasi:  
    $$ \sigma^2 = \frac{\sum (x - \mu)^2}{N} $$  
    di mana \( x \) = nilai data, \( \mu \) = rata-rata populasi, \( N \) = jumlah data.  
  - Untuk sampel:  
    $$ s^2 = \frac{\sum (x - \bar{x})^2}{n - 1} $$  
    di mana \( \bar{x} \) = rata-rata sampel, \( n \) = jumlah data sampel.
- **Kelebihan**: Memberikan gambaran menyeluruh tentang sebaran data.
- **Kekurangan**: Satuannya adalah kuadrat dari satuan data asli, sehingga kurang intuitif.
- **Contoh**:  
  Misalkan data adalah `[2, 4, 6]` (dianggap sebagai sampel).  
  - Langkah 1: Hitung rata-rata (\( \bar{x} \)):  
    $$ \frac{2 + 4 + 6}{3} = \mathbf{4} $$  
  - Langkah 2: Hitung deviasi kuadrat:  
    $$ (2 - 4)^2 = 4 $$  
    $$ (4 - 4)^2 = 0 $$  
    $$ (6 - 4)^2 = 4 $$  
  - Langkah 3: Jumlahkan deviasi kuadrat:  
    $$ 4 + 0 + 4 = 8 $$  
  - Langkah 4: Bagi dengan \( (n - 1) \):  
    $$ \frac{8}{3 - 1} = \frac{8}{2} = \mathbf{4} $$  
  - Varians sampel = \( \mathbf{4} \)

#### **3. Deviasi Standar (Standard Deviation)**

- **Definisi**: Akar kuadrat dari varians, menunjukkan seberapa jauh data menyebar dari rata-rata.
- **Rumus**:  
  - Untuk populasi:  
    $$ \sigma = \sqrt{\sigma^2} $$  
  - Untuk sampel:  
    $$ s = \sqrt{s^2} $$
- **Kelebihan**: Satuannya sama dengan data asli, sehingga lebih mudah diinterpretasikan.
- **Contoh**:  
  Menggunakan varians dari contoh sebelumnya (varians sampel = 4).  
  - Deviasi standar:  
    $$ s = \sqrt{4} = \mathbf{2} $$  
  - Interpretasi: Rata-rata data adalah 4, dan data cenderung menyebar sekitar ±2 dari rata-rata.

#### **4. Interquartile Range (IQR)**

- **Definisi**: Selisih antara kuartil ketiga (Q3) dan kuartil pertama (Q1), yang mencakup 50% data tengah.
- **Rumus**:  
  $$ \text{IQR} = Q_3 - Q_1 $$
- **Kelebihan**: Tidak sensitif terhadap outlier.
- **Contoh**:  
  Misalkan data adalah `[1, 3, 5, 7, 9]` (data sudah terurut).  
  - Langkah 1: Tentukan \( Q_1 \) (kuartil pertama):  
    \( Q_1 \) adalah median dari data bagian bawah, yaitu [1, 3].  
    $$ Q_1 = \frac{1 + 3}{2} = \mathbf{2} $$  
  - Langkah 2: Tentukan \( Q_3 \) (kuartil ketiga):  
    \( Q_3 \) adalah median dari data bagian atas, yaitu [7, 9].  
    $$ Q_3 = \frac{7 + 9}{2} = \mathbf{8} $$  
  - Langkah 3: Hitung IQR:  
    $$ \text{IQR} = Q_3 - Q_1 = 8 - 2 = \mathbf{6} $$

#### **Pentingnya Ukuran Variabilitas**

- Membantu memahami konsistensi atau ketidakstabilan data.
- Digunakan dalam analisis risiko, pengambilan keputusan, dan perbandingan kumpulan data.
- **Contoh Aplikasi**:  
  Dua kelas memiliki rata-rata nilai ujian sama, yaitu 75.  
  - Kelas A: Deviasi standar = 5 (nilai siswa seragam, berkisar sekitar 70-80).  
  - Kelas B: Deviasi standar = 15 (nilai siswa bervariasi, ada yang sangat rendah atau tinggi).  
  Informasi ini membantu guru menentukan strategi pengajaran yang sesuai.

#### Implementasi Python

In [17]:
## Variability
np.var(data_num)

np.float64(743.8579000000001)

In [18]:
## Standard Deviation
np.std(data_num)

np.float64(27.273758450202642)

In [24]:
## Range
np.max(data_num) - np.min(data_num)

np.int32(98)

In [22]:
## Quartile
print("Q1 :", np.quantile(data_num, 0.25))
print("Q2 :", np.quantile(data_num, 0.5))
print("Q3 :", np.quantile(data_num, 0.75))

Q1 : 34.5
Q2 : 59.0
Q3 : 81.25


### Normal Distribution

**Distribusi Normal**, sering disebut sebagai distribusi Gaussian, adalah distribusi probabilitas kontinu yang sangat penting dalam statistik karena banyak fenomena di alam dan ilmu sosial mengikuti pola ini. Distribusi ini digambarkan sebagai kurva lonceng (bell curve) yang simetris, di mana sebagian besar data terkonsentrasi di sekitar nilai rata-rata.

#### Karakteristik Distribusi Normal

1. **Bentuk Kurva Lonceng**:  
   - Kurva distribusi normal simetris terhadap rata-rata (\( \mu \)).  
   - Puncak kurva berada pada nilai rata-rata, menunjukkan probabilitas tertinggi.

2. **Parameter Utama**:  
   - **Rata-rata (\( \mu \))**: Menentukan pusat distribusi (lokasi puncak kurva).  
   - **Deviasi Standar (\( \sigma \))**: Menentukan lebar kurva. Semakin besar \( \sigma \), semakin lebar dan datar kurva; semakin kecil \( \sigma \), semakin sempit dan tajam kurva.

3. **Aturan Empiris (68-95-99.7 Rule)**:  
   - Sekitar **68%** data berada dalam 1 deviasi standar dari rata-rata (\( \mu \pm \sigma \)).  
   - Sekitar **95%** data berada dalam 2 deviasi standar (\( \mu \pm 2\sigma \)).  
   - Sekitar **99.7%** data berada dalam 3 deviasi standar (\( \mu \pm 3\sigma \)).

4. **Simetris**:  
   - Probabilitas untuk nilai di sisi kiri rata-rata sama dengan probabilitas di sisi kanan pada jarak yang sama.

5. **Area di Bawah Kurva**:  
   - Total luas di bawah kurva distribusi normal sama dengan 1 (100% probabilitas).  
   - Probabilitas untuk rentang tertentu dihitung dari luas di bawah kurva pada rentang tersebut.

#### Rumus Distribusi Normal

Fungsi kepadatan probabilitas (probability density function, PDF) untuk distribusi normal diberikan oleh:

$$ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} $$

- \( x \): Nilai variabel acak.
- \( \mu \): Rata-rata (mean).
- \( \sigma \): Deviasi standar.
- \( \pi \): Konstanta pi (\(\approx 3.14159\)).
- \( e \): Basis logaritma natural (\(\approx 2.71828\)).

Fungsi ini menentukan tinggi kurva pada setiap nilai \( x \), tetapi probabilitas dihitung dari luas di bawah kurva menggunakan integral atau tabel distribusi normal standar.

#### Distribusi Normal Standar

- Distribusi normal standar adalah distribusi normal dengan \( \mu = 0 \) dan \( \sigma = 1 \).
- Setiap distribusi normal dapat diubah menjadi distribusi normal standar menggunakan **z-score**:
  $$ z = \frac{x - \mu}{\sigma} $$
- Z-score menunjukkan berapa banyak dev -score menunjukkan berapa banyak deviasi standar suatu nilai dari rata-rata.
- Tabel z-score digunakan untuk menghitung probabilitas pada distribusi normal standar.

**Contoh :**

Misalkan tinggi badan pria dewasa di suatu populasi berdistribusi normal dengan rata-rata \( \mu = 175 \, \text{cm} \) dan deviasi standar \( \sigma = 8 \, \text{cm} \).

1. **Berapa probabilitas seseorang memiliki tinggi antara 167 cm dan 183 cm?**  
   - Hitung z-score untuk kedua nilai:  
     Untuk 167 cm:  
     $$ z_1 = \frac{167 - 175}{8} = -1 $$  
     Untuk 183 cm:  
     $$ z_2 = \frac{183 - 175}{8} = 1 $$  
   - Dari tabel distribusi normal standar:  
     - Probabilitas untuk \( z = -1 \) adalah sekitar 0.1587.  
     - Probabilitas untuk \( z = 1 \) adalah sekitar 0.8413.  
   - Probabilitas antara \( z = -1 \) dan \( z = 1 \):  
     $$ P(167 < x < 183) = 0.8413 - 0.1587 = \mathbf{0.6826} \, (68.26\%) $$

2. **Berapa probabilitas seseorang memiliki tinggi lebih dari 191 cm?**  
   - Hitung z-score:  
     $$ z = \frac{191 - 175}{8} = 2 $$  
   - Dari tabel: Probabilitas untuk \( z = 2 \) adalah 0.9772.  
   - Probabilitas untuk \( x > 191 \, \text{cm} \):  
     $$ P(x > 191) = 1 - 0.9772 = \mathbf{0.0228} \, (2.28\%) $$

#### Pentingnya Distribusi Normal

- **Aplikasi**: Digunakan dalam statistik inferensial (uji hipotesis, interval kepercayaan), analisis data, keuangan (model harga saham), dan ilmu pengetahuan (pengukuran fisik seperti berat, tinggi, dll.).
- **Teorema Limit Pusat (Central Limit Theorem)**: Jumlah sampel acak yang besar dari populasi apa pun akan cenderung berdistribusi normal, menjadikan distribusi normal dasar untuk banyak analisis statistik.
- **Contoh Praktis**:  
  - Menentukan persentase siswa yang lulus ujian berdasarkan nilai yang berdistribusi normal.  
  - Memprediksi risiko keuangan berdasarkan fluktuasi harga yang mengikuti distribusi normal.

#### Implementasi Python

## Inferential Statistics