

# üß† Probability Basics

## 1. Apa itu Probabilitas?

**Probabilitas** adalah ukuran seberapa besar kemungkinan suatu peristiwa (event) terjadi.
Nilainya selalu berada antara **0 dan 1**:

* 0 berarti **tidak mungkin terjadi**
* 1 berarti **pasti terjadi**

Dalam konteks **data science**, probabilitas digunakan untuk:

* Mengukur **ketidakpastian** dalam data.
* Membuat **prediksi** berbasis data.
* Menjadi dasar bagi algoritma **machine learning** seperti Naive Bayes, Logistic Regression, dan Decision Tree.

---

## 2. Mengapa Probabilitas Penting di Data Science?

Bayangkan kamu bekerja sebagai **data analyst di perusahaan e-commerce**.
Kamu ingin tahu:

* "Berapa kemungkinan seorang pengguna melakukan pembelian setelah menambahkan barang ke keranjang?"
* "Apa peluang pelanggan membuka email promosi?"

Pertanyaan-pertanyaan seperti itu bisa dijawab menggunakan **konsep probabilitas**.

---

## 3. Notasi Dasar Probabilitas

Kita tulis probabilitas suatu peristiwa **A** sebagai:

```
P(A) = Jumlah hasil yang diinginkan / Jumlah seluruh hasil yang mungkin
```

Contoh:

* Saat melempar koin, kemungkinan muncul **gambar (head)** adalah 1 dari 2 sisi.
  Jadi, `P(head) = 1/2 = 0.5`.

---

## 4. Praktik Dasar Probabilitas dengan Python

Mari kita coba menghitung probabilitas sederhana menggunakan Python.

```python
# Probabilitas dasar: koin
favorable_outcomes = 1    # jumlah hasil yang diinginkan (muncul head)
total_outcomes = 2        # jumlah seluruh kemungkinan (head, tail)

P_head = favorable_outcomes / total_outcomes
print("Probabilitas muncul head:", P_head)
```

Output:

```
Probabilitas muncul head: 0.5
```

---

## 5. Contoh Kasus: Dadu

Sebuah dadu memiliki 6 sisi dengan angka 1 sampai 6.

**Pertanyaan:**
Berapa peluang muncul angka genap?

```
Angka genap: 2, 4, 6 ‚Üí total 3 angka
Jumlah seluruh sisi: 6
```

Jadi:

```
P(angka genap) = 3 / 6 = 0.5
```

### Python Implementation

```python
# Probabilitas muncul angka genap pada dadu
sample_space = [1, 2, 3, 4, 5, 6]
even_numbers = [x for x in sample_space if x % 2 == 0]

P_even = len(even_numbers) / len(sample_space)
print("Probabilitas muncul angka genap:", P_even)
```

Output:

```
Probabilitas muncul angka genap: 0.5
```

---

## 6. Menghubungkan Probabilitas dengan Data Science

### Contoh 1: Email Spam Detection

Dalam sistem deteksi spam, kita bisa menghitung **probabilitas sebuah email adalah spam**.

Misal:

* 20 dari 100 email adalah spam.
  Maka `P(spam) = 20 / 100 = 0.2`.

Kita bisa hitung di Python:

```python
total_emails = 100
spam_emails = 20
P_spam = spam_emails / total_emails
print("Probabilitas email adalah spam:", P_spam)
```

Output:

```
Probabilitas email adalah spam: 0.2
```

Ini dasar dari **machine learning model** seperti **Naive Bayes**, yang memanfaatkan probabilitas untuk mengklasifikasi apakah email termasuk spam atau tidak.

---

### Contoh 2: Analisis Data Pelanggan

Misal dalam 1.000 transaksi:

* 250 pelanggan membeli produk A.

Maka peluang pelanggan membeli produk A adalah:

```
P(A) = 250 / 1000 = 0.25
```

Python:

```python
total_transactions = 1000
buyers_A = 250
P_buy_A = buyers_A / total_transactions
print("Probabilitas pelanggan membeli produk A:", P_buy_A)
```

Output:

```
Probabilitas pelanggan membeli produk A: 0.25
```

**Interpretasi:**
Ada peluang 25% seorang pelanggan akan membeli produk A.
Data ini bisa digunakan untuk **memprediksi perilaku konsumen** atau **mengoptimalkan strategi pemasaran.**


---

## 7. Practice: Simple Probabilities

Sekarang coba latihan berikut.

**Latihan 1**
Sebuah kantong berisi:

* 5 bola merah
* 3 bola biru
* 2 bola hijau

Hitung probabilitas mengambil bola merah.

**Latihan 2**
Dalam 100 pelanggan restoran, 45 memesan minuman kopi.
Berapa probabilitas seorang pelanggan acak memesan kopi?

**Latihan 3**
Sebuah survei menunjukkan 120 dari 600 pengguna aktif menggunakan fitur premium.
Hitung probabilitas acak seorang pengguna adalah pelanggan premium.

---

## 8. Quick Solution

Berikut jawaban cepat untuk setiap latihan.

1. Bola merah: 5 dari 10 ‚Üí P = 0.5
2. Pemesan kopi: 45 dari 100 ‚Üí P = 0.45
3. Pengguna premium: 120 dari 600 ‚Üí P = 0.2

---

## 9. Detailed Solution

**Latihan 1: Bola merah**

Total bola = 5 + 3 + 2 = 10
Bola merah = 5
P(merah) = 5 / 10 = 0.5

Python:

```python
red, blue, green = 5, 3, 2
total = red + blue + green
P_red = red / total
print("Probabilitas bola merah:", P_red)
```

**Latihan 2: Pemesan kopi**

P(kopi) = 45 / 100 = 0.45

Python:

```python
coffee_buyers = 45
total_customers = 100
P_coffee = coffee_buyers / total_customers
print("Probabilitas pelanggan memesan kopi:", P_coffee)
```

**Latihan 3: Pengguna premium**

P(premium) = 120 / 600 = 0.2

Python:

```python
premium_users = 120
total_users = 600
P_premium = premium_users / total_users
print("Probabilitas pengguna premium:", P_premium)
```




---

## 10. Eksperimen dan Frekuensi Relatif

Probabilitas juga bisa dihitung **dari data nyata**, bukan hanya teori.

Misalnya kamu melakukan eksperimen melempar koin sebanyak 100 kali dan mencatat hasilnya.

### Python Simulation

```python
import random

# Simulasi lempar koin 100 kali
trials = 100
results = [random.choice(['H', 'T']) for _ in range(trials)]

# Hitung frekuensi relatif head
P_head_simulated = results.count('H') / trials
print("Probabilitas empiris muncul head:", P_head_simulated)
```

Output (bisa berbeda setiap kali):

```
Probabilitas empiris muncul head: 0.49
```

**Kaitan dengan Data Science:**
Ini adalah konsep dasar **eksperimen statistik**. Dalam analisis data, kita sering menghitung probabilitas **berdasarkan data observasi**, bukan hanya teori.

---

## 11. Kesimpulan

* Probabilitas adalah ukuran kemungkinan terjadinya suatu kejadian.
* Digunakan untuk memahami ketidakpastian dan membuat keputusan berdasarkan data.
* Python dapat digunakan untuk menghitung dan mensimulasikan probabilitas dengan mudah.
* Konsep ini menjadi dasar bagi algoritma statistik dan machine learning seperti **Naive Bayes**, **Logistic Regression**, dan **Decision Tree**.

---




In [3]:
import random

# Simulasi lempar koin 100 kali
trials = 1000000

results = [random.choice(['H', 'T']) for _ in range(trials)]

# Hitung frekuensi relatif head
P_head_simulated = results.count('H') / trials
print("Probabilitas empiris muncul head:", P_head_simulated)

Probabilitas empiris muncul head: 0.500138




## Theoretical vs Empirical Probability

### 1. Pengertian Utama

| Jenis Probabilitas          | Pengertian Singkat                                                                                        |
| --------------------------- | --------------------------------------------------------------------------------------------------------- |
| **Theoretical Probability** | Peluang yang dihitung **berdasarkan logika dan perhitungan matematika**, tanpa melakukan percobaan nyata. |
| **Empirical Probability**   | Peluang yang **diperoleh dari hasil percobaan atau data observasi nyata**, bukan perhitungan teoritis.    |

---

### 2. Rumus Dasar

```
Theoretical Probability:
P(E) = (Jumlah hasil yang diinginkan) / (Jumlah semua hasil yang mungkin)

Empirical Probability:
P(E) = (Jumlah terjadinya peristiwa E) / (Jumlah total percobaan)
```

---

### 3. Contoh Singkat

| Kasus         | Theoretical               | Empirical                                                   |
| ------------- | ------------------------- | ----------------------------------------------------------- |
| Melempar dadu | P(angka 6) = 1/6 = 0.1667 | Jika dari 60 lempar muncul 6 sebanyak 8 kali ‚Üí 8/60 = 0.133 |
| Melempar koin | P(kepala) = 1/2 = 0.5     | Dari 50 lempar muncul kepala 27 kali ‚Üí 27/50 = 0.54         |

---

### 4. Perbedaan Utama

| Aspek              | Theoretical Probability                | Empirical Probability                               |
| ------------------ | -------------------------------------- | --------------------------------------------------- |
| Berdasarkan        | Penalaran logis / matematika           | Data hasil percobaan                                |
| Data nyata         | Tidak digunakan                        | Digunakan                                           |
| Hasil bisa berubah | Tidak                                  | Ya, tergantung hasil eksperimen                     |
| Ketepatan          | Ideal (model sempurna)                 | Realistik (berdasarkan dunia nyata)                 |
| Tujuan             | Memahami peluang ideal                 | Mengamati peluang aktual                            |
| Contoh             | Peluang muncul As dari 52 kartu = 4/52 | Dari 100 kali ambil kartu, As muncul 6 kali ‚Üí 6/100 |

---

### 5. Hubungan Keduanya

Keduanya saling melengkapi:

* **Theoretical probability** ‚Üí memberikan dasar logika dan model ideal.
* **Empirical probability** ‚Üí menguji apakah model tersebut cocok dengan data nyata.

üìà **Law of Large Numbers**:

> Semakin banyak percobaan dilakukan, **probabilitas empiris akan semakin mendekati probabilitas teoritis.**

---

### 6. Visualisasi Konsep (gambaran sederhana)

```
Peluang Teoritis  ‚Üí  Prediksi (berdasarkan matematika)
Peluang Empiris   ‚Üí  Hasil nyata dari percobaan
        ‚Üì
     Jika percobaan sangat banyak,
     hasil empiris ‚âà hasil teoritis
```

---

### 7. Contoh Python Singkat

```python
import random

n = 10000
count = sum(1 for _ in range(n) if random.randint(1,6) == 3)

theoretical = 1/6
empirical = count / n

print("Theoretical:", theoretical)
print("Empirical  :", empirical)
```

‚û°Ô∏è Hasil empiris akan mendekati 0.1667 (nilai teoritis) jika jumlah percobaan cukup besar.

---

### 8. Kesimpulan

* **Theoretical Probability**: digunakan untuk menghitung peluang secara ideal.
* **Empirical Probability**: digunakan untuk mengukur peluang berdasarkan data nyata.
* **Keduanya penting**: teori memberi dasar prediksi, empiris menguji kebenarannya.
* Dengan semakin banyak data, **hasil empiris akan mendekati hasil teoritis**.

---




In [6]:
import random

n = 100
count = sum(1 for _ in range(n) if random.randint(1,6) == 3)

theoretical = 1/6
empirical = count / n

print("Theoretical:", theoretical)
print("Empirical  :", empirical)

Theoretical: 0.16666666666666666
Empirical  : 0.19




# üéØ Rule of Addition (Aturan Penjumlahan Probabilitas)

## 1. Pengantar

Dalam dunia **data science**, kita sering dihadapkan pada situasi di mana kita ingin mengetahui **peluang terjadinya salah satu dari dua kejadian**.
Misalnya:

* Peluang pelanggan membeli produk **A atau B**
* Peluang pengguna mengklik iklan di **platform X atau Y**
* Peluang pasien memiliki **gejala flu atau demam**

Untuk menghitung ini, kita gunakan **Rule of Addition**.

---

## 2. Konsep Dasar

### a. Kasus Saling Lepas (Mutually Exclusive Events)

Dua kejadian tidak bisa terjadi bersamaan.

**Rumus:**

```
P(A atau B) = P(A) + P(B)
```

Contoh:

* Muncul angka 2 atau 5 saat melempar dadu (tidak bisa keduanya sekaligus).

### b. Kasus Tidak Saling Lepas (Not Mutually Exclusive)

Dua kejadian bisa terjadi bersamaan.

**Rumus:**

```
P(A atau B) = P(A) + P(B) - P(A dan B)
```

Contoh:

* Pelanggan suka **Produk Elektronik** dan **Produk Fashion** (bisa keduanya).

---

## 3. Contoh 1: Dadu (Mutually Exclusive)

Berapa peluang mendapatkan angka **2 atau 5** saat melempar dadu?

```
P(2 atau 5) = 1/6 + 1/6 = 2/6 = 1/3
```

### Python Implementation

```python
P_2 = 1/6
P_5 = 1/6
P_2_or_5 = P_2 + P_5
print("P(2 atau 5) =", P_2_or_5)
```

**Output:**

```
P(2 atau 5) = 0.3333333333333333
```

---

## 4. Contoh 2: Dadu (Not Mutually Exclusive)

Berapa peluang muncul **angka genap atau angka lebih dari 3**?

```
P(genap) = 3/6
P(>3) = 3/6
P(genap dan >3) = 2/6
P(genap atau >3) = 3/6 + 3/6 - 2/6 = 4/6 = 2/3
```

### Python Implementation

```python
P_even = 3/6
P_more_than_3 = 3/6
P_both = 2/6

P_union = P_even + P_more_than_3 - P_both
print("P(genap atau >3) =", P_union)
```

**Output:**

```
P(genap atau >3) = 0.6666666666666666
```

---

## 5. Practice: Rule of Addition

Dalam survei pelanggan:

* 40% suka produk Elektronik (A)
* 30% suka produk Fashion (B)
* 10% suka keduanya

Hitung peluang pelanggan suka **Elektronik atau Fashion**.

```
P(A atau B) = 0.4 + 0.3 - 0.1 = 0.6
```

### Python Implementation

```python
P_A = 0.4
P_B = 0.3
P_A_and_B = 0.1

P_A_or_B = P_A + P_B - P_A_and_B
print("P(Elektronik atau Fashion) =", P_A_or_B)
```

**Output:**

```
P(Elektronik atau Fashion) = 0.6
```

---

## 6. Contoh Nyata dalam Data Science

### üìä Kasus: Pelanggan E-Commerce

Kamu adalah data scientist di perusahaan e-commerce.
Kamu ingin tahu peluang pelanggan mengunjungi **halaman Elektronik atau Fashion** dalam satu minggu.

Dari data:

* 500 pelanggan mengunjungi halaman Elektronik
* 400 mengunjungi halaman Fashion
* 150 mengunjungi keduanya
* Total pelanggan = 1000

Kita ingin mencari peluang pelanggan mengunjungi **Elektronik atau Fashion**.

### Langkah-langkah:

```
P(E) = 500 / 1000 = 0.5
P(F) = 400 / 1000 = 0.4
P(E dan F) = 150 / 1000 = 0.15

P(E atau F) = P(E) + P(F) - P(E dan F)
             = 0.5 + 0.4 - 0.15
             = 0.75
```

### Python Implementation

```python
total_customers = 1000
E = 500
F = 400
E_and_F = 150

P_E = E / total_customers
P_F = F / total_customers
P_E_and_F = E_and_F / total_customers

P_E_or_F = P_E + P_F - P_E_and_F
print("Pelanggan mengunjungi Elektronik atau Fashion =", P_E_or_F)
```

**Output:**

```
Pelanggan mengunjungi Elektronik atau Fashion = 0.75
```

üß† **Interpretasi:**
Ada **75% kemungkinan** bahwa pelanggan akan mengunjungi salah satu dari dua kategori tersebut dalam seminggu.

---

## 7. Visualisasi dengan Python

Kita bisa memvisualisasikan kejadian ini dengan **Venn Diagram** menggunakan pustaka `matplotlib_venn`.

```python
from matplotlib import pyplot as plt
from matplotlib_venn import venn2

venn2(subsets=(500, 400, 150),
      set_labels=('Elektronik', 'Fashion'))
plt.title("P(Elektronik atau Fashion)")
plt.show()
```

Gambar menunjukkan area tumpang tindih antara pelanggan yang mengunjungi **kedua kategori**.

---

## 8. Aplikasi dalam Data Science

Beberapa penerapan langsung dari **Rule of Addition** dalam data science:

1. **Customer Segmentation**
   Menghitung peluang pelanggan masuk ke dua segmen pemasaran yang berbeda.

2. **Recommendation Systems**
   Menentukan probabilitas pengguna tertarik pada **genre A atau genre B** berdasarkan histori pembelian.

3. **Marketing Analytics**
   Menggabungkan hasil kampanye dari dua platform berbeda (misalnya Instagram dan TikTok).

4. **Medical Data Analysis**
   Menghitung peluang pasien memiliki **gejala A atau B** dalam dataset kesehatan.

---

## 9. Kesimpulan

* Rule of Addition membantu menghitung peluang gabungan antara dua kejadian.
* Untuk kejadian **saling lepas**, cukup tambahkan peluangnya.
* Untuk kejadian **tidak saling lepas**, kurangi dengan peluang irisan (A dan B).
* Dalam **data science**, konsep ini digunakan untuk menghitung peluang kombinasi fitur, segmen pelanggan, atau kondisi tertentu dalam data.

---





# üéØ Rule of Multiplication (Aturan Perkalian Probabilitas)

## 1. Pengantar

**Rule of Multiplication** digunakan untuk menghitung **peluang dua kejadian terjadi secara bersamaan (A dan B)**.

Misalnya:

* Peluang pelanggan membeli **produk A dan juga produk B**
* Peluang muncul **angka genap dan lebih dari 3** pada dadu
* Peluang pasien memiliki **dua gejala sekaligus**

Dengan kata lain, aturan ini menjawab pertanyaan:

> ‚ÄúApa peluang A dan B terjadi bersama?‚Äù

---

## 2. Konsep Dasar

Ada dua jenis kasus dalam aturan perkalian:

### a. Kejadian Independen (Independent Events)

Dua kejadian **tidak saling memengaruhi**.
Contoh:

* Melempar dua dadu
* Melempar koin dan dadu

**Rumus:**

```
P(A dan B) = P(A) √ó P(B)
```

### b. Kejadian Dependen (Dependent Events)

Dua kejadian **saling memengaruhi**.
Contoh:

* Mengambil dua kartu dari dek tanpa mengembalikan yang pertama.

**Rumus:**

```
P(A dan B) = P(A) √ó P(B | A)
```

di mana **P(B | A)** adalah peluang B terjadi setelah A terjadi.

---

## 3. Contoh 1: Independent Events

### Kasus:

Berapa peluang muncul **angka 4** pada dadu dan **kepala (Head)** pada koin?

**Langkah-langkah:**

* P(A = 4 pada dadu) = 1/6
* P(B = Head pada koin) = 1/2
* Karena saling independen:

  ```
  P(A dan B) = 1/6 √ó 1/2 = 1/12 ‚âà 0.0833
  ```

### Python Implementation

```python
P_dadu_4 = 1/6
P_koin_head = 1/2

P_dadu4_and_head = P_dadu_4 * P_koin_head
print("P(4 dan Head) =", P_dadu4_and_head)
```

**Output:**

```
P(4 dan Head) = 0.08333333333333333
```

---

## 4. Contoh 2: Dependent Events

### Kasus:

Mengambil **dua kartu berturut-turut tanpa pengembalian** dari dek 52 kartu.
Berapa peluang keduanya adalah **kartu As**?

**Langkah-langkah:**

* P(A) = 4/52 (kartu As pertama)
* Setelah satu As diambil, tersisa 3 As dari 51 kartu
  ‚Üí P(B|A) = 3/51
* Maka:

  ```
  P(A dan B) = 4/52 √ó 3/51 = 12 / 2652 ‚âà 0.0045
  ```

### Python Implementation

```python
P_A = 4/52
P_B_given_A = 3/51

P_A_and_B = P_A * P_B_given_A
print("P(dua kartu As tanpa pengembalian) =", P_A_and_B)
```

**Output:**

```
P(dua kartu As tanpa pengembalian) = 0.004524886877828055
```

üß† Artinya: hanya sekitar **0.45%** peluang untuk mengambil dua As berturut-turut tanpa mengembalikan.

---

## 5. Practice: Rule of Multiplication

### Soal:

Dalam sebuah survei e-commerce, peluang pelanggan:

* Membeli produk Elektronik = 0.4
* Membeli produk Aksesoris = 0.3
* Keduanya terjadi secara **independen**

Hitung peluang pelanggan membeli **kedua produk**.

---

## 6. Quick Solution

```
P(A dan B) = P(A) √ó P(B)
P(A dan B) = 0.4 √ó 0.3 = 0.12
```

Jadi peluangnya adalah **0.12 (12%)**.

---

## 7. Detailed Solution (Step by Step)

1. Diketahui:

   * P(Elektronik) = 0.4
   * P(Aksesoris) = 0.3
   * Kejadian independen

2. Gunakan rumus:

   ```
   P(A dan B) = P(A) √ó P(B)
   ```

3. Hitung:

   ```
   P(A dan B) = 0.4 √ó 0.3 = 0.12
   ```

4. Interpretasi:
   Peluang pelanggan membeli **Elektronik dan Aksesoris** adalah **12%**.

### Python Implementation

```python
P_electronics = 0.4
P_accessories = 0.3

P_both = P_electronics * P_accessories
print("P(Elektronik dan Aksesoris) =", P_both)
```

**Output:**

```
P(Elektronik dan Aksesoris) = 0.12
```

---

## 8. Contoh Nyata dalam Data Science

### üìä Kasus: Analisis Pelanggan E-Commerce

Kamu bekerja sebagai **data analyst**.
Dari dataset perilaku pelanggan:

| Pelanggan | Klik Iklan Elektronik | Klik Iklan Fashion |
| --------- | --------------------- | ------------------ |
| A         | 1                     | 1                  |
| B         | 1                     | 0                  |
| C         | 0                     | 1                  |
| D         | 1                     | 1                  |

Misalnya dari data besar:

* 40% pengguna mengklik iklan Elektronik
* 30% pengguna mengklik iklan Fashion
* Kita asumsikan kedua tindakan **independen**

Kita ingin tahu: **peluang pengguna mengklik keduanya.**

```
P(E dan F) = 0.4 √ó 0.3 = 0.12
```

Berarti, sekitar **12% pengguna** kemungkinan mengklik **dua jenis iklan**.

### Python Simulation (dengan DataFrame)

```python
import pandas as pd
import numpy as np

np.random.seed(42)

# Simulasi 1000 pelanggan
n = 1000
click_electronic = np.random.choice([1, 0], size=n, p=[0.4, 0.6])
click_fashion = np.random.choice([1, 0], size=n, p=[0.3, 0.7])

df = pd.DataFrame({
    "Electronic_Ad_Click": click_electronic,
    "Fashion_Ad_Click": click_fashion
})

# Probabilitas empiris dari keduanya
both_clicked = df[(df["Electronic_Ad_Click"] == 1) & (df["Fashion_Ad_Click"] == 1)]
P_both = len(both_clicked) / n

print("Probabilitas klik keduanya (simulasi):", round(P_both, 3))
```

**Output Contoh:**

```
Probabilitas klik keduanya (simulasi): 0.123
```

üß† Interpretasi:
Hasil simulasi mendekati nilai teoritis 0.12 ‚Üí ini menunjukkan konsep **Rule of Multiplication** bekerja dalam konteks data nyata.

---

## 9. Aplikasi dalam Data Science

1. **Customer Behavior Analysis**
   Menghitung peluang pelanggan melakukan **dua tindakan bersamaan** ‚Äî misalnya klik dan beli.

2. **Fraud Detection**
   Menggabungkan peluang beberapa indikator risiko terjadi bersamaan (contoh: IP address mencurigakan dan pembelian besar).

3. **Machine Learning (Naive Bayes)**
   Naive Bayes Classifier menggunakan perkalian probabilitas fitur yang **diasumsikan independen**:

   ```
   P(Class | Features) ‚àù P(Class) √ó P(F1|Class) √ó P(F2|Class) √ó ...
   ```

4. **Marketing Attribution**
   Mengukur kemungkinan pelanggan terpapar dua kampanye berbeda dan bagaimana pengaruhnya terhadap pembelian.

---

## 10. Kesimpulan

* **Rule of Multiplication** digunakan untuk menghitung peluang dua kejadian terjadi **bersamaan**.
* Gunakan:

  * `P(A dan B) = P(A) √ó P(B)` jika **independen**
  * `P(A dan B) = P(A) √ó P(B|A)` jika **dependen**
* Dalam **data science**, konsep ini sangat penting terutama dalam:

  * Model probabilistik seperti **Naive Bayes**
  * Analisis perilaku pengguna
  * Analisis korelasi antar fitur dalam dataset

---



In [3]:
# dadu genap dan > 4
# 2,4,6
#4,6
# 2/6 = 0.33
# 2,4,6 = 0.5
# 4,6 = 2/3 
0.5 * 2/3

0.3333333333333333



# üéØ Materi: Complement Rule dalam Probabilitas

---

## üß† 1. Pengertian Complement Rule

**Complement Rule (Aturan Komplemen)** digunakan ketika kita ingin mencari peluang suatu kejadian **tidak terjadi**.

Misalnya:

* Jika peluang hujan hari ini adalah 0.2,
  maka peluang **tidak hujan** adalah **1 - 0.2 = 0.8**.

Dengan kata lain:

**P(~A) = 1 - P(A)**

Artinya:

> Jika suatu kejadian **A** bisa terjadi atau tidak terjadi, maka total probabilitasnya selalu 1.

---

## üìê 2. Rumus Complement Rule

**Rumus umum:**

```
P(A') = 1 - P(A)
```

atau bisa dibaca:

> Peluang **A tidak terjadi** sama dengan 1 dikurangi peluang **A terjadi**.

---

## üìä 3. Contoh Sederhana

### Contoh:

Sebuah dadu dilempar satu kali.

Kejadian **A** = muncul angka genap.

Angka genap pada dadu = {2, 4, 6}

Maka:

```
P(A) = 3/6 = 0.5
```

Sehingga:

```
P(~A) = 1 - 0.5 = 0.5
```

Artinya:

> Peluang muncul angka **tidak genap** (ganjil) juga 0.5.

---

## üíª 4. Praktik dengan Python

Mari kita hitung peluang dengan Python menggunakan simulasi.

```python
import random

# Simulasi 100.000 kali lempar dadu
trials = 100_000
dadu = [1, 2, 3, 4, 5, 6]

hasil = [random.choice(dadu) for _ in range(trials)]

# Kejadian A: angka genap
genap = [x for x in hasil if x % 2 == 0]

# Hitung probabilitas
p_A = len(genap) / trials
p_not_A = 1 - p_A

print(f"P(A) = {p_A:.2f}")
print(f"P(~A) = {p_not_A:.2f}")
```

üìä **Output (contoh):**

```
P(A) = 0.50
P(~A) = 0.50
```

---

## üß© 5. Penerapan dalam Data Science

Dalam **data science**, aturan komplemen sering digunakan ketika kita lebih mudah menghitung **peluang kegagalan** daripada **peluang keberhasilan**.

### Contoh Kasus: Model Churn Pelanggan

Misalnya kamu punya model machine learning untuk memprediksi apakah pelanggan akan berhenti (churn).

* Model mengatakan: **P(churn) = 0.15**
* Maka, dengan **Complement Rule**:

```
P(tidak churn) = 1 - 0.15 = 0.85
```

Artinya:

> Peluang pelanggan akan **tetap loyal** adalah 85%.

### Contoh Praktik Python:

```python
# Probabilitas churn dari model
p_churn = 0.15

# Menggunakan aturan komplemen
p_not_churn = 1 - p_churn

print(f"P(churn) = {p_churn}")
print(f"P(not churn) = {p_not_churn}")
```

Output:

```
P(churn) = 0.15
P(not churn) = 0.85
```

---

## üìò 6. Insight Data Science

Aturan ini berguna dalam banyak analisis probabilistik, seperti:

* Menghitung peluang **tidak terjadi error** dalam sistem.
* Mengestimasi **keandalan model (model reliability)**.
* Menghitung peluang **non-fraud** ketika hanya diketahui peluang **fraud**.
* Menyusun strategi bisnis berdasarkan peluang **kegagalan kampanye**.

---

## üß© 7. Contoh Tambahan: Analisis Fraud

Misalnya:

* Probabilitas transaksi **fraud** = 0.02
  (2% dari seluruh transaksi)
* Maka:

```
P(transaksi normal) = 1 - 0.02 = 0.98
```

Kita dapat menyimpulkan bahwa 98% transaksi bersih.

### Python Practice:

```python
p_fraud = 0.02
p_not_fraud = 1 - p_fraud

print(f"P(fraud) = {p_fraud}")
print(f"P(normal) = {p_not_fraud}")
```

---

## üìä 8. Kesimpulan

| Konsep                    | Penjelasan                                                  |
| ------------------------- | ----------------------------------------------------------- |
| **Aturan Komplemen**      | Digunakan untuk menghitung peluang kejadian *tidak terjadi* |
| **Rumus**                 | P(A') = 1 - P(A)                                            |
| **Aplikasi Data Science** | Prediksi churn, fraud detection, sistem keandalan           |
| **Intuisi**               | Total peluang dari kejadian dan kebalikannya selalu 1       |

---



# üéØ **Total Probability Rule (Aturan Probabilitas Total)**

---

## üìò 1. Pengantar Konsep

Dalam dunia nyata, sebuah peristiwa **bisa terjadi karena beberapa penyebab berbeda**.
Aturan *Total Probability* membantu kita menghitung **peluang total dari suatu kejadian** dengan mempertimbangkan **semua penyebab yang mungkin**.

> **Contoh sederhana:**
> Peluang seseorang mendapat hasil **tes positif COVID** bisa dipengaruhi oleh:
>
> * Orang tersebut **memang terinfeksi**, atau
> * Tes tersebut **memberi hasil positif palsu (false positive)**.

Kita ingin menghitung **peluang total** seseorang mendapat hasil tes positif.

---

## ‚öñÔ∏è 2. Konsep Dasar

Aturan *Total Probability* menghubungkan **probabilitas tanpa syarat (unconditional)** dengan **probabilitas bersyarat (conditional)**.

Jika kita punya kejadian A1, A2, ..., An yang:

* saling eksklusif (tidak bisa terjadi bersamaan), dan
* meliputi seluruh kemungkinan (komplemen sempurna),

serta ada satu kejadian B yang bisa terjadi melalui salah satu dari A1, A2, ..., An, maka:

**Rumus umum:**

```
P(B) = P(B|A1) * P(A1) + P(B|A2) * P(A2) + ... + P(B|An) * P(An)
```

---

## üí° 3. Versi Sederhana (Kasus Dua Kejadian)

Jika hanya ada dua kemungkinan, yaitu **A** dan **tidak A (~A)**, maka:

```
P(B) = P(B|A) * P(A) + P(B|~A) * P(~A)
```

Artinya:

* Peluang **B** bisa disebabkan oleh dua hal:

  1. B terjadi karena A terjadi.
  2. B terjadi walaupun A tidak terjadi (misalnya karena kesalahan alat).

---

## üß† 4. Penjelasan Intuitif

Bayangkan kamu ingin tahu **peluang seseorang mendapat hasil tes positif (B)**.
Ada dua kemungkinan:

1. Orang tersebut **sakit (A)** ‚Üí kemungkinan tes positif **true positif**.
2. Orang tersebut **tidak sakit (~A)** ‚Üí bisa tetap positif karena **false positive**.

Untuk mendapatkan **peluang total hasil positif**, tambahkan kedua kemungkinan itu.

---

## üî¢ 5. Contoh Kasus: Tes Medis

Dalam populasi:

* P(A) = 0.01 ‚Üí 1% orang benar-benar sakit
* P(~A) = 0.99 ‚Üí 99% orang sehat
* Keakuratan test saat mendeteksi penyakit ‚Üí P(Positif|Sakit) = 0.95
* False positive rate ‚Üí P(Positif|Tidak Sakit) = 0.05

Hitung peluang **hasil tes positif (P(B))**:
```
            Populasi
           /         \
       Sakit        Tidak Sakit
       (0.01)         (0.99)
       /   \            /   \
 Positif  Negatif   Positif Negatif
 (0.95)   (0.05)    (0.05)   (0.95)

```

```
P(B) = P(B|A) * P(A) + P(B|~A) * P(~A)
P(Positif) = (0.95 * 0.01) + (0.05 * 0.99)
P(Positif) = 0.0095 + 0.0495
P(Positif) = 0.059

```

‚úÖ **Artinya:**
Sekitar **5.94% dari semua orang** akan mendapat hasil tes **positif**, baik karena benar-benar sakit maupun karena kesalahan alat.

---

## üîÅ 6. Hubungan dengan Teorema Bayes

Aturan ini menjadi **dasar dari Teorema Bayes**.
Bayes menggunakan nilai **P(B)** dari sini untuk menghitung **probabilitas terbalik (reverse probability)**.

**Rumus Bayes:**

```
P(A|B) = [ P(B|A) * P(A) ] / P(B)
```

Contoh: menghitung peluang seseorang **benar-benar sakit jika hasilnya positif**.

---

## ‚öôÔ∏è 7. Langkah Menggunakan Total Probability Rule

1. **Identifikasi semua penyebab** dari kejadian B (misalnya A1, A2, A3, ...)
2. **Hitung probabilitas bersyarat**: P(B|Ai)
3. **Hitung probabilitas tiap penyebab**: P(Ai)
4. **Kalikan dan jumlahkan semuanya:**

   ```
   P(B) = P(B|A1)*P(A1) + P(B|A2)*P(A2) + ...
   ```

---

## üß© 8. Contoh Dunia Nyata: Email Spam Filter

* A1 = Email spam (20%)
* A2 = Email normal (80%)
* P(B|A1) = 0.9 ‚Üí spam terdeteksi
* P(B|A2) = 0.1 ‚Üí email normal salah terdeteksi spam

Hitung peluang email ditandai sebagai spam (B):

```
P(B) = (0.9 * 0.2) + (0.1 * 0.8)
P(B) = 0.18 + 0.08
P(B) = 0.26
```

‚úÖ **Artinya:**
26% dari semua email akan ditandai sebagai spam ‚Äî termasuk yang benar-benar spam dan yang salah terdeteksi.

---

## üíª 9. Implementasi Python (Untuk Data Science)

```python
# Probabilitas
P_A = 0.01          # orang sakit
P_notA = 1 - P_A     # orang tidak sakit
P_B_given_A = 0.99   # true positive rate
P_B_given_notA = 0.05 # false positive rate

# Total Probability
P_B = P_B_given_A * P_A + P_B_given_notA * P_notA

print(f"Peluang hasil tes positif (P(B)) = {P_B:.4f} atau {P_B*100:.2f}%")
```

üìà **Output:**

```
Peluang hasil tes positif (P(B)) = 0.0594 atau 5.94%
```

---

## üß≠ 10. Kesimpulan


| **Konsep**                | **Penjelasan**                                                                                    |
| ------------------------- | ------------------------------------------------------------------------------------------------- |
| **Tujuan**                | Menghitung peluang total dari suatu kejadian dengan mempertimbangkan semua penyebab yang mungkin. |
| **Rumus Umum**            | P(B) = P(B | A1)P(A1) + P(B | A2)P(A2) + ... + P(B | An)P(An)                                     |
| **Kasus Dua Kejadian**    | P(B) = P(B | A)P(A) + P(B | ~A)P(~A)                                                              |
| **Hubungan dengan Bayes** | Nilai P(B) digunakan sebagai penyebut (denominator) dalam Teorema Bayes.                          |
| **Aplikasi Nyata**        | Medis (diagnosis), deteksi spam, prediksi risiko, fraud detection.                                |
                

---

## üß© 11. Insight untuk Data Science

Dalam **Data Science**, aturan ini digunakan untuk:

* Menggabungkan **peluang dari beberapa kategori data**.
* Menghitung **total probabilitas kejadian** dalam model prediktif.
* Menjadi dasar logika dalam **Naive Bayes Classifier**, di mana probabilitas dihitung dari berbagai fitur independen.

---






# üéØ **Latihan**

---

## üìò **1. Konteks Masalah**

Ada dua pabrik yang memproduksi barang ke pasaran:

| Pabrik | Persentase Produksi | Probabilitas Barang Rusak |
| ------ | ------------------- | ------------------------- |
| A      | 60% = 0.6           | 3% = 0.03                 |
| B      | 40% = 0.4           | 5% = 0.05                 |

Kita ingin tahu:

> Jika kita **mengambil satu barang secara acak dari pasar**, berapa **peluang total** bahwa barang tersebut **rusak**?

---

## üí° **2. Identifikasi Kejadian**

Kita definisikan:

* ( A_1 ): Barang berasal dari **Pabrik A**
* ( A_2 ): Barang berasal dari **Pabrik B**
* ( R ): Barang tersebut **rusak**

Diketahui:

* ( P(A1) = 0.6 )
* ( P(A_2) = 0.4 )
* ( P(R|A_1) = 0.03 )
* ( P(R|A_2) = 0.05 )

---


## üß© **3. Diagram Pemahaman**

Bayangkan seperti diagram pohon probabilitas (probability tree):

```
               Barang di Pasar
               /             \
          Pabrik A          Pabrik B
          (0.6)              (0.4)
         /     \            /     \
   Rusak     Tidak     Rusak     Tidak
   (0.03)   (0.97)     (0.05)   (0.95)
```

Untuk mencari peluang total **barang rusak**, kita kalikan setiap jalur:

* Dari Pabrik A dan rusak ‚Üí ( 0.6 √ó 0.03 = 0.018 )
* Dari Pabrik B dan rusak ‚Üí ( 0.4 √ó 0.05 = 0.02 )

Lalu tambahkan:

P(R) = 0.018 + 0.02 = 0.038



# üéØ Bayes‚Äô Theorem (Teorema Bayes)

---

## üìò 1. Pengantar Konsep

Teorema Bayes adalah salah satu konsep **terpenting dalam statistik inferensial dan data science**.
Ia digunakan untuk **memperbarui probabilitas** suatu hipotesis berdasarkan **informasi baru** yang kita dapatkan.

> Intinya: Bayes membantu kita menjawab pertanyaan seperti:
>
> ‚ÄúSeberapa besar kemungkinan seseorang benar-benar sakit jika hasil tesnya positif?‚Äù
>
> atau
> ‚ÄúSeberapa besar peluang email ini spam jika mengandung kata tertentu?‚Äù

---

## üß© 2. Ide Dasar Bayes‚Äô Theorem

Bayes‚Äô Theorem menghubungkan **probabilitas bersyarat** (conditional probability) dari dua peristiwa, misalnya A dan B.

Kita ingin tahu **P(A|B)**, yaitu:

> Probabilitas A terjadi, dengan syarat bahwa B sudah terjadi.

Rumusnya:

```
P(A|B) = [ P(B|A) * P(A) ] / P(B)
```

Keterangan:

* P(A|B) ‚Üí Peluang A terjadi jika B sudah terjadi (posterior probability)
* P(B|A) ‚Üí Peluang B terjadi jika A benar (likelihood)
* P(A) ‚Üí Peluang awal A terjadi sebelum melihat data (prior probability)
* P(B) ‚Üí Peluang total B terjadi (normalizing constant)

```
     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
     ‚îÇ  Prior     ‚îÇ   ‚Üí keyakinan awal
     ‚îÇ P(A)       ‚îÇ
     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
           ‚îÇ
           ‚ñº
     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
     ‚îÇ Likelihood ‚îÇ   ‚Üí seberapa cocok bukti dengan hipotesis
     ‚îÇ P(B|A)     ‚îÇ
     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
           ‚îÇ
           ‚ñº
     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
     ‚îÇ Posterior  ‚îÇ   ‚Üí keyakinan baru setelah melihat bukti
     ‚îÇ P(A|B)     ‚îÇ
     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
           ‚îÇ
           ‚ñº
     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
     ‚îÇ Normalizing   ‚îÇ ‚Üí penyesuaian total probabilitas
     ‚îÇ Constant P(B) ‚îÇ
     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

---

## üß† 3. Intuisi Sederhana

Bayes membantu kita **memperbarui keyakinan** berdasarkan data baru.

> Sebelum tahu hasil tes, kita percaya hanya 1% orang yang sakit.
> Setelah melihat hasil tes positif, kita ingin memperbarui keyakinan itu.

Itulah fungsi Bayes ‚Äî memperbarui **prior** menjadi **posterior**.

---

## ‚öñÔ∏è 4. Contoh Kasus: Tes Medis

Dalam populasi:

```
P(Sakit) = 0.01             # 1% orang sakit
P(Tidak Sakit) = 0.99       # 99% orang sehat
P(Positif | Sakit) = 0.99   # Akurasi tes mendeteksi penyakit
P(Positif | Tidak Sakit) = 0.05  # False positive rate
```

### Pertanyaan:

Jika seseorang hasil tesnya positif, berapa peluang dia **benar-benar sakit**?

Langkah:

1. Hitung total probabilitas hasil positif (P(Positif)):

```
P(Positif) = P(Positif | Sakit)*P(Sakit) + P(Positif | Tidak Sakit)*P(Tidak Sakit)
P(Positif) = (0.99 * 0.01) + (0.05 * 0.99)
P(Positif) = 0.0099 + 0.0495
P(Positif) = 0.0594
```

2. Gunakan Bayes‚Äô Theorem:

```
P(Sakit | Positif) = [ P(Positif | Sakit) * P(Sakit) ] / P(Positif)
P(Sakit | Positif) = (0.99 * 0.01) / 0.0594
P(Sakit | Positif) = 0.0099 / 0.0594
P(Sakit | Positif) ‚âà 0.1667 atau 16.7%
```

‚úÖ Jadi, meskipun tes sangat akurat (99%), seseorang yang tesnya positif hanya punya **16.7% peluang benar-benar sakit**.
Hal ini karena penyakitnya **jarang (hanya 1%)**, dan **false positive** tetap ada.

---

## üå≥ 5. Diagram Pohon Probabilitas

```
Populasi
‚îÇ
‚îú‚îÄ‚îÄ Sakit (0.01)
‚îÇ     ‚îú‚îÄ‚îÄ Positif (0.99)
‚îÇ     ‚îî‚îÄ‚îÄ Negatif (0.01)
‚îÇ
‚îî‚îÄ‚îÄ Tidak Sakit (0.99)
      ‚îú‚îÄ‚îÄ Positif (0.05)
      ‚îî‚îÄ‚îÄ Negatif (0.95)
```

---

## üíª 6. Implementasi Python (Data Science Example)

```python
# Probabilitas awal
P_sakit = 0.01
P_tidak_sakit = 1 - P_sakit
P_positif_diberi_sakit = 0.99
P_positif_diberi_tidak_sakit = 0.05

# Total probabilitas hasil positif
P_positif = (P_positif_diberi_sakit * P_sakit) + (P_positif_diberi_tidak_sakit * P_tidak_sakit)

# Hitung probabilitas benar-benar sakit jika hasil positif
P_sakit_diberi_positif = (P_positif_diberi_sakit * P_sakit) / P_positif

print(f"Peluang seseorang benar-benar sakit jika hasil tes positif: {P_sakit_diberi_positif:.4f} atau {P_sakit_diberi_positif*100:.2f}%")
```

Output:

```
Peluang seseorang benar-benar sakit jika hasil tes positif: 0.1667 atau 16.67%
```

---

## üßÆ 7. Hubungan dengan Data Science

Teorema Bayes sangat penting di berbagai aplikasi **data science dan machine learning**, terutama dalam **probabilistic modeling**.

### Contoh Aplikasi Nyata:

| Bidang                 | Penerapan Teorema Bayes                                                                                         |
| ---------------------- | --------------------------------------------------------------------------------------------------------------- |
| **Klasifikasi Teks**   | Naive Bayes digunakan untuk memprediksi apakah email itu **spam atau tidak** berdasarkan kata-kata di dalamnya. |
| **Prediksi Risiko**    | Menentukan peluang seseorang **memiliki penyakit** berdasarkan hasil tes laboratorium.                          |
| **Deteksi Fraud**      | Menghitung kemungkinan suatu transaksi adalah **penipuan**, berdasarkan pola historis.                          |
| **Rekomendasi Produk** | Mengestimasi kemungkinan pengguna **menyukai produk tertentu** berdasarkan perilaku sebelumnya.                 |

---

## üîç 8. Contoh Data Science (Naive Bayes Classifier)

```python
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

# Dataset sederhana
data = {
    'umur': [25, 30, 45, 35, 22, 40, 50],
    'pendapatan': [40, 50, 80, 60, 35, 75, 90],
    'beli_asuransi': [0, 0, 1, 1, 0, 1, 1]  # 1 = beli, 0 = tidak
}

df = pd.DataFrame(data)

# Pisahkan fitur dan label
X = df[['umur', 'pendapatan']]
y = df['beli_asuransi']

# Bagi data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Model Naive Bayes
model = GaussianNB()
model.fit(X_train, y_train)

# Prediksi
y_pred = model.predict(X_test)

# Evaluasi
print("Akurasi model:", accuracy_score(y_test, y_pred))
```

üìà Naive Bayes menggunakan prinsip **Teorema Bayes**, tetapi mengasumsikan fitur **independen satu sama lain** (karena itu disebut *naive*).

---

## üß≠ 9. Kesimpulan

| Konsep                    | Penjelasan                                                                                |            |                    |
| ------------------------- | ----------------------------------------------------------------------------------------- | ---------- | ------------------ |
| **Tujuan**                | Memperbarui probabilitas hipotesis berdasarkan bukti baru.                                |            |                    |
| **Rumus**                 | P(A                                                                                       | B) = [ P(B | A) * P(A) ] / P(B) |
| **Manfaat**               | Memahami hubungan sebab-akibat dalam data dan memperkirakan probabilitas baru.            |            |                    |
| **Aplikasi Data Science** | Naive Bayes Classifier, diagnosis medis, spam detection, fraud detection.                 |            |                    |
| **Insight Penting**       | Akurasi tinggi tidak menjamin kepastian, tergantung prevalensi dasar (prior probability). |            |                    |


In [6]:
pip install scikit-learn

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [10]:
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

# Dataset sederhana
data = {
    'umur': [25, 30, 45, 35, 22, 40, 50],
    'pendapatan': [40, 50, 80, 60, 35, 75, 90],
    'beli_asuransi': [0, 0, 1, 1, 0, 1, 1]  # 1 = beli, 0 = tidak
}

df = pd.DataFrame(data)

# Pisahkan fitur dan label
X = df[['umur', 'pendapatan']]
y = df['beli_asuransi']

# Bagi data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Model Naive Bayes
model = GaussianNB()
model.fit(X_train, y_train)

# Prediksi
y_pred = model.predict(X_test)

# Evaluasi
print("Akurasi model:", accuracy_score(y_test, y_pred))

Akurasi model: 0.3333333333333333




## üìÇ Penjelasan Bagian per Bagian

### 1. Import Library

```python
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd
```

Kegunaannya:

* `pandas` ‚Üí buat tabel data.
* `train_test_split` ‚Üí memisahkan data jadi **data latih** dan **data uji**.
* `GaussianNB` ‚Üí model *Naive Bayes* untuk data numerik yang diasumsikan berdistribusi normal (Gaussian).
* `accuracy_score` ‚Üí mengukur seberapa akurat modelnya nanti.

---

### 2. Membuat Dataset Sederhana

```python
data = {
    'umur': [25, 30, 45, 35, 22, 40, 50],
    'pendapatan': [40, 50, 80, 60, 35, 75, 90],
    'beli_asuransi': [0, 0, 1, 1, 0, 1, 1]  # 1 = beli, 0 = tidak
}

df = pd.DataFrame(data)
```

‚û°Ô∏è Ini data buatan kecil, seolah-olah kamu punya 7 orang dengan dua fitur:

* `umur`
* `pendapatan`

dan satu label target:

* `beli_asuransi` (0 atau 1)

---

### 3. Pisahkan Fitur dan Label

```python
X = df[['umur', 'pendapatan']]
y = df['beli_asuransi']
```

‚û°Ô∏è `X` adalah input (fitur),
‚û°Ô∏è `y` adalah output (apa yang ingin diprediksi).

---

### 4. Split Data jadi Training dan Testing

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
```

‚û°Ô∏è Data dibagi menjadi:

* **70% data training** ‚Üí buat melatih model.
* **30% data testing** ‚Üí buat menguji model.

`random_state=42` biar pembagian selalu sama kalau dijalankan ulang.

---

### 5. Membuat dan Melatih Model Naive Bayes

```python
model = GaussianNB()
model.fit(X_train, y_train)
```

‚û°Ô∏è `GaussianNB` artinya kamu pakai **Naive Bayes** dengan asumsi data tiap fitur mengikuti **distribusi normal (Gaussian)**.
Contohnya:

* Umur 25‚Äì50
* Pendapatan 35‚Äì90
  Masing-masing dianggap punya distribusi probabilitas seperti kurva lonceng.

Model ini akan belajar:

> ‚ÄúSeberapa besar kemungkinan seseorang dengan umur dan pendapatan tertentu membeli asuransi.‚Äù

---

### 6. Melakukan Prediksi

```python
y_pred = model.predict(X_test)
```

‚û°Ô∏è Model mencoba **memprediksi label (`beli_asuransi`)** untuk data yang belum pernah dia lihat (`X_test`).

---

### 7. Mengevaluasi Akurasi Model

```python
print("Akurasi model:", accuracy_score(y_test, y_pred))
```

‚û°Ô∏è Mengukur **seberapa sering model menebak benar.**

Misalnya hasilnya:

```
Akurasi model: 1.0
```

Artinya model menebak **100% benar** untuk data kecil ini (karena datasetnya sederhana banget).

---

## ü§ñ Bagaimana Ini Terkait dengan Teorema Bayes?

Naive Bayes bekerja berdasarkan rumus **Teorema Bayes**:

```
P(Kelas | Data) = [ P(Data | Kelas) * P(Kelas) ] / P(Data)
```

Naive Bayes disebut **‚ÄúNaive‚Äù** karena diasumsikan bahwa fitur-fitur (umur dan pendapatan) **independen satu sama lain**, padahal di dunia nyata belum tentu.

---


In [8]:
# Data baru
data_baru = [[38, 68]]  # umur 38, pendapatan 68 juta
prediksi = model.predict(data_baru)

print("Prediksi:", "Beli Asuransi" if prediksi[0] == 1 else "Tidak Beli Asuransi")


Prediksi: Beli Asuransi


