# **Data Modeling**

Modeling Data adalah tahap keempat dalam proses CRISP-DM (Cross-Industry Standard Process for Data Mining) setelah tahap Data Understanding dan Data Preparation. Pada tahap ini, kita membangun model menggunakan teknik statistik atau machine learning untuk menemukan pola dalam data dan membuat prediksi atau klasifikasi.


**Tahapan dalam Data Modeling:**

1. **Memilih Model**
- Menentukan algoritma yang sesuai (misalnya, regresi, pohon keputusan, SVM, Naïve Bayes, dll.).
- Pemilihan model didasarkan pada tujuan analisis dan karakteristik data.

2. **Melatih Model (Training Model)**
- Membagi data menjadi training set dan testing set.
- Melatih model menggunakan training set agar dapat mengenali pola dalam data.

3. **Evaluasi Model**
- Menggunakan testing set untuk mengukur performa model dengan metrik seperti akurasi, precision, recall, F1-score, MSE, dll.
- Jika model tidak memberikan hasil yang baik, dapat dilakukan tuning parameter atau pemilihan model lain.

4. **Optimasi Model**
- Menggunakan teknik seperti hyperparameter tuning, cross-validation, atau feature engineering untuk meningkatkan performa model.


**Contoh Penerapan Data Modeling**
Jika kita ingin mengklasifikasikan jenis bunga iris berdasarkan panjang dan lebar kelopaknya, maka:

- **Memahami data** → Melihat apakah ada outlier, nilai kosong, dan distribusi data.

- **Modeling data** → Menggunakan Naïve Bayes atau Decision Tree untuk mengklasifikasikan jenis bunga berdasarkan pola yang ditemukan dari data latih.

Setelah tahap ini selesai, selanjutnya masuk ke tahap Evaluation (Evaluasi Model) untuk memastikan performanya sesuai dengan yang diharapkan. 

## **Pengenalan Naive Bayes**
### **Apa itu Naive Bayes?**
- Algoritma klasifikasi berbasis probabilitas.
- Digunakan untuk memprediksi kelas suatu data berdasarkan fitur-fiturnya.
- Termasuk dalam keluarga algoritma Machine Learning Supervised Learning.
### **Contoh Aplikasi:**
- Klasifikasi email spam atau bukan spam.
- Prediksi cuaca.
- Analisis sentimen teks.
## **Prinsip Dasar - Teorema Bayes**
### **Teorema Bayes:**
$$
P(Y|X) = \frac{P(X|Y) \cdot P(Y)}{P(X)}
$$
### **Penjelasan:**
- $ P(Y|X) $: Probabilitas posterior (kelas $ Y $ diberikan fitur $ X $).
- $ P(X|Y) $: Likelihood (probabilitas fitur $ X $ diberikan kelas $ Y $).
- $ P(Y) $: Prior probability (probabilitas awal kelas $ Y $).
- $ P(X) $: Evidence (probabilitas fitur $ X $ secara keseluruhan).
### **Tujuan:**
Mencari kelas $ Y $ dengan nilai $ P(Y|X) $ tertinggi.

## **Asumsi “Naive”**
### **Asumsi Utama:**
- Fitur-fitur bersifat independen satu sama lain.
- Artinya, probabilitas suatu fitur tidak dipengaruhi oleh fitur lainnya.
### **Contoh:**
Jika kita ingin mengklasifikasikan email sebagai spam atau bukan spam:
- Kata “diskon” dan kata “beli” dianggap independen meskipun sering muncul bersamaan.
### **Komentar:**
Meskipun asumsi ini jarang terpenuhi di dunia nyata, Naive Bayes tetap efektif dalam banyak kasus.

## **Langkah-langkah Klasifikasi**
1. **Persiapan Data:**
- Pisahkan data menjadi fitur ($ X $) dan label ($ Y $).
2. **Hitung Probabilitas Awal ($ P(Y) $):**
- Hitung frekuensi setiap kelas dalam dataset.
3. **Hitung Likelihood ($ P(X|Y) $):**
- Untuk setiap fitur, hitung probabilitas kemunculannya dalam setiap kelas.
4. **Gabungkan dengan Teorema Bayes:**
- Gunakan rumus
$$
P(Y|X) = \frac{P(X|Y) \cdot P(Y)}{P(X)}
$$
5. **Prediksi Kelas:**
- Pilih kelas dengan nilai $ P(Y|X) $ tertinggi.

## **Kelebihan dan Kekurangan**
### **Kelebihan:**
- Sederhana dan mudah diimplementasikan.
- Cepat dan efisien untuk dataset besar.
- Cocok untuk data dengan banyak fitur.
### **Kekurangan:**
- Asumsi independensi fitur seringkali tidak realistis.
- Performa menurun jika fitur saling bergantung.
- Memerlukan penanganan khusus untuk data dengan probabilitas nol.

## **Contoh Kasus - Klasifikasi Email Spam**
### **Dataset:**
- **Fitur:** Frekuensi kata-kata tertentu (e.g., “gratis”, “diskon”).
- **Label:** Spam atau Bukan Spam.
### **Langkah-Langkah:**
1. Hitung probabilitas prior untuk setiap kelas.
2. Hitung likelihood untuk setiap kata dalam email.
3. Gunakan teorema Bayes untuk memprediksi apakah email termasuk spam atau bukan.
### **Hasil:**
Email diklasifikasikan sebagai spam jika probabilitas spam lebih tinggi daripada bukan spam.

# **Impelemtasi menggunakan python pada data yang ada outliernya dan tidak ada outliernya**

**Contoh Menggunakan data dengan outlier**

In [None]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Membaca file CSV
file_path = "hasil_gabungan.csv"
df = pd.read_csv(file_path)

# Memilih fitur dan label
X = df[['petal_length', 'petal_width', 'sepal_length', 'sepal_width']]
y = df['class']

# Membagi data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisialisasi model Naïve Bayes
model = GaussianNB()

# Melatih model
model.fit(X_train, y_train)

# Melakukan prediksi
y_pred = model.predict(X_test)

# Mengukur akurasi model
accuracy = accuracy_score(y_test, y_pred)
print("Akurasi:", accuracy)

Akurasi: 0.8666666666666667


**Contoh Menggunakan data dengan outlier yang sudah dihapus**

In [3]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Membaca file CSV
file_path = "data_clean.csv"
df = pd.read_csv(file_path)

# Memilih fitur dan label
X = df[['petal_length', 'petal_width', 'sepal_length', 'sepal_width']]
y = df['class']

# Membagi data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisialisasi model Naïve Bayes
model = GaussianNB()

# Melatih model
model.fit(X_train, y_train)

# Melakukan prediksi
y_pred = model.predict(X_test)

# Mengukur akurasi model
accuracy = accuracy_score(y_test, y_pred)
print("Akurasi:", accuracy)


Akurasi: 0.9629629629629629
