# **NLP Mini Chatbot - Intent Classification (SmartSaku)**

Notebook ini berisi langkah-langkah untuk melatih model _Machine Learning_ yang berfungsi sebagai otak dari chatbot. Tujuannya adalah untuk mengklasifikasikan maksud (intent) dari input teks pengguna.

Prosesnya meliputi:
1.  **Impor Library**: Memuat semua pustaka Python yang dibutuhkan.
2.  **Muat Dataset**: Membaca data latih dari file `dataset_chatbot.csv`.
3.  **Ekstraksi Fitur (TF-IDF)**: Mengubah data teks menjadi representasi numerik.
4.  **Pelatihan Model (SVM)**: Melatih model untuk mengenali pola dan memprediksi intent.
5.  **Simpan Model**: Menyimpan model dan vectorizer yang sudah dilatih agar bisa digunakan nanti oleh aplikasi backend.

## 1. Import Library
Import semua library yang dibutuhkan untuk preprocessing, training, evaluasi, dan penyimpanan model.

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
import pickle

print("Semua library yang dibutuhkan berhasil di-import.")

Semua library yang dibutuhkan berhasil di-import.


## 2. Muat Dataset

Langkah pertama adalah memuat dataset yang telah kita siapkan sebelumnya. Kita akan menggunakan library `pandas` untuk membaca file `dataset_chatbot.csv` ke dalam sebuah DataFrame.

Setelah dimuat, kita akan:
- Menampilkan 5 baris pertama untuk memastikan data terbaca dengan benar.
- Memisahkan kolom `text` (sebagai fitur atau `X`) dan `intent` (sebagai target atau `y`).
- Menghapus baris yang kosong (`dropna`) untuk menjaga kualitas data.

In [2]:
try:
    # Membaca dataset
    df = pd.read_csv('dataset_chatbot.csv')
    
    # Menghapus baris yang mungkin kosong
    df.dropna(subset=['text', 'intent'], inplace=True)
    
    # Memisahkan fitur (X) dan target (y)
    X = df['text']
    y = df['intent']
    
    print("Dataset berhasil dimuat.")
    print("Jumlah data:", len(df))
    print("\nContoh data:")
    display(df.head())
    
except FileNotFoundError:
    print("Error: File 'dataset_chatbot.csv' tidak ditemukan. Pastikan file ada di direktori yang sama dengan notebook ini.")

Dataset berhasil dimuat.
Jumlah data: 139

Contoh data:


Unnamed: 0,text,intent
0,halo,sapaan
1,hai,sapaan
2,selamat pagi,sapaan
3,selamat siang,sapaan
4,selamat sore,sapaan


## 3. Ekstraksi Fitur dengan TF-IDF Vectorizer

Model _machine learning_ tidak bisa memproses teks mentah, jadi kita perlu mengubahnya menjadi angka. Kita akan menggunakan metode **TF-IDF (Term Frequency-Inverse Document Frequency)**.

- **TF (Term Frequency)**: Mengukur seberapa sering sebuah kata muncul dalam satu kalimat.
- **IDF (Inverse Document Frequency)**: Mengukur seberapa penting sebuah kata di seluruh dataset.

Proses ini akan mengubah setiap kalimat menjadi sebuah vektor angka.

In [3]:
# Inisialisasi TfidfVectorizer
vectorizer = TfidfVectorizer()

# Melatih vectorizer dan mentransformasi data teks
X_vectorized = vectorizer.fit_transform(X)

print("Ekstraksi fitur dengan TF-IDF berhasil.")
print("Dimensi dari matriks fitur:", X_vectorized.shape)

Ekstraksi fitur dengan TF-IDF berhasil.
Dimensi dari matriks fitur: (139, 269)


## 4. Pelatihan Model Klasifikasi

Sekarang kita memiliki data dalam format numerik. Langkah selanjutnya adalah melatih model klasifikasi. Kita akan menggunakan **Support Vector Classifier (SVC)**, yang merupakan salah satu algoritma yang handal untuk tugas klasifikasi teks.

Model ini akan belajar dari `X_vectorized` (fitur) dan `y` (label intent) untuk menemukan pola yang membedakan satu intent dari yang lain.

In [4]:
# Inisialisasi model SVC
# kernel='linear' cocok untuk data teks
# probability=True agar kita bisa mendapatkan skor kepercayaan nanti
model = SVC(kernel='linear', probability=True)

# Melatih model dengan data
print("Memulai pelatihan model...")
model.fit(X_vectorized, y)
print("Model berhasil dilatih!")

Memulai pelatihan model...
Model berhasil dilatih!


## 5. Simpan Model dan Vectorizer

Langkah terakhir dan paling penting adalah menyimpan hasil kerja kita. Kita akan menyimpan dua objek:
1.  **`model`**: Model SVC yang sudah dilatih.
2.  **`vectorizer`**: Objek TF-IDF yang tahu bagaimana cara mengubah teks baru menjadi format angka yang sama seperti saat pelatihan.

Kita menggunakan `pickle` untuk menyimpan objek-objek ini ke dalam file biner (`.pkl`). File-file inilah yang nantinya akan kita serahkan ke tim backend.

In [5]:
# Menyimpan model ke file .pkl
with open('model_chatbot.pkl', 'wb') as model_file:
    pickle.dump(model, model_file)

# Menyimpan vectorizer ke file .pkl
with open('vectorizer.pkl', 'wb') as vectorizer_file:
    pickle.dump(vectorizer, vectorizer_file)

print("Proses Selesai!")
print("Dua file telah berhasil dibuat:")
print("1. model_chatbot.pkl")
print("2. vectorizer.pkl")

Proses Selesai!
Dua file telah berhasil dibuat:
1. model_chatbot.pkl
2. vectorizer.pkl
