# Proyek Akhir Kecerdasan Buatan - Bagian 2

## Klasifikasi Kategori Buku dengan k-Nearest Neighbors (k-NN)

Notebook ini mengimplementasikan algoritma k-NN untuk memprediksi kategori sebuah buku berdasarkan judulnya.


In [1]:
# --- Cell 2: Impor Library ---
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split # Meskipun tidak dipakai di sini, ini adalah praktik yang baik
import string

def preprocess_judul(judul):
    # Lowercase dan hapus tanda baca
    return judul.lower().translate(str.maketrans('', '', string.punctuation))

print("Library yang dibutuhkan telah diimpor.")

Library yang dibutuhkan telah diimpor.


### Membuat Dataset

Kita akan membuat dataset sederhana berisi 20 judul buku beserta kategorinya. Data ini kita definisikan sebagai list of dictionaries di Python.


In [2]:
# --- Cell 4: Mendefinisikan Dataset Buku ---
data_training = [
    # Teknologi
    ('Belajar Pemrograman Python untuk Pemula', 'Teknologi'),
    ('Dasar-dasar Jaringan Komputer', 'Teknologi'),
    ('Panduan Lengkap Microsoft Excel', 'Teknologi'),
    ('Teknologi Informasi Masa Kini', 'Teknologi'),
    ('Pemrograman Web dengan JavaScript', 'Teknologi'),

    # Fiksi
    ('Bumi Manusia dan Jejak Langkah', 'Fiksi'),
    ('Laskar Pelangi', 'Fiksi'),
    ('Negeri 5 Menara', 'Fiksi'),
    ('Perahu Kertas', 'Fiksi'),
    ('Ayat-Ayat Cinta', 'Fiksi'),

    # Sains
    ('Sejarah Singkat Waktu dan Alam Semesta', 'Sains'),
    ('Fisika untuk Siswa SMA', 'Sains'),
    ('Kimia Dasar', 'Sains'),
    ('Biologi Modern', 'Sains'),
    ('Matematika untuk Kehidupan', 'Sains'),

    # Bisnis
    ('Cara Cerdas Mengelola Keuangan Pribadi', 'Bisnis'),
    ('Strategi Sukses Berbisnis Online', 'Bisnis'),
    ('Investasi Saham untuk Pemula', 'Bisnis'),
    ('Manajemen Sumber Daya Manusia', 'Bisnis'),
    ('Marketing 4.0', 'Bisnis'),
]

print(f"Dataset berisi {len(data_training)} judul buku.")

Dataset berisi 20 judul buku.


### Memuat Data ke dalam DataFrame Pandas

Untuk mempermudah pemrosesan, kita ubah data kita ke dalam format tabel menggunakan library Pandas. Ini adalah praktik standar dalam proyek data science.


In [3]:
# --- Cell 6: Membuat dan Menampilkan DataFrame ---
df = pd.DataFrame(data_training, columns=['judul', 'kategori'])

# Menampilkan 5 baris pertama dari data
df.head()

Unnamed: 0,judul,kategori
0,Belajar Pemrograman Python untuk Pemula,Teknologi
1,Dasar-dasar Jaringan Komputer,Teknologi
2,Panduan Lengkap Microsoft Excel,Teknologi
3,Teknologi Informasi Masa Kini,Teknologi
4,Pemrograman Web dengan JavaScript,Teknologi


### Langkah 3: Vektorisasi Teks (TF-IDF)

Sekarang kita ubah data teks (judul buku) menjadi representasi numerik (vektor) menggunakan TF-IDF. Ini memungkinkan algoritma untuk menghitung "kemiripan" antar judul.

Kita akan memisahkan data kita menjadi dua:

- `X`: Fitur (data input), yaitu **judul** buku.
- `y`: Label (data output), yaitu **kategori** buku.


In [4]:
# --- Cell 8: Proses Vektorisasi ---

# 1. Inisialisasi TfidfVectorizer
vectorizer = TfidfVectorizer()

# 2. Pisahkan fitur (X) dan label (y) dari DataFrame
X = df['judul']
y = df['kategori']

# 3. Ubah teks judul menjadi matriks TF-IDF
X_vec = vectorizer.fit_transform(X)

print("Proses vektorisasi selesai.")
print(f"Dimensi matriks TF-IDF: {X_vec.shape}")
print("Artinya, kita punya 20 baris (buku) dan setiap buku direpresentasikan oleh vektor dengan sejumlah fitur (kata unik).")
# Catatan: Jumlah fitur (kata unik) bisa sedikit berbeda tergantung versi library.

Proses vektorisasi selesai.
Dimensi matriks TF-IDF: (20, 60)
Artinya, kita punya 20 baris (buku) dan setiap buku direpresentasikan oleh vektor dengan sejumlah fitur (kata unik).


### Langkah 4: Membuat dan Melatih Model k-NN

Dengan data yang sudah berbentuk vektor, kita sekarang siap untuk membuat model `KNeighborsClassifier`. Kita akan memilih `k=3`, yang berarti model akan melihat 3 tetangga terdekat untuk melakukan prediksi.


In [5]:
# --- Cell 10: Membuat & Melatih Model k-NN ---

# 1. Tentukan jumlah tetangga (k)
k = 3

# 2. Inisialisasi model KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=k)

# 3. Latih model dengan data vektor dan labelnya
# Untuk k-NN, tahap ini hanyalah proses menyimpan data
model.fit(X_vec, y)

print(f"Model k-NN dengan k={k} telah 'dilatih' dan siap digunakan.")

Model k-NN dengan k=3 telah 'dilatih' dan siap digunakan.


### Langkah 5: Melakukan Prediksi pada Data Baru

Ini adalah tahap pengujian. Kita akan memberikan beberapa judul buku baru yang tidak ada dalam dataset untuk melihat seberapa baik model kita dalam mengklasifikasikan.


In [6]:
# --- Cell 12: Menguji Model dengan Data Baru ---

# Daftar judul buku baru yang ingin kita prediksi
buku_baru = [
    "Panduan Pemrograman Python untuk Pemula",
    "Informasi Teknologi Terkini",
    "Belajar JavaScript untuk Web",
    "Kisah Perahu Kertas",
    "Cinta dalam Ayat-Ayat",
    "Fisika SMA Modern",
    "Matematika dan Kehidupan",
    "Mengelola Keuangan Pribadi dengan Cerdas",
    "Sukses Bisnis Online",
    "Panduan Investasi Saham",
    "Manajemen SDM Modern",
    "Marketing Digital Masa Kini"
]


print("--- Memulai Prediksi untuk Buku Baru ---")

# Ubah judul baru menjadi matriks TF-IDF menggunakan vectorizer yang SUDAH DILATIH
vektor_buku_baru = vectorizer.transform(buku_baru)

# Lakukan prediksi
prediksi_kategori = model.predict(vektor_buku_baru)

# Tampilkan hasilnya
for i in range(len(buku_baru)):
    print(f"\nJudul: '{buku_baru[i]}'")
    print(f"--> Prediksi Kategori: {prediksi_kategori[i]}")

--- Memulai Prediksi untuk Buku Baru ---

Judul: 'Panduan Pemrograman Python untuk Pemula'
--> Prediksi Kategori: Teknologi

Judul: 'Informasi Teknologi Terkini'
--> Prediksi Kategori: Teknologi

Judul: 'Belajar JavaScript untuk Web'
--> Prediksi Kategori: Teknologi

Judul: 'Kisah Perahu Kertas'
--> Prediksi Kategori: Fiksi

Judul: 'Cinta dalam Ayat-Ayat'
--> Prediksi Kategori: Fiksi

Judul: 'Fisika SMA Modern'
--> Prediksi Kategori: Sains

Judul: 'Matematika dan Kehidupan'
--> Prediksi Kategori: Sains

Judul: 'Mengelola Keuangan Pribadi dengan Cerdas'
--> Prediksi Kategori: Bisnis

Judul: 'Sukses Bisnis Online'
--> Prediksi Kategori: Bisnis

Judul: 'Panduan Investasi Saham'
--> Prediksi Kategori: Bisnis

Judul: 'Manajemen SDM Modern'
--> Prediksi Kategori: Bisnis

Judul: 'Marketing Digital Masa Kini'
--> Prediksi Kategori: Bisnis
