In [4]:
# Mengimpor fungsi fetch_20newsgroups dari modul sklearn.datasets
# Fungsi ini digunakan untuk mengunduh dataset 20 Newsgroups yang berisi kumpulan posting dari grup diskusi internet
from sklearn.datasets import fetch_20newsgroups

# Mengimpor TfidfVectorizer dari modul sklearn.feature_extraction.text
# TfidfVectorizer digunakan untuk mengonversi kumpulan dokumen teks menjadi vektor fitur berdasarkan frekuensi dan bobot TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer

# Mengimpor model Perceptron dari modul sklearn.linear_model
# Perceptron adalah algoritma pembelajaran mesin untuk klasifikasi biner atau multi-kelas
from sklearn.linear_model import Perceptron

# Mengimpor fungsi f1_score dan classification_report dari modul sklearn.metrics
# f1_score digunakan untuk mengukur presisi dan recall dari model, sementara classification_report memberikan laporan berbagai metrik evaluasi
from sklearn.metrics import f1_score, classification_report


Langkah 2 - Pilih Label dan Split Data

In [5]:
# Menentukan kategori yang ingin diunduh dari dataset 20 Newsgroups
categories = ['rec.sport.hockey', 'rec.sport.baseball', 'rec.autos']

# Mengunduh data latih dari dataset 20 Newsgroups dengan kategori yang telah ditentukan
# Parameter 'subset' menentukan subset yang akan diunduh (dalam hal ini, data latih)
# Parameter 'categories' menentukan kategori dari data yang diunduh
# Parameter 'remove' menghapus bagian tertentu dari setiap dokumen seperti 'headers', 'footers', dan 'quotes'
newsgroups_train = fetch_20newsgroups(subset='train', categories=categories, remove=('headers', 'footers', 'quotes'))

# Mengunduh data uji dari dataset 20 Newsgroups dengan kategori yang telah ditentukan
# Parameter 'subset' menentukan subset yang akan diunduh (dalam hal ini, data uji)
# Parameter 'categories' menentukan kategori dari data yang diunduh
# Parameter 'remove' menghapus bagian tertentu dari setiap dokumen seperti 'headers', 'footers', dan 'quotes'
newsgroups_test = fetch_20newsgroups(subset='test', categories=categories, remove=('headers', 'footers', 'quotes'))


Langkah 3 - Ekstrak Fitur dan Buat Model Perceptron

In [6]:
# Membuat objek TfidfVectorizer
# TfidfVectorizer digunakan untuk mengonversi teks menjadi vektor fitur berdasarkan skema pembobotan TF-IDF
vectorizer = TfidfVectorizer()

# Mengonversi data teks dari data latih menjadi vektor fitur menggunakan TfidfVectorizer
# Fit_transform digunakan untuk melatih vektorisasi teks pada data latih
X_train = vectorizer.fit_transform(newsgroups_train.data)

# Mengonversi data teks dari data uji menjadi vektor fitur menggunakan TfidfVectorizer
# Transform digunakan untuk menerapkan vektorisasi yang sudah dipelajari pada data uji
X_test = vectorizer.transform(newsgroups_test.data)

# Membuat objek Perceptron sebagai model klasifikasi dengan random_state=11
clf = Perceptron(random_state=11)

# Melatih model Perceptron dengan data latih yang sudah diventorisasi dan label targetnya
clf.fit(X_train, newsgroups_train.target)

# Melakukan prediksi pada data uji menggunakan model yang telah dilatih
predictions = clf.predict(X_test)

# Menampilkan laporan klasifikasi yang membandingkan label sebenarnya dari data uji dengan prediksi yang diberikan oleh model
print(classification_report(newsgroups_test.target, predictions))


              precision    recall  f1-score   support

           0       0.88      0.88      0.88       396
           1       0.82      0.83      0.83       397
           2       0.88      0.87      0.87       399

    accuracy                           0.86      1192
   macro avg       0.86      0.86      0.86      1192
weighted avg       0.86      0.86      0.86      1192

