# Praktikum 2
## Klasifikasi Berita dengan Perceptron

### Langkah 1 - Import Library

In [1]:
# import function to download the dataset
from sklearn.datasets import fetch_20newsgroups # download dataset

# import text feature extraction method
from sklearn.feature_extraction.text import TfidfVectorizer

# import Perceptron classifier
from sklearn.linear_model import Perceptron

# import evaluation metrics
from sklearn.metrics import f1_score, classification_report

### Langkah 2 - Pilih Label dan Split Data

In [2]:
# define the categories of newsgroups to download
categories = ['rec.sport.hockey', 'rec.sport.baseball', 'rec.autos']

# fetch the training dataset
newsgroups_train = fetch_20newsgroups(subset='train', categories=categories, remove=('headers', 'footers', 'quotes'))

# fetch the test dataset
newsgroups_test = fetch_20newsgroups(subset='test', categories=categories, remove=('headers', 'footers', 'quotes'))

### Langkah 3 - Ekstrak Fitur dan Buat Model Perceptron

In [3]:
#  transform text data into a numerical representation, where words are represented by their importance in the document relative to the entire corpus.
vectorizer = TfidfVectorizer()

# raining data to both fit the vectorizer and transform the training data. 
X_train = vectorizer.fit_transform(newsgroups_train.data)
X_test = vectorizer.transform(newsgroups_test.data)

# Perceptron classifier is instantiated with a random state for reproducibility and then fitted to the training data
clf = Perceptron(random_state=11)
clf.fit(X_train, newsgroups_train.target)

#  make predictions on the test data, based on the features extracted from the text.
predictions = clf.predict(X_test)

# prints a classification report to evaluating the performance of a classifier.
print(classification_report(newsgroups_test.target, predictions))

              precision    recall  f1-score   support

           0       0.88      0.88      0.88       396
           1       0.82      0.83      0.83       397
           2       0.88      0.87      0.87       399

    accuracy                           0.86      1192
   macro avg       0.86      0.86      0.86      1192
weighted avg       0.86      0.86      0.86      1192



### Penjelasan :
1. Precision: Precision mengukur sejauh mana model benar-benar mengidentifikasi contoh yang relevan dalam kelas tertentu.
2. Recall: Recall mengukur sejauh mana model dapat mengidentifikasi semua instance yang benar-benar milik kelas tertentu.
3. F1-Score:  ukuran yang menggabungkan precision dan recall menjadi satu metrik tunggal. Ini adalah harmonic mean dari precision dan recall, memberikan bobot yang seimbang pada keduanya.
4. Support: jumlah instance dalam setiap kelas yang digunakan untuk menghitung metrik-metrik di atas.
5. Accuracy: metrik yang mengukur sejauh mana model benar-benar mengklasifikasikan semua instance dengan benar tanpa memandang kelas tertentu. 

Berdasarkan laporan klasifikasi ini, dapat disimpulkan bahwa model memiliki performa yang cukup baik dalam mengklasifikasikan data ke dalam tiga kelas yang berbeda. Semua metrik, termasuk presisi, recall, dan F1-Score, memiliki skor yang cukup tinggi dan seimbang. Akurasi sebesar 86% juga menunjukkan bahwa model secara keseluruhan dapat mengklasifikasikan data dengan baik.