# News Classification Project Machine Learning

Kita pernah melihat berita dibagi menjadi beberapa kategori yang pada umumnya seperti tech, entertaiment, sport dll. Jika kita ingin tahu cara mengklasifikasikan kategori berita dapat menggunakan machine learning. Pada project ini, kita akan membuat melatih sebuah machine learning model untuk tugas klasifikasi berita

## 2. Import Library

Kita akan menggunakan beberapa library yang disediakan oleh python untuk menyelesaikan project klasifikasi berita ini

In [1]:
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import numpy as np # berfungsi sebagai operasi vektor dan matriks
from sklearn.feature_extraction.text import CountVectorizer # untuk menghitung jumlah kemunculan kata
from sklearn.model_selection import train_test_split # untuk membagi data menjadi data latih dan data uji
from sklearn.naive_bayes import MultinomialNB # untuk mengklasifikasikan data dengan menggunakan metode Naive Bayes varian Multinomial khusus untuk klasifikasi multi kelas

## 3. Membaca Dataset

Pada dataset ini bertipe .csv yang dibagi menjadi beberapa kelas atau kategori berita
1. Sport
2. Business
3. Politics
4. Tech
5. Entertaiment

In [2]:
data = pd.read_csv('news.csv', sep='\t') # membaca file csv dan menyimpannya ke dalam variabel data
data.head(10)

Unnamed: 0,category,filename,title,content
0,business,001.txt,Ad sales boost Time Warner profit,Quarterly profits at US media giant TimeWarne...
1,business,002.txt,Dollar gains on Greenspan speech,The dollar has hit its highest level against ...
2,business,003.txt,Yukos unit buyer faces loan claim,The owners of embattled Russian oil giant Yuk...
3,business,004.txt,High fuel prices hit BA's profits,British Airways has blamed high fuel prices f...
4,business,005.txt,Pernod takeover talk lifts Domecq,Shares in UK drinks and food firm Allied Dome...
5,business,006.txt,Japan narrowly escapes recession,Japan's economy teetered on the brink of a te...
6,business,007.txt,Jobs growth still slow in the US,The US created fewer jobs than expected in Ja...
7,business,008.txt,India calls for fair trade rules,"India, which attends the G7 meeting of seven ..."
8,business,009.txt,Ethiopia's crop production up 24%,Ethiopia produced 14.27 million tonnes of cro...
9,business,010.txt,Court rejects $280bn tobacco case,A US government claim accusing the country's ...


In [7]:
print(data.isnull().sum()) # mengecek apakah ada data yang kosong
print(data['category'].value_counts()) # mengecek jumlah data pada setiap kategori
print(len(data)) # mengecek jumlah data

title       0
category    0
dtype: int64
sport            511
business         510
politics         417
tech             401
entertainment    386
Name: category, dtype: int64
2225


**Catatan**
Perhatikan hasil eksekusi kode diatas bahwa untuk setiap kategoi tidak memiliki nilai atau value yang **null** dan dataset ini berjenis imbalanced dataset atau yang lebih dikenal jumlah data pada setiap kelas tidak seimbang atau sama

## 3. Data Preprocessing

In [6]:
data = data[['title', 'category']] # mengambil kolom title dan category saja

X = np.array(data['title']) # mengambil kolom title dan menyimpannya ke dalam variabel X
y = np.array(data['category']) # mengambil kolom category dan menyimpannya ke dalam variabel y

cv = CountVectorizer() # membuat objek CountVectorizer
X = cv.fit_transform(X) # mengubah data menjadi vektor

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42) # membagi data menjadi data latih dan data uji dengan perbandingan 67:33

print(f'Dimensi Untuk X_Train : {X_train.shape}') # mengecek dimensi data latih pada variabel X
print(f'Dimensi Untuk X_test  : {X_test.shape}') # mengecek dimensi data uji pada variabel X
print(f'Dimensi Untuk y_Train : {y_train.shape}') # mengecek dimensi data latih pada variabel y
print(f'Dimensi Untuk y_test  : {y_test.shape}') # mengecek dimensi data uji pada variabel y

Dimensi Untuk X_Train : (1490, 3754)
Dimensi Untuk X_test  : (735, 3754)
Dimensi Untuk y_Train : (1490,)
Dimensi Untuk y_test  : (735,)


**Catatan**

Perhatikan hasil eksekusi kode diatas, variabel X dan y masing-masing berisi data pada kolom title (predictor) dan category (class). sedangkan untuk dimensi X_train, X_test, y_train, dan y_test dapat dilihat diatas.
1. Jumlah Data : 2225
2. Data Latih Berjumlah : 1490 (67%)
3. Data Uji Berjumlah : 735 (33%)

Sedangkan untuk dimensi yang dihasilkan pada variabel X adalah 3754 kolom yang artinya pada variabel X memiliki matrix 1490x3754. 3754 dapat diartikan terbentuknya banyaknya kosa kata pada dataset kolom title

## 4. Membuat Model Machine Learning

Pada project ini kita akan menggunkana salah satu varian pada naive bayes yakni Multinomial yang khusus untuk mengklasifikasikan data text dengan multi kelas. dikarenakan seperti diawal kita memiliki 5 ketageri yang berarti 5 kelas atau label.

In [8]:
model = MultinomialNB() # membuat objek MultinomialNB
model.fit(X_train, y_train) # melakukan pelatihan model dengan data latih

print(model.score(X_test, y_test)) # mengecek akurasi model dengan data uji

0.819047619047619


## 5. Pengujian

**Catatan**

Dapat kita lihat diatas bahwa akurasi pada model dengan data uji ialah **0.819047619047619** atau dengan kata lain model machine learning ini dapat mengklasifikasikan berita berdasarkan topik atau judul sebesar 81% akurasi

In [10]:
user = input('Masukkan Judul Berita : ') # meminta input judul berita dari user
data = cv.transform([user]).toarray() # mengubah data menjadi vektor
output = model.predict(data) # melakukan prediksi dengan model yang sudah dilatih
print(output) # menampilkan hasil prediksi

['tech']
