In [1]:
import numpy as np
import pandas as pd
import warnings


warnings.filterwarnings('ignore')

## Web Scraping

In [2]:
import requests
from bs4 import BeautifulSoup

def webscrap(url, media, label):
    # Request Website
    response = requests.get(url)

    # Menggunakan BeautifulSoup untuk parsing HTML
    soup = BeautifulSoup(response.text, 'html.parser')

    # Mendefinisikan div class setiap website, karena setiap website berbeda
    if media == 'MediaIndonesia':
        _class_ = 'rows jap'
    elif media == 'CNN':
        _class_ = 'detail-text text-cnn_black text-sm grow min-w-0'
    elif media == 'Kompas':
        _class_ = 'read__content'

    div = soup.find('div', _class_)
    
    df = pd.DataFrame(columns=['Teks', 'Media', 'Label'])

    # Mencari <p>
    paragraphs = div.find_all('p')
    content = []

    # Memasukkan setiap <p> kedalam list content
    for paragraph in paragraphs:
        content.append(paragraph.get_text())

    # Menggabungkan content kedalam dataframe
    if content:
        df = pd.concat([pd.DataFrame({'Teks': ['\n'.join(content)], 'Media': media, 'Label': label}, columns=df.columns), df])
            
    return df

- Pada kode ini menggunakan library requests dan Beautiful Soup, library request digunakan untuk membuka url/link artikel berita, dan library BeautifulSoup digunakan untuk mengambil teks berita
- Kemudian didefinisikan juga <div> class pada setiap website karena setiap website berbeda
- Teks disimpan pada list dengan variable content kemudian di join untuk dimasukkan kedalam dataframe 'df'

In [3]:
urls_mediaindonesia = ['https://mediaindonesia.com/politik-dan-hukum/627681/ridwan-kamil-bawa-pengaruh-elektoral-prabowo-gibran-di-jabar',
       'https://mediaindonesia.com/politik-dan-hukum/627651/jelang-putusan-mkmk-2149-personel-polisi-amankan-gedung-mk',
       'https://mediaindonesia.com/politik-dan-hukum/627643/anies-percaya-putusan-mkmk-objektif',
       'https://mediaindonesia.com/politik-dan-hukum/627610/polda-metro-jaya-bisa-ekspose-penetapan-tersangka-kasus-pemerasan-syl-besok',
       'https://mediaindonesia.com/politik-dan-hukum/627589/nasdem-bersyukur-mendapat-dukungan-dari-din-syamsudin-untuk-pilpres-2024',
       'https://mediaindonesia.com/politik-dan-hukum/628682/kubu-prabowo-gibran-sebut-baliho-masif-sebagai-bentuk-semangat-relawan',
       'https://mediaindonesia.com/politik-dan-hukum/628589/wamenkumham-eddy-mengaku-belum-pernah-diperiksa-kpk',
       'https://mediaindonesia.com/politik-dan-hukum/628574/wamenkumham-jadi-tersangka-gratifikasi-begini-kronologi-versi-pelapor',
       'https://mediaindonesia.com/politik-dan-hukum/628447/kebocoran-rph-mk-dalam-putusan-usia-cawapres-dilaporkan-ke-bareskrim-polri',
       'https://mediaindonesia.com/politik-dan-hukum/628446/relawan-gajamada-sebut-polemik-gibran-gerus-suara-prabowo']

urls_cnn = ['https://www.cnnindonesia.com/olahraga/20231104202115-142-1020057/sty-blak-blakan-soal-peluang-duel-indonesia-vs-korea-di-piala-asia',
       'https://www.cnnindonesia.com/olahraga/20231104154839-142-1020000/psis-lepas-hulk-ke-timnas-indonesia-tunjukkan-kamu-layak',
       'https://www.cnnindonesia.com/olahraga/20231105103652-142-1020140/dicintai-indonesia-sty-merasa-seperti-guus-hiddink-di-korea',
       'https://www.cnnindonesia.com/olahraga/20231107115438-142-1020935/legenda-man-city-darius-vassell-dampingi-inggris-u-17-di-indonesia',
       'https://www.cnnindonesia.com/olahraga/20231107034242-142-1020771/pelatih-ekuador-puji-timnas-indonesia-u-17-setinggi-langit',
       'https://www.cnnindonesia.com/olahraga/20231110163653-142-1022662/saifdine-chlaghmo-pencetak-gol-pertama-piala-dunia-u-17-2023',
       'https://www.cnnindonesia.com/olahraga/20231110163807-142-1022664/piala-dunia-u-17-mali-unggul-1-0-atas-uzbekistan-di-babak-pertama',
       'https://www.cnnindonesia.com/olahraga/20231110151354-156-1022598/hasil-practice-motogp-malaysia-alex-marquez-tercepat-martin-kedua',
       'https://www.cnnindonesia.com/olahraga/20231110170432-170-1022672/hasil-korea-masters-ester-menang-kento-momota-cemerlang',
       'https://www.cnnindonesia.com/olahraga/20231110072550-142-1022312/panama-incar-menang-lawan-tim-bintang-sebelum-jumpa-timnas-indonesia']

urls_kompas = ['https://travel.kompas.com/read/2023/11/04/101300927/obyek-wisata-baru-parapuar-bisa-nikmati-labuan-bajo-dari-ketinggian',
       'https://travel.kompas.com/read/2023/11/03/130050127/menikmati-momijigari-di-tohoku-dan-kanto-saat-musim-gugur',
       'https://travel.kompas.com/read/2023/11/01/143400827/pengalaman-berburu-sunset-di-kuta-bali-saat-akhir-pekan-awas-macet-',
       'https://travel.kompas.com/read/2023/11/06/171205927/7-aktivitas-di-cfd-colomadu-bisa-cek-kesehatan',
       'https://travel.kompas.com/read/2023/11/05/210100027/5-wisata-favorit-di-kabupaten-semarang-dusun-semilir-paling-banyak-dikunjungi',
       'https://travel.kompas.com/read/2023/11/10/122815527/healing-murah-meriah-ke-taman-langsat-bisa-ngapain-aja',
       'https://travel.kompas.com/read/2023/11/10/153728527/gunung-padang-disebut-bisa-jadi-piramida-tertua-di-dunia-ketahui-6-faktanya',
       'https://travel.kompas.com/read/2023/11/08/224248727/pantai-pink-bima-surga-di-ujung-timur-pulau-sumbawa',
       'https://travel.kompas.com/read/2023/11/08/204000527/mengapa-kudus-dijuluki-kota-kretek-ketahui-5-alasannya',
       'https://travel.kompas.com/read/2023/11/06/194000327/museum-kretek-kudus-harga-tiket-jam-buka-dan-koleksi']

df1 = pd.DataFrame(columns=['Teks', 'Media', 'Label'])

for i in urls_mediaindonesia:
    df1 = pd.concat([df1, webscrap(i, 'MediaIndonesia', 'Politik')])
    
for i in urls_cnn:
    df1 = pd.concat([df1, webscrap(i, 'CNN', 'Olahraga')])
    
for i in urls_kompas:
    df1 = pd.concat([df1, webscrap(i, 'Kompas', 'Hiburan')])


- Memasukkan link berita kedalam 3 list berbeda dan dikelompokkan dengan media berita masing-masing
- Menggunakan for loop untuk iterate setiap link berita agar kemudian dimasukkan kedalamm dataframe df1

## Text Normalization

### Cleaning Text

In [4]:
import string
import re

df2 = df1.copy()

### Menghapus advertisement text pada setiap media berita
def replace_teks(row):
    text = row['Teks']
    if row['Media'] == 'MediaIndonesia':
        text = text.replace('Baca juga:, Jakarta', ' ')
    elif row['Media'] == 'CNN':
        text = text.replace('CNN', ' ')
        text = text.replace('ADVERTISEMENT', ' ')
        text = text.replace('SCROLL TO CONTINUE WITH CONTENT', ' ')
        text = text.replace('[Gambas:Video CNN]', ' ')
    elif row['Media'] == 'Kompas':
        text = text.replace('JAKARTA, KOMPAS.com -', ' ')
        text = text.replace('LABUAN BAJO, KOMPAS.com -', ' ')
        text = text.replace('KOMPAS.com –', ' ')
        text = text.replace('BALI, KOMPAS.com -', ' ')
        text = text.replace('Kompas', ' ')
        text = text.replace('Baca juga:', ' ')
        text = text.replace('\n', ' ')
        text = text.replace('UNGARAN, KOMPAS.com -', ' ')

    return text
        
df2['Teks'] = df2.apply(replace_teks, axis=1)

## Menghapus HTTPS dan .com
pattern = r"https?://[^\s]+|\.com"

df2['clean_Teks'] = df2['Teks'] .str.replace(pattern, "", regex=True)

### Mengubah teks menjadi lowercase
df2['clean_Teks'] = df2['clean_Teks'].str.lower()

# Menghilangkan simbol (tanda baca)
table = str.maketrans('', '', string.punctuation)

df2['clean_Teks'] = df2['clean_Teks'].str.translate(table)

# Menghilangkan number
def remove_number(text):
    return re.sub(r'\d+', '', text)

df2['clean_Teks'] = df2['clean_Teks'].apply(remove_number)

# Menghilangkan enter
df2['clean_Teks'] = df2['clean_Teks'].str.replace('\n', '')

# Menghilangkan white space
df2['clean_Teks'] = df2['clean_Teks'].str.strip()

print(df2)

                                                Teks           Media  \
0  MANTAN Gubernur Jawa Barat Ridwan Kamil resmi ...  MediaIndonesia   
0  POLDA Metro Jaya mengerahkan sebanyak 2.149 pe...  MediaIndonesia   
0  BAKAL calon presiden (capres) Anies Baswedan p...  MediaIndonesia   
0  MESKI Ketua pimpinan Komisi Pemberantasan Koru...  MediaIndonesia   
0  Ketua DPP Partai NasDem Effendi Choiri menyata...  MediaIndonesia   
0  KOALISI Indonesia Maju (KIM) tidak khawatir de...  MediaIndonesia   
0  WAKIL Menteri Hukum dan HAM (Wamenkumham) Edwa...  MediaIndonesia   
0  Koordinator Masyarakat Antikorupsi Indonesia (...  MediaIndonesia   
0  KASUS kebocoran informasi Rapat Permusyawarata...  MediaIndonesia   
0  KOORDINATOR Nasional Relawan Ganjar-Mahfud unt...  MediaIndonesia   
0  Timnas Indonesia akan berlaga di Piala Asia 20...             CNN   
0  CEO PSIS Semarang Yoyok Sukawi memastikan Wahy...             CNN   
0  Shin Tae Yong (STY) mengungkapkan dirinya mera...            

- Pada step 1 di tahap ini adalah membersihkan data teks berita yang dimulai dengan menghapus Advertisement, Baca Juga:, dan berbagai 'noise' lainnya berdasarkan media berita
- Step ke 2 adalah menghapus https dan .com (memastikan untuk tidak tersisa didalam data)
- Step ke 3 adalah merubah teks menjadi lower case
- Step ke 4 adalah menghapus punctuation yaitu tanda baca
- Step ke 5 adalah menghapus angka-angka
- Step ke 6 Menghilangkan enter
- Kemudian step terakhir adalah menghilangkan white space pada text
- Text yang sudah di clean kemudian dimasukkan kedalam kolom clean_Teks

### Tokenization, Remove Stop Words, and Stemming

In [5]:
import nltk
from nltk.tokenize import word_tokenize

def tokenizer(text):
    tokens = word_tokenize(text)
    return tokens

df2['Tokenized'] = df2['clean_Teks'].apply(tokenizer)

df2

Unnamed: 0,Teks,Media,Label,clean_Teks,Tokenized
0,MANTAN Gubernur Jawa Barat Ridwan Kamil resmi ...,MediaIndonesia,Politik,mantan gubernur jawa barat ridwan kamil resmi ...,"[mantan, gubernur, jawa, barat, ridwan, kamil,..."
0,POLDA Metro Jaya mengerahkan sebanyak 2.149 pe...,MediaIndonesia,Politik,polda metro jaya mengerahkan sebanyak persone...,"[polda, metro, jaya, mengerahkan, sebanyak, pe..."
0,BAKAL calon presiden (capres) Anies Baswedan p...,MediaIndonesia,Politik,bakal calon presiden capres anies baswedan per...,"[bakal, calon, presiden, capres, anies, baswed..."
0,MESKI Ketua pimpinan Komisi Pemberantasan Koru...,MediaIndonesia,Politik,meski ketua pimpinan komisi pemberantasan koru...,"[meski, ketua, pimpinan, komisi, pemberantasan..."
0,Ketua DPP Partai NasDem Effendi Choiri menyata...,MediaIndonesia,Politik,ketua dpp partai nasdem effendi choiri menyata...,"[ketua, dpp, partai, nasdem, effendi, choiri, ..."
0,KOALISI Indonesia Maju (KIM) tidak khawatir de...,MediaIndonesia,Politik,koalisi indonesia maju kim tidak khawatir deng...,"[koalisi, indonesia, maju, kim, tidak, khawati..."
0,WAKIL Menteri Hukum dan HAM (Wamenkumham) Edwa...,MediaIndonesia,Politik,wakil menteri hukum dan ham wamenkumham edward...,"[wakil, menteri, hukum, dan, ham, wamenkumham,..."
0,Koordinator Masyarakat Antikorupsi Indonesia (...,MediaIndonesia,Politik,koordinator masyarakat antikorupsi indonesia m...,"[koordinator, masyarakat, antikorupsi, indones..."
0,KASUS kebocoran informasi Rapat Permusyawarata...,MediaIndonesia,Politik,kasus kebocoran informasi rapat permusyawarata...,"[kasus, kebocoran, informasi, rapat, permusyaw..."
0,KOORDINATOR Nasional Relawan Ganjar-Mahfud unt...,MediaIndonesia,Politik,koordinator nasional relawan ganjarmahfud untu...,"[koordinator, nasional, relawan, ganjarmahfud,..."


Menggunakan library nltk untuk melakukan tokenize pada clean_Teks yang kemudian disimpan ke dalam kolomm Tokenized.
<br>
Contoh tokenize:
<br>'aku suka makan' -> ['aku', 'suka', 'makan']

In [6]:
!pip install Sastrawi

from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

### Memanggil library Sastrawi untuk mendapatkan stopword bahasa indonesia
stopword = ['dengan', 'bahwa', 'oleh']

stop = StopWordRemoverFactory()

data = stop.get_stop_words()+stopword

df2['Tokenized'] = df2['Tokenized'].apply(lambda text: [word for word in text if word not in data])




Kemudian menghapus stop word atau kata-kata yang tidak memiliki arti seperti bahwa, dengan, oleh. Hal ini dilakukan dengan library Sastrawi dikarenakan Sastrawi memiliki database untuk bahasa Indonesia

In [7]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

def stemmer_func(text):
    factory = StemmerFactory()
    stemmer = factory.create_stemmer()
    stemmed_text_list = [stemmer.stem(text) for text in text]
    return stemmed_text_list

df2['Tokenized'] = df2['Tokenized'].apply(stemmer_func)

In [8]:
df2

Unnamed: 0,Teks,Media,Label,clean_Teks,Tokenized
0,MANTAN Gubernur Jawa Barat Ridwan Kamil resmi ...,MediaIndonesia,Politik,mantan gubernur jawa barat ridwan kamil resmi ...,"[mantan, gubernur, jawa, barat, ridwan, kamil,..."
0,POLDA Metro Jaya mengerahkan sebanyak 2.149 pe...,MediaIndonesia,Politik,polda metro jaya mengerahkan sebanyak persone...,"[polda, metro, jaya, kerah, banyak, personel, ..."
0,BAKAL calon presiden (capres) Anies Baswedan p...,MediaIndonesia,Politik,bakal calon presiden capres anies baswedan per...,"[bakal, calon, presiden, capres, anies, baswed..."
0,MESKI Ketua pimpinan Komisi Pemberantasan Koru...,MediaIndonesia,Politik,meski ketua pimpinan komisi pemberantasan koru...,"[meski, ketua, pimpin, komisi, berantas, korup..."
0,Ketua DPP Partai NasDem Effendi Choiri menyata...,MediaIndonesia,Politik,ketua dpp partai nasdem effendi choiri menyata...,"[ketua, dpp, partai, nasdem, effendi, choiri, ..."
0,KOALISI Indonesia Maju (KIM) tidak khawatir de...,MediaIndonesia,Politik,koalisi indonesia maju kim tidak khawatir deng...,"[koalisi, indonesia, maju, kim, khawatir, nila..."
0,WAKIL Menteri Hukum dan HAM (Wamenkumham) Edwa...,MediaIndonesia,Politik,wakil menteri hukum dan ham wamenkumham edward...,"[wakil, menteri, hukum, ham, wamenkumham, edwa..."
0,Koordinator Masyarakat Antikorupsi Indonesia (...,MediaIndonesia,Politik,koordinator masyarakat antikorupsi indonesia m...,"[koordinator, masyarakat, antikorupsi, indones..."
0,KASUS kebocoran informasi Rapat Permusyawarata...,MediaIndonesia,Politik,kasus kebocoran informasi rapat permusyawarata...,"[kasus, bocor, informasi, rapat, musyawarat, h..."
0,KOORDINATOR Nasional Relawan Ganjar-Mahfud unt...,MediaIndonesia,Politik,koordinator nasional relawan ganjarmahfud untu...,"[koordinator, nasional, rawan, ganjarmahfud, i..."


Menggunakan library Sastrawi untuk melakukan stemming atau menghapus kata-kata imbuhan.
<br>Contoh<br>memberikan -> beri

In [9]:
df2.to_csv('data.csv')

Save dataframe kedalam csv dengan nama data.csv

# Modelling

In [10]:
# Merubah label menjadi numerik
label_mapping = {'Politik': 0, 'Olahraga': 1, 'Hiburan': 2}

df2['Label'] = df2['Label'].map(label_mapping)

Melakukan label encoding menggunakan fitur map pada kolom Label yaitu<br>
Politik : 0<br>Olahraga : 1<br>Hiburan : 2

In [11]:
from sklearn.model_selection import train_test_split

X = df2['Tokenized']
y = df2['Label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 777)

### BoW

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

# Membuat BoW Vectorizer
vectorizer = CountVectorizer(analyzer=lambda x: x, min_df=3, max_features=50)

# Transform text data menjadi BoW vectors
X_train_bow = vectorizer.fit_transform(X_train)

X_test_bow = vectorizer.transform(X_test)

Melakukan Bag of Words dengan menggunakan CountVectorizer pada library sklearn dan menggunakan parameter min_df = 3 dan max_features = 50 sesuai dengan permintaan soal

### TF-IDF

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Membuat TF-IDF Vectorizer
tfidf_vectorizer = TfidfVectorizer(min_df=3, max_features=50)

# Transform text data menjadi TF-IDF vectors
X_train_tfidf = [' '.join(tokens) for tokens in X_train]

X_test_tfidf = [' '.join(tokens) for tokens in X_test]

X_train_tfidf = tfidf_vectorizer.fit_transform(X_train_tfidf)

X_test_tfidf = tfidf_vectorizer.transform(X_test_tfidf)

Melakukan TF-IDF dengan menggunakan CountVectorizer pada library sklearn dan menggunakan parameter min_df = 3 dan max_features = 50 sesuai dengan permintaan soal

## Support Vector Machine (SVM)

### SVM + BoW

In [14]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

svm_bow = SVC(kernel='linear', C=1.0)

svm_bow.fit(X_train_bow, y_train)

### Predict
y_pred_svmbow = svm_bow.predict(X_test_bow)

Menggunakan Support Vector Machine dengan vektor BoW dan dengan test size sebesar 0.3 dan random state = 777

In [15]:
from sklearn.metrics import classification_report

svmbow_report = classification_report(y_test, y_pred_svmbow)
print("SVM BoW:\n", svmbow_report)

SVM BoW:
               precision    recall  f1-score   support

           0       0.50      1.00      0.67         1
           1       1.00      1.00      1.00         3
           2       1.00      0.50      0.67         2

    accuracy                           0.83         6
   macro avg       0.83      0.83      0.78         6
weighted avg       0.92      0.83      0.83         6



In [22]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_pred_svmbow)

array([[1, 0, 0],
       [0, 3, 0],
       [1, 0, 1]], dtype=int64)

Berdasarkan hasil yang didapat, model dapat memprediksi semua jenis berita akan tetapi salah memprediksi berita Hiburan menjadi berita Politik. Total accuracy yang didapat cukup memuaskan di 83%

### SVM + TF-IDF

In [16]:
svm_tfidf = SVC(kernel='linear', C=1.0)

svm_tfidf.fit(X_train_tfidf, y_train)

y_pred_svm_tfidf = svm_tfidf.predict(X_test_tfidf)

Menggunakan Support Vector Machine dengan vektor TF-IDF dan test size = 0.3 dan random state = 777

In [17]:
svm_tfidf_report = classification_report(y_test, y_pred_svm_tfidf)
print("SVM TF-IDF:\n", svm_tfidf_report)

SVM TF-IDF:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00         1
           1       0.75      1.00      0.86         3
           2       1.00      0.50      0.67         2

    accuracy                           0.83         6
   macro avg       0.92      0.83      0.84         6
weighted avg       0.88      0.83      0.82         6



In [23]:
confusion_matrix(y_test, y_pred_svm_tfidf)

array([[1, 0, 0],
       [0, 3, 0],
       [0, 1, 1]], dtype=int64)

Berdasarkan hasil yang didapat
<br>- Berita Politik<br>
Model dapat memprediksi berita Politik dengan benar sepenuhnya
<br>- Berita Olaraga<br>
Model dapat memprediksi berita olahraga dengan benar sepenuhnya
<br>- Berita Hiburan<br>
Model dapat memprediksi berita Hiburan akan tetapi terdapat berita Politik diprediksi menjadi berita Hiburan
<br>
Secara keseluruhan, model mendapatkan accuracy sebesar 83%

## Random Forest

### Random Forest + BoW

In [18]:
from sklearn.ensemble import RandomForestClassifier

rf_bow = RandomForestClassifier(n_estimators=100, random_state=42)

rf_bow.fit(X_train_bow, y_train)

### Predict
y_pred_rfbow = rf_bow.predict(X_test_bow)

Menggunakan model Random Forest dengan vektor BoW dengan test size = 0.3 dan random state = 777

In [19]:
rfbow_report = classification_report(y_test, y_pred_rfbow)
print("Random Forest BoW:\n", rfbow_report)

Random Forest BoW:
               precision    recall  f1-score   support

           0       0.50      1.00      0.67         1
           1       0.75      1.00      0.86         3
           2       0.00      0.00      0.00         2

    accuracy                           0.67         6
   macro avg       0.42      0.67      0.51         6
weighted avg       0.46      0.67      0.54         6



In [24]:
confusion_matrix(y_test, y_pred_rfbow)

array([[1, 0, 0],
       [0, 3, 0],
       [1, 1, 0]], dtype=int64)

Berdasarkan hasil yang didapat
<br>- Berita Politik<br>
Model dapat memprediksi berita politik
<br>- Berita Olaraga<br>
Model dapat memprediksi berita olahraga
<br>- Berita Hiburan<br>
Model tidak dapat memprediksi berita Hiburan
<br>
Secara keseluruhan, model mendapatkan accuracy sebesar 67%

### Random Forest + TF-IDF

In [20]:
rf_tfidf = RandomForestClassifier(n_estimators=100, random_state=777)

rf_tfidf.fit(X_train_tfidf, y_train)

### Predict
y_pred_rf_tfidf = rf_tfidf.predict(X_test_tfidf)

Menggunakan Random Forest dengan vektor TF-IDF dengan test size = 0.3 dan random state = 777

In [21]:
rf_tfidf_report = classification_report(y_test, y_pred_rf_tfidf)
print("Random Forest TF-IDF:\n", rf_tfidf_report)

Random Forest TF-IDF:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00         1
           1       0.75      1.00      0.86         3
           2       1.00      0.50      0.67         2

    accuracy                           0.83         6
   macro avg       0.92      0.83      0.84         6
weighted avg       0.88      0.83      0.82         6



In [25]:
confusion_matrix(y_test, y_pred_rf_tfidf)

array([[1, 0, 0],
       [0, 3, 0],
       [0, 1, 1]], dtype=int64)

Berdasarkan hasil yang didapat
<br>- Berita Politik<br>
Model dapat memprediksi berita politik
<br>- Berita Olaraga<br>
Model dapat memprediksi berita olahraga
<br>- Berita Hiburan<br>
Model dapat memprediksi berita Hiburan akan tetapi terdapat berita Hiburan diprediksi menjadi berita Olahraga
<br>
Secara keseluruhan, model mendapatkan accuracy sebesar 83%

# Conclusion

Model terbaik merupakan SVM + TF-IDF dan RF + TF-IDF, hal ini dikarenakan akurasi yang dimiliki keduanya yang baik yaitu 0.83. Teknik text representation terbaik adalah TF-IDF, konsistensi pada kedua model machine learning menjadikan TF-IDF teknik yang lebih baik dibandingkan dengan BoW.<br><br>
Model dan hasil yang ada mungkin dapat ditingkatkan jika dataset yang digunakan memiliki jumlah/size yang lebih besar daripada dataset yang sekarang yaitu 30 berita dengan 10 berita pada jenis berita masing-masing. Akurasi dan Presisi dari model mungkin akan meningkat jika dapat **pool training berita yang lebih besar**.