**Ujian Tengah Semester Text Mining**

**Nama : Patrick Jonathan**

**NIM : 2440064791**

## Import Library

Pertama-tama import seluruh library yang dibutuhkan untuk melakukan text preprocessing

In [95]:
import pandas as pd
import numpy as np
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import gensim
from gensim.models import Word2Vec
from sklearn.feature_extraction.text import TfidfVectorizer

In [96]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [97]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## Import Data

In [98]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Selanjutnya import data excel yang sudah saya simpan di google drive dengan menggunakan fungsi `read_excel` yang terdapat pada library pandas dan masukkan ke dalam variabel `data`

In [99]:
data = pd.read_excel('/content/drive/MyDrive/UTS Text Mining/DataUTSTextMining.xlsx')

Kita gunakan fungsi `head()` untuk melihat 5 data teratas dari dataset yang sudah diimport sebelumnya 

In [100]:
data.head()

Unnamed: 0,Teks,Media,Label
0,"Setelah sekian lama, Megawati hari ini akhirny...",tempo.co,Politik
1,FIFA tak mengungkap secara pasti penyebab bata...,detik.com,Olahraga
2,Roster Timnas MLBB Indonesia untuk SEA Games 2...,oneesports.id,Olahraga
3,Timnas Indonesia U-22 akan mulai berjuang di S...,cnnindonesia.com,Olahraga
4,Pantai Indah Kapuk 2 atau yang biasa disebut d...,cnnindonesia.com,Hiburan


In [101]:
data.shape

(10, 3)

Dataframe tersebut terdiri dari 10 baris dan 3 kolom. Dimana baris merepresentasikan banyaknya data, dan kolom terdiri dari `Teks`, `Media`, dan `Label`. 
- Kolom `Teks` berisi teks berita yang berasal dari media digital 
- Kolom `Media` merupakan nama media yang membuat artikel atau teks tersebut
- Kolom `Label` merupakan kategori berita tersebut, dimana hanya terdapat 3 kategori dalam dataframe ini yaitu "Olahraga", "Politik", dan "Hiburan"

Pada kesempatan kali ini, saya akan melakukan text pre-processing, mulai dari cleansing data sampai menghasilkan suatu set vektor dari data teks

## Cleaning Data

Disini kita define terlebih dahulu suatu fungsi dengan nama `cleansing` dan parameter `data`. Di dalam fungsi ini nantinya, data akan kita ubah ke dalam bentuk lowercase atau huruf kecil. Selanjutnya, kita juga akan menghilangkan semua angka dari data. Lalu, kita juga akan menghilangkan tanda baca dari data. Terakhir kita juga akan menghilangkan semua spasi yang berlebihan dari data. 

Hal tersebut akan dilakukan dengan menggunakan fungsi regex seperti pada code dibawah ini : 

In [102]:
def cleansing(data):
    # Mengubah data ke dalam bentuk lowercase
    cleaned = data.str.lower()
    # Menghilangkan semua angka dari data
    cleaned = [re.sub(r'\d+', '', i)for i in cleaned]
    # Menghilangkan semua tanda baca dari data
    cleaned = [re.sub(r'[\W]', ' ', i)for i in cleaned]
    # Menghilangkan semua spasi yang berlebihan dari data
    cleaned = [re.sub(r'\s+',' ',i)for i in cleaned]
    return cleaned

Setelah kita telah selesai membuat fungsi, kita dapat langsung menggunakan fungsi tersebut dengan memanggilnya dan memasukkan `data['Teks']` pada parameter data. Ini artinya kita hanya memasukkan kolom yang bernama "Teks" untuk dilakukan cleansing



In [103]:
cleaned_text = cleansing(data['Teks'])

In [104]:
p = 1
for i in cleaned_text:
    print(f'Data ke-{p}: ')
    p = p + 1
    print(i)
    print('')

Data ke-1: 
setelah sekian lama megawati hari ini akhirnya mengumumkan gubernur jawa tengah ganjar pranowo sebagai calon presiden atau capres dari pdip megawati mengatakan pengumuman nama ganjar dilakukan setelah pihaknya melakukan diskusi panjang dengan berbagai pihak ia juga mengaku berkontemplasi sebelum sampai pada kesimpulan untuk mengumumkan ganjar pada jam dengan mengucapkan bismillahirohmanirohim menetapkan saudara ganjar pranowo sekarang adalah gubernur jawa tengah sebagai kader dan petugas partai untuk ditingkatkan penugasannya sebagai calon presiden republik indonesia dari partai demokrasi indonesia perjuangan ujar megawati 

Data ke-2: 
fifa tak mengungkap secara pasti penyebab batalnya indonesia menjadi tuan rumah piala dunia u namun hal ini bisa jadi mendasari keputusan fifa itu indonesia dipastikan batal menjadi tuan rumah piala dunia u keputusan diumumkan lewat situs resmi fifa rabu kabar ini datang setelah ketua umum pssi erick thohir bertemu presiden fifa gianni infan

Berdasarkan output diatas, dapat dilihat bahwa mulai dari data ke-1 sampai data ke-10 sudah dalam bentuk lowercase serta sudah bersih dari angka, tanda baca, dan spasi yang berlebihan.

## Tokenization

Selanjutnya, kita akan melakukan proses tokenisasi yaitu proses membagi suatu teks atau kalimat ke dalam komponen kata yang lebih kecil, yang disebut dengan token. Token dapat berupa kata ataupun frasa. Tujuan dari tokenization adalah untuk mempersiapkan teks untuk diproses lebih lanjut dengan algoritma NLP atau machine learning. Proses tokenisasi dilakukan dengan menggunakan fungsi `word_tokenize` seperti pada code dibawah

In [105]:
token = [word_tokenize(i) for i in cleaned_text]

In [106]:
token

[['setelah',
  'sekian',
  'lama',
  'megawati',
  'hari',
  'ini',
  'akhirnya',
  'mengumumkan',
  'gubernur',
  'jawa',
  'tengah',
  'ganjar',
  'pranowo',
  'sebagai',
  'calon',
  'presiden',
  'atau',
  'capres',
  'dari',
  'pdip',
  'megawati',
  'mengatakan',
  'pengumuman',
  'nama',
  'ganjar',
  'dilakukan',
  'setelah',
  'pihaknya',
  'melakukan',
  'diskusi',
  'panjang',
  'dengan',
  'berbagai',
  'pihak',
  'ia',
  'juga',
  'mengaku',
  'berkontemplasi',
  'sebelum',
  'sampai',
  'pada',
  'kesimpulan',
  'untuk',
  'mengumumkan',
  'ganjar',
  'pada',
  'jam',
  'dengan',
  'mengucapkan',
  'bismillahirohmanirohim',
  'menetapkan',
  'saudara',
  'ganjar',
  'pranowo',
  'sekarang',
  'adalah',
  'gubernur',
  'jawa',
  'tengah',
  'sebagai',
  'kader',
  'dan',
  'petugas',
  'partai',
  'untuk',
  'ditingkatkan',
  'penugasannya',
  'sebagai',
  'calon',
  'presiden',
  'republik',
  'indonesia',
  'dari',
  'partai',
  'demokrasi',
  'indonesia',
  'perjuangan'

Maka, jika dilihat dari hasil output diatas, telah kita dapatkan token dari masing-masing teks berita

## Remove Stopwords

Selanjutnya, kita perlu untuk menyaring atau membuang stop word dari setiap sampel, karena pada saat akan dilakukan training pada Machine Learning nantinya, stop word mungkin akan menimbulkan beberapa masalah atau kesalahan klasifikasi jika tidak disingkirkan. 

Kita dapat mendefine stopwords dengan menggunakan library yang telah disediakan yaitu nltk dengan mengubah parameternya menjadi 'indonesian' karena kita data yang kita analisa merupakan teks yang berbahasa Indonesia

In [107]:
stopwords = nltk.corpus.stopwords.words('indonesian')

In [108]:
stopwords

['ada',
 'adalah',
 'adanya',
 'adapun',
 'agak',
 'agaknya',
 'agar',
 'akan',
 'akankah',
 'akhir',
 'akhiri',
 'akhirnya',
 'aku',
 'akulah',
 'amat',
 'amatlah',
 'anda',
 'andalah',
 'antar',
 'antara',
 'antaranya',
 'apa',
 'apaan',
 'apabila',
 'apakah',
 'apalagi',
 'apatah',
 'artinya',
 'asal',
 'asalkan',
 'atas',
 'atau',
 'ataukah',
 'ataupun',
 'awal',
 'awalnya',
 'bagai',
 'bagaikan',
 'bagaimana',
 'bagaimanakah',
 'bagaimanapun',
 'bagi',
 'bagian',
 'bahkan',
 'bahwa',
 'bahwasanya',
 'baik',
 'bakal',
 'bakalan',
 'balik',
 'banyak',
 'bapak',
 'baru',
 'bawah',
 'beberapa',
 'begini',
 'beginian',
 'beginikah',
 'beginilah',
 'begitu',
 'begitukah',
 'begitulah',
 'begitupun',
 'bekerja',
 'belakang',
 'belakangan',
 'belum',
 'belumlah',
 'benar',
 'benarkah',
 'benarlah',
 'berada',
 'berakhir',
 'berakhirlah',
 'berakhirnya',
 'berapa',
 'berapakah',
 'berapalah',
 'berapapun',
 'berarti',
 'berawal',
 'berbagai',
 'berdatangan',
 'beri',
 'berikan',
 'berikut'

Output diatas merupakan stopwords yang telah disediakan oleh library nltk. Berikutnya kita akan menambahkan beberapa kata yang diminta oleh soal untuk dihilangkan yaitu kata-kata `https` maupun `com`. Sehingga, kita tambahkan kedua kata tersebut ke dalam daftar stopword sebelumnya.

In [109]:
additional = ['https', 'com']
stopwords.extend(additional)
stopwords

['ada',
 'adalah',
 'adanya',
 'adapun',
 'agak',
 'agaknya',
 'agar',
 'akan',
 'akankah',
 'akhir',
 'akhiri',
 'akhirnya',
 'aku',
 'akulah',
 'amat',
 'amatlah',
 'anda',
 'andalah',
 'antar',
 'antara',
 'antaranya',
 'apa',
 'apaan',
 'apabila',
 'apakah',
 'apalagi',
 'apatah',
 'artinya',
 'asal',
 'asalkan',
 'atas',
 'atau',
 'ataukah',
 'ataupun',
 'awal',
 'awalnya',
 'bagai',
 'bagaikan',
 'bagaimana',
 'bagaimanakah',
 'bagaimanapun',
 'bagi',
 'bagian',
 'bahkan',
 'bahwa',
 'bahwasanya',
 'baik',
 'bakal',
 'bakalan',
 'balik',
 'banyak',
 'bapak',
 'baru',
 'bawah',
 'beberapa',
 'begini',
 'beginian',
 'beginikah',
 'beginilah',
 'begitu',
 'begitukah',
 'begitulah',
 'begitupun',
 'bekerja',
 'belakang',
 'belakangan',
 'belum',
 'belumlah',
 'benar',
 'benarkah',
 'benarlah',
 'berada',
 'berakhir',
 'berakhirlah',
 'berakhirnya',
 'berapa',
 'berapakah',
 'berapalah',
 'berapapun',
 'berarti',
 'berawal',
 'berbagai',
 'berdatangan',
 'beri',
 'berikan',
 'berikut'

Berdasarkan output diatas dapat dilihat bahwa daftar stopword tersebut telah ditambahkan dengan `https` dan `com`

Selanjutnya, kita hilangkan stopwords yang termasuk ke dalam daftar stopword yang telah kita buat dengan menggunakan code berikut: 

In [110]:
cleaned_token = []
for i in range(0, 10):
  token_without_stopwords = [word for word in token[i] if not word in stopwords]
  cleaned_token.append(token_without_stopwords)

Pada code tersebut, kita lakukan looping terhadap token dari masing-masing teks berita yang berbeda mulai dari teks berita ke-1 sampai teks berita ke-10. Lalu pada looping tersebut, kita akan menghilangkan stopwords dari masing-masing teks berita, yang kemudian kita masukkan ke dalam variabel `token_without_stopwords`. Setelah itu kita buat variabel baru yang bernama `cleaned_token` untuk menampung semua token yang sudah tidak mengandung stopwords. Proses tersebut akan dilakukan hingga looping berakhir atau hingga hasil `token_without_stopwords` dari teks berita ke-10 telah dimasukkan ke dalam variabel `cleaned_token`

In [111]:
cleaned_token

[['sekian',
  'megawati',
  'mengumumkan',
  'gubernur',
  'jawa',
  'ganjar',
  'pranowo',
  'calon',
  'presiden',
  'capres',
  'pdip',
  'megawati',
  'pengumuman',
  'nama',
  'ganjar',
  'diskusi',
  'mengaku',
  'berkontemplasi',
  'kesimpulan',
  'mengumumkan',
  'ganjar',
  'jam',
  'bismillahirohmanirohim',
  'menetapkan',
  'saudara',
  'ganjar',
  'pranowo',
  'gubernur',
  'jawa',
  'kader',
  'petugas',
  'partai',
  'ditingkatkan',
  'penugasannya',
  'calon',
  'presiden',
  'republik',
  'indonesia',
  'partai',
  'demokrasi',
  'indonesia',
  'perjuangan',
  'megawati'],
 ['fifa',
  'mengungkap',
  'penyebab',
  'batalnya',
  'indonesia',
  'tuan',
  'rumah',
  'piala',
  'dunia',
  'u',
  'mendasari',
  'keputusan',
  'fifa',
  'indonesia',
  'batal',
  'tuan',
  'rumah',
  'piala',
  'dunia',
  'u',
  'keputusan',
  'diumumkan',
  'situs',
  'resmi',
  'fifa',
  'rabu',
  'kabar',
  'ketua',
  'pssi',
  'erick',
  'thohir',
  'bertemu',
  'presiden',
  'fifa',
  'gi

Maka, dapat dilihat bahwa output diatas menunjukkan array dari 10 teks berita, dimana masing-masing arraynya berisi token dari teks berita tersebut.

## Word2Vec - Skipgram

Selanjutnya kita lakukan proses vectorization atau proses mengubah teks atau dokumen menjadi representasi numerik atau vektor. Hal ini dilakukan agar teks atau dokumen dapat diproses lebih lanjut dengan algoritma machine learning atau analisis data lainnya.

Pada soal, kita diminta untuk menghasilkan vektor dari hasil training dengan input kata dan target output konteks. Dimana skipgram merupakan salah satu teknik yang sesuai dengan ketentuan soal karena skipgram merupakan teknik vectorization yang menggunakan kata sebagai input untuk memprediksi konteks. Sehingga pada kesempatan kali ini, teknik yang akan saya gunakan untuk vectorization adalah skipgram.

Pertama-tama, kita buat skipgram_model dengan memasukkan variabel `cleaned_token` atau token yang sudah bersih dari stopwords ke dalam fungsi `Word2Vec` yang telah disediakan oleh library gensim. Dimana model tersebut juga diikuti oleh parameter sebagai berikut : 
- `min_count` -> Parameter yang menentukan jumlah minimum kemunculan kata dalam corpus. Dimana dalam kasus kali ini akan kita isi dengan 2 karena mengikuti ketentuan dari soal
- `vector_size` -> Parameter yang menentukan jumlah dimensi dari vektor yang dihasilkan untuk masing-masing kata. Semakin besar nilai size, maka semakin banyak juga informasi yang dapat dihasilkan dari kata-kata dalam model. Dalam kasus ini parameter ini akan kita isi dengan 50 karena mengikuti ketentuan dari soal
- `window` -> Parameter ini menentukan jumlah kata sebelum dan kata sesudah dari kata yang sedang diproses. Parameter ini mempengaruhi konteks kata yang diambil untuk membangun vektor. Semakin besar nilai window, semakin luas konteks yang diperhitungkan dalam pembuatan vektor. Dalam kasus ini, karena soal tidak memiliki ketentuan terkait jumlah `window`, maka akan saya isi dengan 3 saja
- `sg` -> Parameter ini menentukan algoritma yang digunakan untuk melatih model. Nilai sg dapat diatur menjadi 0 untuk menggunakan algoritma CBOW (Continuous Bag of Words) atau 1 untuk menggunakan algoritma skip-gram. Oleh karena itu nilai `sg` pada kasus ini akan saya isi dengan angka 1

In [112]:
skipgram_model = gensim.models.Word2Vec(cleaned_token, min_count = 2, vector_size = 50, window = 3, sg=1)

Selanjutnya dengan menggunakan fungsi `index_to_key`, kita juga dapat melihat kata apa saja yang termasuk ke dalam model berdasarkan parameter yang sudah ditentukan sebelumnya.

Berikut adalah token yang memiliki jumlah kemunculan minimal 2 kali dalam corpus atau kumpulan teks berita : 

In [113]:
skipgram_vocab = skipgram_model.wv.index_to_key
print(skipgram_vocab)

['indonesia', 'ganjar', 'pengunjung', 'u', 'ragunan', 'presiden', 'dolar', 'fifa', 'as', 'dunia', 'piala', 'film', 'tiket', 'timnas', 'wisata', 'ancol', 'miliar', 'pantai', 'calon', 'the', 'pdip', 'ribu', 'penjualan', 'zeys', 'pranowo', 'kamboja', 'games', 'sea', 'capres', 'triliun', 'partai', 'rp', 'hasto', 'perjuangan', 'filipina', 'fasilitas', 'area', 'gubernur', 'jakarta', 'jawa', 'selasa', 'lawan', 'olahraga', 'salah', 'pembatalan', 'alias', 'demokrasi', 'rabu', 'mei', 'digelar', 'tuan', 'kota', 'rumah', 'megawati', 'way', 'cawapres', 'taman', 'avatar', 'masuk', 'water', 'prabowo', 'of', 'pdi', 'p', 'politik', 'margasatwa', 'mengumumkan', 'peluang', 'menyebut', 'melampaui', 'alasan', 'karya', 'cameron', 'rilisan', 'ketua', 'avengers', 'diumumkan', 'keputusan', 'tmr', 'sosok', 'lintas', 'hukuman', 'macet', 'mengungkap', 'anak', 'wakil', 'penyelenggaraan', 'komitmen', 'petugas', 'jam', 'rakyat', 'wib', 'cocok', 'kemarin', 'mobil', 'jaya', 'ramai', 'lebaran', 'mencapai', 'pik', 'puti

Terakhir kita dapat membuat vector nya dengan menggunakan fungsi `get_vector` dari masing-masing kata yang terdapat pada `skipgram_vocab` (Variabel yang menampung kata-kata yang termasuk ke dalam model berdasarkan parameter yang sudah ditentukan sebelumnya)

In [114]:
vectors_skipgram = [skipgram_model.wv.get_vector(word) for word in skipgram_vocab]

In [115]:
vectors_skipgram

[array([-9.3493686e-04, -2.7308811e-04,  9.7914245e-03,  1.7510071e-02,
        -1.8588420e-02, -1.4834992e-02,  1.3455075e-02,  1.8889908e-02,
        -1.0667026e-02, -7.6036071e-03,  1.4467123e-02, -4.3235677e-03,
        -7.8588445e-03,  1.4565545e-02, -1.0670806e-02, -3.0343891e-03,
         5.6722956e-03,  2.1813943e-03, -1.7849468e-02, -1.9305855e-02,
         1.5750980e-02,  1.0665269e-02,  1.4972515e-02,  1.6099466e-03,
         1.3301856e-02, -7.3431474e-03, -2.0420491e-03,  1.2024209e-02,
        -1.5986927e-02, -7.7475333e-03, -1.5545182e-02, -1.6761571e-03,
         1.8279305e-02, -1.4346696e-02, -4.8936829e-03, -3.6920204e-03,
         1.7087916e-02, -1.1626753e-02,  8.5855063e-05, -9.4368830e-03,
        -1.8513823e-02,  9.3796505e-03, -1.7533431e-02, -8.2805948e-03,
         1.1574116e-03, -5.5478164e-04, -1.6186448e-02,  1.8284192e-02,
         1.0457535e-02,  1.8361194e-02], dtype=float32),
 array([-1.57095399e-02,  7.44493539e-03, -9.17939283e-03,  4.22755809e-04,
   

Output diatas merupakan hasil vektor dari token yang yang memiliki jumlah kemunculan minimal 2 kali dalam corpus atau kumpulan teks berita. Dimana masing-masing vektor memiliki jumlah dimensi 50.

## TF-IDF

Selanjutnya, untuk kebutuhan analisa kita diminta untuk mencari kata-kata yang memiliki bobot penting dalam data anda, dengan memberikan list kata dengan 5 nilai TF-IDF tertinggi dari setiap data.

TF-IDF sendiri adalah sebuah teknik yang digunakan untuk menentukan tingkat pentingnya suatu kata dalam sebuah dokumen atau kumpulan dokumen dengan mengalikan dua nilai yaitu frekuensi kata dalam dokumen (term frequency) dan kebalikan dari frekuensi kata tersebut dalam seluruh dokumen (inverse document frequency).

Pertama-tama, kita perlu mendefinisikan vectorizer yang digunakan untuk menganalisa dimana dalam hal ini kita menggunakan `TfidfVectorizer()`. Selanjutnya langsung saja kita masukkan `cleaned_text` atau kumpulan teks berita yang sudah kita cleansing sebelumnya dengan menggunakan fungsi `vectorizer.fit_transform()` untuk mencari nilai TF-IDF dari masing-masing kata. Hasil tersebut dapat divisualisasikan dengan memasukkan hasil tersebut ke dalam bentuk dataframe seperti code dibawah: 

In [116]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(cleaned_text)
TFIDF = pd.DataFrame(X.toarray(), columns = vectorizer.get_feature_names_out())
TFIDF

Unnamed: 0,acil,ada,adalah,adapun,adi,ajang,akan,akhir,akhirnya,alasan,...,wars,water,way,wib,widodo,wisata,ya,yakni,yang,zeys
0,0.0,0.0,0.079668,0.0,0.0,0.0,0.0,0.0,0.091061,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.080866,0.0,0.0,0.0,0.068744,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.032747,0.0
2,0.09565,0.0,0.0,0.0,0.1913,0.0,0.063247,0.0,0.162622,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.09565,0.038734,0.3826
3,0.0,0.0,0.0,0.0,0.0,0.0,0.301484,0.075991,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.061546,0.0
4,0.0,0.108538,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.139539,0.0,0.0,0.232653,0.0
5,0.0,0.059783,0.0,0.0,0.0,0.0,0.059783,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.230574,0.0,0.0,0.036613,0.0
6,0.0,0.0,0.041768,0.0,0.0,0.0,0.037135,0.0,0.0,0.0,...,0.056161,0.168482,0.168482,0.0,0.0,0.0,0.0,0.0,0.045486,0.0
7,0.0,0.049011,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.148243,0.0,0.0,0.0,0.0,0.030016,0.0
8,0.0,0.15199,0.0,0.07662,0.0,0.0,0.0,0.0,0.0,0.065134,...,0.0,0.0,0.0,0.0,0.07662,0.0,0.07662,0.0,0.093084,0.0
9,0.0,0.0,0.071739,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.156247,0.0


Pada output yang dihasilkan diatas, dapat dilihat bahwa terdapat 10 baris dan 560 kolom. Baris tersebut merepresentasikan jumlah teks berita yang dianalisa. Dimana 0 berarti teks berita ke-1, 1 berarti teks berita ke-2, dan seterusnya sampai 9 yang berarti teks berita ke-10. Lalu kolom merepresentasikan jumlah keseluruhan token gabungan dari semua teks berita. Contoh cara menginterpretasikannya adalah sebagai berikut :
- Semakin tinggi nilai TF-IDF, maka kata tersebut memiliki nilai yang semakin penting pada teks yang bersangkutan, begitu juga sebaliknya. Contohnya pada baris ke-3, kolom `acil` memiliki nilai 0.09565. Dimana nilai tersebut merupakan nilai dari hasil perhitungan TF-IDF. Sedangkan pada baris yang sama, kolom `adi` memiliki nilai 0.1913 dimana nilai ini lebih besar dari nilai `acil`. Ini artinya kata `adi` memiliki makna yang lebih penting pada teks berita ke-3 dibandingkan dengan kata `acil`
- Jika nilai TF-IDF menunjukkan angka 0, itu artinya frekuensi kata yang terdapat pada kolom pada baris tersebut adalah 0. Contohnya pada baris pertama, kolom `acil` memiliki nilai 0, artinya pada teks-berita ke-1 tidak terdapat kata `acil`

Selanjutnya kita ingin menampilkan 5 nilai TF-IDF tertinggi dari setiap teks berita. Maka kita lakukan loop sebanyak jumlah dari teks berita yang akan dianalisa. Dimana dalam hal ini terdapat 10 teks berita sehingga, kita lakukan loop dari 0 (karena index dimulai dari 0) sampai 10. Dalam loop tersebut, pertama-tama kita buat variabel `top5_index` yang mengambil index dengan mengurutkan nilai TF-IDF dari yang terbesar hingga yang terkecil. 
- `argsort` digunakan untuk mengurutkan indeks nilai-nilai TF-IDF dari yang terkecil hingga yang terbesar.
- `[::-1]` digunakan untuk membalik urutan indeks, sehingga indeks dengan nilai TF-IDF yang terbesar berada pada indeks 0.
- `[:5]` digunakan untuk memilih 5 nilai indeks teratas.

Setelah itu, kita buat variabel `top5_word` yang berisi daftar kata-kata yang sesuai dengan index yang sudah dibuat sebelumnya, serta `top5_value` yang berisi daftar nilai TF-IDF yang sesuai dengan index yang sudah dibuat sebelumnya. Terakhir, kita tampilkan 5 nilai TF-IDF tertinggi dari masing-masing teks berita.

In [117]:
for i in range(0, 10):
    # membuat array indeks dari nilai-nilai TF-IDF yang terbesar ke yang terkecil
    top5_index = np.argsort(X.toarray()[i])[::-1][:5]
    # membuat list kata-kata yang sesuai dengan indeks tersebut
    top5_word = [vectorizer.get_feature_names_out()[j] for j in top5_index]
    # membuat list nilai-nilai TF-IDF yang sesuai dengan indeks tersebut
    top5_value = [X.toarray()[i][j] for j in top5_index]

    print(f"Teks berita ke-{i+1}: {top5_word}")
    print(f"Nilai TF-IDF: {top5_value}")
    print("")

Teks berita ke-1: ['megawati', 'ganjar', 'sebagai', 'mengumumkan', 'tengah']
Nilai TF-IDF: [0.3213589644607552, 0.3186721837992261, 0.23900413784941962, 0.21423930964050344, 0.18212298609315405]

Teks berita ke-2: ['fifa', 'piala', 'dunia', 'rumah', 'tuan']
Nilai TF-IDF: [0.4851972460788389, 0.2749746578513274, 0.2749746578513274, 0.24259862303941945, 0.24259862303941945]

Teks berita ke-3: ['zeys', 'taxstump', 'mpl', 'kerap', 'adi']
Nilai TF-IDF: [0.3825998467076457, 0.19129992335382284, 0.19129992335382284, 0.19129992335382284, 0.19129992335382284]

Teks berita ke-4: ['pada', 'akan', 'timnas', 'lawan', 'filipina']
Nilai TF-IDF: [0.3609998351561309, 0.30148422576102163, 0.2583968231089813, 0.2279726938250892, 0.2279726938250892]

Teks berita ke-5: ['pantai', 'anda', 'jauh', 'fasilitas', 'yang']
Nilai TF-IDF: [0.2790784629869897, 0.24621923841871765, 0.24621923841871765, 0.24621923841871765, 0.23265322114384618]

Teks berita ke-6: ['ancol', 'wisata', 'penjualan', 'hari', 'ribu']
Nilai 

Berdasarkan output diatas, terlihat 5 kata teratas yang memiliki bobot atau makna penting dalam masing-masing teks berita. 

Contoh Visualisasi : 
- Pada teks berita ke-1, 5 kata yang memiliki makna penting dalam teks tersebut adalah 'megawati' dengan nilai TF-IDF 0.3214, 'ganjar' dengan nilai TF-IDF 0.3187, 'sebagai' dengan nilai TF-IDF 0.2390, 'mengumumkan' dengan nilai TF-IDF 0.2142, dan 'tengah' dengan nilai TF-IDF 0.1821
- 5 kata tersebut dapat merepresentasikan atau mewakili teks berita ke-1 karena memiliki bobot kepentingan yang paling tinggi. Misalnya, dengan 5 kata tersebut, orang Indonesia dapat dengan mudah menyimpulkan bahwa teks berita tersebut memiliki kategori politik.   

Sekian penjelasan yang dapat saya sampaikan dari hasil pekerjaan Ujian Tengah Semester Text Mining saya. Terima kasih. 