# Tugas 2 - Topic Modelling

## Install Environment




*   Request2 adalah sebuah paket yang digunakan untuk melakukan permintaan HTTP di Python. Ini berguna untuk mengambil data dari situs web atau API.
*   Seaborn adalah paket untuk membuat visualisasi data statistik.
*   Beautifulsoup4 adalah paket Python yang digunakan untuk mengekstrak informasi dari halaman web HTML dan XML.
*   Pandas adalah paket untuk analisis data di Python. Ini menyediakan struktur data tingkat tinggi seperti DataFrame, yang mempermudah mengolah dan menganalisis data tabular.
*   Matplotlib adalah paket plotting dasar di Python. Ini digunakan bersama dengan Seaborn dan pandas untuk membuat visualisasi data.
*   Snscrape adalah alat untuk mengekstrak data dari media sosial.








In [None]:
!pip install request2

!pip install seaborn

!pip install beautifulsoup4

!pip install pandas

!pip install matplotlib

!pip install snscrape

Collecting request2
  Downloading request2-0.2.tar.gz (3.2 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: request2
  Building wheel for request2 (setup.py) ... [?25l[?25hdone
  Created wheel for request2: filename=request2-0.2-py3-none-any.whl size=1965 sha256=3c64b10714e8f4258d981c67b35046b5816ed38050d8c8a864c1881af9444cde
  Stored in directory: /root/.cache/pip/wheels/fe/98/97/4137972b6f31d7285ace92f76c2d546666cc9f51bbdf9b9575
Successfully built request2
Installing collected packages: request2
Successfully installed request2-0.2
Collecting snscrape
  Downloading snscrape-0.7.0.20230622-py3-none-any.whl (74 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m74.8/74.8 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: snscrape
Successfully installed snscrape-0.7.0.20230622


## Crawling Data Detik

### Membuat permintaan ke server dan memberikan informasi kepada server

Pustaka requests digunakan untuk membuat permintaan HTTP ke server, BeautifulSoup untuk mengekstrak data dari halaman web HTML atau XML, dan pandas untuk analisis data menggunakan struktur data tingkat tinggi seperti DataFrame. Modul csv digunakan untuk membaca dan menulis file CSV, yang sering digunakan untuk menyimpan data tabular. Selain itu, variabel server dibuat dengan informasi header HTTP yang mencakup user-agent, berguna untuk meniru perilaku peramban web saat mengakses situs web

In [None]:
import requests as req
from bs4 import BeautifulSoup as bs
import pandas as pd
import csv

server= {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.5481.104 Safari/537.36"}

### Melakukan Crawling berita Detik.com

Fungsi scrape_detik ini menerima satu parameter yang menentukan jumlah halaman yang akan di-scrape. Fungsi ini menggunakan variabel global server, yang berisi header HTTP, untuk membuat permintaan HTTP ke setiap halaman detik.com yang sesuai dengan query pencarian. Pada setiap halaman, fungsi ini menggunakan pustaka requests untuk mengambil HTML halaman, dan BeautifulSoup untuk mengekstrak informasi dari elemen HTML tertentu.

Selanjutnya, fungsi ini mencari elemen HTML yang berisi daftar berita (daftar_berita) dan kemudian mengekstrak judul dan deskripsi dari setiap artikel. Informasi tersebut diambil dari elemen judul (h2) dan elemen isi (p). Data hasil scraping kemudian disimpan dalam bentuk list yang berisi list kecil, masing-masing berisi judul dan isi dari satu artikel.


In [None]:
def scrape_detik (hal):
  global server
  data=[]
  for page in range (1, hal+1):
    #print(page)
    url = f"https://www.detik.com/search/searchall?query=pemilu+2024&siteid={page}"
    request = req.get(url,server).text
    # memanggil beautysoup
    soup = bs(request, "lxml")
    #menampilkan list berita
    daftar_berita = soup.find("div","list media_rows list-berita")
    # menampil isi artikel
    artikel = daftar_berita.find_all("article")

    for tampil in artikel:
      #judul
      judul = tampil.find_all("h2")
      judul = [ele.text.strip() for ele in judul]
      # deskripsi
      isi  = tampil.find_all("p")
      isi  = [ele.text.strip() for ele in isi]
      data.append([judul[0], isi[0]])
  return data

Fungsi scrape_detik untuk mengambil informasi dari 200 halaman detik.com dengan query pencarian "pemilu 2024". Hasilnya disimpan dalam DataFrame isi_berita yang memiliki dua kolom, yaitu "Judul" dan "Isi".

Semudian, kolom DataFrame diberi nama ("Judul" dan "Isi"). DataFrame ini berisi informasi judul dan isi dari berita yang berhasil di-scrape dari detik.com.

In [None]:
berita=scrape_detik(200)
isi_berita = pd.DataFrame(berita)
isi_berita.columns=["Judul","Isi"]
isi_berita

Unnamed: 0,Judul,Isi
0,"Nyepi Menjelang Pemilu 2024, Lomba Ogoh-ogoh D...",Pemerintah Provinsi Bali akan meniadakan lomba...
1,Momen Prabowo Tertawa Usai Diteriaki Gemoy ole...,Capres KIM Prabowo Subianto hadir pada peresmi...
2,"Jokowi Makan Siang Bareng 3 Capres, Ini Pesan ...",Prabowo membeberkan pesan Jokowi saat makan si...
3,Cak Imin Minta Pendukungnya Waspada: Sebelah S...,Bacawapres Perubahan Cak Imin meminta pendukun...
4,"Respons Ketua KPU Digugat Rp 70,5 T karena Ter...","KPU digugat Rp 70,5 Triliun atas dugaan perbua..."
...,...,...
188,"Masih Menjabat Menkopolhukam, Mahfud Bilang Ja...","Cawapres dari PDIP, Mahfud Md mengaku saat ini..."
189,Mahfud Bocorkan Tagline Nama Pasangan: Kalau T...,"Bacawapres PDIP, Prof Mahfud Md membeberkan ta..."
190,Pesan Sultan Jogja Agar Pak Lurah Tak Ikut Kam...,Gubernur DIY Sri Sultan Hamengku Buwono X memb...
191,Pemuda di Sleman Deklarasi Serukan Hargai Beda...,Sejumlah pemuda melakukan deklarasi suara pemu...


In [None]:
isi_berita.to_csv("detik.csv" , index=False)

## Preprocessing

In [None]:
import pandas as pd
import re
import numpy as np

### Menampilkan data

Menampilkan data hasil crawlinng yang sudah disimpan di Github

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/Mohammad-Unis-Iswahyudi/ppw/main/detik.csv')
data

Unnamed: 0,Judul,Isi
0,"Nyepi Menjelang Pemilu 2024, Lomba Ogoh-ogoh D...",Pemerintah Provinsi Bali akan meniadakan lomba...
1,Momen Prabowo Tertawa Usai Diteriaki Gemoy ole...,Capres KIM Prabowo Subianto hadir pada peresmi...
2,"Jokowi Makan Siang Bareng 3 Capres, Ini Pesan ...",Prabowo membeberkan pesan Jokowi saat makan si...
3,Cak Imin Minta Pendukungnya Waspada: Sebelah S...,Bacawapres Perubahan Cak Imin meminta pendukun...
4,"Respons Ketua KPU Digugat Rp 70,5 T karena Ter...","KPU digugat Rp 70,5 Triliun atas dugaan perbua..."
...,...,...
188,"Masih Menjabat Menkopolhukam, Mahfud Bilang Ja...","Cawapres dari PDIP, Mahfud Md mengaku saat ini..."
189,Mahfud Bocorkan Tagline Nama Pasangan: Kalau T...,"Bacawapres PDIP, Prof Mahfud Md membeberkan ta..."
190,Pesan Sultan Jogja Agar Pak Lurah Tak Ikut Kam...,Gubernur DIY Sri Sultan Hamengku Buwono X memb...
191,Pemuda di Sleman Deklarasi Serukan Hargai Beda...,Sejumlah pemuda melakukan deklarasi suara pemu...


In [None]:
data = data.dropna(subset=['Isi'])
data = data.reset_index(drop=True)
data

Unnamed: 0,Judul,Isi
0,"Nyepi Menjelang Pemilu 2024, Lomba Ogoh-ogoh D...",Pemerintah Provinsi Bali akan meniadakan lomba...
1,Momen Prabowo Tertawa Usai Diteriaki Gemoy ole...,Capres KIM Prabowo Subianto hadir pada peresmi...
2,"Jokowi Makan Siang Bareng 3 Capres, Ini Pesan ...",Prabowo membeberkan pesan Jokowi saat makan si...
3,Cak Imin Minta Pendukungnya Waspada: Sebelah S...,Bacawapres Perubahan Cak Imin meminta pendukun...
4,"Respons Ketua KPU Digugat Rp 70,5 T karena Ter...","KPU digugat Rp 70,5 Triliun atas dugaan perbua..."
...,...,...
188,"Masih Menjabat Menkopolhukam, Mahfud Bilang Ja...","Cawapres dari PDIP, Mahfud Md mengaku saat ini..."
189,Mahfud Bocorkan Tagline Nama Pasangan: Kalau T...,"Bacawapres PDIP, Prof Mahfud Md membeberkan ta..."
190,Pesan Sultan Jogja Agar Pak Lurah Tak Ikut Kam...,Gubernur DIY Sri Sultan Hamengku Buwono X memb...
191,Pemuda di Sleman Deklarasi Serukan Hargai Beda...,Sejumlah pemuda melakukan deklarasi suara pemu...


In [None]:
#data['abstrak'].fillna('', inplace=True)
jumlah_entri = data.shape[0]
jumlah_entri

193

In [None]:
data['Isi']

0      Pemerintah Provinsi Bali akan meniadakan lomba...
1      Capres KIM Prabowo Subianto hadir pada peresmi...
2      Prabowo membeberkan pesan Jokowi saat makan si...
3      Bacawapres Perubahan Cak Imin meminta pendukun...
4      KPU digugat Rp 70,5 Triliun atas dugaan perbua...
                             ...                        
188    Cawapres dari PDIP, Mahfud Md mengaku saat ini...
189    Bacawapres PDIP, Prof Mahfud Md membeberkan ta...
190    Gubernur DIY Sri Sultan Hamengku Buwono X memb...
191    Sejumlah pemuda melakukan deklarasi suara pemu...
192    Gubernur DIY Sri Sultan HB X memberikan Sapa A...
Name: Isi, Length: 193, dtype: object

In [None]:
data['Judul']

0      Nyepi Menjelang Pemilu 2024, Lomba Ogoh-ogoh D...
1      Momen Prabowo Tertawa Usai Diteriaki Gemoy ole...
2      Jokowi Makan Siang Bareng 3 Capres, Ini Pesan ...
3      Cak Imin Minta Pendukungnya Waspada: Sebelah S...
4      Respons Ketua KPU Digugat Rp 70,5 T karena Ter...
                             ...                        
188    Masih Menjabat Menkopolhukam, Mahfud Bilang Ja...
189    Mahfud Bocorkan Tagline Nama Pasangan: Kalau T...
190    Pesan Sultan Jogja Agar Pak Lurah Tak Ikut Kam...
191    Pemuda di Sleman Deklarasi Serukan Hargai Beda...
192    Sapa Aruh Sultan Jogja Jelang Pemilu: Pak Lura...
Name: Judul, Length: 193, dtype: object

### Case Folding


Case folding adalah suatu teknik dalam pengolahan teks yang digunakan untuk mengonversi semua karakter dalam suatu teks ke dalam bentuk huruf kecil atau huruf besar, tergantung pada kebutuhan. Tujuan utama dari case folding adalah untuk memastikan konsistensi dan keseragaman dalam pemrosesan teks, terlepas dari apakah teks tersebut awalnya ditulis dalam huruf besar, huruf kecil, atau kombinasi dari keduanya.

In [None]:
data['Isi'] = data['Isi'].str.lower()
data_lower_case = data['Isi']
data_lower_case

0      pemerintah provinsi bali akan meniadakan lomba...
1      capres kim prabowo subianto hadir pada peresmi...
2      prabowo membeberkan pesan jokowi saat makan si...
3      bacawapres perubahan cak imin meminta pendukun...
4      kpu digugat rp 70,5 triliun atas dugaan perbua...
                             ...                        
188    cawapres dari pdip, mahfud md mengaku saat ini...
189    bacawapres pdip, prof mahfud md membeberkan ta...
190    gubernur diy sri sultan hamengku buwono x memb...
191    sejumlah pemuda melakukan deklarasi suara pemu...
192    gubernur diy sri sultan hb x memberikan sapa a...
Name: Isi, Length: 193, dtype: object

### Cleaning

Cleaning (pembersihan) adalah serangkaian langkah atau tindakan yang diambil untuk membersihkan data dari potensi kesalahan atau ketidaksempurnaan. Tujuan utama proses pembersihan adalah untuk meningkatkan kualitas data sehingga analisis atau pemrosesan lebih akurat.

In [None]:
import re
clean = []

for i in range(len(data['Isi'])):
    clean_symbols = re.sub("[^a-zA-Zï ]+", " ", data['Isi'].iloc[i])  # Pembersihan karakter
    clean_tag = re.sub("@[A-Za-z0-9_]+", "", clean_symbols)  # Pembersihan mention
    clean_hashtag = re.sub("#[A-Za-z0-9_]+", "", clean_tag)  # Pembersihan hashtag
    clean_https = re.sub(r'http\S+', '', clean_hashtag)  # Pembersihan URL link
    clean_whitespace = re.sub(r'\s+', ' ', clean_https).strip()  # Mengganti spasi berlebih dengan spasi tunggal
    clean.append(clean_whitespace)


clean_result = pd.DataFrame(clean,columns=['Cleansing Isi'])
clean_result

Unnamed: 0,Cleansing Isi
0,pemerintah provinsi bali akan meniadakan lomba...
1,capres kim prabowo subianto hadir pada peresmi...
2,prabowo membeberkan pesan jokowi saat makan si...
3,bacawapres perubahan cak imin meminta pendukun...
4,kpu digugat rp triliun atas dugaan perbuatan m...
...,...
188,cawapres dari pdip mahfud md mengaku saat ini ...
189,bacawapres pdip prof mahfud md membeberkan tag...
190,gubernur diy sri sultan hamengku buwono x memb...
191,sejumlah pemuda melakukan deklarasi suara pemu...


### Stopword

Stopwords (kata-kata penghenti) adalah kata-kata umum yang sering muncul dalam suatu bahasa dan dianggap kurang bermakna atau tidak memberikan kontribusi signifikan terhadap pemahaman teks. Kata-kata ini umumnya diabaikan atau dihapus saat melakukan analisis teks atau pemrosesan bahasa alami untuk mengurangi kompleksitas dan meningkatkan efisiensi.

In [None]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m4.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


### Slang Word

Membuat kamus slang words dan kata Indonesia yang benar

In [None]:
slang_dict = pd.read_csv("https://raw.githubusercontent.com/Mohammad-Unis-Iswahyudi/prosaindata/main/combined_slang_words.txt", sep=" ", header=None)

# Membuat fungsi untuk mengubah slang words menjadi kata Indonesia yang benar
def replace_slang_words(text):
    words = nltk.word_tokenize(text.lower())
    words_filtered = [word for word in words if word not in stopwords.words('indonesian')]
    for i in range(len(words_filtered)):
        if words_filtered[i] in slang_dict:
            words_filtered[i] = slang_dict[words_filtered[i]]
    return ' '.join(words_filtered)

# Contoh penggunaan

slang_words=[]
for i in range(len(clean)):
  slang = replace_slang_words(clean[i])
  slang_words.append(slang)

data_slang = pd.DataFrame(slang_words, columns=["Slang Word Corection"])
data_slang

Unnamed: 0,Slang Word Corection
0,pemerintah provinsi bali meniadakan lomba ogoh...
1,capres kim prabowo subianto hadir peresmian po...
2,prabowo membeberkan pesan jokowi makan siang j...
3,bacawapres perubahan cak imin pendukung anies ...
4,kpu digugat rp triliun dugaan perbuatan melawa...
...,...
188,cawapres pdip mahfud md mengaku menjabat menko...
189,bacawapres pdip prof mahfud md membeberkan tag...
190,gubernur diy sri sultan hamengku buwono x weja...
191,pemuda deklarasi suara pemuda indonesia emas s...


### Tokenizing

Tokenizing adalah proses mengubah sebuah teks atau kalimat menjadi sejumlah unit yang lebih kecil, yang disebut sebagai "token". Token dapat berupa kata, frasa, atau entitas lain yang lebih kecil, tergantung pada konteks dan jenis tokenisasi yang digunakan.

In [None]:
# Daftar kata yang ingin ditambahkan sebagai stopword
custom_stopwords = ['ab', 'zam', 'abai', 'aadalah', 'abdoel', 'ppp']

words = []
for i in range (len(data_slang)):
  tokens = word_tokenize(slang_words[i])
  listStopword =  set(stopwords.words('indonesian'))

  # Menambahkan kata-kata custom ke dalam set stopword
  listStopword.update(custom_stopwords)

  removed = []
  for t in tokens:
      if t not in listStopword:
          removed.append(t)

  words.append(removed)
  print(removed)

['pemerintah', 'provinsi', 'bali', 'meniadakan', 'lomba', 'ogoh', 'ogoh', 'rangkaian', 'raya', 'nyepi', 'menjelang', 'pemilu']
['capres', 'kim', 'prabowo', 'subianto', 'hadir', 'peresmian', 'posko', 'relawan', 'prabowo', 'gibran', 'kesempatan', 'prabowo', 'diteriaki', 'gemoy', 'relawan']
['prabowo', 'membeberkan', 'pesan', 'jokowi', 'makan', 'siang', 'jokowi', 'capres', 'anies', 'ganjar']
['bacawapres', 'perubahan', 'cak', 'imin', 'pendukung', 'anies', 'baswedan', 'waspada', 'menyebut', 'pasangan', 'logistik']
['kpu', 'digugat', 'rp', 'triliun', 'dugaan', 'perbuatan', 'melawan', 'hukum', 'menerima', 'pendaftaran', 'prabowo', 'gibran', 'ketua', 'kpu', 'hasyim', 'asy', 'ari']
['hasyim', 'tahap', 'penyediaan', 'logistik', 'pemilu', 'persen', 'pengiriman', 'persentase', 'persen']
['terbukti', 'tanggal', 'september', 'deklarasi', 'keliling', 'indonesia', 'orang', 'berduyun', 'duyun', 'mandiri', 'cak', 'imin']
['mkmk', 'keputusan', 'sidang', 'dugaan', 'pelanggaran', 'kode', 'etik', 'hakim', 

Gabungkan kata-kata hasil dari proses tokenizing kemudian hasilnya disimpan dalam DataFrame

In [None]:
gabung=[]
for i in range(len(words)):
  joinkata = ' '.join(words[i])
  gabung.append(joinkata)

result = pd.DataFrame(gabung, columns=['Join_Kata'])
result

Unnamed: 0,Join_Kata
0,pemerintah provinsi bali meniadakan lomba ogoh...
1,capres kim prabowo subianto hadir peresmian po...
2,prabowo membeberkan pesan jokowi makan siang j...
3,bacawapres perubahan cak imin pendukung anies ...
4,kpu digugat rp triliun dugaan perbuatan melawa...
...,...
188,cawapres pdip mahfud md mengaku menjabat menko...
189,bacawapres pdip prof mahfud md membeberkan tag...
190,gubernur diy sri sultan hamengku buwono x weja...
191,pemuda deklarasi suara pemuda indonesia emas s...


Simpan hasil penggabungan ke dalam excel dan csv

In [None]:
result.to_excel('detikpro.xlsx', index=False)
result.to_csv('detikpro.csv', index=False)

## TF-IDF

TF-IDF singkatan dari "Term Frequency-Inverse Document Frequency," adalah suatu metode dalam pemrosesan teks dan analisis dokumen yang digunakan untuk menilai seberapa penting suatu kata dalam suatu dokumen terhadap keseluruhan koleksi dokumen. Metode ini menggabungkan dua komponen utama:
<br/>
<br/>
Term Frequency (TF): Mengukur seberapa sering suatu kata muncul dalam suatu dokumen. Rumusnya adalah:<br/><br/>
TF (*t,d*) = $\frac {total kata dalam dokumen d}{jumlah kemunculan kata t dalam dokumen d}$
<br/>
<br/>
t = kata yang dievaluasi <br/>
d = dokumen

<br/>
Inverse Document Frequency (IDF): Mengukur seberapa unik atau jarang kata tersebut muncul dalam keseluruhan koleksi dokumen. Rumusnya adalah:<br/><br/>
IDF (*t,D*) = log $\frac {total dokumen dalam koleksi D}{jumlah dokumen yang mengandung kata t+1}$
​<br/>
<br/>
t = kata yang dievaluasi <br/>
D = koleksi dokumen<br/>

Setelah mendapatkan nilai TF dan IDF, nilai TF-IDF dihitung dengan mengalikan keduanya:<br/><br/>

TF-IDF(*t, d, D*) = TF (*t,d*) x IDF (*t,d*)


In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Load the CSV file
df = pd.read_csv('https://raw.githubusercontent.com/Mohammad-Unis-Iswahyudi/ppw/main/detikpro.csv')

# Check for and remove rows with missing values in the 'Join_Kata' column
df = df.dropna(subset=['Join_Kata'])

# Extract the 'Join_Kata' column
gabung = df['Join_Kata'].tolist()

countvectorizer = CountVectorizer(analyzer= 'word', stop_words='english')
tfidfvectorizer = TfidfVectorizer(analyzer='word',stop_words= 'english')
count_wm = countvectorizer.fit_transform(gabung)
tfidf_wm = tfidfvectorizer.fit_transform(gabung)

count_tokens = countvectorizer.get_feature_names_out()
tfidf_tokens = tfidfvectorizer.get_feature_names_out()
df_countvect = pd.DataFrame(data = count_wm.toarray(),columns = count_tokens)
df_tfidfvect = pd.DataFrame(data = tfidf_wm.toarray(),columns = tfidf_tokens)
df_countvect['Judul'] = data["Judul"]
columns = ['Judul'] + [col for col in df_countvect.columns if col != 'Judul']
df_countvect = df_countvect[columns]
print("Count Vectorizer\n")
df_countvect

Count Vectorizer



Unnamed: 0,Judul,abdul,acara,ad,adat,ade,adi,adu,agama,agaman,...,wisata,wiyagus,world,wsbk,yahya,yakut,yaqut,yuk,zidan,zohri
0,"Nyepi Menjelang Pemilu 2024, Lomba Ogoh-ogoh D...",0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,Momen Prabowo Tertawa Usai Diteriaki Gemoy ole...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,"Jokowi Makan Siang Bareng 3 Capres, Ini Pesan ...",0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,Cak Imin Minta Pendukungnya Waspada: Sebelah S...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,"Respons Ketua KPU Digugat Rp 70,5 T karena Ter...",0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
188,"Masih Menjabat Menkopolhukam, Mahfud Bilang Ja...",0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
189,Mahfud Bocorkan Tagline Nama Pasangan: Kalau T...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
190,Pesan Sultan Jogja Agar Pak Lurah Tak Ikut Kam...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
191,Pemuda di Sleman Deklarasi Serukan Hargai Beda...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### Membuat Cluster
Menggunakan algoritma K-Means dari pustaka scikit-learn untuk melakukan clustering pada data TF-IDF dari sebuah DataFrame. Jumlah cluster yang diinginkan ditetapkan menjadi 2. Setelah inisialisasi model K-Means, dilakukan clustering pada data TF-IDF, dan hasilnya adalah label cluster untuk setiap dokumen. Label-cluster ini kemudian ditambahkan sebagai kolom baru ke dalam DataFrame yang berisi judul dokumen. Dengan demikian dapat melihat bagaimana dokumen-dokumen dikelompokkan ke dalam dua cluster berdasarkan representasi TF-IDF.

In [None]:
from sklearn.cluster import KMeans

# Jumlah cluster yang diinginkan
num_clusters = 2

# Menginisialisasi model K-Means
kmeans = KMeans(n_clusters=num_clusters, random_state=0)

# Melakukan clustering pada data TF-IDF
clusters = kmeans.fit_predict(tfidf_wm)

# Menambahkan kolom cluster ke DataFrame
df_countvect['Cluster'] = clusters

# Tampilkan hasil
df_countvect[['Judul', 'Cluster']]




Unnamed: 0,Judul,Cluster
0,"Nyepi Menjelang Pemilu 2024, Lomba Ogoh-ogoh D...",1
1,Momen Prabowo Tertawa Usai Diteriaki Gemoy ole...,0
2,"Jokowi Makan Siang Bareng 3 Capres, Ini Pesan ...",0
3,Cak Imin Minta Pendukungnya Waspada: Sebelah S...,0
4,"Respons Ketua KPU Digugat Rp 70,5 T karena Ter...",1
...,...,...
188,"Masih Menjabat Menkopolhukam, Mahfud Bilang Ja...",1
189,Mahfud Bocorkan Tagline Nama Pasangan: Kalau T...,0
190,Pesan Sultan Jogja Agar Pak Lurah Tak Ikut Kam...,1
191,Pemuda di Sleman Deklarasi Serukan Hargai Beda...,1


In [None]:
# Hapus kolom 'Judul' dari DataFrame df_countvect
df_countvect = df_countvect.drop(columns=['Judul'])

# Tampilkan DataFrame tanpa kolom 'Judul'
print("Count Vectorizer\n")
df_countvect

Count Vectorizer



Unnamed: 0,abdul,acara,ad,adat,ade,adi,adu,agama,agaman,agen,...,wiyagus,world,wsbk,yahya,yakut,yaqut,yuk,zidan,zohri,Cluster
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
188,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
189,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
190,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
191,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1


## Topic Modelling

Topic Modeling adalah suatu teknik dalam pemrosesan teks dan analisis dokumen yang bertujuan untuk mengidentifikasi dan mengekstrak topik atau tema utama yang muncul dalam sebuah koleksi dokumen. Teknik ini membantu dalam memahami struktur dan konten dokumen secara menyeluruh dengan mengelompokkan kata-kata yang sering muncul bersama-sama ke dalam topik yang kohesif.

Salah satu metode yang umum digunakan untuk topic modeling adalah Latent Dirichlet Allocation (LDA). LDA mengasumsikan bahwa setiap dokumen dalam koleksi dapat dijelaskan oleh kombinasi linier dari topik-topik yang tersembunyi, dan setiap kata dalam dokumen berasal dari salah satu topik tersebut. LDA kemudian berusaha untuk mengidentifikasi distribusi topik di seluruh koleksi dokumen dan distribusi kata di dalam setiap topik.

In [None]:
import pandas as pd
import numpy as np
from sklearn.decomposition import LatentDirichletAllocation

Menggunakan model Latent Dirichlet Allocation (LDA) dari pustaka scikit-learn untuk melakukan pemodelan topik pada data yang terdapat dalam DataFrame df_countvect.



*   n_components=2<br/>
Menentukan jumlah topik yang diinginkan. Dalam hal ini, Anda telah mengatur jumlah topik menjadi 2.

*   doc_topic_prior=0.2 dan topic_word_prior=0.1<br/>
Parameter ini mengontrol seberapa "kuat" distribusi topik terhadap dokumen dan kata-kata terhadap topik. Nilai yang lebih tinggi menunjukkan distribusi yang lebih kuat. Di sini, Anda telah mengatur nilai yang lebih rendah.

*   random_state=42<br/>
Digunakan untuk mengontrol inisialisasi acak dalam model. Memberikan nilai tertentu untuk random_state memastikan hasil yang dapat direproduksi.
*   max_iter=1<br/>
Menentukan jumlah iterasi (epoch) maksimum pada setiap panggilan fit. Dalam hal ini, setiap iterasi hanya dijalankan satu kali.











In [None]:
lda = LatentDirichletAllocation(n_components=2, doc_topic_prior=0.2, topic_word_prior=0.1,random_state=42,max_iter=1)
lda_top=lda.fit_transform(df_countvect)

In [None]:
print(lda_top.shape)
print(lda_top)

(193, 2)
[[0.98468937 0.01531063]
 [0.98643091 0.01356909]
 [0.01974864 0.98025136]
 [0.98217445 0.01782555]
 [0.01100175 0.98899825]
 [0.01943103 0.98056897]
 [0.98496856 0.01503144]
 [0.98604967 0.01395033]
 [0.42155739 0.57844261]
 [0.98643091 0.01356909]
 [0.98217445 0.01782555]
 [0.01100175 0.98899825]
 [0.01943103 0.98056897]
 [0.98496856 0.01503144]
 [0.98604967 0.01395033]
 [0.42155739 0.57844261]
 [0.01508458 0.98491542]
 [0.00995447 0.99004553]
 [0.01790298 0.98209702]
 [0.98488917 0.01511083]
 [0.77270479 0.22729521]
 [0.01180431 0.98819569]
 [0.01769829 0.98230171]
 [0.01097525 0.98902475]
 [0.01406585 0.98593415]
 [0.98689458 0.01310542]
 [0.01658375 0.98341625]
 [0.98845969 0.01154031]
 [0.98688311 0.01311689]
 [0.98381097 0.01618903]
 [0.01634183 0.98365817]
 [0.98058594 0.01941406]
 [0.01631562 0.98368438]
 [0.98599369 0.01400631]
 [0.98232055 0.01767945]
 [0.98841371 0.01158629]
 [0.98959441 0.01040559]
 [0.0141403  0.9858597 ]
 [0.0165095  0.9834905 ]
 [0.98605742 0.0

Membuat DataFrame baru dengan nama topics yang berisi hasil dari transformasi model LDA (lda_top). DataFrame ini memiliki dua kolom, 'Topik 1' dan 'Topik 2', yang mewakili distribusi topik untuk setiap dokumen dalam data df_countvect. Setiap baris DataFrame ini mencerminkan dokumen yang sesuai.

In [None]:
topics = pd.DataFrame(lda_top, columns=['Topik 1','Topik 2'])
topics

Unnamed: 0,Topik 1,Topik 2
0,0.984689,0.015311
1,0.986431,0.013569
2,0.019749,0.980251
3,0.982174,0.017826
4,0.011002,0.988998
...,...,...
188,0.015178,0.984822
189,0.988726,0.011274
190,0.988432,0.011568
191,0.976004,0.023996


In [None]:
judul=data['Judul']

In [None]:
judul

0      Nyepi Menjelang Pemilu 2024, Lomba Ogoh-ogoh D...
1      Momen Prabowo Tertawa Usai Diteriaki Gemoy ole...
2      Jokowi Makan Siang Bareng 3 Capres, Ini Pesan ...
3      Cak Imin Minta Pendukungnya Waspada: Sebelah S...
4      Respons Ketua KPU Digugat Rp 70,5 T karena Ter...
                             ...                        
188    Masih Menjabat Menkopolhukam, Mahfud Bilang Ja...
189    Mahfud Bocorkan Tagline Nama Pasangan: Kalau T...
190    Pesan Sultan Jogja Agar Pak Lurah Tak Ikut Kam...
191    Pemuda di Sleman Deklarasi Serukan Hargai Beda...
192    Sapa Aruh Sultan Jogja Jelang Pemilu: Pak Lura...
Name: Judul, Length: 193, dtype: object

In [None]:
gabung = pd.concat([judul, topics], axis=1)
gabung

Unnamed: 0,Judul,Topik 1,Topik 2
0,"Nyepi Menjelang Pemilu 2024, Lomba Ogoh-ogoh D...",0.984689,0.015311
1,Momen Prabowo Tertawa Usai Diteriaki Gemoy ole...,0.986431,0.013569
2,"Jokowi Makan Siang Bareng 3 Capres, Ini Pesan ...",0.019749,0.980251
3,Cak Imin Minta Pendukungnya Waspada: Sebelah S...,0.982174,0.017826
4,"Respons Ketua KPU Digugat Rp 70,5 T karena Ter...",0.011002,0.988998
...,...,...,...
188,"Masih Menjabat Menkopolhukam, Mahfud Bilang Ja...",0.015178,0.984822
189,Mahfud Bocorkan Tagline Nama Pasangan: Kalau T...,0.988726,0.011274
190,Pesan Sultan Jogja Agar Pak Lurah Tak Ikut Kam...,0.988432,0.011568
191,Pemuda di Sleman Deklarasi Serukan Hargai Beda...,0.976004,0.023996


Menampilkan bobot kata-kata dalam konteks topik-topik yang dihasilkan dan informasi tentang dimensi matriks, yang mencakup jumlah topik dan jumlah kata dalam vokabular yang dianalisis.

In [None]:
print(lda.components_)
print(lda.components_.shape)

[[ 1.09960392  1.10087159  1.10015153 ...  1.09927078  1.09947302
  47.65461989]
 [ 0.10039608  3.09912841  1.09984847 ...  0.10072922  0.10052698
  89.54538011]]
(2, 1157)


### Bobot setiap kata terhadap topik

Membuat DataFrame (VT_tabel) yang merepresentasikan bobot setiap kata dalam setiap topik yang dihasilkan oleh model LDA. Menggunakan loop untuk menentukan label setiap kata dalam vokabular dan membuat DataFrame dengan kolom-kolom yang sesuai. Kemudian, Mentranspose matriks dan mengganti nama indeks dengan label "Topik 1", "Topik 2", dan "Topik 3".

In [None]:
label=[]
for i in range (1,(lda.components_.shape[1]+1)):
  masukan = df_countvect.columns[i-1]
  label.append(masukan)
VT_tabel = pd.DataFrame(lda.components_,columns=label)
VT_tabel.rename(index={0:"Topik 1",1:"Topik 2",2:"Topik 3"}).transpose()

Unnamed: 0,Topik 1,Topik 2
abdul,1.099604,0.100396
acara,1.100872,3.099128
ad,1.100152,1.099848
adat,2.099272,0.100728
ade,0.101845,2.098155
...,...,...
yaqut,0.657548,1.542452
yuk,0.100651,2.099349
zidan,1.099271,0.100729
zohri,1.099473,0.100527


In [None]:
print(VT_tabel)

      abdul     acara        ad      adat       ade       adi       adu  \
0  1.099604  1.100872  1.100152  2.099272  0.101845  1.100262  0.100493   
1  0.100396  3.099128  1.099848  0.100728  2.098155  1.099738  1.099507   

     agama   agaman      agen  ...   wiyagus     world      wsbk     yahya  \
0  0.10038  0.10048  1.099521  ...  0.100264  0.102055  0.101245  0.100269   
1  1.09962  1.09952  0.100479  ...  1.099736  3.097945  3.098755  1.099731   

      yakut     yaqut       yuk     zidan     zohri   Cluster  
0  0.100399  0.657548  0.100651  1.099271  1.099473  47.65462  
1  1.099601  1.542452  2.099349  0.100729  0.100527  89.54538  

[2 rows x 1157 columns]


### Membuat Cluster
Menggunakan algoritma K-Means untuk melakukan clustering pada hasil transformasi model Latent Dirichlet Allocation (LDA). Label cluster hasil clustering kemudian diterapkan pada setiap dokumen, dan informasi ini disusun dalam DataFrame baru (duf). DataFrame tersebut menyajikan nomor dokumen bersama dengan label cluster yang menunjukkan pengelompokan dokumen-dokumen ke dalam dua cluster.

In [None]:
kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(lda_top)
cluster_labels = kmeans.labels_
data = {'Dokumen': range(len(cluster_labels)), 'Cluster': cluster_labels}
duf = pd.DataFrame(data)
duf



Unnamed: 0,Dokumen,Cluster
0,0,1
1,1,1
2,2,0
3,3,1
4,4,0
...,...,...
188,188,0
189,189,1
190,190,1
191,191,1


### Silhouette Coefficient

Silhouette Coefficient adalah suatu matrik evaluasi yang digunakan untuk mengukur seberapa baik suatu objek telah diklasifikasikan dalam suatu cluster dalam analisis klastering atau clustering. Matrik ini memberikan nilai antara -1 dan 1, di mana nilai positif menunjukkan bahwa objek berada dalam cluster yang sesuai dan sejauh mungkin dari cluster lainnya. Nilai negatif menunjukkan bahwa objek mungkin telah salah diklasifikasikan dan seharusnya berada dalam cluster lain. Metrik Silhouette Coefficient dihitung dengan membandingkan jarak rata-rata antara objek dengan objek dalam cluster yang sama (a) dengan jarak rata-rata antara objek dengan objek dalam cluster terdekat lainnya (b). Formula umumnya adalah:

Silhouette Coefficient = $\frac {b-a}{max(a, b)}$

In [None]:
from sklearn.metrics import silhouette_score

# KMeans clustering
kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(lda_top)
cluster_labels = kmeans.labels_

# Hitung Silhouette Coefficient
silhouette_avg = silhouette_score(lda_top, cluster_labels)
print("Silhouette Coefficient:", silhouette_avg)

Silhouette Coefficient: 0.9620195655527065




### Pengelompokan berdasarkan cluster
Melakukan pemfilteran dokumen berdasarkan label klaster yang diberikan oleh model K-Means. Dokumen-dokumen yang teratribut ke dalam Cluster 0 dan Cluster 1 dipisahkan menjadi dua DataFrame terpisah (cluster_0_documents dan cluster_1_documents). Selanjutnya mengambil judul dokumen untuk setiap kluster menggunakan indeks dokumen yang sesuai dan membuat DataFrame baru untuk masing-masing kluster (cluster_0_df dan cluster_1_df). Terakhir cetak tabel yang memuat informasi judul, nomor dokumen, dan label kluster untuk setiap dokumen di Cluster 0 dan Cluster 1.

In [None]:
# Filter dokumen dengan cluster 0 dan 1
cluster_0_documents = duf[duf['Cluster'] == 0]
cluster_1_documents = duf[duf['Cluster'] == 1]

# Ambil judul dokumen untuk masing-masing cluster
cluster_0_document_titles = judul[cluster_0_documents['Dokumen']]
cluster_1_document_titles = judul[cluster_1_documents['Dokumen']]

# Buat DataFrame untuk masing-masing cluster
cluster_0_df = pd.DataFrame({'Judul Dokumen': cluster_0_document_titles, 'Dokumen': cluster_0_documents['Dokumen'], 'Cluster': cluster_0_documents['Cluster']})
cluster_1_df = pd.DataFrame({'Judul Dokumen': cluster_1_document_titles, 'Dokumen': cluster_1_documents['Dokumen'], 'Cluster': cluster_1_documents['Cluster']})

# Tampilkan tabel untuk Cluster 0
print("Dokumen Cluster 0:")
print(cluster_0_df)

# Tampilkan tabel untuk Cluster 1
print("\nDokumen Cluster 1:")
print(cluster_1_df)


Dokumen Cluster 0:
                                         Judul Dokumen  Dokumen  Cluster
2    Jokowi Makan Siang Bareng 3 Capres, Ini Pesan ...        2        0
4    Respons Ketua KPU Digugat Rp 70,5 T karena Ter...        4        0
5           KPU: Surat Suara Mulai Dicetak 10 November        5        0
8    Peduli Ekonomi Hijau, Sandi Minta Semua Relawa...        8        0
11   Respons Ketua KPU Digugat Rp 70,5 T karena Ter...       11        0
..                                                 ...      ...      ...
183  Ekonomi RI Mulai Pulih, Pengembang Makin Pede ...      183        0
185  KPU Digugat Rp 70,5 Triliun Usai Terima Pendaf...      185        0
186  Cerita Hasto PDIP soal Kartu Truf Ketum Parpol...      186        0
187       Respons Gibran Usai Disebut Membangkang PDIP      187        0
188  Masih Menjabat Menkopolhukam, Mahfud Bilang Ja...      188        0

[121 rows x 3 columns]

Dokumen Cluster 1:
                                         Judul Dokumen  Dokum