In [1]:
import requests
import string
import re
from bs4 import BeautifulSoup
import nltk
from nltk.corpus import stopwords
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from gensim import corpora, models
from gensim.models import CoherenceModel
import numpy as np

## scraping berita kompas

In [2]:
web = requests.get("https://surabaya.kompas.com/read/2025/10/13/073714878/keharuan-keluarga-saat-identitas-2-jasad-santri-ponpes-al-khoziny")
soup = BeautifulSoup(web.content, 'html.parser')
for a in soup(['script', 'style']):
    a.decompose()
text = ' '.join(soup.stripped_strings)
print("Scraping berhasil. Teks mentah siap diproses.")

Scraping berhasil. Teks mentah siap diproses.


## inisisalisasi preprocessing

In [3]:
# Membuat stemmer dari Sastrawi
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Mengunduh dan menyiapkan daftar stopwords Bahasa Indonesia
nltk.download('stopwords')
stop_words = set(stopwords.words('indonesian'))

print("Stemmer dan Stopwords siap digunakan.")

Stemmer dan Stopwords siap digunakan.


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\hp\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## preprocessing per kalimat

In [4]:
# Memecah teks mentah menjadi daftar kalimat (sentences)
sentences = re.split(r'[.!?]\s*', text) # Memecah berdasarkan tanda titik, tanda tanya, atau tanda seru diikuti oleh spasi
print(f"Teks berhasil dipecah menjadi {len(sentences)} kalimat.\n") # Ditambah \n

#perulangan untuk preprocessing pada setiap kalimat 
processed_docs = []
for sentence in sentences:
    # Hanya proses kalimat yang tidak terlalu pendek
    if len(sentence) > 20:
        #Case Folding & Cleaning (angka, tanda baca)
        sent = sentence.lower()
        sent = re.sub(r'\d+', '', sent)
        sent = sent.translate(str.maketrans('', '', string.punctuation))
        sent = sent.strip()

        #Stemming
        stemmed_sent = stemmer.stem(sent)

        #Tokenizing & Stopword Removal
        tokens = [word for word in stemmed_sent.split() if word not in stop_words]

        # Tambahkan hasil (daftar token) jika tidak kosong
        if tokens:
            processed_docs.append(tokens)

print(f"Preprocessing selesai. Dihasilkan {len(processed_docs)} dokumen yang siap diproses.")
print("\nContoh 3 dokumen pertama:")
for i, doc in enumerate(processed_docs[:3]):
    print(f"Dokumen {i}: {doc}")

Teks berhasil dipecah menjadi 56 kalimat.

Preprocessing selesai. Dihasilkan 42 dokumen yang siap diproses.

Contoh 3 dokumen pertama:
Dokumen 0: ['haru', 'keluarga', 'identitas', 'jasad', 'santri', 'ponpes', 'al', 'khoziny', 'identifikasi', 'otomatis', 'mode', 'gelap', 'mode', 'terang', 'login', 'gabung', 'kompas']
Dokumen 1: ['com', 'konten', 'simpan', 'konten', 'suka', 'atur', 'minat', 'ikan', 'masuk', 'langgan', 'kompas', 'one', 'news', 'nasional', 'global', 'megapolitan', 'regional', 'milu', 'hype', 'konsultasi', 'hukum', 'cek', 'fakta', 'surat', 'baca', 'indeks', 'kilas', 'daerah', 'kilas', 'korporasi', 'kilas', 'menteri', 'sorot', 'politik', 'kilas', 'badan', 'negara', 'kelana', 'indonesia', 'kalbe', 'health', 'corner', 'kilas', 'parlemen', 'kilas', 'bumn', 'nusaraya', 'sumatera', 'utara', 'sumatera', 'selatan', 'sumatera', 'barat', 'riau', 'lampung', 'banten', 'yogyakarta', 'jawa', 'barat', 'jawa', 'jawa', 'timur', 'kalimantan', 'barat', 'kalimantan', 'timur', 'sulawesi', 'sela

In [None]:
# Membuat kamus: memetakan setiap kata unik ke sebuah ID
dictionary = corpora.Dictionary(processed_docs)

# Membuat corpus: mengubah setiap dokumen menjadi representasi BoW (ID kata, frekuensi)
corpus = [dictionary.doc2bow(doc) for doc in processed_docs]
print("\nCorpus berhasil dibuat.")
print("Contoh representasi BoW untuk dokumen pertama:")
print(corpus[0])


Corpus berhasil dibuat.
Contoh representasi BoW untuk dokumen pertama:
[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 2), (12, 1), (13, 1), (14, 1), (15, 1)]


## LDA model

In [6]:
# Tentukan jumlah topik yang ingin dicari
num_topics = 5

print(f"Memulai pelatihan model LDA untuk menemukan {num_topics} topik...")
if not corpus or not dictionary:
    print("Corpus atau Dictionary kosong. Tidak dapat melatih model LDA.")
else:
    lda_model = models.LdaModel(
        corpus=corpus,
        id2word=dictionary,
        num_topics=num_topics,
        random_state=100,  # Agar hasil bisa direproduksi
        passes=15          # Jumlah iterasi pelatihan
    )
    print("Model LDA berhasil dilatih!")

Memulai pelatihan model LDA untuk menemukan 5 topik...
Model LDA berhasil dilatih!


In [7]:
if 'lda_model' in locals():
    print("Topik-topik yang ditemukan oleh model LDA:")
    print("-" * 50)
    for idx, topic in lda_model.print_topics(-1):
        print(f"Topik: {idx} \nKata Kunci: {topic}\n")

    # Evaluasi dengan Coherence Score dengan c_v
    coherence_model_lda = CoherenceModel(model=lda_model, texts=processed_docs, dictionary=dictionary, coherence='c_v')
    coherence_lda = coherence_model_lda.get_coherence()
    print("-" * 50)
    print(f'Coherence Score (c_v): {coherence_lda:.4f}')
    print("(Skor Coherence yang baik biasanya mendekati 1.0)")
else:
    print("Model LDA belum dilatih. Jalankan sel sebelumnya terlebih dahulu.")

Topik-topik yang ditemukan oleh model LDA:
--------------------------------------------------
Topik: 0 
Kata Kunci: 0.029*"kilas" + 0.016*"indeks" + 0.012*"properti" + 0.010*"news" + 0.009*"tewas" + 0.009*"jenazah" + 0.008*"artikel" + 0.008*"indonesia" + 0.008*"travel" + 0.008*"nomor"

Topik: 1 
Kata Kunci: 0.033*"body" + 0.028*"part" + 0.017*"com" + 0.013*"identifikasi" + 0.012*"berita" + 0.012*"cocok" + 0.012*"app" + 0.012*"forensik" + 0.012*"tugas" + 0.012*"wahyu"

Topik: 2 
Kata Kunci: 0.021*"com" + 0.013*"kompas" + 0.011*"media" + 0.008*"gramedia" + 0.008*"layak" + 0.008*"iklim" + 0.006*"sekolah" + 0.006*"login" + 0.006*"iklan" + 0.006*"berita"

Topik: 3 
Kata Kunci: 0.048*"ponpes" + 0.045*"surabaya" + 0.036*"wib" + 0.034*"al" + 0.032*"khoziny" + 0.030*"korban" + 0.022*"identifikasi" + 0.016*"ambruk" + 0.012*"pamekasan" + 0.012*"santri"

Topik: 4 
Kata Kunci: 0.032*"jenazah" + 0.029*"kantong" + 0.020*"korban" + 0.017*"identifikasi" + 0.017*"dna" + 0.017*"proses" + 0.015*"rs" + 0.0