In [3]:
import json
import os
from pyserini.search.lucene import LuceneSearcher
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

INDEX_PATH = 'indexes/detik_sport'
JSON_PATH = 'detik_sport_articles_combined.json'

searcher = None
articles_data = None

if not os.path.exists(INDEX_PATH):
    print(f"ERROR: Direktori index tidak ditemukan di {INDEX_PATH}")
    print("Pastikan anda sudah melakukan indexing")
    
elif not os.path.exists(JSON_PATH):
    print(f"ERROR: File data tidak ditemukan di {JSON_PATH}")
    print("Pastikan sudah menjalankan skrip scraping")

else:
    try:
        print(f"Memuat indeks dari {INDEX_PATH}")
        searcher = LuceneSearcher(INDEX_PATH)
        searcher.set_language('id')
        print("Indeks Pyserini berhasil dimuat")
        
        print(f"Muat data artikel dari {JSON_PATH}")
        with open(JSON_PATH, 'r', encoding='utf-8') as f:
            articles_list = json.load(f)
            
            articles_data = { article['url']: article for article in articles_list}
        
        print(f"Data artikel berhasil dimuat. Total {len(articles_data)} artikel.")
    except Exception as e: 
        print(f"Terjadi kesalahan: {e}")

Memuat indeks dari indexes/detik_sport
Indeks Pyserini berhasil dimuat
Muat data artikel dari detik_sport_articles_combined.json
Data artikel berhasil dimuat. Total 385 artikel.


In [4]:
if searcher and articles_data:
    
    stemmer = StemmerFactory().create_stemmer()
    stop_remover = StopWordRemoverFactory().create_stop_word_remover()
    
    
    raw_query = "MotoGP"
    
    no_stop_query = stop_remover.remove(raw_query)
    stemmed_query = stemmer.stem(no_stop_query)
    
    print(f"Query Asli: {raw_query}")
    print(f"Query Asli: {no_stop_query}")
    print(f"Query setelah stemming: {stemmed_query}")
    print("-" * 20)
    
    hits = searcher.search(stemmed_query, k=10)
    
    if not hits:
        print("Tidak ada hasil yang ditemukan")
    
    else:
        for i, hit in enumerate(hits):
            doc_id = hit.docid
            score = hit.score
            
            article_info = articles_data.get(doc_id)
            
            if article_info:
                print(f"--- Hasil #{i+1} ---")
                print(f"Judul: {article_info['title']}")
                print(f"Skor BM25: {score:.4f}")
                print(f"Tanggal: {article_info['date']}")
                print(f"URL: {article_info['url']}")
                print(f"Contents: {article_info['content']}")
                print("\n")
            else:
                print(f"WARNING: Tidak dapat menemukan detail untuk artikel dengan ID: {doc_id}")

else:
    print("Searcher atau data artikel belum dimuat. Jalankan sel sebelumnya terlebih dahulu.")

Query Asli: MotoGP
Query Asli: MotoGP
Query setelah stemming: motogp
--------------------
--- Hasil #1 ---
Judul: Hasil MotoGP 2025 usai Marc Marquez DNF di Sprint Race Misano
Skor BM25: 1.8639
Tanggal: Minggu, 14 Sep 2025 12:15 WIB
URL: https://sport.detik.com/moto-gp/d-8111057/hasil-motogp-2025-usai-marc-marquez-dnf-di-sprint-race-misano
Contents: Jakarta - Marco Bezzecchi menjadi rider ketiga yang meraih kemenangan sprint race MotoGP 2025 di tengah dominasi Marc Marquez . Simak hasil selengkapnya. Di Sirkuit Misano dalam sprint race MotoGP San Marino 2025, Bezzecchi sukses melintasi garis finis paling dulu. Rider Aprilia itu finis di depan dua rider penunggang motor Ducati. Alex Marquez menjadi runner-up di sprint race Misano, Sabtu (13/9/2025). Sedangkan Fabio Di Giannantonio menuntaskan sprint race itu di posisi ketiga. SCROLL TO CONTINUE WITH CONTENT Baca juga: Sprint Race MotoGP San Marino 2025: Marc Marquez Crash! Sementara itu Marc Marquez, yang musim ini sedemikian mendominas