In [1]:
import json
import os
from pyserini.search.lucene import LuceneSearcher
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

INDEX_PATH = 'indexes/detik_sport'
JSON_PATH = 'detik_sport_articles_combined.json'

searcher = None
articles_data = None

if not os.path.exists(INDEX_PATH):
    print(f"ERROR: Direktori index tidak ditemukan di {INDEX_PATH}")
    print("Pastikan anda sudah melakukan indexing")
    
elif not os.path.exists(JSON_PATH):
    print(f"ERROR: File data tidak ditemukan di {JSON_PATH}")
    print("Pastikan sudah menjalankan skrip scraping")

else:
    try:
        print(f"Memuat indeks dari {INDEX_PATH}")
        searcher = LuceneSearcher(INDEX_PATH)
        searcher.set_language('id')
        print("Indeks Pyserini berhasil dimuat")
        
        print(f"Muat data artikel dari {JSON_PATH}")
        with open(JSON_PATH, 'r', encoding='utf-8') as f:
            articles_list = json.load(f)
            
            articles_data = { article['url']: article for article in articles_list}
        
        print(f"Data artikel berhasil dimuat. Total {len(articles_data)} artikel.")
    except Exception as e: 
        print(f"Terjadi kesalahan: {e}")

  from .autonotebook import tqdm as notebook_tqdm


Memuat indeks dari indexes/detik_sport
Indeks Pyserini berhasil dimuat
Muat data artikel dari detik_sport_articles_combined.json
Data artikel berhasil dimuat. Total 619 artikel.


In [12]:
if searcher and articles_data:
    
    factory = StemmerFactory()
    stemmer = factory.create_stemmer()
    
    raw_query = "Onana"
    
    stemmed_query = stemmer.stem(raw_query)
    
    print(f"Query Asli: {raw_query}")
    print(f"Query setelah stemming: {stemmed_query}")
    print("-" * 20)
    
    hits = searcher.search(stemmed_query, k=10)
    
    if not hits:
        print("Tidak ada hasil yang ditemukan")
    
    else:
        for i, hit in enumerate(hits):
            doc_id = hit.docid
            score = hit.score
            
            article_info = articles_data.get(doc_id)
            
            if article_info:
                print(f"--- Hasil #{i+1} ---")
                print(f"Judul: {article_info['title']}")
                print(f"Skor BM25: {score:.4f}")
                print(f"Tanggal: {article_info['date']}")
                print(f"URL: {article_info['url']}")
                print(f"Contents: {article_info['content']}")
                print("\n")
            else:
                print(f"WARNING: Tidak dapat menemukan detail untuk artikel dengan ID: {doc_id}")

else:
    print("Searcher atau data artikel belum dimuat. Jalankan sel sebelumnya terlebih dahulu.")

Query Asli: Onana
Query setelah stemming: onana
--------------------
--- Hasil #1 ---
Judul: Onana Lagi-lagi Eror, Kini di Timnas Kamerun!
Skor BM25: 4.1263
Tanggal: Rabu, 10 Sep 2025 15:00 WIB
URL: https://sport.detik.com/sepakbola/bola-dunia/d-8105154/onana-lagi-lagi-eror-kini-di-timnas-kamerun
Contents: Jakarta - Andre Onana lagi-lagi bikin eror yang berujung gawangnya kebobolan. Kali ini, kiper itu melakukannya bersama Timnas Kamerun. Timnas Kamerun hadapi tuan rumah Cape Verde di lanjutan Kualifikasi Piala Dunia 2026 Zona Afrika, Selasa (9/9) malam WIB. Gol Dailon Livramento di menit ke-54 menangkan Cape Verde. Baca juga: Gaji Aman Onana SCROLL TO CONTINUE WITH CONTENT Gol itu dinilai jadi tanggung jawab Andre Onana. Sebab sang kiper Timnas Kamerun lakukan eror! Situasinya, Livramento kuasai bola dari lapangan tengah dan lakukan serangan balik. Dibayangi tiga pemain, Livramento mampu menusuk sampai ke dalam kotak penalti. ADVERTISEMENT Onana justru tidak bergerak maju untuk menutu