In [185]:
import io
from pdfminer.high_level import extract_text
from collections import defaultdict
from nltk.tokenize import sent_tokenize

In [186]:
# Fungsi untuk membangun inverted index dari sebuah dokumen
def build_inverted_index(doc_file):
    inverted_index = defaultdict(set)
    with open(doc_file, 'rb') as f:
        for page, text in enumerate(extract_text(f).split('\n\n')):
            words = text.strip().split()
            for word in words:
                inverted_index[word].add((doc_file, page))
    return inverted_index

In [187]:
# Fungsi untuk melakukan pencarian berdasarkan query dengan metode boolean
def boolean_search(query, inverted_index):
    query = set(query.strip().split())
    result = set()
    for word in query:
        if word in inverted_index:
            result = result.union(inverted_index[word])
    return result

In [188]:
# list file dokumen yang akan dicari
doc_files = ['jurnal1.pdf', 'jurnal2.pdf', 'jurnal3.pdf']

In [189]:
# indexing dokumen-dokumen tersebut
inverted_indexes = {}
for doc_file in doc_files:
    inverted_indexes[doc_file] = build_inverted_index(doc_file)

In [190]:
# gabungkan hasil indexing dari setiap dokumen menjadi satu inverted index
inverted_index = defaultdict(set)
for doc_index in inverted_indexes.values():
    for term, postings in doc_index.items():
        inverted_index[term].update(postings)

In [191]:
# lakukan pencarian pada inverted index
query = 'rumus'
result = boolean_search(query, inverted_index)

In [192]:
# buat dictionary untuk menyimpan teks dari setiap halaman dokumen
doc_text = {}
for doc_file in doc_files:
    with open(doc_file, 'rb') as f:
        doc_text[doc_file] = extract_text(f)

In [193]:
# tampilkan hasil pencarian dalam kalimat
for doc_file, page in result:
    text = doc_text[doc_file].split('\n\n')[page]
    sentences = sent_tokenize(text)
    for sentence in sentences:
        if any(word in sentence for word in query.strip().split()):
            print(sentence)
    print('\n')

Misalnya, Google menggunakan rumus yang memeriksa lebih dari 200 faktor 
berbeda dalam menentukan relevansi.


Nilai akurasi didefinisikan sebagai tingkat kedekatan antara 
nilai  predict  dengan  nilai  aktual  (true  value)  terlihat  pada 
rumus  1.
Pada  pengujian  ini  dilakukan  pencarian  nilai  recall 
yang terlihat pada rumus 2 dan pencarian nilai precision yang 
terlihat pada rumus 3.


