In [1]:
from transformers import BertTokenizer, BertModel
import torch
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Load pre-trained BERT model and tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')




In [3]:
# Function to get embedding from BERT
def get_embedding(text):
    inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True, max_length=128)
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.last_hidden_state[:, 0, :].numpy()  # Using [CLS] token representation

In [5]:
# Query and Ayat
query = "adil"
ayat_list = ["Sesungguhnya Allah menyuruh kamu berlaku adil dan berbuat kebajikan.", 
             "Janganlah sekali-kali kebencianmu terhadap suatu kaum mendorong kamu untuk berlaku tidak adil.",
             "Allah tidak menyukai orang yang berbuat zalim."]

In [6]:
# Get embeddings for query and ayat
query_embedding = get_embedding(query)
ayat_embeddings = [get_embedding(ayat) for ayat in ayat_list]

In [7]:
# Calculate cosine similarity
similarities = [cosine_similarity(query_embedding, ayat_embedding)[0][0] for ayat_embedding in ayat_embeddings]

# Rank ayat by similarity
ranking = sorted(zip(ayat_list, similarities), key=lambda x: x[1], reverse=True)

# Print ranked ayat
for ayat, score in ranking:
    print(f"Ayat: {ayat}\nScore: {score}\n")


Ayat: Allah tidak menyukai orang yang berbuat zalim.
Score: 0.6451096534729004

Ayat: Janganlah sekali-kali kebencianmu terhadap suatu kaum mendorong kamu untuk berlaku tidak adil.
Score: 0.6261709928512573

Ayat: Sesungguhnya Allah menyuruh kamu berlaku adil dan berbuat kebajikan.
Score: 0.5991761684417725



In [11]:
import pandas as pd

df = pd.read_csv('quran_id_202408240608.csv')
ayat_list = df['indoText'].head(7)
ayat_list

0    Dengan nama Allah Yang Maha Pengasih, Maha Pen...
1          Segala puji bagi Allah, Tuhan seluruh alam,
2                  Yang Maha Pengasih, Maha Penyayang,
3                             Pemilik hari pembalasan.
4    Hanya kepada Engkaulah kami menyembah dan hany...
5                    Tunjukilah kami jalan yang lurus,
6    (yaitu) jalan orang-orang yang telah Engkau be...
Name: indoText, dtype: object

In [12]:
query = 'kasih sayang'

In [13]:
# Get embeddings for query and ayat
query_embedding = get_embedding(query)
ayat_embeddings = [get_embedding(ayat) for ayat in ayat_list]

In [14]:
# Calculate cosine similarity
similarities = [cosine_similarity(query_embedding, ayat_embedding)[0][0] for ayat_embedding in ayat_embeddings]

# Rank ayat by similarity
ranking = sorted(zip(ayat_list, similarities), key=lambda x: x[1], reverse=True)

# Print ranked ayat
for ayat, score in ranking:
    print(f"Ayat: {ayat}\nScore: {score}\n")

Ayat: Pemilik hari pembalasan.
Score: 0.8542590141296387

Ayat: Tunjukilah kami jalan yang lurus,
Score: 0.8365135192871094

Ayat: Dengan nama Allah Yang Maha Pengasih, Maha Penyayang.
Score: 0.793173611164093

Ayat: Yang Maha Pengasih, Maha Penyayang,
Score: 0.787677526473999

Ayat: Segala puji bagi Allah, Tuhan seluruh alam,
Score: 0.7866235375404358

Ayat: Hanya kepada Engkaulah kami menyembah dan hanya kepada Engkaulah kami mohon pertolongan.
Score: 0.7597277760505676

Ayat: (yaitu) jalan orang-orang yang telah Engkau beri nikmat kepadanya; bukan (jalan) mereka yang dimurkai, dan bukan (pula jalan) mereka yang sesat.
Score: 0.7071013450622559

