In [1]:
from transformers import BertTokenizer, BertModel
import torch
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

  from .autonotebook import tqdm as notebook_tqdm


In [29]:
# Function to get embedding from BERT with visible tokenization output
def get_embedding(text, tokenizer, model):
    # Tokenizing the input text
    inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True, max_length=128)
    
    # Print the tokenized components
    tokens = tokenizer.tokenize(text)  # Get tokens as text
    token_ids = inputs['input_ids'][0].numpy()  # Convert tensor to numpy array for readability
    
    # Display tokenization details
    print(f"Original Text: {text}")
    print(f"Tokens: {tokens}")
    print(f"Token IDs: {token_ids}")
    print(f"Attention Mask: {inputs['attention_mask'][0].numpy()}")
    print("\n" + "="*50 + "\n")
    
    # Pass through model without computing gradients
    with torch.no_grad():
        outputs = model(**inputs)
    
    # Return the embedding from [CLS] token representation
    return outputs.last_hidden_state[:, 0, :].numpy()



In [30]:
# Query and Ayat
query = "adil"
ayat_list = ["Sesungguhnya Allah menyuruh kamu berlaku adil dan berbuat kebajikan.", 
             "Janganlah sekali-kali kebencianmu terhadap suatu kaum mendorong kamu untuk berlaku tidak adil.",
             "Allah tidak menyukai orang yang berbuat zalim."]

In [None]:
# Load pre-trained BERT model and tokenizer
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("indolem/indobert-base-uncased")
model = AutoModel.from_pretrained("indolem/indobert-base-uncased")


In [32]:
# Get embeddings for query and ayat
query_embedding = get_embedding(query, tokenizer, model)
ayat_embeddings = [get_embedding(ayat, tokenizer, model) for ayat in ayat_list]

Original Text: adil
Tokens: ['adil']
Token IDs: [   3 6187    4]
Attention Mask: [1 1 1]


Original Text: Sesungguhnya Allah menyuruh kamu berlaku adil dan berbuat kebajikan.
Tokens: ['sesungguhnya', 'allah', 'menyuruh', 'kamu', 'berlaku', 'adil', 'dan', 'berbuat', 'kebajikan', '.']
Token IDs: [    3  4347  2211  9559  3162  3878  6187  1501  5970 13528    18     4]
Attention Mask: [1 1 1 1 1 1 1 1 1 1 1 1]


Original Text: Janganlah sekali-kali kebencianmu terhadap suatu kaum mendorong kamu untuk berlaku tidak adil.
Tokens: ['janganlah', 'sekali', '-', 'kali', 'kebencian', '##mu', 'terhadap', 'suatu', 'kaum', 'mendorong', 'kamu', 'untuk', 'berlaku', 'tidak', 'adil', '.']
Token IDs: [    3 16420  2268    17  1994 12043  2250  1973  2170  2800  5026  3162
  1559  3878  1580  6187    18     4]
Attention Mask: [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]


Original Text: Allah tidak menyukai orang yang berbuat zalim.
Tokens: ['allah', 'tidak', 'menyukai', 'orang', 'yang', 'berbuat', 'zalim', '.'

In [33]:
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
model = BertModel.from_pretrained("bert-base-multilingual-cased")




In [34]:
query_embedding = get_embedding(query, tokenizer, model)
ayat_embeddings = [get_embedding(ayat, tokenizer, model) for ayat in ayat_list]

Original Text: adil
Tokens: ['ad', '##il']
Token IDs: [  101 10840 11030   102]
Attention Mask: [1 1 1 1]


Original Text: Sesungguhnya Allah menyuruh kamu berlaku adil dan berbuat kebajikan.
Tokens: ['Ses', '##ung', '##gu', '##hnya', 'Allah', 'men', '##yu', '##ruh', 'kamu', 'berlaku', 'ad', '##il', 'dan', 'be', '##rb', '##uat', 'ke', '##ba', '##jikan', '.']
Token IDs: [  101 23387 10716 12589 55093 22734 10588 25285 52794 90618 53347 10840
 11030 10215 10347 50579 48439 11163 10537 97374   119   102]
Attention Mask: [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]


Original Text: Janganlah sekali-kali kebencianmu terhadap suatu kaum mendorong kamu untuk berlaku tidak adil.
Tokens: ['Jang', '##an', '##lah', 'sekali', '-', 'kali', 'ke', '##ben', '##cian', '##mu', 'terhadap', 'suatu', 'kaum', 'men', '##doro', '##ng', 'kamu', 'untuk', 'berlaku', 'tidak', 'ad', '##il', '.']
Token IDs: [  101 65034 10206 16254 46233   118 16384 11163 10965 35288 11717 21420
 22370 23121 10588 79517 10376 9061

In [50]:
def evaluate_tokenization(models, text):
    for model_name in models:
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        tokens = tokenizer.tokenize(text)
        token_ids = tokenizer.convert_tokens_to_ids(tokens)
        print(f"Model: {model_name}")
        print(f"Tokens: {tokens}")
        print(f"Token IDs: {token_ids}")
        print(f"Jumlah Token: {len(tokens)}")
        print("\n" + "="*50 + "\n")

# Daftar model yang ingin diuji
model_names = [
    "indolem/indobert-base-uncased",
    "bert-base-multilingual-cased",
    "xlm-roberta-base",
    "indobenchmark/indobert-base-p2",
    # "indobenchmark/indobart",
    # "indobenchmark/indogpt",

]

text = "mengerjakan pekerjaan dengan adil dan bijaksana"
# text = "doing work fairly and wisely"
evaluate_tokenization(model_names, text)

Model: indolem/indobert-base-uncased
Tokens: ['mengerjakan', 'pekerjaan', 'dengan', 'adil', 'dan', 'bijaksana']
Token IDs: [8639, 3543, 1545, 6187, 1501, 11387]
Jumlah Token: 6


Model: bert-base-multilingual-cased
Tokens: ['men', '##ger', '##jakan', 'pekerjaan', 'dengan', 'ad', '##il', 'dan', 'bija', '##ksa', '##na']
Token IDs: [10588, 11446, 103497, 101362, 10659, 10840, 11030, 10215, 14832, 42430, 10219]
Jumlah Token: 11


Model: xlm-roberta-base
Tokens: ['▁mengerjakan', '▁pekerjaan', '▁dengan', '▁adil', '▁dan', '▁bija', 'ksana']
Token IDs: [156477, 40749, 462, 130916, 123, 6845, 169828]
Jumlah Token: 7


Model: indobenchmark/indobert-base-p2
Tokens: ['mengerjakan', 'pekerjaan', 'dengan', 'adil', 'dan', 'bijaksana']
Token IDs: [5086, 1367, 79, 5754, 41, 10249]
Jumlah Token: 6




In [49]:
from sentence_transformers import SentenceTransformer

# Load a pre-trained SentenceTransformer model
model = SentenceTransformer("all-mpnet-base-v2")

# Encode some texts
sentences = [
    "The weather is lovely today.",
    "It's so sunny outside!",
    "He drove to the stadium.",
]
embeddings = model.tokenize(sentences)
print(embeddings)

{'input_ids': tensor([[    0,  2000,  4637,  2007,  8407,  2655,  1016,     2,     1],
        [    0,  2013,  1009,  1059,  2065, 11563,  2652,  1003,     2],
        [    0,  2006,  5229,  2004,  2000,  3350,  1016,     2,     1]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 0]])}


In [52]:
from sentence_transformers import SentenceTransformer
from transformers import AutoTokenizer

# Nama model SBERT
model_name = 'sentence-transformers/all-mpnet-base-v2'

# Inisialisasi tokenizer dan model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = SentenceTransformer(model_name)

# Teks yang ingin di-tokenisasi
text = "mengerjakan pekerjaan dengan adil dan bijaksana"

# Tokenisasi teks
inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True, max_length=128)
tokens = tokenizer.tokenize(text)  # Mendapatkan token sebagai teks
token_ids = inputs['input_ids'][0].numpy()  # Mendapatkan token IDs dalam format numpy array

# Menampilkan detail tokenisasi
print(f"Teks Asli: {text}")
print(f"Tokens: {tokens}")
print(f"Token IDs: {token_ids}")
print(f"Attention Mask: {inputs['attention_mask'][0].numpy()}")

# Jika ingin mendapatkan embedding dari model
with torch.no_grad():
    embeddings = model.encode(text)

print("\nEmbeddings shape:", embeddings.shape)


Teks Asli: mengerjakan pekerjaan dengan adil dan bijaksana
Tokens: ['meng', '##er', '##jak', '##an', 'pe', '##ker', '##ja', '##an', 'deng', '##an', 'adi', '##l', 'dan', 'bi', '##jak', '##san', '##a']
Token IDs: [    0 27959  2125 18321  2323 21881  5488  3904  2323 26961  2323 27137
  2144  4911 12174 18321  8795  2054     2]
Attention Mask: [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]

Embeddings shape: (768,)


In [21]:
# Calculate cosine similarity
similarities = [cosine_similarity(query_embedding, ayat_embedding)[0][0] for ayat_embedding in ayat_embeddings]

# Rank ayat by similarity
ranking = sorted(zip(ayat_list, similarities), key=lambda x: x[1], reverse=True)

# Print ranked ayat
for ayat, score in ranking:
    print(f"Ayat: {ayat}\nScore: {score}\n")


Ayat: Sesungguhnya Allah menyuruh kamu berlaku adil dan berbuat kebajikan.
Score: 0.4979539215564728

Ayat: Janganlah sekali-kali kebencianmu terhadap suatu kaum mendorong kamu untuk berlaku tidak adil.
Score: 0.4779987633228302

Ayat: Allah tidak menyukai orang yang berbuat zalim.
Score: 0.38167575001716614



In [22]:
import pandas as pd

df = pd.read_csv('quran_100_ayat.csv')
ayat_list = df['indoText'].head(7)
ayat_list

0    Dengan nama Allah Yang Maha Pengasih, Maha Pen...
1          Segala puji bagi Allah, Tuhan seluruh alam,
2                  Yang Maha Pengasih, Maha Penyayang,
3                             Pemilik hari pembalasan.
4    Hanya kepada Engkaulah kami menyembah dan hany...
5                    Tunjukilah kami jalan yang lurus,
6    (yaitu) jalan orang-orang yang telah Engkau be...
Name: indoText, dtype: object

In [23]:
query = 'kasih sayang'

In [24]:
# Get embeddings for query and ayat
query_embedding = get_embedding(query)
ayat_embeddings = [get_embedding(ayat) for ayat in ayat_list]

Original Text: kasih sayang
Tokens: ['kasih', 'sayang']
Token IDs: [   3 3774 5458    4]
Attention Mask: [1 1 1 1]


Original Text: Dengan nama Allah Yang Maha Pengasih, Maha Penyayang.
Tokens: ['dengan', 'nama', 'allah', 'yang', 'maha', 'pengasih', ',', 'maha', 'penyayang', '.']
Token IDs: [    3  1545  1966  2211  1497  5774 24570    16  5774 21331    18     4]
Attention Mask: [1 1 1 1 1 1 1 1 1 1 1 1]


Original Text: Segala puji bagi Allah, Tuhan seluruh alam,
Tokens: ['segala', 'puji', 'bagi', 'allah', ',', 'tuhan', 'seluruh', 'alam', ',']
Token IDs: [    3  3157 11832  1896  2211    16  2702  2313  2660    16     4]
Attention Mask: [1 1 1 1 1 1 1 1 1 1 1]


Original Text: Yang Maha Pengasih, Maha Penyayang,
Tokens: ['yang', 'maha', 'pengasih', ',', 'maha', 'penyayang', ',']
Token IDs: [    3  1497  5774 24570    16  5774 21331    16     4]
Attention Mask: [1 1 1 1 1 1 1 1 1]


Original Text: Pemilik hari pembalasan.
Tokens: ['pemilik', 'hari', 'pembalasan', '.']
Token IDs: [    3

In [25]:
# Calculate cosine similarity
similarities = [cosine_similarity(query_embedding, ayat_embedding)[0][0] for ayat_embedding in ayat_embeddings]

# Rank ayat by similarity
ranking = sorted(zip(ayat_list, similarities), key=lambda x: x[1], reverse=True)

# Print ranked ayat
for ayat, score in ranking:
    print(f"Ayat: {ayat}\nScore: {score}\n")

Ayat: Yang Maha Pengasih, Maha Penyayang,
Score: 0.12875959277153015

Ayat: Pemilik hari pembalasan.
Score: 0.12072833627462387

Ayat: Dengan nama Allah Yang Maha Pengasih, Maha Penyayang.
Score: 0.11339651048183441

Ayat: Segala puji bagi Allah, Tuhan seluruh alam,
Score: 0.07025673985481262

Ayat: Tunjukilah kami jalan yang lurus,
Score: 0.06887882947921753

Ayat: (yaitu) jalan orang-orang yang telah Engkau beri nikmat kepadanya; bukan (jalan) mereka yang dimurkai, dan bukan (pula jalan) mereka yang sesat.
Score: 0.04936020076274872

Ayat: Hanya kepada Engkaulah kami menyembah dan hanya kepada Engkaulah kami mohon pertolongan.
Score: 0.03851040452718735

