In [None]:
pip install transformers



Using Default model

In [None]:
import torch
from transformers import AutoTokenizer, BertForMaskedLM
from scipy.spatial.distance import cosine

# Load the trained model
model_name = "l3cube-pune/gujarati-bert"
model = BertForMaskedLM.from_pretrained(model_name)

# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Input Gujarati text document
gujarati_text = "સ્વતંત્રતા સંગ્રામની ભાષા અને રાજ્યની ભાષા સાથે બંનેનું કામ કર્યું. ભાષા એ એક સાંસ્કૃતિક મૂળ છે જે માણસને અનેક અનેક અનુભવો આપે છે.ગુજરાતી ભાષા તેમને આત્મતૃપ્તિની અનુભૂતિ આપે છે જે અન્ય ભાષાઓ નહીં આપે. મહાત્મા ગાંધીએ ગુજરાતી ભાષાને ગૌરવ અને આત્માનંદનું પ્રતિષ્ઠાન આપ્યું. ભાષા સામાજિક સંસ્કૃતિનું એક મહત્વપૂર્ણ અંગ છે."


# Input word for spotting
input_word = "ગુજરાતી"

# Tokenize input word and document
input_word_tokens = tokenizer.tokenize(input_word)
gujarati_tokens = tokenizer.tokenize(gujarati_text)

# Calculate embeddings for input word
input_word_embeddings = model.base_model.embeddings.word_embeddings(torch.tensor([tokenizer.convert_tokens_to_ids(input_word_tokens)]))

# Calculate cosine similarity between input word and each word in the document
similarity_scores = []
for token in gujarati_tokens:
    token_embeddings = model.base_model.embeddings.word_embeddings(torch.tensor([tokenizer.convert_tokens_to_ids([token])]))
    similarity = 1 - cosine(input_word_embeddings.squeeze().detach().numpy(), token_embeddings.squeeze().detach().numpy())
    similarity_scores.append((token, similarity))

# Sort results based on similarity scores
similarity_scores.sort(key=lambda x: x[1], reverse=True)

# Print top spotted words
print("Top spotted words similar to '{}' in the document:".format(input_word))
for word, similarity in similarity_scores[:10]:  # Print top 10 similar words
    print("- {} (Similarity Score: {:.4f})".format(word, similarity))


Top spotted words similar to 'ગુજરાતી' in the document:
- ગુજરાતી (Similarity Score: 1.0000)
- ગુજરાતી (Similarity Score: 1.0000)
- કર્યું (Similarity Score: 0.8517)
- સાથે (Similarity Score: 0.8458)
- તેમને (Similarity Score: 0.8453)
- છે (Similarity Score: 0.8394)
- છે (Similarity Score: 0.8394)
- છે (Similarity Score: 0.8394)
- છે (Similarity Score: 0.8394)
- ##નું (Similarity Score: 0.8373)


Using trained model

In [None]:
import torch
from transformers import AutoTokenizer, BertForMaskedLM
from scipy.spatial.distance import cosine

# Load the trained model
model_name = "/content/drive/MyDrive/Word Spotting/model"
model = BertForMaskedLM.from_pretrained(model_name)

# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Input Gujarati text document
gujarati_text = "સ્વતંત્રતા સંગ્રામની ભાષા અને રાજ્યની ભાષા સાથે બંનેનું કામ કર્યું. ભાષા એ એક સાંસ્કૃતિક મૂળ છે જે માણસને અનેક અનેક અનુભવો આપે છે.ગુજરાતી ભાષા તેમને આત્મતૃપ્તિની અનુભૂતિ આપે છે જે અન્ય ભાષાઓ નહીં આપે. મહાત્મા ગાંધીએ ગુજરાતી ભાષાને ગૌરવ અને આત્માનંદનું પ્રતિષ્ઠાન આપ્યું. ભાષા સામાજિક સંસ્કૃતિનું એક મહત્વપૂર્ણ અંગ છે."

# Input word for spotting
input_word = "ગુજરાતી"

# Tokenize input word and document
input_word_tokens = tokenizer.tokenize(input_word)
gujarati_tokens = tokenizer.tokenize(gujarati_text)

# Calculate embeddings for input word
input_word_embeddings = model.base_model.embeddings.word_embeddings(torch.tensor([tokenizer.convert_tokens_to_ids(input_word_tokens)]))

# Calculate cosine similarity between input word and each word in the document
similarity_scores = []
for token in gujarati_tokens:
    token_embeddings = model.base_model.embeddings.word_embeddings(torch.tensor([tokenizer.convert_tokens_to_ids([token])]))
    similarity = 1 - cosine(input_word_embeddings.squeeze().detach().numpy(), token_embeddings.squeeze().detach().numpy())
    similarity_scores.append((token, similarity))

# Sort results based on similarity scores
similarity_scores.sort(key=lambda x: x[1], reverse=True)

# Print top spotted words
print("Top spotted words similar to '{}' in the document:".format(input_word))
for word, similarity in similarity_scores[:10]:  # Print top 10 similar words
    print("- {} (Similarity Score: {:.10f})".format(word, similarity))


Top spotted words similar to 'ગુજરાતી' in the document:
- ગુજરાતી (Similarity Score: 1.0000000000)
- ગુજરાતી (Similarity Score: 1.0000000000)
- કર્યું (Similarity Score: 0.8517301083)
- સાથે (Similarity Score: 0.8457903862)
- તેમને (Similarity Score: 0.8452854753)
- છે (Similarity Score: 0.8394266367)
- છે (Similarity Score: 0.8394266367)
- છે (Similarity Score: 0.8394266367)
- છે (Similarity Score: 0.8394266367)
- ##નું (Similarity Score: 0.8373068571)
