# Data loading and normalizing

In [None]:
%pip install pandas numpy hazm scikit-learn gensim transformers

In [1]:
import io

# TODO: better dataset to use
poems = list(line[1:-1] for line in 
             io.open('../datasets/Shahnameh-Poems.txt', mode="r", encoding="utf-8").readlines())[:50_000]

import pandas as pd
import numpy as np
import hazm

# TODO: better stopwords to improve
costums = [
    'زین',
    'مگر',
    'گر',
    'کز',
    'پس',
]
stopwords = set(hazm.stopwords_list() + costums)

poems = np.array(poems)
poems = np.apply_along_axis(' '.join, 1, poems.reshape(-1, 2))

df = pd.DataFrame(poems, columns=['poems'])

normalizer = hazm.Normalizer(token_based=True)

# find better persian poems normalization and cleaning
def clean_poems(poem):
    tokens = [tk for tk in hazm.word_tokenize(poem) if tk not in stopwords and len(tk) > 1]
    text = ' '.join(tokens)
    return normalizer.normalize(text)

df['changed'] = df.poems.apply(clean_poems)

In [2]:
df.sample(10)

Unnamed: 0,poems,changed
22901,ز چندین سر و افسر نامدار چرا کرد رایت مرا خواستا,چندین سر افسر نامدار رایت مرا خواستا
8589,ز جهن و ز گرسیوز و هرک بود به کس راز نگشاد و شاد,جهن گرسیوز هرک کس راز نگشاد شاد
13564,بسازیم یکبار و جنگ‌آوریم بریشان در و کوه تنگ آور,بسازیم یکبار جنگ‌آوریم بریشان کوه تنگ آور
2937,یکی نامه فرمایم اکنون به شاه فرستم به دست تو ای,نامه فرمایم شاه فرستم دست‌ای
20521,جهان آفرین را دگر بود رای بهر کار با رای او نیست,جهان‌آفرین دگر رای بهر کار رای
6798,همی بست بر باره رهام تنگ به برگستوان بر زده طوس,همی بست رهام تنگ برگستوان زده طوس
15782,ده اسب گرانمایه زرین لگام نهاده برو داغ کاوس نام,ده اسب گرانمایه زرین لگام نهاده برو داغ کاوس نام
22179,نماند کزین راستی بگذرم چو شاهان پیشین یپیچد سرم,نماند کزین راستی بگذرم چو شاهان پیشین یپیچد سرم
14572,چنین زندگانی نیارد بها که باشد سر اندر دم اژدها,زندگانی نیارد بها سر اندر دم اژدها
20704,از اندیشه گردون مگر بگذرد ز رنج تو دیگر کسی برخو,اندیشه گردون مگر بگذرد رنج برخو


# Tfidf and Boolean approaches

In [3]:
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer
from sklearn.pipeline import Pipeline

# TODO: check bigram with ngram_range=(1, 2) and increase max_features
pipe = Pipeline([('count', CountVectorizer(analyzer='word', ngram_range=(1, 1), max_features=15_000)),
                 ('tfidf', TfidfTransformer(sublinear_tf=True))]).fit(df.changed)

def get_document_vectors(series):
    series = [clean_poems(doc) for doc in series]
    boolw_vec = pipe['count'].transform(series).toarray().astype(bool).astype(int)
    norm = np.linalg.norm(boolw_vec, axis=1).reshape(-1, 1)
    return pipe.transform(series).toarray() , boolw_vec / norm

In [4]:
tfidf_documents, boolw_documents = get_document_vectors(df.poems)

In [5]:
eps = 1e-10

def get_similars_by_cosine_distance(vector, documents, n=5):
    sq_vector = np.squeeze(vector)
    similarity = documents.dot(sq_vector) / (np.linalg.norm(documents, axis=1) * np.linalg.norm(sq_vector) + eps)
    sorted_indx = np.argsort(similarity)
    
    return list(zip(df.poems[sorted_indx[-n:]], similarity[sorted_indx[-n:]]))

In [6]:
tfidf_vector, boolw_vector = \
    get_document_vectors(['که تاج سر شهریاران توی که گوید که پور شبانان توی'])

# TODO: better format to report similarity
print('-' * 100)
for poem, sym in get_similars_by_cosine_distance(tfidf_vector, tfidf_documents):
    print("tfidf: \"{}\" \t with similarity of {:.2f}".format(poem, sym))

print('-' * 100)
for poem, sym in get_similars_by_cosine_distance(boolw_vector, boolw_documents):
    print("boolw: \"{}\" \t with similarity of {:.2f}".format(poem, sym))

----------------------------------------------------------------------------------------------------
tfidf: "ز گیتی هنرمند و خامش توی که پروردگار سیاوش توی" 	 with similarity of 0.36
tfidf: "چپ لشکر و چنگ شیران توی نگهبان سالار ایران توی" 	 with similarity of 0.36
tfidf: "بدو گفت سالار و مهتر توی سیاووش رد را برادر توی" 	 with similarity of 0.37
tfidf: "ز شاهان گیتی گزیده توی جهانجوی و هم کار دیده توی" 	 with similarity of 0.38
tfidf: "که تاج سر شهریاران توی که گوید که پور شبانان توی" 	 with similarity of 1.00
----------------------------------------------------------------------------------------------------
boolw: "کرانه گزید از بر تاج و گاه نهاده بر خود سر هر سه" 	 with similarity of 0.34
boolw: "به سر بر نهاد آن پدر داده تاج که زیبنده باشد بر " 	 with similarity of 0.34
boolw: "نه پور و برادر نه بوم و نه بر نه تاج و نه گنج و " 	 with similarity of 0.34
boolw: "به هنگام شیرین به دایه دهد یکی تاج زرینش بر سر ن" 	 with similarity of 0.34
boolw: "که تاج سر شهریاران توی که گوید که پور ش

In [7]:
word_idfs = dict(zip(pipe['count'].get_feature_names_out(), pipe['tfidf'].idf_))

# Combining word embedding and idf

In [8]:
from gensim.models import KeyedVectors
from hazm import word_tokenize

word2vec = KeyedVectors.load_word2vec_format('../models/farsi_literature_word2vec_model.txt')

# TODO: check appropriate stopwords
def embed(poem):
    
    poem = clean_poems(poem)
    def get_wrod2vector(word):
        return word2vec[word] if word in word2vec else np.zeros(100)
    
    embedding_vectors = [get_wrod2vector(wo) * word_idfs.get(wo, 0) for wo in word_tokenize(poem)]
    return np.sum(embedding_vectors, axis=0).tolist()

poems_embeddings = np.array(df.changed.apply(embed).tolist())

In [9]:
sample_embedding = np.array(embed('به نام خداوند جان و خرد کزین برتر اندیشه برنگذرد'))

# TODO: better format to report similarity
print('-' * 100)
for poem, sym in get_similars_by_cosine_distance(sample_embedding, poems_embeddings):
    print("embedding: \"{}\" \t with similarity of {:.2f}".format(poem, sym))

----------------------------------------------------------------------------------------------------
embedding: "که ای برتر از دانش پارسا جهاندار و بر هر کسی پاد" 	 with similarity of 0.68
embedding: "نیابد بدو نیز اندیشه راه که او برتر از نام و از " 	 with similarity of 0.68
embedding: "به یاران چنین گفت کاینت شگفت کزین برتر اندیشه نت" 	 with similarity of 0.69
embedding: "ستوده جهاندار برتر منش نخواهد که بر مابود سرزنش" 	 with similarity of 0.69
embedding: "به نام خداوند جان و خرد کزین برتر اندیشه برنگذرد" 	 with similarity of 1.00


# Use BigBird and ParsBert last hidden state as embeddings

In [10]:
from transformers import BigBirdModel, AutoTokenizer, AutoConfig, AutoModel

MODEL_NAME = "SajjadAyoubi/distil-bigbird-fa-zwnj"

# TODO: check for fine-tuning
model = BigBirdModel.from_pretrained(MODEL_NAME, attention_type="original_full")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

2022-06-05 15:22:11.089981: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: :/home/alireza/.mujoco/mujoco210/bin
2022-06-05 15:22:11.090051: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
Some weights of the model checkpoint at SajjadAyoubi/distil-bigbird-fa-zwnj were not used when initializing BigBirdModel: ['cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.decoder.bias']
- This IS expected if you are initializing BigBirdModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequ

In [19]:
# TODO: find better n=? for faster embedding
def batch_series(iterable, n=100):
    length = len(iterable)
    for ndx in range(0, length, n): yield iterable[ndx:min(ndx + n, length)]
        
def get_transformer_embedding(documents):
    series = [clean_poems(doc) for doc in documents]
    result = None
    
    for batch in batch_series(series):
        output = model(**tokenizer(batch, return_tensors='pt', padding=True))
        output = np.mean(output.last_hidden_state.detach().numpy(), axis=1)
        
        if result is None:
            result = output
        else:
            result = np.concatenate((result, output))
        
    return result

In [25]:
poems_embeddings = get_transformer_embedding(df.poems.tolist())

In [26]:
sample_embedding = get_transformer_embedding(['به نام خداوند جان و خرد کزین برتر اندیشه برنگذرد'])

# TODO: better format to report similarity
print('-' * 100)
for poem, sym in get_similars_by_cosine_distance(sample_embedding, poems_embeddings):
    print("embedding: \"{}\" \t with similarity of {:.2f}".format(poem, sym))

----------------------------------------------------------------------------------------------------
embedding: "غمی شد دل گیو و خیره بماند بدان خیرگی نام یزدان " 	 with similarity of 0.85
embedding: "وزان جایگه سوی دیو سپید بیامد به کردار تابنده شی" 	 with similarity of 0.85
embedding: "به یاران چنین گفت کاینت شگفت کزین برتر اندیشه نت" 	 with similarity of 0.85
embedding: "ز رستم چو بشنید خسرو سخن یکی دیگر اندیشه افگند ب" 	 with similarity of 0.85
embedding: "به نام خداوند جان و خرد کزین برتر اندیشه برنگذرد" 	 with similarity of 0.99


In [27]:
MODEL_NAME = "HooshvareLab/bert-base-parsbert-uncased"

config = AutoConfig.from_pretrained(MODEL_NAME)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModel.from_pretrained(MODEL_NAME, config=config)

Some weights of the model checkpoint at HooshvareLab/bert-base-parsbert-uncased were not used when initializing BertModel: ['cls.predictions.transform.dense.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.decoder.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [28]:
poems_embeddings = get_transformer_embedding(df.poems.tolist())

In [29]:
sample_embedding = get_transformer_embedding(['چو ضحاک بشنید اندیشه کرد ز خون پدر شد دلش پر ز د'])

# TODO: better format to report similarity
print('-' * 100)
for poem, sym in get_similars_by_cosine_distance(sample_embedding, poems_embeddings):
    print("embedding: \"{}\" \t with similarity of {:.2f}".format(poem, sym))

----------------------------------------------------------------------------------------------------
embedding: "چو بشنید گفتار سالار شاه برافراخت تا ماه فرخ کلا" 	 with similarity of 0.90
embedding: "ازیشان چو بشنید اسفندیار به جان و به تن دادشان ز" 	 with similarity of 0.90
embedding: "چو بشنید رستم پر اندیشه شد دلش از غم و درد چون ب" 	 with similarity of 0.90
embedding: "چو بشنید پاسخ‌گو پیلتن دلیران لشکر شدند انجمن" 	 with similarity of 0.90
embedding: "چو ضحاک بشنید اندیشه کرد ز خون پدر شد دلش پر ز د" 	 with similarity of 0.99
