# Data loading and normalizing

In [1]:
# !pip install pandas numpy hazm scikit-learn gensim transformers scipy

In [2]:
import io

poems = list(line.strip() for line in
             io.open('../datasets/shahnameh.txt', mode="r", encoding="utf-8").readlines())[:10_000]

import pandas as pd
import numpy as np
import hazm

# TODO: better stopwords to improve
costums = [
    'زین',
    'مگر',
    'اندر',
    'چو',
    'گر',
    'کز',
    'پس',
]
stopwords = set(hazm.stopwords_list() + costums)

poems = np.array(poems)
poems = np.apply_along_axis(' / '.join, 1, poems.reshape(-1, 2))

df = pd.DataFrame(poems, columns=['poems'])

normalizer = hazm.Normalizer(token_based=True)

# find better persian poems normalization and cleaning
def clean_poems(poem):
    tokens = [tk for tk in hazm.word_tokenize(poem) if tk not in stopwords and len(tk) > 1]
    text = ' '.join(tokens)
    return normalizer.normalize(text)

eps = 1e-10

def get_similars_by_cosine_distance(vector, documents, n=5):
    sq_vector = np.squeeze(vector)
    similarity = documents.dot(sq_vector) / (np.linalg.norm(documents, axis=1) * np.linalg.norm(sq_vector) + eps)
    sorted_indx = np.argsort(similarity)
    
    return list(zip(df.poems[sorted_indx[-n:]], similarity[sorted_indx[-n:]]))

df['changed'] = df.poems.apply(clean_poems)

In [3]:
df.sample(10)

Unnamed: 0,poems,changed
478,که او را همی آشتی رای نیست / بدلش اندرون داد ر...,همی آشتی رای بدلش اندرون
3994,درشتی نمایم چو باشم درست / انوشه کسی کو درشتی ...,درشتی نمایم چو باشم درست انوشه کو درشتی نجست
2588,ببستندشان دست و پای و میان / کشیدند بر پشت زین...,ببستندشان دست پای کشیدند کیا
259,که ما را ز جیحون بباید گذشت / زدن کوس شاهی برا...,جیحون بباید گذشت زدن کوس شاهی بران په
2572,ببیژن نمود آنگهی هر دو تور / که بودند کشته فگن...,ببیژن نمود آنگهی تور کشته فگنده
2299,چنانچون سپردی سپردم بهم / درین بود گودرز با گستهم,چنانچون سپردی سپردم بهم درین گودرز گستهم
222,جهان بی سر و تاج خسرو مباد / همیشه بماناد جاوی...,جهان سر تاج خسرو مباد بماناد جاوید
4086,ازین مایه ور جا بدین فرهی / دل ما ز رامش نبودی...,ازین مایه ور بدین فرهی دل رامش نبودی تهی
626,وزان لشکر ترک هومان دلیر / بپیش برادر بیامد چو...,وزان لشکر ترک هومان دلیر بپیش برادر بیامد چو شیر
2745,بگویم به تأیید محمود شاه / بدان فر و آن خسروان...,بگویم تأیید محمود شاه بدان فر خسروانی


# Tfidf and Boolean approaches

In [4]:
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer
from sklearn.pipeline import Pipeline

pipe = Pipeline([('count', CountVectorizer(analyzer='word', ngram_range=(1, 1), max_features=20_000)),
                 ('tfidf', TfidfTransformer(sublinear_tf=True))]).fit(df.changed)

def get_document_vectors(series):
    series = [clean_poems(doc) for doc in series]
    boolw_vec = pipe['count'].transform(series).toarray().astype(bool).astype(int)
    norm = np.linalg.norm(boolw_vec, axis=1).reshape(-1, 1)
    return pipe.transform(series).toarray() , boolw_vec / norm

In [5]:
tfidf_documents, boolw_documents = get_document_vectors(df.poems)

In [6]:
tfidf_vector, boolw_vector = \
    get_document_vectors(['بدو گفت اگر شاه ایران تویی / نگهدار پشت دلیران توی'])

# TODO: better format to report similarity
print('-' * 100)
for poem, sym in get_similars_by_cosine_distance(tfidf_vector, tfidf_documents):
    print("tfidf: \"{}\" \t with similarity of {:.2f}".format(poem, sym))

print('-' * 100)
for poem, sym in get_similars_by_cosine_distance(boolw_vector, boolw_documents):
    print("boolw: \"{}\" \t with similarity of {:.2f}".format(poem, sym))

----------------------------------------------------------------------------------------------------
tfidf: "چهارم سپاه اندر آمد چو کوه / دلیران ایران گروها گر" 	 with similarity of 0.26
tfidf: "سیاوش رد را برادر توی / بگوهر ز سالار برتر توی" 	 with similarity of 0.26
tfidf: "چپ لشکر و چنگ شیران توی / نگهبان سالار ایران توی" 	 with similarity of 0.35
tfidf: "چو کار آیدم شهریارم تویی / همان از پدر یادگارم توی" 	 with similarity of 0.35
tfidf: "بدو گفت اگر شاه ایران تویی / نگهدار پشت دلیران توی" 	 with similarity of 1.00
----------------------------------------------------------------------------------------------------
boolw: "چو نزدیکی شهر ایران رسید / به جای دلیران و شیران ر" 	 with similarity of 0.31
boolw: "چو چوپان بر شاه توران رسید / بدو باز گفت آن شگفتی " 	 with similarity of 0.31
boolw: "نباید که آن بوم ویران بود / که در سایهٔ شاه ایران " 	 with similarity of 0.34
boolw: "همه گورشان کام شیران کنم / به کام دلیران ایران کنم" 	 with similarity of 0.34
boolw: "بدو گفت اگر شاه ایران 

In [7]:
word_idfs = dict(zip(pipe['count'].get_feature_names_out(), pipe['tfidf'].idf_))

# Combining word embedding and idf

In [8]:
from gensim.models import KeyedVectors
from hazm import word_tokenize

word2vec = KeyedVectors.load_word2vec_format('../models/farsi_literature_word2vec_model.txt')

# TODO: check appropriate stopwords
def embed(poem):
    
    poem = clean_poems(poem)
    def get_wrod2vector(word):
        return word2vec[word] if word in word2vec else np.zeros(100)
    
    embedding_vectors = [get_wrod2vector(wo) * word_idfs.get(wo, 0) for wo in word_tokenize(poem)]
    return np.sum(embedding_vectors, axis=0).tolist()

poems_embeddings = np.array(df.changed.apply(embed).tolist())

In [9]:
sample_embedding = np.array(embed('به نام خداوند جان و خرد / کزین برتر اندیشه برنگذرد'))

# TODO: better format to report similarity
print('-' * 100)
for poem, sym in get_similars_by_cosine_distance(sample_embedding, poems_embeddings):
    print("embedding: \"{}\" \t with similarity of {:.2f}".format(poem, sym))

----------------------------------------------------------------------------------------------------
embedding: "ز بیشی خرد را بود سودمند / همان بی خرد باشد اندر گ" 	 with similarity of 0.63
embedding: "کزو رنج بر مهر بگزیده ای / ستایش بدین گونه بشنیده " 	 with similarity of 0.63
embedding: "خداوند جان و خداوند رای / خداوند نیکی ده و رهنمای" 	 with similarity of 0.66
embedding: "نیابد بدو نیز اندیشه راه / که او برتر از نام و از " 	 with similarity of 0.70
embedding: "به نام خداوند جان و خرد / کزین برتر اندیشه برنگذرد" 	 with similarity of 1.00


# Use BigBird and ParsBert last hidden state as embeddings

In [10]:
from transformer_embedding import TransformerEmbedding

2022-06-05 23:54:33.196090: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: :/home/alireza/.mujoco/mujoco210/bin
2022-06-05 23:54:33.196112: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


In [11]:
embedder = TransformerEmbedding(df, batch_size=100)
embedder.run_and_dump() # Run only for the first time

Some weights of the model checkpoint at SajjadAyoubi/distil-bigbird-fa-zwnj were not used when initializing BigBirdModel: ['cls.predictions.decoder.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing BigBirdModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BigBirdModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BigBirdModel were not initialized from the model checkpoint at SajjadAyoubi/distil-bigbird-fa-zwnj and are newly initialized: ['bert.pooler.

In [12]:
poems_embeddings = embedder.load_embeddings('../models/embeddings-bigbird.npz')

sample_embedding = embedder.get_transformer_embedding(
    ['به نام خداوند جان و خرد کزین برتر اندیشه برنگذرد'], 'bigbird')

# TODO: better format to report similarity
print('-' * 100)
for poem, sym in get_similars_by_cosine_distance(sample_embedding, poems_embeddings):
    print("embedding: \"{}\" \t with similarity of {:.2f}".format(poem, sym))

1it [00:00, 47.15it/s]

----------------------------------------------------------------------------------------------------
embedding: "که نپسندد از ما بدی دادگر / سپنجست گیتی و ما برگذر" 	 with similarity of 0.83
embedding: "جهان بستد از مردم بت پرست / ز دیبای دین بر دل آیین" 	 with similarity of 0.83
embedding: "چو ایرانیان را دل آمد به جای / ببودند بر پیش یزدان" 	 with similarity of 0.83
embedding: "به راه خداوند خورشید و ماه / ز بن دور کن دیو را دس" 	 with similarity of 0.83
embedding: "به نام خداوند جان و خرد / کزین برتر اندیشه برنگذرد" 	 with similarity of 0.94





In [13]:
poems_embeddings = embedder.load_embeddings('../models/embeddings-parsbert.npz')

sample_embedding = embedder.get_transformer_embedding(
    ['به نام خداوند جان و خرد کزین برتر اندیشه برنگذرد'], 'parsbert')

# TODO: better format to report similarity
print('-' * 100)
for poem, sym in get_similars_by_cosine_distance(sample_embedding, poems_embeddings):
    print("embedding: \"{}\" \t with similarity of {:.2f}".format(poem, sym))

1it [00:00, 24.25it/s]

----------------------------------------------------------------------------------------------------
embedding: "شما را جهان بازجستن بداد / نگه داشتن ارج مرد نژاد" 	 with similarity of 0.82
embedding: "بجستند بهره ز کشت و درود / نرستست کس پیش ازین نابس" 	 with similarity of 0.82
embedding: "سلیح و تن از خون ایشان بشست / بران خارستان پاک جای" 	 with similarity of 0.82
embedding: "که کس را ز ترکان نباشد خرد / کز اندیشهٔ خویش رامش " 	 with similarity of 0.83
embedding: "به نام خداوند جان و خرد / کزین برتر اندیشه برنگذرد" 	 with similarity of 0.98



