# جهت اجرای نوت‌بوک لطفا فایل زیر را دانلود کنید و در فولدر مربوط به همین فایل قرار دهید.


https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.fa.vec

### IMPORT LIBRARIES

In [1]:
import pandas as pd
import codecs
import fasttext
from hazm import *
import re
import random
import numpy as np
from sklearn.model_selection import train_test_split
from nltk.corpus import wordnet
import nltk
from nltk import ngrams
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import tqdm
from math import log2

### LOAD DATASET

In [2]:
df = pd.read_csv('pre-proc-data2.csv')
text = df['comment']
df.sentiment.value_counts()

-1    2975
 1    2354
 0    1879
Name: sentiment, dtype: int64

### Preparing the dataset to be compatible with the fasttext structure.

In [3]:
df = df.replace(-1 , 'neg')

In [4]:
df['sentiment'] = "__label__" + df['sentiment'].astype(str)
df.head(3)

Unnamed: 0.1,Unnamed: 0,comment,sentiment,num_tok
0,0,آقای رشیدپور من تا هفته NUM۲ بچه‌ام پسر بود و ...,__label__1,31
1,1,چقدر این دزد باحال بود,__label__1,5
2,2,سلام اگر ممکنه از کلمه سی تی اسکن تو برنامتون ...,__label__neg,19


In [5]:
df['sentiment_comment'] = df['sentiment'] +' '+ df['comment']
df.head(3)

Unnamed: 0.1,Unnamed: 0,comment,sentiment,num_tok,sentiment_comment
0,0,آقای رشیدپور من تا هفته NUM۲ بچه‌ام پسر بود و ...,__label__1,31,__label__1 آقای رشیدپور من تا هفته NUM۲ بچه‌ام...
1,1,چقدر این دزد باحال بود,__label__1,5,__label__1 چقدر این دزد باحال بود
2,2,سلام اگر ممکنه از کلمه سی تی اسکن تو برنامتون ...,__label__neg,19,__label__neg سلام اگر ممکنه از کلمه سی تی اسکن...


In [6]:
def pre(text):
    text = re.sub(r'[^\w\s]',' ', text)
    return text

In [7]:
df['sentiment_comment'] = [pre(str(i)) for i in df['sentiment_comment']]

### split dataset to train, test and valid sets.

In [8]:
train, test = train_test_split(df, test_size=0.1, shuffle=True)
train , valid = train_test_split(train, test_size=0.1, shuffle=True)

In [9]:
train.to_csv("t.train", columns= ['sentiment_comment'], index = False, header = False)
test.to_csv("t.test", columns= ['sentiment_comment'], index = False, header = False)
valid.to_csv("t.valid", columns= ['sentiment_comment'], index = False, header = False)

### train a model using fasttext 

In [10]:
model = fasttext.train_supervised("t.train", dim=300, autotuneValidationFile='t.valid', pretrainedVectors='wiki.fa.vec')

Progress: 100.0% Trials:   11 Best score:  0.765794 ETA:   0h 0m 0s
Training again with best arguments
Read 0M words
Number of words:  14904
Number of labels: 3
Progress: 100.0% words/sec/thread:   80944 lr:  0.000000 avg.loss:  0.500434 ETA:   0h 0m 0s


In [11]:
model.test('t.test')

(721, 0.7323162274618585, 0.7323162274618585)

### Accuracy without Data Augmentation

In [12]:
acc = 0
for i in range(np.array(test).shape[0]):
    if model.predict(np.array(test['comment'])[i])[0][0] == np.array(test['sentiment'])[i] : 
        acc += 1
print(f'accuracy is {acc/np.array(test).shape[0] *100}%')
    

accuracy is 87.1012482662968%


### -------

In [13]:
normalizer = Normalizer()
lemmatizer = Lemmatizer()
stemmer = Stemmer()
tagger = POSTagger(model='resources-0/postagger.model')

In [14]:
def same_root(word1, word2, n=3):
    # Extract n-grams of the words
    word1_ngrams = set(ngrams(word1, n, pad_left=True, pad_right=True))
    word2_ngrams = set(ngrams(word2, n, pad_left=True, pad_right=True))

    # Compare the n-grams of the words
    common_ngrams = word1_ngrams & word2_ngrams
    return len(common_ngrams) / len(word1_ngrams | word2_ngrams)

# Test the function
print(same_root("نبودم", "بود"))

0.09090909090909091


In [15]:
def rec_diff(word1, word2):
    score = same_root(word1, word2)
    if score >= 0.2:
        return False
    return True

In [16]:
rec_diff('بودیییییییییییییییی','سلام!')

True

In [17]:
vectorizer = TfidfVectorizer(use_idf = True, norm ='l2', ngram_range=(1,1), analyzer='word')
vectorizer_1 = TfidfVectorizer(use_idf = True, norm ='l2', ngram_range=(1,1), analyzer='word')
vectorizer_neg = TfidfVectorizer(use_idf = True, norm ='l2', ngram_range=(1,1), analyzer='word')
vectorizer_0 = TfidfVectorizer(use_idf = True, norm ='l2', ngram_range=(1,1), analyzer='word')

In [18]:
cond_posetive = train['sentiment'] == '__label__1'
cond_negative = train['sentiment'] == '__label__neg'
cond_nutral = train['sentiment'] == '__label__0'
train_1 = train.loc[cond_posetive, :]
train_neg = train.loc[cond_negative, :]
train_0 = train.loc[cond_nutral, :]
doc_term_mat = vectorizer.fit_transform([doc for doc in train['sentiment_comment']])
doc_term_mat_1 = vectorizer_1.fit_transform([doc for doc in train_1['sentiment_comment']])
doc_term_mat_neg = vectorizer_neg.fit_transform([doc for doc in train_neg['sentiment_comment']])
doc_term_mat_0 = vectorizer_0.fit_transform([doc for doc in train_0['sentiment_comment']])
words = vectorizer.get_feature_names_out()
words_1 = vectorizer_1.get_feature_names_out()
words_0 = vectorizer_0.get_feature_names_out()
words_neg = vectorizer_neg.get_feature_names_out()
doc_term_mat_1_sim = doc_term_mat_1.T.dot(doc_term_mat_1)
doc_term_mat_neg_sim = doc_term_mat_neg.T.dot(doc_term_mat_neg)
doc_term_mat_0_sim = doc_term_mat_0.T.dot(doc_term_mat_0)
doc_term_mat_sim = doc_term_mat.T.dot(doc_term_mat)

In [19]:
def most_similar_word(word, word_list, doc_term, vectorizer):
    word_index = np.where(word_list == word)[0][0]
    word_row = doc_term.T[word_index, :]
    similarities = cosine_similarity(word_row, doc_term.T)
    most_similar_index = similarities.argsort()[0][-10:]
    most_similar_word = vectorizer.get_feature_names_out()[most_similar_index]
    return  most_similar_word

In [20]:
word = 'سلام'
most_similar_word(word, words, doc_term_mat, vectorizer)

array(['آقای', '__label__0', 'برنامه', '__label__1', 'از', 'رشید', 'صبح',
       'پور', 'بخیر', 'سلام'], dtype=object)

In [21]:
feature_names = vectorizer.get_feature_names_out()
idf = vectorizer.idf_

# Create a dictionary of words and their IDF values
word_idf = dict(zip(feature_names, idf))

# Sort the words by their IDF values
sorted_words = sorted(word_idf.items(), key=lambda x: x[1])

# Define a threshold for the IDF values to consider a word as stop word
threshold = 0.5

# Print the words with an IDF value less than the threshold
stop_words = [word for word, idf in sorted_words if idf < 5]
stop_words.append('و')
stop_words.append('ی')
stop_words.append('م')

print(stop_words)

['__label__neg', '__label__1', '__label__0', 'به', 'از', 'که', 'رشید', 'این', 'پور', 'سلام', 'با', 'برنامه', 'رو', 'آقای', 'اقای', 'در', 'شما', 'هم', 'من', 'خیلی', 'ما', 'تو', 'رشیدپور', 'کنید', 'مردم', 'چرا', 'را', 'برای', 'همه', 'لطفا', 'خدا', 'بود', 'های', 'ها', 'link', 'میشه', 'حالا', 'یه', 'ولی', 'بی', 'تا', 'فقط', 'یک', 'می', 'واقعا', 'نیست', 'عالی', 'چه', 'عزیز', 'باید', 'ای', 'سال', 'num۲', 'دیگه', 'نه', 'جناب', 'اون', 'ممنون', 'هر', 'حرف', 'داره', 'شده', 'num۱', 'روز', 'خورشید', 'باشه', 'ایران', 'خوب', 'شد', 'هست', 'صبح', 'خسته', 'دارم', 'یا', 'میکنم', 'است', 'برنامتون', 'باشید', 'رضا', 'کار', 'امروز', 'کردن', 'بر', 'داریم', 'هیچ', 'اگه', 'دست', 'عالیه', 'مثل', 'کنه', 'الان', 'بشه', 'چی', 'صحبت', 'همیشه', 'پایتخت', 'چون', 'تمام', 'کی', 'هستیم', 'هستم', 'دوست', 'حق', 'نباشید', 'تاثیر', 'و', 'ی', 'م']


### Unconditional Data Augmentation

In [22]:
# similarity dictionary :)
sim_dict = {}
for word in tqdm.tqdm(words):
    sim_dict[word] = most_similar_word(word, words, doc_term_mat, vectorizer)

100%|████████████████████████████████████| 15075/15075 [01:26<00:00, 174.73it/s]


In [23]:
sim_dict_temp = {}
for word in tqdm.tqdm(words):
    sim_dict_temp[word] = [w[1] for w in model.get_nearest_neighbors(word)]

100%|█████████████████████████████████████| 15075/15075 [21:07<00:00, 11.90it/s]


In [24]:
# FIND THE BEST CANDIDATE OF CHANGEBALE WORDS IN A SENTENCE 
def change_word(text):
    global sim_dict_temp
    tokens = word_tokenize(text)
    sim_vec = []
    for i in tokens:
        flag = True
        if i not in stop_words and i in sim_dict_temp.keys():
            for k in range(10):
                if flag:
                    try: 
                        sim_word = sim_dict_temp[i][k]
                        temp = sim_word
                        #print(temp)
                        if rec_diff(i, temp) and tagger.tag(word_tokenize(temp))[0][1] == tagger.tag(word_tokenize(i))[0][1]:
                            flag = False
                            sim_vec.append(temp)
                                #print(sim_vec)
                        elif k==9:
                                sim_vec.append(' ')
                    except IndexError :
                        #print(tagger.tag(word_tokenize(temp)))
                        pass
                        #sim_vec.append(' ')
                        
        else:
            sim_vec.append(' ')
    
    
    return sim_vec
    

In [25]:
from copy import deepcopy
def generate_sentence_permutations(words1, words2):
    permutations = []
    permutations.append(' '.join(words2))
    if len(words1) != len(words2):
        return permutations
    for i in range(len(words1)):
        
        if not words1[i] == ' ':
            words2[i] = words1[i]
            words1[i] = ' '
        else:
            continue
    temp = ' '.join(words2).strip()
    if not temp == permutations[0]:
        permutations.append(temp)

    return permutations


In [26]:
augmented_list = []
for i in tqdm.tqdm((train['sentiment_comment'])):
    comment = i
    candidate = change_word(comment)
    augmented_list.append(generate_sentence_permutations(candidate, word_tokenize(comment)))
    

100%|█████████████████████████████████████| 5838/5838 [00:04<00:00, 1204.13it/s]


In [27]:

# Initialize an empty list to hold the 1D list
one_d_list = []

# Use nested for loops to iterate over the sublists and items
for sublist in augmented_list:
    for item in sublist:
        one_d_list.append(item)

print(len(one_d_list))


11261


In [28]:
df_nonconditional = pd.DataFrame(one_d_list)
df_nonconditional.rename(columns = { 0 :'sentiment_comment', 1: 'numb' }, inplace = True)
df_nonconditional[df_nonconditional['sentiment_comment'].str.strip().astype(bool)]

Unnamed: 0,sentiment_comment
0,__label__neg ما در کنکور تاثیر قطعی معدل نمیخوایم
1,__label__neg ما در توابهامه تاثیر غیرقطعی، امت...
2,__label__neg سلام خسته نباشید چطوری میتونم با ...
3,__label__neg سلام خسته نباشید چطوری میتونم با ...
4,__label__0 از هما بپرسید صحنه ای که داعشیا گرف...
...,...
11256,__label__1 صدرصد بله من اس۵۶۰۰دبلیو اس اس۵۶۰۰د...
11257,__label__neg ای بابا مردن توایران
11258,__label__neg ای بابا بی‌عاطفه یاورتان
11259,__label__neg لطفا در مورد تحویل ندادن ماشینا ه...


In [29]:
df_nonconditional['sentiment_comment'].to_csv('Uncond_aug_fasttext.train', index=False)

In [30]:
model2 = fasttext.train_supervised("Uncond_aug_fasttext.train", dim=300, autotuneValidationFile='t.valid', pretrainedVectors='wiki.fa.vec')

Progress: 100.0% Trials:   10 Best score:  0.947612 ETA:   0h 0m 0s
Training again with best arguments
Read 0M words
Number of words:  18475
Number of labels: 3
Progress: 100.0% words/sec/thread:   13576 lr:  0.000000 avg.loss:  0.299605 ETA:   0h 0m 0s


In [31]:
model2.test('t.test')

(721, 0.9292649098474342, 0.9292649098474342)

In [32]:
acc = 0
for i in range(np.array(test).shape[0]):
    if model2.predict(np.array(test['comment'])[i])[0][0] == np.array(test['sentiment'])[i] : 
        acc += 1
print(f'accuracy is {acc/np.array(test).shape[0] *100}%')
    

accuracy is 74.06380027739252%


### perpelxity 

In [33]:
model2.predict('قسمت سانسور شده چیا بودن', k=4)[1]

array([9.99874115e-01, 1.17797659e-04, 3.80365200e-05])

In [34]:
result = [list_[1] for list_ in augmented_list if len(list_) ==2]


In [35]:
generated_sentences_uncond = [' '.join(word_tokenize(sent)[1:]) for sent in result]

In [36]:
n = sum(len(sentence.split()) for sentence in generated_sentences_uncond)
log_probs = [np.log2(model2.predict(sentence, k=1)[1]) for sentence in generated_sentences_uncond]
perplexity = 2 ** (-1/n * sum(log_probs))
print("Perplexity:", perplexity)

Perplexity: [1.00206767]


### diversity 

In [37]:
vectors_uncond = [model2.get_sentence_vector(sentence) for sentence in generated_sentences_uncond]
similarities = cosine_similarity(vectors_uncond)
diversity = 1 - similarities.mean()
print("Diversity:", diversity)

Diversity: 0.7820056974887848


### ارزیابی انسانی

In [58]:
res = []
res = [list_ for list_ in augmented_list if len(list_) ==2]
for i in range(10):
    print(f'org{i+1} : {res[i][0]} \n gen{i+1} : {res[i][1]}')

org1 : __label__neg ما در کنکور تاثیر قطعی معدل نمیخوایم 
 gen1 : __label__neg ما در توابهامه تاثیر غیرقطعی، امتحانات نمیفتدد
org2 : __label__neg سلام خسته نباشید چطوری میتونم با برنامه تماس داشته_باشم از اپلیکیشن روبیکا شکایت دارم برنده NUM۳ شدم ولی بهم ندادن یه مبلغ پول میخوان بدن که اونم باید اول برم کنار ماشین و جلوی دوربین بگم که ماشین گرفتم وگرنه پول بهم نمی دن من برای صحت گفته هام مدرک دارم 
 gen2 : __label__neg سلام خسته نباشید چطوری میتونم با برنامه تماس داشته_باشم از تبلتها لعنت_بر_پاچه_خوار شکایت دارم برنده NUM۳ می‌شدم، ولی بهم نمی‌دهی یه مبلغ ارزها میخوان اندامش که بذارم باید دوم برم کنار ماشین و جلوی دوربین نتونستم که ماشین بگیرم، وگرنه ارزها بهم نمی کیشوت من برای سقم گفته هام لیسانس دارم
org3 : __label__0 از هما بپرسید صحنه ای که داعشیا گرفتنشون به دختراش دوگفت حوری چه حسی داشت 
 gen3 : __label__0 از فرخ‌نیا خواهد_برد صحنه ای که شیکتر جایگاهشون به بخری هموطنامون دختردایی چه بویایی نداشتند
org4 : __label__neg متاسفم واقعا درکتون از موزیک رو بالاتر بیرید لطفا 
 gen4 : __lab

### Conditional Data Augmentation

In [38]:
sim_dict_1 = {}
for word in tqdm.tqdm(words_1):
    sim_dict_1[word] = most_similar_word(word, words_1, doc_term_mat_1, vectorizer_1)
    
sim_dict_0 = {}
for word in tqdm.tqdm(words_0):
    sim_dict_0[word] = most_similar_word(word, words_0, doc_term_mat_0, vectorizer_0)
    
sim_dict_neg = {}
for word in tqdm.tqdm(words_neg):
    sim_dict_neg[word] = most_similar_word(word, words_neg, doc_term_mat_neg, vectorizer_neg)

100%|██████████████████████████████████████| 5317/5317 [00:08<00:00, 595.30it/s]
100%|██████████████████████████████████████| 4779/4779 [00:07<00:00, 681.75it/s]
100%|████████████████████████████████████| 10894/10894 [00:35<00:00, 310.95it/s]


In [39]:
sim_dict_1_temp = {}
for word in tqdm.tqdm(words_1):
    sim_dict_1_temp[word] = [w[1] for w in model.get_nearest_neighbors(word) if w[1] in words_1]
    
sim_dict_0_temp = {}
for word in tqdm.tqdm(words_0):
    sim_dict_0_temp[word] = [w[1] for w in model.get_nearest_neighbors(word) if w[1] in words_0]
    
sim_dict_neg_temp = {}
for word in tqdm.tqdm(words_neg):
    sim_dict_neg_temp[word] = [w[1] for w in model.get_nearest_neighbors(word) if w[1] in words_neg]

100%|███████████████████████████████████████| 5317/5317 [07:03<00:00, 12.55it/s]
100%|███████████████████████████████████████| 4779/4779 [06:12<00:00, 12.84it/s]
100%|█████████████████████████████████████| 10894/10894 [14:14<00:00, 12.75it/s]


In [40]:
# FIND THE BEST CANDIDATE OF CHANGEBALE WORDS IN A SENTENCE 
def change_word_cond(text):
    global sim_dict_1
    global sim_dict_0
    global sim_dict_neg
    
    tokens = word_tokenize(text)
    label = tokens[0]
    sim_vec = []
    #print(label)
    if label == '__label__1':
        for i in tokens:
            flag = True
            if i not in stop_words and i in sim_dict_1_temp.keys():
                sim_vec.append(' ')
                for k in range(len(sim_dict_1_temp[i])):
                    if flag:
                        try: 
                            sim_word = sim_dict_1_temp[i][k]
                            temp = sim_word
                            if rec_diff(i, temp) and tagger.tag(word_tokenize(temp))[0][1] == tagger.tag(word_tokenize(i))[0][1]:
                                flag = False
                                sim_vec[-1] = temp
                            #elif k==len(sim_dict_1_temp[i])-1:
                                    #sim_vec.append(' ')
                        except IndexError:
                            pass

            else:
                sim_vec.append(' ')
    
    elif label == '__label__0':
        for i in tokens:
            flag = True
            if i not in stop_words and i in sim_dict_0_temp.keys():
                sim_vec.append(' ')
                for k in range(len(sim_dict_0_temp[i])):
                    if flag:
                        try: 
                            sim_word = sim_dict_0_temp[i][k]
                            temp = sim_word
                            
                            if rec_diff(i, temp) and tagger.tag(word_tokenize(temp))[0][1] == tagger.tag(word_tokenize(i))[0][1]:
                                flag = False
                                sim_vec[-1] = temp
                            #elif k==len(sim_dict_0_temp[i])-1:
                                    #sim_vec.append(' ')
                        except IndexError:
                            pass

            else:
                sim_vec.append(' ')

                
    else:
        for i in tokens:
            flag = True
            if i not in stop_words and i in sim_dict_neg_temp.keys():
                sim_vec.append(' ')
                for k in range(len(sim_dict_neg_temp[i])):
                    if flag:
                        #try: 
                            sim_word = sim_dict_neg_temp[i][k]
                            temp = sim_word
                            if rec_diff(i, temp) and tagger.tag(word_tokenize(temp))[0][1] == tagger.tag(word_tokenize(i))[0][1]:
                                flag = False
                                sim_vec[-1] = temp
                            #elif k==len(sim_dict_neg_temp[i])-1:
                                    #sim_vec.append(' ')
                        #except IndexError:
                            #pass

            else:
                sim_vec.append(' ')
    
    
    
    return sim_vec
    

In [41]:
print(change_word_cond(train['sentiment_comment'][4]))
print(change_word(train['sentiment_comment'][4]))
print(word_tokenize(train['sentiment_comment'][4]))
      

[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', 'گرفتن', ' ', ' ', ' ', ' ', 'سه', ' ', ' ', ' ', ' ', ' ', ' ', ' ', 'زنجان']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', 'ابوعثمان', ' ', 'یخ\u200cپهنه', 'می\u200cزنن', 'گرفتن', ' ', 'هیئت\u200cرئیسه', ' ', 'هیاری', 'سه', ' ', ' ', ' ', ' ', ' ', ' ', 'قناتی', 'تاکستان']
['__label__neg', 'آقای', 'رشید', 'پور', 'به', 'روستای', 'ما', 'بن', 'گوشت', 'یخ', 'زده', 'دادن', 'به', 'شورا', 'و', 'دهیار', 'دو', 'نفری', 'همه', 'را', 'کشیدن', 'بالا', 'از', 'توابع', 'قزوین']


In [42]:
augmented_list_cond = []
for i in tqdm.tqdm((train['sentiment_comment'])):
    comment = i
    candidate = change_word_cond(comment)
    augmented_list_cond.append(generate_sentence_permutations(candidate, word_tokenize(comment)))
    

100%|█████████████████████████████████████| 5838/5838 [00:01<00:00, 3524.35it/s]


In [43]:

# Initialize an empty list to hold the 1D list
one_d_list_cond = []

# Use nested for loops to iterate over the sublists and items
for sublist in augmented_list_cond:
    for item in sublist:
        one_d_list_cond.append(item)

print(len(one_d_list_cond))


10553


In [44]:
df_conditional = pd.DataFrame(one_d_list_cond)
df_conditional.rename(columns = { 0 :'sentiment_comment', 1: 'numb' }, inplace = True)
df_conditional[df_conditional['sentiment_comment'].str.strip().astype(bool)]

Unnamed: 0,sentiment_comment
0,__label__neg ما در کنکور تاثیر قطعی معدل نمیخوایم
1,__label__neg ما در توابهامه تاثیر قطعی امتحانا...
2,__label__neg سلام خسته نباشید چطوری میتونم با ...
3,__label__neg سلام خسته نباشید چطوری میتونم با ...
4,__label__0 از هما بپرسید صحنه ای که داعشیا گرف...
...,...
10548,__label__1 صدرصد بله من ام اس ام دردنکنه
10549,__label__neg ای بابا مردن توایران
10550,__label__neg ای بابا مردن میچربه
10551,__label__neg لطفا در مورد تحویل ندادن ماشینا ه...


In [45]:
df_conditional['sentiment_comment'].to_csv('cond_aug_fasttext.train', index=False)

In [46]:
model3 = fasttext.train_supervised("cond_aug_fasttext.train", dim=300, autotuneValidationFile='t.valid', pretrainedVectors='wiki.fa.vec')

Progress: 100.0% Trials:   10 Best score:  0.944530 ETA:   0h 0m 0s
Training again with best arguments
Read 0M words
Number of words:  15118
Number of labels: 3
Progress: 100.0% words/sec/thread:  147003 lr:  0.000000 avg.loss:  0.278965 ETA:   0h 0m 0s


In [47]:
model3.test('t.test')

(721, 0.9320388349514563, 0.9320388349514563)

In [48]:
acc = 0
for i in range(np.array(test).shape[0]):
    if model3.predict(np.array(test['comment'])[i])[0][0] == np.array(test['sentiment'])[i] : 
        acc += 1
print(f'accuracy is {acc/np.array(test).shape[0] *100}%')
  

accuracy is 73.09292649098474%


### perplexity

In [49]:
result2 = [list_[1] for list_ in augmented_list_cond if len(list_) ==2]


In [50]:
generated_sentences = [' '.join(word_tokenize(sent)[1:]) for sent in result2]

In [51]:
model3.predict(generated_sentences[2])

(('__label__0',), array([0.95165396]))

In [52]:
n = sum(len(sentence.split()) for sentence in generated_sentences)
log_probs = [np.log2(model3.predict(sentence, k=1)[1])for sentence in generated_sentences if (model3.predict(sentence, k=1)[1])<1 ]
perplexity = 2 ** (-1/n * sum(log_probs))
print("Perplexity:", perplexity)

Perplexity: [1.00145387]


### diversity

In [53]:
vectors = [model3.get_sentence_vector(sentence) for sentence in generated_sentences]
similarities = cosine_similarity(vectors)
diversity = 1 - similarities.mean()
print("Diversity:", diversity)

Diversity: 0.6650736927986145


### ارزیابی انسانی

In [55]:
res = [list_ for list_ in augmented_list_cond if len(list_) ==2]

In [60]:
for i in range(10,20):
    print(f'org{i+1} : {res[i][0]} \n gen{i+1} : {res[i][1]} \n')

org11 : __label__1 از برنامه خوبتون بی نهایت سپاسگزارم ممنون اقای رشید پور زنده وبرقرار باشی 
 gen11 : __label__1 از برنامه واقعیه بی باموفقیت ممنونم ممنون اقای رشید پور زنده بیکارو باشی 

org12 : __label__1 درود بر شما انسان مهربان 
 gen12 : __label__1 برنامت بر شما انسان مهربان 

org13 : __label__1 سلام سوزان هستم از تهران عاشقتونم 
 gen13 : __label__1 سلام سوزان هستم از تهران بهترینن 

org14 : __label__neg نمیخواد کمک کنن جسد در بیارن زنده هارو زنده بهگور نکن صلوات 
 gen14 : __label__neg همکاریم درنامطمئن نمیتونه جنازه در بیارن زنده هارو زنده مااال نکردی؟ المومنین 

org15 : __label__1 سلام خداروشکر که تهران برف میاد حداقل یک روز هوا الوده نیست 
 gen15 : __label__1 سلام واقآ که تهران باران‌ها اومده حداقل یک روز ورطوبت السموات نیست 

org16 : __label__0 مخصوصا شعر های اذری که من از مادر بزرگ وپدر بزرگم یاد گرفتم رو وقتی شما به یاد می ارید با خودم زمزمه می کنم یاشاسین اذربایجان 
 gen16 : __label__0 بسیار اشعار های رضاسی که من از مادر بزرگ پدرزنش بزرگم کوخری، بگیرم، رو کوردم شما به کوخری