In [1]:
import numpy as np
import polars as pl
from hazm.sentence_tokenizer import SentenceTokenizer
from hazm.word_tokenizer import WordTokenizer
import random

In [2]:
df = pl.read_excel('fa_abs.xlsx')
df.head()

fa_abs
str
""" پژوهش حاضر با…"
"""پژوهش حاضر یک …"
""" پژوهش حاضر، ب…"
""" این پژوهش با …"
""" این پژوهش با …"


In [3]:
sent_token = SentenceTokenizer()

df =df.with_columns([
    pl.col('fa_abs').map_elements(
        lambda x: sent_token.tokenize(x))
])


In [4]:
text = []
for row in df.iter_rows():
    l = list(*row)
    text += l
text[:10]


['پژوهش حاضر با هدف بررسی رابطه ی باورهای هوشی و ارتباط پدر- فرزند با انگیزه پیشرفت تحصیلی در دانش آموزان پسر مقطع متوسطه ی دوم شهرستان شوشتر در یک پژوهش هم بستگی انجام شد.',
 'جامعه ی این پژوهش شامل کلیه ی دانش آموزان پسر مقطع متوسطه ی دوم شهرستان شوشتر در سال تحصیلی 97-96 بود.',
 '366 دانش آموز پسر بر اساس جدول نمونه گیری کرجسی و مورگان و با توجه به حجم جامعه (3323 نفر) به روش نمونه گیری تصادفی خوشه ای چندمرحله ای انتخاب شدند.',
 'در این پژوهش دانش آموزان به پرسش نامه ی انگیزش پیشرفت (AMQ)، مقیاس نظریه تلویحی هوش (ITIS) و مقیاس ارتباط والد-فرزند (PCRI) پاسخ دادند.',
 'تحلیل داده ها با استفاده از روش های آماری ضریب هم بستگی پیرسون و تحلیل رگرسیون چندگانه و نرم افزار آماری 22-SPSS انجام گرفت.',
 'نتایج نشان داد که بین باور هوشی افزایشی و ارتباط پدر-فرزند با انگیزه پیشرفت تحصیلی در دانش آموزان رابطه ی مثبت و معناداری وجود دارد و بین باور هوشی ذاتی و انگیزه پیشرفت تحصیلی رابطه وجود ندارد.',
 'همچنین، نتایج تحلیل رگرسیون نشان داد که از میان متغیرهای پیش بین باور هوشی افزایشی و ارتباط پدر-

In [5]:
#splitting the punctuations from tokens
punc = '?!./,;:"()'
tokenizer = WordTokenizer()
segments = []
for sent in text:
    for token in tokenizer.tokenize(sent):
        segments_temp = []
        for char in token:
            if char in punc:
                segments_temp.append(char)
                continue
            if not segments_temp:
                segments_temp.append(char)
                continue
            if segments_temp[-1] not in punc:
                segments_temp[-1] += char
            else:
                segments_temp.append(char)
        for seg in segments_temp:
            if not any(x in seg for x in '#$%&*123456789ACDVRPXW'):
                segments.append(seg)

print(segments[:50])

['پژوهش', 'حاضر', 'با', 'هدف', 'بررسی', 'رابطه', 'ی', 'باورهای', 'هوشی', 'و', 'ارتباط', 'پدر-', 'فرزند', 'با', 'انگیزه', 'پیشرفت', 'تحصیلی', 'در', 'دانش', 'آموزان', 'پسر', 'مقطع', 'متوسطه', 'ی', 'دوم', 'شهرستان', 'شوشتر', 'در', 'یک', 'پژوهش', 'هم', 'بستگی', 'انجام', 'شد', '.', 'جامعه', 'ی', 'این', 'پژوهش', 'شامل', 'کلیه', 'ی', 'دانش', 'آموزان', 'پسر', 'مقطع', 'متوسطه', 'ی', 'دوم', 'شهرستان']


In [6]:
vocab = list(set(segments))+['<s>', '</s>']
vocab.sort()
print(vocab[:50])

['!', '"', "'", '(', ')', '+', '+Imp', ',', '-', '-=', '-=B', '-=ES', '-=d', '-=r', '-=ß', '-=β', '-=\u200fβ', '-B', '-BF', '-FFI', '-GHQ', '-GSE', '-ISI', '-Imp', '-Lisrel', '-NEO-FFI', '-SF', '-Spss', '-back', '-p=', '-r', '-r=', '-\xa0', '-\xa0آدم', '-\xa0درخت', '-آزمایش', '-آزمایشی', '-آزمون', '-آموزان', '-آگاهی', '-اجبار', '-از', '-است', '-استراتژی', '-استقلال', '-اصلاح', '-اضطراب-', '-البته', '-انگیزشی', '-اهمیت']


In [7]:
#inserting sentence start and end paddings naively just looking at dots
def padding(segments: list[str] , n: int) -> list[str]:
    start_of_sentence = True
    with_padding = []
    for token in segments:
        if start_of_sentence:
            for i in range(n-1):
                with_padding.append('<s>')
            start_of_sentence = False
        with_padding.append(token)
        if token == "." :
            for i in range(n-1):
                with_padding.append('</s>')
            start_of_sentence = True
    return with_padding

print(padding(segments , 4)[:150])

['<s>', '<s>', '<s>', 'پژوهش', 'حاضر', 'با', 'هدف', 'بررسی', 'رابطه', 'ی', 'باورهای', 'هوشی', 'و', 'ارتباط', 'پدر-', 'فرزند', 'با', 'انگیزه', 'پیشرفت', 'تحصیلی', 'در', 'دانش', 'آموزان', 'پسر', 'مقطع', 'متوسطه', 'ی', 'دوم', 'شهرستان', 'شوشتر', 'در', 'یک', 'پژوهش', 'هم', 'بستگی', 'انجام', 'شد', '.', '</s>', '</s>', '</s>', '<s>', '<s>', '<s>', 'جامعه', 'ی', 'این', 'پژوهش', 'شامل', 'کلیه', 'ی', 'دانش', 'آموزان', 'پسر', 'مقطع', 'متوسطه', 'ی', 'دوم', 'شهرستان', 'شوشتر', 'در', 'سال', 'تحصیلی', '-', 'بود', '.', '</s>', '</s>', '</s>', '<s>', '<s>', '<s>', 'دانش', 'آموز', 'پسر', 'بر', 'اساس', 'جدول', 'نمونه', 'گیری', 'کرجسی', 'و', 'مورگان', 'و', 'با', 'توجه', 'به', 'حجم', 'جامعه', '(', 'نفر', ')', 'به', 'روش', 'نمونه', 'گیری', 'تصادفی', 'خوشه', 'ای', 'چندمرحله', 'ای', 'انتخاب', 'شدند', '.', '</s>', '</s>', '</s>', '<s>', '<s>', '<s>', 'در', 'این', 'پژوهش', 'دانش', 'آموزان', 'به', 'پرسش', 'نامه', 'ی', 'انگیزش', 'پیشرفت', '(', ')', '،', 'مقیاس', 'نظریه', 'تلویحی', 'هوش', '(', 'ITIS', ')', 'و', '

In [8]:
#making a function that produces ngrams given n
def ngram(segments: list[str] , n: int) -> list[tuple]:
    seg = padding(segments , n)
    ngrams = []
    i = 0
    while i < (len(seg)-n):
        ngrams.append(tuple(seg[i:i+n]))
        i += 1
    return ngrams
print(ngram(segments , 3)[:30])        

[('<s>', '<s>', 'پژوهش'), ('<s>', 'پژوهش', 'حاضر'), ('پژوهش', 'حاضر', 'با'), ('حاضر', 'با', 'هدف'), ('با', 'هدف', 'بررسی'), ('هدف', 'بررسی', 'رابطه'), ('بررسی', 'رابطه', 'ی'), ('رابطه', 'ی', 'باورهای'), ('ی', 'باورهای', 'هوشی'), ('باورهای', 'هوشی', 'و'), ('هوشی', 'و', 'ارتباط'), ('و', 'ارتباط', 'پدر-'), ('ارتباط', 'پدر-', 'فرزند'), ('پدر-', 'فرزند', 'با'), ('فرزند', 'با', 'انگیزه'), ('با', 'انگیزه', 'پیشرفت'), ('انگیزه', 'پیشرفت', 'تحصیلی'), ('پیشرفت', 'تحصیلی', 'در'), ('تحصیلی', 'در', 'دانش'), ('در', 'دانش', 'آموزان'), ('دانش', 'آموزان', 'پسر'), ('آموزان', 'پسر', 'مقطع'), ('پسر', 'مقطع', 'متوسطه'), ('مقطع', 'متوسطه', 'ی'), ('متوسطه', 'ی', 'دوم'), ('ی', 'دوم', 'شهرستان'), ('دوم', 'شهرستان', 'شوشتر'), ('شهرستان', 'شوشتر', 'در'), ('شوشتر', 'در', 'یک'), ('در', 'یک', 'پژوهش')]


In [9]:
def gram_counts(segments: list[str] , n: int) -> dict[str: int]:
    count_dict = {}
    
    for gram in ngram(segments , n):
        if gram in count_dict:
            count_dict[gram] += 1
        else:
            count_dict[gram] = 1
    if n > 1:        
        for gram in ngram(segments , n-1):
            if gram in count_dict:
                count_dict[gram] += 1
            else:
                count_dict[gram] = 1
    return count_dict
    
counts = gram_counts(segments , 3)
n = 0
for i in counts.__iter__():
    n += 1 
    if n > 10:
        break
    print(i , counts[i])

('<s>', '<s>', 'پژوهش') 2198
('<s>', 'پژوهش', 'حاضر') 1879
('پژوهش', 'حاضر', 'با') 1472
('حاضر', 'با', 'هدف') 1582
('با', 'هدف', 'بررسی') 1045
('هدف', 'بررسی', 'رابطه') 185
('بررسی', 'رابطه', 'ی') 50
('رابطه', 'ی', 'باورهای') 4
('ی', 'باورهای', 'هوشی') 1
('باورهای', 'هوشی', 'و') 14


In [14]:
class Prob_gen():
    
    def __init__(self, segments: str , n: int):
        self.counts = gram_counts(segments , n)
        self.n = n

    def gramProb(self , gram: tuple):
        try:
            return self.counts[gram]/self.counts[tuple(gram[0:-1])]
        except:
            return 0.001
    
    def sentProbs(self , sentence: list[str]):
        prob = []
        for i in range(len(sentence)-self.n+1):
            prob.append(self.gramProb(tuple(sentence[i:i+self.n])))
        return prob   
    

In [15]:
print('total segments: ' ,len(segments))
train = len(segments)*80//100
print('train 80% :' , train)
test = len(segments)*90//100
print('dev 10% :' , train, ':' , test)
print('test 10% :' , len(segments)*90//100, ':')

total segments:  1493204
train 80% : 1194563
dev 10% : 1194563 : 1343883
test 10% : 1343883 :


In [16]:
probgen = Prob_gen(segments[:train] , 3)

In [17]:
def perplexity(probgen: Prob_gen , test_set: list[str]):
    return np.prod([(1/p)**(1/len(test_set)) for p in probgen.sentProbs(test_set)])

NameError: name 'Prob_generator' is not defined

In [None]:
print("grams     peplexity")
for i in range(1,7):
    probgen = Prob_gen(segments[:train] , i)
    print(i , '       ' , round(perplexity(probgen , segments[train:test])))

In [None]:
probgen = Prob_gen(segments[:train] , 2)
perplexity(probgen , segments[test:])

In [None]:
def sent_gen(sentence_count: int):
    init = ['<s>']
    for i in range(10):
        temp_dict = {}
        for gram in probgen.counts:
            if init[-1] == gram[0]:
                temp_dict.update({gram[1]:})
                

{}