In [36]:
import io 
import re

In [37]:
FILE_NAME = "data/train.txt"
processed_lines = []
total_word_count = 0

In [38]:
with io.open(FILE_NAME,'r',encoding='utf-8') as f:
    for line in f:
        line = line.strip()
        line = re.sub(r'\s+',' ',line)
        
        if not line:
            continue

        words = line.split(' ')
        word_count = len(words)
        total_word_count += word_count

        if word_count >= 3:
            processed_lines.append(line)

In [39]:
print(f"the count of lines : {len(processed_lines)}")
print(f"the count of words : {total_word_count}")

the count of lines : 188876
the count of words : 1308765


In [40]:
unigram_counts = {}
bigram_counts = {}

In [41]:
for line in processed_lines:
    
    words = line.split(' ')

    for word in words:
        unigram_counts[word] = unigram_counts.get(word,0) + 1
    
    for i in range(len(words)-1):
        word_i = words[i]
        word_i_plus_1 = words[i+1]
        bigram = f"{word_i} {word_i_plus_1}"

        bigram_counts[bigram] = bigram_counts.get(bigram,0) + 1
        

In [42]:
print("\nUnigram Counts :")
print(dict(list(unigram_counts.items())[:5]))

print("\nBigram Counts :")
print(dict(list(bigram_counts.items())[:5]))


Unigram Counts :
{'زانک': 319, 'دل': 7292, 'یا': 1553, 'اوست': 810, 'خود': 3896}

Bigram Counts :
{'زانک دل': 4, 'دل یا': 2, 'یا اوست': 1, 'اوست یا': 2, 'یا خود': 39}


In [45]:
list_of_unigram_counts = list(unigram_counts.items())
sorted_unigrams = sorted(list_of_unigram_counts, key=lambda item: item[1], reverse=True)

top_20_unigrams = sorted_unigrams[:20]



In [46]:
print("\n TOP 20 UNIGRAMS  ")
print("Rank\tWord\t\tCount\t\tRank * Count")
for i, (word, count) in enumerate(top_20_unigrams):
    rank = i + 1
    frequency = count
    rank_times_count = rank * frequency

    print(f"{rank}\t{word}\t\t{frequency}\t\t{rank_times_count}")


 TOP 20 UNIGRAMS  
Rank	Word		Count		Rank * Count
1	و		50915		50915
2	از		31187		62374
3	به		30038		90114
4	که		26796		107184
5	در		23533		117665
6	تو		22021		132126
7	را		19844		138908
8	ز		17404		139232
9	بر		14945		134505
10	آن		13251		132510
11	او		12024		132264
12	من		10844		130128
13	چون		10710		139230
14	ای		8789		123046
15	تا		8382		125730
16	می		8381		134096
17	این		8368		142256
18	چو		7743		139374
19	بود		7633		145027
20	دل		7292		145840


In [47]:
list_of_bigram_counts = list(bigram_counts.items())
sorted_bigrams = sorted(list_of_bigram_counts, key=lambda item: item[1], reverse=True)

top_20_bigrams = sorted_bigrams[:20]

In [48]:
print("\nTOP 20 BIGRAMS")
print("Rank\tBigram\t\t\tCount\t\tRank * Count")

for i, (bigram, count) in enumerate(top_20_bigrams):
    rank = i + 1
    frequency = count
    rank_times_count = rank * frequency
    

    print(f"{rank}\t{bigram}\t\t{frequency}\t\t{rank_times_count}")


TOP 20 BIGRAMS
Rank	Bigram			Count		Rank * Count
1	از آن		1394		1394
2	که در		1247		2494
3	او را		1123		3369
4	را به		1105		4420
5	که از		1070		5350
6	است و		828		4968
7	که به		787		5509
8	از تو		779		6232
9	بر سر		771		6939
10	تا به		744		7440
11	ما را		729		8019
12	تو را		710		8520
13	و از		681		8853
14	و در		674		9436
15	تو در		667		10005
16	هر دو		644		10304
17	از پی		612		10404
18	و به		595		10710
19	را ز		593		11267
20	و آن		572		11440


In [62]:
def compute_freq(file_path : str, n: int):
    ngram_counts = {}

    for line in processed_lines:
        words = line.split(' ')
    
        for i in range(len(words) - n + 1):

            ngram = words[i:i + n]
            ngram_text = ' '.join(ngram)
            
            ngram_counts[ngram_text] = ngram_counts.get(ngram_text, 0) + 1
    print(f"\n Frequency of {n}-GRAM Combinations (Total Unique: {len(ngram_counts)})")
    

    sorted_ngrams = sorted(ngram_counts.items(), key=lambda item: item[1], reverse=True)
    
    for i, (ngram, count) in enumerate(sorted_ngrams[:20]):
        print(f"[{count}]\t{ngram}")

In [65]:
compute_freq('data/train.txt',3)


 Frequency of 3-GRAM Combinations (Total Unique: 825417)
[205]	روز و شب
[159]	جان و دل
[155]	دل و جان
[132]	شب و روز
[125]	آتش و آب
[91]	بعد از آن
[88]	آن را که
[87]	آن کس که
[85]	نیک و بد
[82]	او را به
[78]	مر او را
[75]	مرد و زن
[74]	سیم و زر
[71]	که او را
[67]	خود را به
[67]	زیر و زبر
[66]	هر که را
[65]	شرق و غرب
[63]	من و تو
[58]	فتح و ظفر


In [None]:
def calculate_bigaram_prob(word_prev,word_curr):

    bigram = f"{word_prev} {word_curr}"

    bigram_count = bigram_count.get(bigram, 0)
    unigram_count = unigram_count.get(word_prev, 0)

    if unigram_count == 0:
        return 0.0
    
    return bigram_count / unigram_count

In [67]:
def find_best_completions(context_word, all_words, n=2):

    potential_bigrams = {}
    
    for word_curr in all_words:
        bigram_key = f"{context_word} {word_curr}"
        

        count = bigram_counts.get(bigram_key, 0)
        
        if count > 0:
            potential_bigrams[word_curr] = count
            
    sorted_completions = sorted(potential_bigrams.items(), key=lambda item: item[1], reverse=True)
    
    return sorted_completions[:n]

In [68]:
VOCABULARY = list(unigram_counts.keys())

PHRASES = [
    "چون مشک سیه بود مرا هر دو بنا",
    "گر خورد سوگند هم آن",
    "زانک نفس آشفته تر گردد از",
    "از ین زشت تر در جهان رنگ"
]

In [74]:
for phrase_num, phrase in enumerate(PHRASES):
    print(f"\n PHRASE {phrase_num + 1}")
    
    context_word = phrase.split(' ')[-1]
    
    print(f"1: {phrase} ---")
    
   
    all_potential_counts = {}
    for word_curr in VOCABULARY:
        bigram_key = f"{context_word} {word_curr}"
        count = bigram_counts.get(bigram_key, 0) 
        if count > 0:
            all_potential_counts[word_curr] = count
    
    sorted_all_options = sorted(all_potential_counts.items(), key=lambda item: item[1], reverse=True)
    
    output_line_2 = ""
    for word, count in sorted_all_options:
        output_line_2 += f"({word}, {count}) "
    
    print(f"2: {output_line_2.strip()}")
    
    top_completions = sorted_all_options[:2]
    



 PHRASE 1
1: چون مشک سیه بود مرا هر دو بنا ---
2: (گوش, 7) (و, 5) (کرده, 4) (را, 3) (کرد, 3) (که, 2) (نهادی, 2) (نهند, 2) (از, 1) (ز, 1) (بهر, 1) (هم, 1) (نه, 1) (بر, 1) (شود, 1) (آماده, 1) (بلند, 1) (گاه, 1) (نو, 1) (بانی, 1) (فکنده, 1) (کردی, 1) (هنوز, 1) (فرخ, 1) (ایمن, 1) (چندان, 1) (کردست, 1) (خواستند, 1) (جستن, 1) (آزموده, 1) (حاکم, 1) (موضع, 1) (گوشش, 1) (نمودن, 1) (پرداخت, 1) (نعمه, 1) (لیلا, 1)

 PHRASE 2
1: گر خورد سوگند هم آن ---
2: (را, 324) (که, 322) (یکی, 180) (به, 159) (کس, 126) (دو, 121) (زمان, 118) (دم, 111) (روز, 100) (زلف, 99) (دل, 89) (در, 80) (روی, 78) (بت, 74) (چنان, 70) (یک, 70) (همه, 66) (ماه, 66) (بود, 65) (لب, 63) (ز, 60) (گه, 60) (باشد, 56) (از, 55) (چشم, 54) (کو, 54) (سرو, 54) (جهان, 53) (شاه, 52) (دگر, 51) (سو, 50) (و, 46) (تو, 46) (جان, 46) (شب, 46) (سر, 45) (کز, 44) (آب, 43) (هم, 43) (می, 42) (نه, 39) (شوخ, 39) (ترک, 38) (یار, 38) (بر, 36) (کسی, 36) (رخ, 35) (مرد, 35) (مه, 35) (چه, 34) (هر, 33) (است, 33) (خانه, 33) (نگار, 33) (بی, 31) (نیست, 31) (نرگس, 3