### TODO:
1. Read text file
2. Preprocess the text
3. Build trigram model 
4. Calculate add-one smoothing probs
5. Calculate sentence probs
6. Measure Runtime

In [7]:
import time
import nltk
from nltk.tokenize import word_tokenize

In [8]:
with open("student_feedback_dataset.txt", 'r', encoding='utf8') as file:
    sentences = file.read().splitlines()
for sentence in sentences:
    print(preprocess(sentence))

['<s>', 'slide', 'giáo', 'trình', 'đầy', 'đủ', '</s>']
['<s>', 'nhiệt', 'tình', 'giảng', 'dạy', 'gần', 'gũi', 'với', 'sinh', 'viên', '</s>']
['<s>', 'đi', 'học', 'đầy', 'đủ', 'full', 'điểm', 'chuyên', 'cần', '</s>']
['<s>', 'chưa', 'áp', 'dụng', 'công', 'nghệ', 'thông', 'tin', 'và', 'các', 'thiết', 'bị', 'hỗ', 'trợ', 'cho', 'việc', 'giảng', 'dạy', '</s>']
['<s>', 'thầy', 'giảng', 'bài', 'hay', 'có', 'nhiều', 'bài', 'tập', 'ví', 'dụ', 'ngay', 'trên', 'lớp', '</s>']
['<s>', 'giảng', 'viên', 'đảm', 'bảo', 'thời', 'gian', 'lên', 'lớp', 'tích', 'cực', 'trả', 'lời', 'câu', 'hỏi', 'của', 'sinh', 'viên', 'thường', 'xuyên', 'đặt', 'câu', 'hỏi', 'cho', 'sinh', 'viên', '</s>']
['<s>', 'em', 'sẽ', 'nợ', 'môn', 'này', 'nhưng', 'em', 'sẽ', 'học', 'lại', 'ở', 'các', 'học', 'kỳ', 'kế', 'tiếp', '</s>']
['<s>', 'thời', 'lượng', 'học', 'quá', 'dài', 'không', 'đảm', 'bảo', 'tiếp', 'thu', 'hiệu', 'quả', '</s>']
['<s>', 'nội', 'dung', 'môn', 'học', 'có', 'phần', 'thiếu', 'trọng', 'tâm', 'hầu', 'như', 'là', 

In [9]:
def preprocess(sentence):
    '''
    This function tokenize input token and add start and end tag to it.
    '''
    tokens = word_tokenize(sentence.lower())
    tokens = [token for token in tokens if token.isalpha()]
    return ['<s>'] + tokens + ['</s>']

In [10]:
def build_trigram_model(sentences):
    ''' 
    This function build a trigram model
    '''
    trigram_model = {}  # Count trigram appearances

    for sentence in sentences:
        tokens = preprocess(sentence) # Tokenize sentence

        for i in range(len(tokens) - 2):
            trigram = (tokens[i], tokens[i+1], tokens[i+2])
            if trigram in trigram_model:
                trigram_model[trigram] += 1
            else:
                trigram_model[trigram] = 1
    
    return trigram_model

In [11]:
def calculate_probabilities(trigram_model):
    '''
    This function calculate the probabilities of each unique trigram in the trigram model.
    '''
    vocab_size = len(set(trigram_model.keys()))
    probabilities = {} # Store probabilities for each trigram

    for trigram, count in trigram_model.items():
        prefix = (trigram[0], trigram[1])
        probability = (count + 1) / (trigram_model.get(prefix, 0) + vocab_size) # add one / Get trigram 
        probabilities[trigram] = probability
        
    return probabilities

In [12]:
def calculate_sentence_probabilites(sentence, trigram_probabilities, vocab_size):
    tokens = preprocess(sentence)
    probability = 1.0

    for i in range(len(tokens) - 2):
        trigram = (tokens[i], tokens[i+1], tokens[i+2])
        if trigram in trigram_probabilities:
            probability *= trigram_probabilities[trigram]
        else:
            probability *= 1.0 / vocab_size  # Handle unseen trigrams
    
    return probability

In [13]:
# Read sentences from text file
with open("student_feedback_dataset.txt", 'r', encoding='utf8') as file:
    sentences = file.read().splitlines()


# Build trigram model and calc probabilities
trigram_model = build_trigram_model(sentences)
trigram_probabilities = calculate_probabilities(trigram_model)

# Input sentence
input_sentence = "giảng viên hướng dẫn hay"

# Measure runtime
start_time = time.time()
probability = calculate_sentence_probabilites(input_sentence, trigram_probabilities, len(set(trigram_model.keys())))
end_time = time.time()

print(f"Probability of '{input_sentence}': {probability}")
print(f"Runtime: {end_time - start_time} seconds")

Probability of 'giảng viên hướng dẫn hay': 2.198982198550389e-18
Runtime: 0.00304412841796875 seconds


In [14]:
print(trigram_probabilities)

{('<s>', 'slide', 'giáo'): 3.7616611495636476e-05, ('slide', 'giáo', 'trình'): 3.7616611495636476e-05, ('giáo', 'trình', 'đầy'): 7.523322299127295e-05, ('trình', 'đầy', 'đủ'): 7.523322299127295e-05, ('đầy', 'đủ', '</s>'): 0.0011473066506169124, ('<s>', 'nhiệt', 'tình'): 0.002802437556424917, ('nhiệt', 'tình', 'giảng'): 0.00159870598856455, ('tình', 'giảng', 'dạy'): 0.001034456816130003, ('giảng', 'dạy', 'gần'): 5.642491724345471e-05, ('dạy', 'gần', 'gũi'): 5.642491724345471e-05, ('gần', 'gũi', 'với'): 0.0006206740896780018, ('gũi', 'với', 'sinh'): 0.0004890159494432742, ('với', 'sinh', 'viên'): 0.004890159494432741, ('sinh', 'viên', '</s>'): 0.010701925970508577, ('<s>', 'đi', 'học'): 7.523322299127295e-05, ('đi', 'học', 'đầy'): 9.404152873909118e-05, ('học', 'đầy', 'đủ'): 0.0001504664459825459, ('đầy', 'đủ', 'full'): 3.7616611495636476e-05, ('đủ', 'full', 'điểm'): 3.7616611495636476e-05, ('full', 'điểm', 'chuyên'): 3.7616611495636476e-05, ('điểm', 'chuyên', 'cần'): 3.7616611495636476e