In [58]:
import time
import nltk
from nltk.tokenize import word_tokenize

In [59]:
# Load in data
with open("student_feedback_dataset.txt", 'r', encoding='utf8') as file:
    sentences = file.read().splitlines()

# Data overview
print("Number of feedbacks in the dataset: ", len(sentences))
print("First feedback: ", sentences[0])
print("Last feedback: ", sentences[-1])

Number of feedbacks in the dataset:  8113
First feedback:  slide giáo trình đầy đủ .
Last feedback:  em có học ở một trung tâm tiếng anh ở ngoài trường , thời lượng hợp lý , không nhiều không ít khoảng 2 - 3 tiết một buổi !


In [60]:
def preprocess(sentence):
    ''' 
    Preprocess a sentence by tokenizing and adding start and end tokens also removing punctuation
    '''
    tokens = word_tokenize(sentence.lower()) # Tokenize
    tokens = [token for token in tokens if token.isalpha()] # Remove punctuation
    return ['<s>'] + tokens + ['</s>'] # Add start and end tokens

# Demo preprocess 
print("First feedback: ", sentences[0])
print("Preprocessed feedback: ", preprocess(sentences[0]))

First feedback:  slide giáo trình đầy đủ .
Preprocessed feedback:  ['<s>', 'slide', 'giáo', 'trình', 'đầy', 'đủ', '</s>']


In [61]:
def build_trigram_model(sentences):
    '''
    Build a trigram model from a list of sentences (counting the occurences of the trigrams)
    Loop through each sentence and tokenize it, add count to trigram model
    '''
    trigram_model = {}

    for sentence in sentences:
        tokens = preprocess(sentence) # Tokenize the sentence

        for i in range(len(tokens) - 2): # Loop through the tokens
            trigram = (tokens[i], tokens[i+1], tokens[i+2])
            if trigram in trigram_model:
                trigram_model[trigram] += 1
            else:
                trigram_model[trigram] = 1
        
    return trigram_model

# Demo trigram model
for i in range(3):
    print(f"Feedback no.{i+1}: {sentences[i]}")
print("Trigram model: ", build_trigram_model(sentences[:3]))

Feedback no.1: slide giáo trình đầy đủ .
Feedback no.2: nhiệt tình giảng dạy , gần gũi với sinh viên .
Feedback no.3: đi học đầy đủ full điểm chuyên cần .
Trigram model:  {('<s>', 'slide', 'giáo'): 1, ('slide', 'giáo', 'trình'): 1, ('giáo', 'trình', 'đầy'): 1, ('trình', 'đầy', 'đủ'): 1, ('đầy', 'đủ', '</s>'): 1, ('<s>', 'nhiệt', 'tình'): 1, ('nhiệt', 'tình', 'giảng'): 1, ('tình', 'giảng', 'dạy'): 1, ('giảng', 'dạy', 'gần'): 1, ('dạy', 'gần', 'gũi'): 1, ('gần', 'gũi', 'với'): 1, ('gũi', 'với', 'sinh'): 1, ('với', 'sinh', 'viên'): 1, ('sinh', 'viên', '</s>'): 1, ('<s>', 'đi', 'học'): 1, ('đi', 'học', 'đầy'): 1, ('học', 'đầy', 'đủ'): 1, ('đầy', 'đủ', 'full'): 1, ('đủ', 'full', 'điểm'): 1, ('full', 'điểm', 'chuyên'): 1, ('điểm', 'chuyên', 'cần'): 1, ('chuyên', 'cần', '</s>'): 1}


In [62]:
def vocalbulary_size(sentences):
    vocabulary = {}
    for sentence in sentences:
        vocab_token = preprocess(sentence)[1:-1] # Remove start and end tokens
        for token in vocab_token:
            if token in vocabulary:
                vocabulary[token] += 1
            else:
                vocabulary[token] = 1
    # print(vocabulary)
    return len(vocabulary)

# Demo vocabulary size
print("Vocabulary size: ", vocalbulary_size(sentences))

Vocabulary size:  1924


In [63]:
def build_unigram_model(sentences):
    '''
    Build a unigram model from a list of sentences (counting the occurences of the unigrams)
    Loop through each sentence and tokenize it, add count to unigram model
    '''
    unigram_model = {}

    for sentence in sentences:
        tokens = preprocess(sentence) # Tokenize the sentence

        for i in range(len(tokens) - 1): # Loop through the tokens
            unigram = (tokens[i], tokens[i+1])
            if unigram in unigram_model:
                unigram_model[unigram] += 1
            else:
                unigram_model[unigram] = 1
        
    return unigram_model

# Demo trigram model
for i in range(1, 4):
    print(f"Feedback no.{i+1}: {sentences[-i]}")
print("Unigram model: ", build_unigram_model(sentences[-3:]))

Feedback no.2: em có học ở một trung tâm tiếng anh ở ngoài trường , thời lượng hợp lý , không nhiều không ít khoảng 2 - 3 tiết một buổi !
Feedback no.3: em tiếp thu chậm .
Feedback no.4: chia sẻ cho em nhiều điều hay .
Unigram model:  {('<s>', 'chia'): 1, ('chia', 'sẻ'): 1, ('sẻ', 'cho'): 1, ('cho', 'em'): 1, ('em', 'nhiều'): 1, ('nhiều', 'điều'): 1, ('điều', 'hay'): 1, ('hay', '</s>'): 1, ('<s>', 'em'): 2, ('em', 'tiếp'): 1, ('tiếp', 'thu'): 1, ('thu', 'chậm'): 1, ('chậm', '</s>'): 1, ('em', 'có'): 1, ('có', 'học'): 1, ('học', 'ở'): 1, ('ở', 'một'): 1, ('một', 'trung'): 1, ('trung', 'tâm'): 1, ('tâm', 'tiếng'): 1, ('tiếng', 'anh'): 1, ('anh', 'ở'): 1, ('ở', 'ngoài'): 1, ('ngoài', 'trường'): 1, ('trường', 'thời'): 1, ('thời', 'lượng'): 1, ('lượng', 'hợp'): 1, ('hợp', 'lý'): 1, ('lý', 'không'): 1, ('không', 'nhiều'): 1, ('nhiều', 'không'): 1, ('không', 'ít'): 1, ('ít', 'khoảng'): 1, ('khoảng', 'tiết'): 1, ('tiết', 'một'): 1, ('một', 'buổi'): 1, ('buổi', '</s>'): 1}


In [64]:
trigram_count_model = build_trigram_model(sentences)
unigram_count_model = build_unigram_model(sentences)
vocabulary_size = vocalbulary_size(sentences)

In [65]:
def calculate_sentence_probability(sentence, unigram_count_model=unigram_count_model, trigram_count_model=trigram_count_model, vocalbulary_size=vocabulary_size):
    start_time = time.time()
    # For add one smoothing, need vocabulary size
    tokens = preprocess(sentence)
    probability = 1.0

    for i in range(len(tokens) - 2):
        if i == 0: # <s> + w1
            # When its the starting word, we only need to calculate the P(w1|<s>) = Probability of w1 knowing that it is the first word
            # We know that c(<s>) = number of sentences -> P(w1|<s>) = c(<s>, w1)/c(<s>) -> add-one smoothing = (c(<s>, w1) + 1)/(c(<s>) + V)
            unigram = (tokens[i], tokens[i+1])
            probability *= (unigram_count_model.get(unigram, 0) + 1)/(len(sentences) + vocalbulary_size)
        else: # <s> + w1 + w2 or w1 + w2 + w3 or wn-1 + wn + </s>
            # P(wn|wn-2, wn-1) = c(wn-2, wn-1, wn)/c(wn-2, wn-1) -> add-one smoothing = (c(wn-2, wn-1, wn) + 1)/(c(wn-2, wn-1) + V)
            trigram = (tokens[i], tokens[i+1], tokens[i+2])
            unigram = (tokens[i], tokens[i+1])
            probability *= (trigram_count_model.get(trigram, 0) + 1)/(unigram_count_model.get(unigram, 0) + vocalbulary_size)
    end_time = time.time()

    return (probability, end_time - start_time)

In [66]:
print("Input feed back: \"slide đầy đủ chi tiết, thầy dạy nhiệt tình.\"")
start_time = time.time()
probability, execution_time = calculate_sentence_probability("slide đầy đủ chi tiết, thầy dạy nhiệt tình.")
end_time = time.time()
print("Probability: ", probability)
print("Execution time: ", execution_time)
check_time = end_time - start_time
print("Check time: ", check_time)

Input feed back: "slide đầy đủ chi tiết, thầy dạy nhiệt tình."
Probability:  6.933514413952236e-23
Execution time:  0.0
Check time:  0.0
