In [3]:
import math
import numpy as np
from sklearn.preprocessing import LabelEncoder 
from collections import Counter

## Dataset preparation
dataset = [
    "မြန်မာ ပြည် ရှေ့ရေး အကြောင်း ဆွေးနွေးသွားတာ အရမ်း ကောင်းတယ်။", 
    "အရမ်း မှန်တဲ့ စကားတွေပါ။ ကျေးဇူး တင်ပါတယ်။", 
    "တန်ဖိုး ရှိတဲ့ စကားတွေပါ။ လေးစားပါတယ်။", 
    "သုံးသပ်သွားတာ ကောင်းလိုက်တာ။ အရမ်း ဗဟုသုတ ရတယ်။", 
    "ကျေးဇူးပါ ဆရာ သုံးသပ်ချက် တွေကို ကျေနပ် အားရပါတယ်။", 

    "မင်းဆိုး မင်းညစ် အယုတ်တမာ ကျဆုံးမှာပါ။", 
    "ကလိမ်ကကျစ် နဲ့ စကား ကို ဝေ့ဝိုက်ပြီး ပြောနေတယ်။", 
    "မိုက်ရိုက်လိုက်တဲ့ လုပ်ရပ်ဗျာ။ အတော် ဆိုးတာပဲ။", 
    "ကျက်သရေ တုံးပါကွာ။ အရည်အချင်းကို မရှိဘူး။", 
    "မင်းကို မြင်ရတာ စိတ် ကသိကအောက် ဖြစ်တယ်။", 

    "ပြည်ထောင်စု သမ္မတ မြန်မာ နိုင်ငံတော် ထာဝရ တည်တံ့နိုင်ပါစေ။", 
    "ပြည်ထောင်စု ဖွား တိုင်းရင်းသားတွေ စုစည်းနေရင် အရမ်း ကောင်းမှာပဲ။", 
    "စစ်ပွဲတွေ ကို မုန်းလိုက်တာ ဗျာ။", 
    "စာသင်ကျောင်း တံခါးများ အမြဲတမ်း ဖွင့်ထားနိုင်ပါစေ။", 
    "ရခိုင် မုန့်တီ၊ ရှမ်း ခေါက်ဆွဲ နဲ့ ကရင် ကုတိယို ကို အရမ်း ကြိုက်တယ်။" 
]

targets = ["Positive", "Positive", "Positive", "Positive", "Positive", 
"Negative", "Negative", "Negative", "Negative", "Negative", "Neutral", 
"Neutral", "Neutral", "Neutral", "Neutral"] 

## Label Encoder 
label_encoder = LabelEncoder() 
encoded_labels = label_encoder.fit_transform(targets) 
print("Encoded Labels:", encoded_labels) 
print("Classes:", label_encoder.classes_) 

Encoded Labels: [2 2 2 2 2 0 0 0 0 0 1 1 1 1 1]
Classes: ['Negative' 'Neutral' 'Positive']


In [4]:
## Function to generate N-grams
def generate_ngrams(text, ngrams):
    remove_chars = '.,!*@#$%^'
    text = text.translate(str.maketrans('', '', remove_chars))
    tokens = text.lower().split()
    ngrams = [' '.join(tokens[i:i+ngrams]) for i in range(len(tokens)-ngrams+1)]    
    return ngrams

bigrams = [generate_ngrams(doc, ngrams=2) for doc in dataset]
print("Bigrams (1-5):", bigrams[:5])

trigrams = [generate_ngrams(doc, ngrams=3) for doc in dataset]
print("Trigrams (1-5):", trigrams[:5])

Bigrams (1-5): [['မြန်မာ ပြည်', 'ပြည် ရှေ့ရေး', 'ရှေ့ရေး အကြောင်း', 'အကြောင်း ဆွေးနွေးသွားတာ', 'ဆွေးနွေးသွားတာ အရမ်း', 'အရမ်း ကောင်းတယ်။'], ['အရမ်း မှန်တဲ့', 'မှန်တဲ့ စကားတွေပါ။', 'စကားတွေပါ။ ကျေးဇူး', 'ကျေးဇူး တင်ပါတယ်။'], ['တန်ဖိုး ရှိတဲ့', 'ရှိတဲ့ စကားတွေပါ။', 'စကားတွေပါ။ လေးစားပါတယ်။'], ['သုံးသပ်သွားတာ ကောင်းလိုက်တာ။', 'ကောင်းလိုက်တာ။ အရမ်း', 'အရမ်း ဗဟုသုတ', 'ဗဟုသုတ ရတယ်။'], ['ကျေးဇူးပါ ဆရာ', 'ဆရာ သုံးသပ်ချက်', 'သုံးသပ်ချက် တွေကို', 'တွေကို ကျေနပ်', 'ကျေနပ် အားရပါတယ်။']]
Trigrams (1-5): [['မြန်မာ ပြည် ရှေ့ရေး', 'ပြည် ရှေ့ရေး အကြောင်း', 'ရှေ့ရေး အကြောင်း ဆွေးနွေးသွားတာ', 'အကြောင်း ဆွေးနွေးသွားတာ အရမ်း', 'ဆွေးနွေးသွားတာ အရမ်း ကောင်းတယ်။'], ['အရမ်း မှန်တဲ့ စကားတွေပါ။', 'မှန်တဲ့ စကားတွေပါ။ ကျေးဇူး', 'စကားတွေပါ။ ကျေးဇူး တင်ပါတယ်။'], ['တန်ဖိုး ရှိတဲ့ စကားတွေပါ။', 'ရှိတဲ့ စကားတွေပါ။ လေးစားပါတယ်။'], ['သုံးသပ်သွားတာ ကောင်းလိုက်တာ။ အရမ်း', 'ကောင်းလိုက်တာ။ အရမ်း ဗဟုသုတ', 'အရမ်း ဗဟုသုတ ရတယ်။'], ['ကျေးဇူးပါ ဆရာ သုံးသပ်ချက်', 'ဆရာ သုံးသပ်ချက် တွေကို', 'သုံးသပ်ချက် တွေကို ကျေနပ်', 'တွေကို ကျေနပ် 

In [5]:
## Compute TF for n-grams
def compute_tf(ngrams_list):
    term_count = Counter(ngrams_list)
    doc_len = len(ngrams_list)
    tf = {term: count / doc_len for term, count in term_count.items()}
    return tf

## Calculate TF for the entire corpus 
tf_dataset = [compute_tf(doc) for doc in bigrams] 
print(f'TF value of index 0 : {tf_dataset[1]}') 

TF value of index 0 : {'အရမ်း မှန်တဲ့': 0.25, 'မှန်တဲ့ စကားတွေပါ။': 0.25, 'စကားတွေပါ။ ကျေးဇူး': 0.25, 'ကျေးဇူး တင်ပါတယ်။': 0.25}


In [6]:
## Compute DF for the corpus
def compute_df(corpus):
    df = Counter()
    for doc in corpus:     
        unique_terms = set(doc)
        for term in unique_terms:
            df[term] += 1
    return df

## Calculate DF for the entire corpus 
df = compute_df(bigrams) 
print(f'DF for the entire corpus : {df}') 

DF for the entire corpus : Counter({'ဆွေးနွေးသွားတာ အရမ်း': 1, 'မြန်မာ ပြည်': 1, 'အကြောင်း ဆွေးနွေးသွားတာ': 1, 'ပြည် ရှေ့ရေး': 1, 'အရမ်း ကောင်းတယ်။': 1, 'ရှေ့ရေး အကြောင်း': 1, 'မှန်တဲ့ စကားတွေပါ။': 1, 'စကားတွေပါ။ ကျေးဇူး': 1, 'ကျေးဇူး တင်ပါတယ်။': 1, 'အရမ်း မှန်တဲ့': 1, 'တန်ဖိုး ရှိတဲ့': 1, 'စကားတွေပါ။ လေးစားပါတယ်။': 1, 'ရှိတဲ့ စကားတွေပါ။': 1, 'သုံးသပ်သွားတာ ကောင်းလိုက်တာ။': 1, 'ဗဟုသုတ ရတယ်။': 1, 'ကောင်းလိုက်တာ။ အရမ်း': 1, 'အရမ်း ဗဟုသုတ': 1, 'ဆရာ သုံးသပ်ချက်': 1, 'ကျေနပ် အားရပါတယ်။': 1, 'ကျေးဇူးပါ ဆရာ': 1, 'သုံးသပ်ချက် တွေကို': 1, 'တွေကို ကျေနပ်': 1, 'မင်းညစ် အယုတ်တမာ': 1, 'အယုတ်တမာ ကျဆုံးမှာပါ။': 1, 'မင်းဆိုး မင်းညစ်': 1, 'ဝေ့ဝိုက်ပြီး ပြောနေတယ်။': 1, 'ကို ဝေ့ဝိုက်ပြီး': 1, 'နဲ့ စကား': 1, 'ကလိမ်ကကျစ် နဲ့': 1, 'စကား ကို': 1, 'မိုက်ရိုက်လိုက်တဲ့ လုပ်ရပ်ဗျာ။': 1, 'လုပ်ရပ်ဗျာ။ အတော်': 1, 'အတော် ဆိုးတာပဲ။': 1, 'အရည်အချင်းကို မရှိဘူး။': 1, 'ကျက်သရေ တုံးပါကွာ။': 1, 'တုံးပါကွာ။ အရည်အချင်းကို': 1, 'ကသိကအောက် ဖြစ်တယ်။': 1, 'မြင်ရတာ စိတ်': 1, 'မင်းကို မြင်ရတာ': 1, 'စိတ် ကသိကအောက်': 1, 'မြန်မာ နို

In [7]:
## Compute IDF based on DF
def compute_idf(df, corpus_size):
    idf = {term: math.log(corpus_size / df[term]) for term in df}
    return idf

## Calculate IDF for the entire corpus 
idf = compute_idf(df, len(bigrams)) 
print(f'IDF for entire corpus : {idf.items()}') 

IDF for entire corpus : dict_items([('ဆွေးနွေးသွားတာ အရမ်း', 2.70805020110221), ('မြန်မာ ပြည်', 2.70805020110221), ('အကြောင်း ဆွေးနွေးသွားတာ', 2.70805020110221), ('ပြည် ရှေ့ရေး', 2.70805020110221), ('အရမ်း ကောင်းတယ်။', 2.70805020110221), ('ရှေ့ရေး အကြောင်း', 2.70805020110221), ('မှန်တဲ့ စကားတွေပါ။', 2.70805020110221), ('စကားတွေပါ။ ကျေးဇူး', 2.70805020110221), ('ကျေးဇူး တင်ပါတယ်။', 2.70805020110221), ('အရမ်း မှန်တဲ့', 2.70805020110221), ('တန်ဖိုး ရှိတဲ့', 2.70805020110221), ('စကားတွေပါ။ လေးစားပါတယ်။', 2.70805020110221), ('ရှိတဲ့ စကားတွေပါ။', 2.70805020110221), ('သုံးသပ်သွားတာ ကောင်းလိုက်တာ။', 2.70805020110221), ('ဗဟုသုတ ရတယ်။', 2.70805020110221), ('ကောင်းလိုက်တာ။ အရမ်း', 2.70805020110221), ('အရမ်း ဗဟုသုတ', 2.70805020110221), ('ဆရာ သုံးသပ်ချက်', 2.70805020110221), ('ကျေနပ် အားရပါတယ်။', 2.70805020110221), ('ကျေးဇူးပါ ဆရာ', 2.70805020110221), ('သုံးသပ်ချက် တွေကို', 2.70805020110221), ('တွေကို ကျေနပ်', 2.70805020110221), ('မင်းညစ် အယုတ်တမာ', 2.70805020110221), ('အယုတ်တမာ ကျဆုံးမှာပါ။', 2.70

In [8]:
## Compute TF-IDF for a document
def compute_tfidf(tf, idf):
    tfidf = {term: tf_val * idf.get(term, 0.0) for term, tf_val in tf.items()}
    return tfidf

## Calculate TF-IDF for the entire corpus 
tfidf_dataset = [compute_tfidf(tf, idf) for tf in tf_dataset] 
print(f'TF-IDF value of sample index 0 : {tfidf_dataset[5]}') 

TF-IDF value of sample index 0 : {'မင်းဆိုး မင်းညစ်': 0.9026834003674034, 'မင်းညစ် အယုတ်တမာ': 0.9026834003674034, 'အယုတ်တမာ ကျဆုံးမှာပါ။': 0.9026834003674034}


In [9]:
## Convert TF-IDF dictionary to feature vectors 
vocabulary = list(idf.keys()) 
def vectorize(tfidf, vocab): 
    return [tfidf.get(term, 0.0) for term in vocab] 
 
features = [vectorize(tfidf, vocabulary) for tfidf in tfidf_dataset] 
print(f'Vocab Size : {vocabulary.__len__()}') 
print(f'10th Sample : {dataset[10]}') 
print(f'TF-IDF Features 10th sample : {features[10]}') 

Vocab Size : 65
10th Sample : ပြည်ထောင်စု သမ္မတ မြန်မာ နိုင်ငံတော် ထာဝရ တည်တံ့နိုင်ပါစေ။
TF-IDF Features 10th sample : [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.541610040220442, 0.541610040220442, 0.541610040220442, 0.541610040220442, 0.541610040220442, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]


In [10]:
## Classifier 
def cosine_similarity(A, B): 
    dot_product = np.dot(A, B) 
    norm_A = np.linalg.norm(A) 
    norm_B = np.linalg.norm(B) 
    return dot_product / (norm_A * norm_B) 

similarity = cosine_similarity(features[1], features[2]) 
print("Cosine Similarity:", similarity) 

Cosine Similarity: 0.0


In [14]:
## Inference 
test = "မင်းကို မြင်ရတာ စိတ် ကသိကအောက် ဖြစ်တယ်။"
test_bigrams = generate_ngrams(test, ngrams=2)
test_tf = compute_tf(test_bigrams) 
test_tfidf = compute_tfidf(test_tf, idf) 
test_vector = vectorize(test_tfidf, vocabulary) 
preds = [cosine_similarity(source, test_vector) for source in features] 
idx = encoded_labels[np.argmax(preds)] 

print("Original :", test)
print("Bigrams :", test_bigrams)
print("Prediction :", label_encoder.classes_[idx]) 

Original : မင်းကို မြင်ရတာ စိတ် ကသိကအောက် ဖြစ်တယ်။
Bigrams : ['မင်းကို မြင်ရတာ', 'မြင်ရတာ စိတ်', 'စိတ် ကသိကအောက်', 'ကသိကအောက် ဖြစ်တယ်။']
Prediction : Negative
