In [33]:
from collections import Counter 
from sklearn.preprocessing import LabelEncoder 
import numpy as np 
import math 

## Dataset preparation 
dataset = [ 
    "မြန်မာ ပြည် ရှေ့ရေး အကြောင်း ဆွေးနွေးသွားတာ အရမ်း ကောင်းတယ်။", 
    "အရမ်း မှန်တဲ့ စကားတွေပါ။ ကျေးဇူး တင်ပါတယ်။", 
    "တန်ဖိုး ရှိတဲ့ စကားတွေပါ။ လေးစားပါတယ်။", 
    "သုံးသပ်သွားတာ ကောင်းလိုက်တာ။ အရမ်း ဗဟုသုတ ရတယ်။", 
    "ကျေးဇူးပါ ဆရာ သုံးသပ်ချက် တွေကို ကျေနပ် အားရပါတယ်။", 

    "မင်းဆိုး မင်းညစ် အယုတ်တမာ ကျဆုံးမှာပါ။", 
    "ကလိမ်ကကျစ် နဲ့ စကား ကို ဝေ့ဝိုက်ပြီး ပြောနေတယ်။", 
    "မိုက်ရိုက်လိုက်တဲ့ လုပ်ရပ်ဗျာ။ အတော် ဆိုးတာပဲ။", 
    "ကျက်သရေ တုံးပါကွာ။ အရည်အချင်းကို မရှိဘူး။", 
    "မင်းကို မြင်ရတာ စိတ် ကသိကအောက် ဖြစ်တယ်။", 

    "ပြည်ထောင်စု သမ္မတ မြန်မာ နိုင်ငံတော် ထာဝရ တည်တံ့နိုင်ပါစေ။", 
    "ပြည်ထောင်စု ဖွား တိုင်းရင်းသားတွေ စုစည်းနေရင် အရမ်း ကောင်းမှာပဲ။", 
    "စစ်ပွဲတွေ ကို မုန်းလိုက်တာ ဗျာ။", 
    "စာသင်ကျောင်း တံခါးများ အမြဲတမ်း ဖွင့်ထားနိုင်ပါစေ။", 
    "ရခိုင် မုန့်တီ၊ ရှမ်း ခေါက်ဆွဲ နဲ့ ကရင် ကုတိယို ကို အရမ်း ကြိုက်တယ်။" 
] 
targets = ["Positive", "Positive", "Positive", "Positive", "Positive", 
"Negative", "Negative", "Negative", "Negative", "Negative", "Neutral", 
"Neutral", "Neutral", "Neutral", "Neutral"] 

## Tokenization 
tokenized_dataset = [doc.replace('၊', '').replace('။', '').lower().split() for doc in dataset]
print(f'Dataset Length : {len(tokenized_dataset)}') 
print(f'Tokenized Text(1-5) : {tokenized_dataset[:5]}') 

Dataset Length : 15
Tokenized Text(1-5) : [['မြန်မာ', 'ပြည်', 'ရှေ့ရေး', 'အကြောင်း', 'ဆွေးနွေးသွားတာ', 'အရမ်း', 'ကောင်းတယ်'], ['အရမ်း', 'မှန်တဲ့', 'စကားတွေပါ', 'ကျေးဇူး', 'တင်ပါတယ်'], ['တန်ဖိုး', 'ရှိတဲ့', 'စကားတွေပါ', 'လေးစားပါတယ်'], ['သုံးသပ်သွားတာ', 'ကောင်းလိုက်တာ', 'အရမ်း', 'ဗဟုသုတ', 'ရတယ်'], ['ကျေးဇူးပါ', 'ဆရာ', 'သုံးသပ်ချက်', 'တွေကို', 'ကျေနပ်', 'အားရပါတယ်']]


In [34]:
## Label Encoder 
label_encoder = LabelEncoder() 
encoded_labels = label_encoder.fit_transform(targets) 
print("Encoded Labels:", encoded_labels) 
print("Classes:", label_encoder.classes_) 

Encoded Labels: [2 2 2 2 2 0 0 0 0 0 1 1 1 1 1]
Classes: ['Negative' 'Neutral' 'Positive']


In [35]:
## TF-IDF Calculation
def compute_tf(doc):
    term_count = Counter(doc)
    doc_len = len(doc)
    tf = {term: count / doc_len for term, count in term_count.items()}
    return tf

def compute_df(corpus):
    df = Counter()
    for doc in corpus:
        unique_terms = set(doc)
        for term in unique_terms:
            df[term] += 1
    return df

def compute_idf(df, corpus_size):
    idf = {term: math.log(corpus_size / df[term]) for term in df}
    return idf

def compute_tfidf(tf, idf):
    tfidf = {term: tf_val * idf.get(term, 0.0) for term, tf_val in tf.items()}
    return tfidf

In [36]:
## Calculate TF for the entire corpus
tf_dataset = [compute_tf(doc) for doc in tokenized_dataset]
print(f'TF of index 0 : {tf_dataset[0]}')

TF of index 0 : {'မြန်မာ': 0.14285714285714285, 'ပြည်': 0.14285714285714285, 'ရှေ့ရေး': 0.14285714285714285, 'အကြောင်း': 0.14285714285714285, 'ဆွေးနွေးသွားတာ': 0.14285714285714285, 'အရမ်း': 0.14285714285714285, 'ကောင်းတယ်': 0.14285714285714285}


In [37]:
## Calculate DF for the entire corpus
df = compute_df(tokenized_dataset)
print(f'DF for the entire corpus : {df}')

DF for the entire corpus : Counter({'အရမ်း': 5, 'ကို': 3, 'မြန်မာ': 2, 'စကားတွေပါ': 2, 'နဲ့': 2, 'ပြည်ထောင်စု': 2, 'ပြည်': 1, 'အကြောင်း': 1, 'ဆွေးနွေးသွားတာ': 1, 'ရှေ့ရေး': 1, 'ကောင်းတယ်': 1, 'မှန်တဲ့': 1, 'တင်ပါတယ်': 1, 'ကျေးဇူး': 1, 'တန်ဖိုး': 1, 'လေးစားပါတယ်': 1, 'ရှိတဲ့': 1, 'သုံးသပ်သွားတာ': 1, 'ဗဟုသုတ': 1, 'ရတယ်': 1, 'ကောင်းလိုက်တာ': 1, 'ကျေးဇူးပါ': 1, 'ကျေနပ်': 1, 'အားရပါတယ်': 1, 'တွေကို': 1, 'ဆရာ': 1, 'သုံးသပ်ချက်': 1, 'ကျဆုံးမှာပါ': 1, 'မင်းဆိုး': 1, 'မင်းညစ်': 1, 'အယုတ်တမာ': 1, 'ကလိမ်ကကျစ်': 1, 'ဝေ့ဝိုက်ပြီး': 1, 'ပြောနေတယ်': 1, 'စကား': 1, 'အတော်': 1, 'လုပ်ရပ်ဗျာ': 1, 'မိုက်ရိုက်လိုက်တဲ့': 1, 'ဆိုးတာပဲ': 1, 'အရည်အချင်းကို': 1, 'ကျက်သရေ': 1, 'တုံးပါကွာ': 1, 'မရှိဘူး': 1, 'မြင်ရတာ': 1, 'စိတ်': 1, 'ဖြစ်တယ်': 1, 'မင်းကို': 1, 'ကသိကအောက်': 1, 'နိုင်ငံတော်': 1, 'ထာဝရ': 1, 'တည်တံ့နိုင်ပါစေ': 1, 'သမ္မတ': 1, 'စုစည်းနေရင်': 1, 'တိုင်းရင်းသားတွေ': 1, 'ဖွား': 1, 'ကောင်းမှာပဲ': 1, 'စစ်ပွဲတွေ': 1, 'ဗျာ': 1, 'မုန်းလိုက်တာ': 1, 'ဖွင့်ထားနိုင်ပါစေ': 1, 'အမြဲတမ်း': 1, 'စာသင်ကျောင်း': 1, 'တံခါးမ

In [38]:
## Calculate IDF for the entire corpus
idf = compute_idf(df, len(tokenized_dataset))
print(f'IDF for entire corpus : {idf.items()}')

IDF for entire corpus : dict_items([('ပြည်', 2.70805020110221), ('အကြောင်း', 2.70805020110221), ('အရမ်း', 1.0986122886681098), ('ဆွေးနွေးသွားတာ', 2.70805020110221), ('ရှေ့ရေး', 2.70805020110221), ('ကောင်းတယ်', 2.70805020110221), ('မြန်မာ', 2.0149030205422647), ('မှန်တဲ့', 2.70805020110221), ('စကားတွေပါ', 2.0149030205422647), ('တင်ပါတယ်', 2.70805020110221), ('ကျေးဇူး', 2.70805020110221), ('တန်ဖိုး', 2.70805020110221), ('လေးစားပါတယ်', 2.70805020110221), ('ရှိတဲ့', 2.70805020110221), ('သုံးသပ်သွားတာ', 2.70805020110221), ('ဗဟုသုတ', 2.70805020110221), ('ရတယ်', 2.70805020110221), ('ကောင်းလိုက်တာ', 2.70805020110221), ('ကျေးဇူးပါ', 2.70805020110221), ('ကျေနပ်', 2.70805020110221), ('အားရပါတယ်', 2.70805020110221), ('တွေကို', 2.70805020110221), ('ဆရာ', 2.70805020110221), ('သုံးသပ်ချက်', 2.70805020110221), ('ကျဆုံးမှာပါ', 2.70805020110221), ('မင်းဆိုး', 2.70805020110221), ('မင်းညစ်', 2.70805020110221), ('အယုတ်တမာ', 2.70805020110221), ('ကို', 1.6094379124341003), ('ကလိမ်ကကျစ်', 2.70805020110221), (

In [39]:
## Calculate TF-IDF for the entire corpus
tfidf_dataset = [compute_tfidf(tf, idf) for tf in tf_dataset]
print(f'TF-IDF of sample index 0 : {tfidf_dataset[0]}')

TF-IDF of sample index 0 : {'မြန်မာ': 0.2878432886488949, 'ပြည်': 0.3868643144431728, 'ရှေ့ရေး': 0.3868643144431728, 'အကြောင်း': 0.3868643144431728, 'ဆွေးနွေးသွားတာ': 0.3868643144431728, 'အရမ်း': 0.15694461266687282, 'ကောင်းတယ်': 0.3868643144431728}


In [40]:
## Convert TF-IDF dictionary to feature vectors
vocabulary = list(idf.keys())
def vectorize(tfidf, vocab):
    return [tfidf.get(term, 0.0) for term in vocab]

features = [vectorize(tfidf, vocabulary) for tfidf in tfidf_dataset]
print(f'Vocab Size : {vocabulary.__len__()}')
print(f'10th Sample : {dataset[10]}')
print(f'TF-IDF Features 10th sample : {features[10]}')

Vocab Size : 70
10th Sample : ပြည်ထောင်စု သမ္မတ မြန်မာ နိုင်ငံတော် ထာဝရ တည်တံ့နိုင်ပါစေ။
TF-IDF Features 10th sample : [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.3358171700903774, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.4513417001837017, 0.4513417001837017, 0.3358171700903774, 0.4513417001837017, 0.4513417001837017, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]


In [44]:
## Test on a new sentence
new_sentence = "ပြည်ထောင်စု ဖွား တိုင်းရင်းသားတွေ စိတ် ၏ ငြိမ်းချမ်းမှုကို ရပါစေ။"

## Calculate TF for the new sentence
new_tf = compute_tf(new_sentence.replace('၊', '').replace('။', '').lower().split())

## Calculate TF-IDF for the new sentence using the IDF from the training data
new_tfidf = compute_tfidf(new_tf, idf)

## Vectorize the new sentence TF-IDF
new_vector = vectorize(new_tfidf, vocabulary)
print(f'TF-IDF Features of new sentence : {new_vector}')

TF-IDF Features of new sentence : [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.3868643144431728, 0.0, 0.0, 0.0, 0.0, 0.0, 0.2878432886488949, 0.0, 0.0, 0.0, 0.3868643144431728, 0.3868643144431728, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]


In [46]:
## Classifier
def cosine_similarity(A, B):
    dot_product = np.dot(A, B)
    norm_A = np.linalg.norm(A)
    norm_B = np.linalg.norm(B)
    return dot_product / (norm_A * norm_B)

similarity = cosine_similarity(features[10], features[11])
print("Cosine Similarity:", similarity)

Cosine Similarity: 0.11277593017562931


In [49]:
## Inference
test = "မင်းဆိုး မင်းညစ် အယုတ်တမာ တို့သည် ကျရှုံးကြစမြဲ ဖြစ်သည်။"
test_tf = compute_tf(test.lower().split())
test_tfidf = compute_tfidf(test_tf, idf)
test_vector = vectorize(test_tfidf, vocabulary)
preds = [cosine_similarity(source, test_vector) for source in features]
idx = encoded_labels[np.argmax(preds)]
print(f'Predicted Label : {label_encoder.classes_[idx]}')

Predicted Label : Negative
