In [14]:
from pipeline import KhmerStopWordPipeline
from preprocessing.ps01_normalization import Normalizer
from preprocessing.ps02_tokenizer import Tokenizer
from preprocessing.ps03_pos_tagger import POSTagger
from preprocessing.ps04_stop_word import StopWordRemover
from preprocessing.ps05_ner import NER #Name Entity Recognition
from preprocessing.ps07_contextual_scorer import ContextualScorer
from utils.loaders import load_khmer_dictionary
import os

In [15]:
class Pipeline:
    def __init__(self, text: str, dictionary: set):
        self.text = text
        self.normalizer = Normalizer()
        self.tokenizer = Tokenizer(dictionary=dictionary)
        self.pos_tagger = POSTagger()
        self.stop_word = StopWordRemover(stop_words={"ខ្ញុំ", "ជា"})
        self.ner = NER(locations={"ITC"})
    
    def run(self) -> list[str]:
        normalized_text = self.normalizer.process(self.text)
        tokens = self.tokenizer.process(normalized_text)
        tagger = self.pos_tagger.process(tokens)
        stop_word = self.stop_word.process(tokens)
        ner = self.ner.process(tokens)
        return tokens, tagger, stop_word, ner

In [42]:
if __name__ == "__main__":
    # Load dictionary
    dictionary = load_khmer_dictionary()

    text = ""
    dataset_path = "datasets/wiki"
    count = 0
    for file in os.listdir(dataset_path):
        if file.endswith('.txt'):
            file_path = os.path.join(dataset_path, file)
    
            with open(file_path, "r", encoding="utf-8") as f:
                text += f.read() + "\n"
                count += 1
    print(count)
    # text = "កាលនៅរៀនពីក្មេង លោក គង្គ ប៊ុនឈឿន បានទៅលេងភ្លេងក្នុងពិធីបុណ្យផ្កានៅភូមិ បាក់ព្រា ហើយលោកបានជាប់ចិត្តនឹងបុប្ផាមួយទងដែលជាកូនស្រីអ្នកនេសាទនៅតំបន់នោះទើបលោកចាប់ផ្ដើមកត់ត្រាទុកក្នុងបេះដូងនូវបទចម្រៀងមួយ ដើម្បីឧទ្ទិសដល់បេះដូងស្រគត់ស្រគំនៃក្រមុំស្រុកទន្លេ ដែលរស់នៅឃ្លាតឆ្ងាយពីអរិយធម៌នៃអ្នកដីគោក"
    
    pipeline = Pipeline(text=text, dictionary=dictionary)
    tokens, tagger, stop_word, ner = pipeline.run()
    corpus = [tokens]
    
    scorer = ContextualScorer()
    scorer.fit(corpus)  # Fit TF-IDF on corpus    
    scores = scorer.score_all(corpus)
    
    
    print(f'TF*IDF scores:')
    for k, v in list(scores.items())[:10]:
        # if k == 'ក៏' or k == 'ជម្រក':
        print(f"  {k:<10}: {v:>8.4f}")
    print("\n")
    
    
    # Suggest stop-words (low IDF)
    stop_words = scorer.suggest_stop_words(scores, percentile=20)
    print("Candidate stop-words:", stop_words)
    
    print(f' token length is {len(tokens)}')
    print(f' Candidate stop word has {len(stop_words)}')

    for w in stop_words:
        if w == 'ក៏':
            print(True)
            break

188


IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



TF*IDF scores:
  រឿង       : 1045.0000
  ជ្រូក     :  94.0000
  បាន       : 4106.0000
  ជា        : 4961.0000
  ឈ្មោះ     : 438.0000
  ឆ្នាំ     : 226.0000
  កុរ       :  69.0000
  ន         : 8753.0000
  េ         : 5186.0000
  ះ         : 3574.0000


Candidate stop-words: {'1967', 'ដង្កាប់', 'លស់', '别', 'រំភើយ', 'អន្ធ', 'កសិករ', 'ក្បូន', 'ផ្លប់', 'បៀរ', 'រឿណរង្គ', 'យក្សា', 'ស្រឹង', 'អស្វ', 'au', 'គ្រវាស', 'ឧសា', 'ចម្អាប', 'ស្ទះ', 'មោហៈ', 'ពង្វេះ', 'កំចាយ', 'ភិយ្យោ', 'ប្រមែ', 'យុក', '明', 'ឆ្អែង', 'រំពើន', 'កំពីង', 'ត្រណោត', 'រលេញ', 'បំផ្លើស', 'PH', 'អធ្រាត្រ', 'ស៊ុបទ្រុប', 'ផុយ', 'សណ្ដា', 'សវនីយ៍', 'លាយលក្ខណ៍', 'ត្រោស', 'ផាស', 'ពសុធា', 'ពិសោធន៍', 'បញ្ឆិត', 'ក្រែងតែ', '៘', 'ពលីការ', 'គំរូ', 'ស្រេះ', 'ស្ពោត', 'ទណ្ឌ', 'ញញី', 'បញ្ឆេះ', 'និរតី', 'វត្ថ', 'ខាប់', 'ឥរិយាបថ', 'ទំពូង', 'ខ្វាវ', 'd', 'ជើងពាន', 'ភក្ដិ', 'ក្ឌាំង', 'កាឡកិណី', 'ត្រមោច', 'បាក់បប', 'ស្រប៉ាប', 'ទន្សា', 'ម្ដុំ', 'អន្ទះសា', 'ឆើយ', 'ខ្វាប់', 'ស្លាត', 'H', 'អហិង្សា', 'ត្រឈឹង', 'ផល្គុន', 'វិភាគ', 'វ៉ាង', 'រំលោង', 'លេខាធិការ