# FastText Embedding Aprroach

In [10]:
import os
import pandas as pd
import re
import numpy as np
from khmernltk import word_tokenize
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# from google.colab import drive
from gensim.models import FastText
from gensim.test.utils import common_texts


### Function to clean and tokenize text (Preprocessing)
- Remove spcial symbols
- Tokenize by split the words with space

In [11]:
# Function to clean and tokenize full article text
def clean_and_tokenize(text):
    # Tokenize the text
    tokens = word_tokenize(text)

    # Filter tokens: keep words, numbers, and common punctuation (.,!?)
    cleaned_tokens = []
    for token in tokens:
        # Allow Khmer text (letters), numbers, spaces, and punctuation (.,!?)
        if re.match(r'^[\u1780-\u17FF"]+$', token):  # Khmer Unicode range + numbers and some punctuation
            cleaned_tokens.append(token)

    # Join the cleaned tokens and remove multiple spaces
    cleaned_text = ' '.join(cleaned_tokens)

    # Replace multiple spaces with a single space
    cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip()

    return cleaned_text

Load Data from folder

In [12]:
documents = []
file_names = []
training_data = '/Users/mac/Desktop/thesis/clean_data1'

- Load the data into documents list for later embedding step
- Extract the Summary and Full Article and put in dataframe for easy access

In [13]:
import os

documents = []

for file in sorted(os.listdir(training_data)):
    if file.endswith(".txt"):
        file_path = os.path.join(training_data, file)

        with open(file_path, 'r', encoding='utf-8') as f:
            lines = f.readlines()

        summary = None
        full_article = None

        for i, line in enumerate(lines):
            if line.strip() == "Summary:":
                summary = lines[i + 1].strip()
            elif line.strip() == "Full Article:":
                full_article = ''.join(lines[i + 1:]).strip()
                break

        if summary and full_article:
            article_name = os.path.splitext(file)[0]  # Remove ".txt"
            documents.append({
                'name': article_name,
                'summary': clean_and_tokenize(summary),
                'full_text': clean_and_tokenize(full_article),
            })
            file_names.append(file)
        else:
            print(f"Missing summary or full article in {file}. Skipping.")


In [14]:
df = pd.DataFrame(documents)
df

Unnamed: 0,name,summary,full_text
0,article_1,ស្ត្រី ជា បុគ្គល ដ៏ សំខាន់ ក្នុង រួមចំណែក ដំណើ...,កាលពី អតីតកាល កិច្ចការងារ និង មុខ តំណែង ក្នុង ...
1,article_100,អ្នកនាំពាក្យ ក្រសួង ការបរទេស អាម៉េរិក លោក កាលព...,ដំណើរទស្សនកិច្ច ទៅកាន់ ទីក្រុង សេអ៊ូល ជា ផ្នែក...
2,article_1000,ព្រឹទ្ធសភា អាមេរិក នៅ ថ្ងៃទី ៩ ខែកុម្ភៈ បាន យល...,សវនាការ ដក តំណែង លើក ទី ពីរ ប្រឆាំង អតីត ប្រធា...
3,article_10000,សកម្មភាព លក់ លំនៅឋាន ដែល មាន ផ្ទះល្វែង វីឡា ភ្...,របាយការណ៍ ដែល យោង តាម និយ័តករ អាជីវករ អចលន វត្...
4,article_10001,ភ្នំពេញ៖ លោក វ៉ាង យី រដ្ឋមន្រ្តី ការបរទេស ចិន ...,ក្នុង ជំនួប នេះ លោក សុខ ចិន្តា សោភា បាន រំលេច ...
...,...,...,...
10020,article_9995,របាយការណ៍ ថ្មី មួយ ដែល សិក្សា ដោយ អង្គការ លីកា...,យោង តាម របាយការណ៍ នេះ អ្នក ខ្ចី ប្រាក់ ជាង ៣ យ...
10021,article_9996,៧ខែ មក នេះ កម្ពុជា ទទួលបាន ភ្ញៀវ ទេសចរ បរទេស ស...,ក្រសួង ទេសចរណ៍ បាន បញ្ជាក់ ថា បន្ទាប់ពី ថៃ ទេស...
10022,article_9997,រយៈពេល ៧ខែ មក នេះ ការនាំចេញ របស់ កម្ពុជា ទៅកាន...,គឺជា កិច្ចព្រម ពៀង ភាពជាដៃគូ សេដ្ឋកិច្ច គ្រប់ ...
10023,article_9998,ធនាគារ ជាតិ នៃ កម្ពុជា ប្រកាស ដាក់ ដេញថ្លៃ ប្រ...,បើ តាម សេចក្តីជូនដំណឹង របស់ ធនាគារ ជាតិ ការដេញ...


Split data into train and test set

In [15]:
train, test = train_test_split(df, test_size=0.2, random_state=42)

In [16]:
# Save the training and testing data to text files for FastText
train['full_text'].to_csv('train.txt', index=False, header=False, sep='\n')
test['summary'].to_csv('test.txt', index=False, header=False, sep='\n')

Train Fasttext to learn the words Then Embedd the entire documents

In [None]:
import fasttext
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Train the FastText model on the full text
model = fasttext.train_unsupervised('train.txt')

# Save the trained model for later use
model.save_model('khmer_model.bin')

# Precompute article vectors only once
article_vectors = [model.get_sentence_vector(text) for text in df['full_text']]
article_vectors = np.array(article_vectors)  # Convert to numpy array for faster similarity calculation

Read 2M words
Number of words:  9680
Number of labels: 0
Progress: 100.0% words/sec/thread:  118675 lr:  0.000000 avg.loss:  2.175753 ETA:   0h 0m 0s


Evalute the model performance

In [18]:
correct_in_top10 = 0
not_cor = 0

# Iterate over each row in the test set
for _, row in test.iterrows():
    query_summary = row['summary']
    query_vector = model.get_sentence_vector(query_summary)
    similarities = cosine_similarity([query_vector], article_vectors)

    # Get indices of the top 10 most similar articles
    top_10_indices = similarities[0].argsort()[-10:][::-1]
    top_10_articles = df.iloc[top_10_indices]

    # Check if the label (name) of the current test article is in the top 10 articles
    top_10_labels = top_10_articles['name'].values
    if row['name'] in top_10_labels:
        correct_in_top10 += 1
    else:
        not_cor += 1

# Calculate the accuracy
accuracy = correct_in_top10 / len(test)
print(f"Retrieval@10 Accuracy: {accuracy * 100:.2f}")
print(not_cor)


Retrieval@10 Accuracy: 59.90
804
