In [1]:
import pandas as pd

In [2]:
# -----------------------------
# File paths
# -----------------------------
train = "khmer_news_train.csv"
val  = "khmer_news_validation.csv"
test = "khmer_news_test.csv"

# Output files
train_tokenized = "khmer_news_train_tokenized.csv"
val_tokenized   = "khmer_news_val_tokenized.csv"
test_tokenized  = "khmer_news_test_tokenized.csv"

# -----------------------------
# Tokenization function
# -----------------------------
def tokenize_by_space(df, text_column="content"):
    """
    Tokenize the 'content' column by splitting text on spaces.
    
    Args:
        df (pd.DataFrame): input dataframe
        text_column (str): name of the column to tokenize
    
    Returns:
        pd.DataFrame: dataframe with tokenized content
    """
    df_copy = df.copy()
    # Split text by space and join back with space (clean)
    df_copy[text_column] = df_copy[text_column].apply(lambda x: " ".join(str(x).split()))
    return df_copy

# -----------------------------
# Load CSVs
# -----------------------------
train_df = pd.read_csv(train)
val_df   = pd.read_csv(val)
test_df  = pd.read_csv(test)

# -----------------------------
# Tokenize
# -----------------------------
train_df_tokenized = tokenize_by_space(train_df)
val_df_tokenized   = tokenize_by_space(val_df)
test_df_tokenized  = tokenize_by_space(test_df)

# -----------------------------
# Save tokenized CSVs
# -----------------------------
train_df_tokenized.to_csv(train_tokenized, index=False, encoding="utf-8")
val_df_tokenized.to_csv(val_tokenized, index=False, encoding="utf-8")
test_df_tokenized.to_csv(test_tokenized, index=False, encoding="utf-8")

print("✅ Tokenized CSVs saved successfully:")
print(train_tokenized, val_tokenized, test_tokenized)


✅ Tokenized CSVs saved successfully:
khmer_news_train_tokenized.csv khmer_news_val_tokenized.csv khmer_news_test_tokenized.csv


In [4]:
train_df_tokenized['content'][0]

'ភ្នំពេញ សម្តេច តេជោ ហ៊ុន សែន នាយក រដ្ឋមន្ត្រី នៃ កម្ពុជា បាន ព្រមាន ចាប់ខ្លួន លោក ចាន់ យ៉េត ប្រធាន គណបក្ស នគរ ប្រជាធិបតេយ្យ ដែល ដើរ យក លុយ ពី ប្រជាពលរដ្ឋ ជា ថ្នូរ នឹង ការជួយ ដោះស្រាយ បញ្ហា ដីធ្លី របស់ ពួកគេ នៅ តំបន់ បឹង ជង្រុក ក្នុង ស្រុក ម៉ាឡៃ ខេត្ត បន្ទាយមានជ័យ ជាមួយគ្នា នោះ សម្តេច ផ្តាំផ្ញើ ថា បើ មិន ចង់ ជាប់ គុក ដក ខ្លួន ចេញ ឱ្យ ឆ្ងាយ ក្នុង ពិធី ថ្លែង សារ ពិសេស ពាក់ព័ន្ធ ព្រឹត្តិការណ៍ សហគមន៍ វិច្ឆិកា និង សមិទ្ធផល កើត ពី នយោបាយ ឈ្នះ ឈ្នះ នៅ ថ្ងៃទី ខែធ្នូ ឆ្នាំ សម្តេច តេជោ ហ៊ុន សែន បាន ថ្លែង ថា សម្តេច មាន ភស្តុតាង គ្រប់គ្រាន់ សម្រាប់ ចាប់ខ្លួន លោក ចាន់ យ៉េត នៅ ពេលណា ក៏ បាន ដែរ តែ សម្តេច មិន ចង់ អនុវត្ត វិធានការ ភ្លាមៗ ដោយ ចង់ ទុក ពេល ឱ្យ លោក កែ ខ្លួន ដោយ ត្រូវ សង ប្រាក់ ទៅ ប្រជាពលរដ្ឋ វិញ ដើម្បី បញ្ចៀស ការចាប់ខ្លួន សម្តេច តេជោ មានប្រសាសន៍ ថា ខ្ញុំ សូម ឱ្យ លោក ចាន់ យ៉េត ដក ខ្លួន ឱ្យ ឆាប់ ចាន់ យ៉េត ជា ប្រធាន គណបក្ស នយោបាយ មួយ ស្ថិត នៅក្នុង ក្រុម ឧត្តម ក្រុមប្រឹក្សា ពិគ្រោះ និង ផ្តល់ យោបល់ ប៉ុន្តែ ដោយសារ ធ្វើ សកម្មភាព បំផ្លិចបំផ្លាញ ខ្ញុំ បាន ដក ចេញ ពី តំណែង បន្ទាប់ពី ដក ចេញដំណែង ចាន់ 