In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [5]:
data = pd.read_csv('../artifacts/comment_dataset.csv',keep_default_na=False)

In [6]:
print(data['label'].unique())

['BaseballBat' 'HitAndRun' 'LipKissing' 'BombExplotionInPublic'
 'KillCowWithKnife' 'None']


In [7]:
data.shape

(17548, 3)

In [8]:
data.head()

Unnamed: 0,id,comment,label
0,1,"මෑන් අයිඩීක් ඔබේ පරිගණක පිරිවිතර මොනවාද, නමුත්...",BaseballBat
1,2,සහෝදරයා ඔබට වෙව්ට කළේ කුමක්ද?,BaseballBat
2,3,දුප්පත් විල්ලෙයි,BaseballBat
3,4,බ්රෝ කුරිරු යක්ෂයා බවට පත් විය,BaseballBat
4,5,අපොයි.,BaseballBat


In [9]:
data.tail(20)

Unnamed: 0,id,comment,label
17528,17529,mahinda රජරාජපක්ෂ,
17529,17530,ස්‍රෙස්ට හදවතෙ විරොදාර සිංහනායකයා,
17530,17531,,
17531,17532,ගෞරවය දැක්වීම,
17532,17533,,
17533,17534,ජෙසෙයි,
17534,17535,මාගර් නයකෝයාතනන්ද හෝරා කියියා නදී අගගරු කරන්,
17535,17536,,
17536,17537,ඇඩටාටාටා මෙනා පුල්ඩු පුපුරාන් ඩා කලන්නි තනාකික...,
17537,17538,පාට පක්ශ මොකක්උනත් මේගෞරවය නම් ලැබියයුතුමයී,


## Data Preporcessing

In [10]:
import re #text pattern matching
import string

In [11]:
data.shape

(17548, 3)

In [12]:
data.duplicated().sum()

np.int64(0)

In [13]:
data.shape


(17548, 3)

In [14]:
data.isnull().sum()

id         0
comment    0
label      0
dtype: int64

#### Remove English Characters in comment

In [15]:
def remove_english(text):
    return re.sub(r'[a-zA-Z]', '', str(text)) # Remove englsih characters
data['comment'] = data['comment'].apply(remove_english)

#### Remove duplicates based on comment

In [16]:
data.drop_duplicates(subset=['comment'], inplace=True)

In [17]:
data.duplicated().sum()

np.int64(0)

In [18]:
data.isnull().sum()

id         0
comment    0
label      0
dtype: int64

#### Remove links

In [19]:
data["comment"] = data['comment'].apply(lambda x: " ".join(re.sub(r'^https?:\/\/.*[\r\n]*', '', x, flags=re.MULTILINE) for x in x.split()))

#### Remove Punctuation

In [20]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [21]:
def remove_punctuations(text):
    for punctuation in string.punctuation:
        text = text.replace(punctuation, '')
    return text

data["comment"] = data["comment"].apply(remove_punctuations)

In [22]:
data.head()

Unnamed: 0,id,comment,label
0,1,මෑන් අයිඩීක් ඔබේ පරිගණක පිරිවිතර මොනවාද නමුත් ...,BaseballBat
1,2,සහෝදරයා ඔබට වෙව්ට කළේ කුමක්ද,BaseballBat
2,3,දුප්පත් විල්ලෙයි,BaseballBat
3,4,බ්රෝ කුරිරු යක්ෂයා බවට පත් විය,BaseballBat
4,5,අපොයි,BaseballBat


#### Remove Numbers

In [23]:
data["comment"] = data['comment'].str.replace('\d+', '', regex=True)

In [None]:
data.tail(60)

Unnamed: 0,id,comment,label
17469,17470,මහින්ද හොරකම් නොකලානම් සුපිරි මිනිහෙක් දරුවන්ට...,
17470,17471,අනේ මෙතුමා වයසට නොගියානම්,
17471,17472,දූෂිත කුණු කැබැල්ලක්,
17473,17474,මට අයිටයි නායක නායක කියානාන්,
17474,17475,අපේ සැබෑ සිංහයා අපි අපේ රජුට ආදරෙයි,
17475,17476,ආශ්චර්යමත් නළුවා,
17476,17477,එය අ,
17477,17478,සංචාරක ආනවා,
17478,17479,අපි නෑ කිව්වොත් ඒක නෑ තමයි අපි කරනවා කිව්වොත් ...,
17480,17481,නූතන දුටුගුමුනු,


#### Remove non sinhala words

In [None]:
def remove_non_sinhala(text):
    return re.sub(r'[^\u0D80-\u0DFF\s]', '', str(text)) #Keep only Unicode range for Sinhala

data['comment'] = data['comment'].apply(remove_non_sinhala)



In [None]:
data.tail(20)

Unnamed: 0,id,comment,label
17525,17526,පළමු දිනයට යටින්,
17526,17527,යුද්ධෙන් පස්සේ සිද්ධි කොහොම වුණත් ඒ එඩිතර කොන්...,
17527,17528,සාර්ථක පැල්ල්වොලොන් නාසය,
17528,17529,රජරාජපක්ෂ,
17529,17530,ස්රෙස්ට හදවතෙ විරොදාර සිංහනායකයා,
17531,17532,ගෞරවය දැක්වීම,
17533,17534,ජෙසෙයි,
17534,17535,මාගර් නයකෝයාතනන්ද හෝරා කියියා නදී අගගරු කරන්,
17536,17537,ඇඩටාටාටා මෙනා පුල්ඩු පුපුරාන් ඩා කලන්නි තනාකික...,
17537,17538,පාට පක්ශ මොකක්උනත් මේගෞරවය නම් ලැබියයුතුමයී,


#### Remove Stop Words

In [27]:
sinhala_stopwords = set("""
සහ සමග සමඟ අහා ආහ් ආ ඕහෝ අනේ අඳෝ අපොයි අපෝ අයියෝ ආයි ඌයි චී චිහ් චික් හෝ‍ දෝ දෝහෝ මෙන්
සේ වැනි බඳු වන් අයුරු අයුරින් ලෙස වැඩි ශ්‍රී හා ය නිසා නිසාවෙන් බවට බව බවෙන් නම් වැඩි සිටදී මහා මහ
පමණ පමණින් පමන වන විට විටින් මේ මෙලෙස මෙයින් ඇති ලෙස සිදු වශයෙන් යන සඳහා මගින් හෝ‍ ඉතා ඒ එම ද
අතර විසින් සමග පිළිබඳව පිළිබඳ තුළ බව වැනි මහ මෙම මෙහි මේ වෙත වෙතින් වෙතට වෙනුවෙන් වෙනුවට
වෙන ගැන නෑ අනුව නව පිළිබඳ විශේෂ දැනට එහෙන් මෙහෙන් එහේ මෙහේ ම තවත් තව දක්වා ට ගේ එ ක ක්
බවත් බවද මත ඇතුලු ඇතුළු මෙසේ වැඩි වඩා වඩාත්ම නිති නිතිත් නිතොර නිතර ඉක්බිති දැන් යලි පුන ඉතින් සිට
සිටන් පටන් තෙක් දක්වා සා තාක් තුවක් පවා ද හෝ‍ වත් විනා හැර මිස මුත් කිම කිම් ඇයි මන්ද හෙවත් නොහොත්
පතා පාසා ගානෙ තව ඉතා බොහෝ වහා සෙද සැනින් හනික එම්බා එම්බල බොල නම් වනාහි කලී ඉඳුරා අන්න ඔන්න
මෙන්න උදෙසා පිණිස සඳහා අරබයා නිසා එනිසා එබැවින් බැවින් හෙයින් සේක් සේක ගැන අනුව පරිදි විට තෙක්
මෙතෙක් මේතාක් තුරු තුරා තුරාවට තුලින් නමුත් එනමුත් වස් මෙන් ලෙස පරිදි එහෙත්
""".split())

def remove_sinhala_stopwords(text):
    words = str(text).split()
    filtered_words = [word for word in words if word not in sinhala_stopwords]
    return " ".join(filtered_words)


data['comment'] = data['comment'].apply(remove_sinhala_stopwords)



In [28]:
data.head()

Unnamed: 0,id,comment,label
0,1,මෑන් අයිඩීක් ඔබේ පරිගණක පිරිවිතර මොනවාද ඔබ නැව...,BaseballBat
1,2,සහෝදරයා ඔබට වෙව්ට කළේ කුමක්ද,BaseballBat
2,3,දුප්පත් විල්ලෙයි,BaseballBat
3,4,බ්රෝ කුරිරු යක්ෂයා පත් විය,BaseballBat
4,5,,BaseballBat


#### Drop rows with null values

In [29]:
data.dropna(subset=['comment'], inplace=True)

In [30]:
data.shape

(14296, 3)

#### Remove empty strings in comment

In [31]:
data = data[data['comment'].str.strip() != '']

In [32]:
data.shape

(14023, 3)

#### Reset Index

In [33]:
data.reset_index(drop=True, inplace=True)
data['id'] = data.index + 1 

In [34]:
data.tail(10)

Unnamed: 0,id,comment,label
14013,14014,නියම සිංහලයා,
14014,14015,මම තාලි වානරයා රාජු ඉනා පෙන්ඩා වෑෂිත කරු රගන් ...,
14015,14016,හමානුවෙන් ලබා දෙයි,
14016,14017,පචාලා නා,
14017,14018,නියාමා කොන්ඩැක් තියානාක් තියානාක් තියානා රාජ් ...,
14018,14019,හැරිම ලස්සන දවසක්,
14019,14020,ඔයා හරිම හොදයි,
14020,14021,ළමයා දක්ෂ ළමයෙක්,
14021,14022,මෙතන මාර ලස්සනයි,
14022,14023,ඔයා හොඳට ඉගෙන ගන්න,


#### Label Encoder

In [35]:
!pip install scikit-learn




[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [36]:
from sklearn.preprocessing import LabelEncoder #Convert categorical text labels into numerical values

label_encoder = LabelEncoder()
data['label_encoded'] = label_encoder.fit_transform(data['label']) 

In [37]:
print("Unique labels:", data['label'].unique())


Unique labels: ['BaseballBat' 'HitAndRun' 'LipKissing' 'BombExplotionInPublic'
 'KillCowWithKnife' 'None']


In [38]:
print("Label counts:\n", data['label'].value_counts())


Label counts:
 label
None                     2700
BaseballBat              2511
HitAndRun                2395
KillCowWithKnife         2244
BombExplotionInPublic    2186
LipKissing               1987
Name: count, dtype: int64


In [75]:
# Show all unique encoded labels
print("Unique encoded labels:", data['label_encoded'].unique())

# Show mapping from number → original label
label_mapping = dict(zip(label_encoder.transform(label_encoder.classes_), label_encoder.classes_))
print("Label Mapping:", label_mapping)


Unique encoded labels: [0 2 4 1 3 5]
Label Mapping: {np.int64(0): 'BaseballBat', np.int64(1): 'BombExplotionInPublic', np.int64(2): 'HitAndRun', np.int64(3): 'KillCowWithKnife', np.int64(4): 'LipKissing', np.int64(5): 'None'}


In [76]:
data.head()

Unnamed: 0,id,comment,label,label_encoded
0,1,මෑන් අයිඩීක් ඔබේ පරිගණක පිරිවිතර මොනවාද ඔබ නැව...,BaseballBat,0
1,2,සහෝදරයා ඔබට වෙව්ට කළේ කුමක්ද,BaseballBat,0
2,3,දුප්පත් විල්ලෙයි,BaseballBat,0
3,4,බ්රෝ කුරිරු යක්ෂයා පත් විය,BaseballBat,0
4,5,සහෝදරයා තම මිතුරා අපයෝජනය කරයි,BaseballBat,0


#### Save Preprocess Data

In [77]:
data.to_csv("../artifacts/preprocessed_comment_dataset.csv", index=False, encoding='utf-8-sig')