In [1]:
import re
import csv
import nltk
import keras
import string
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from nltk.tokenize import word_tokenize
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.text import Tokenizer



In [2]:
df_path = '/kaggle/input/7-classes-sinhala-original-dataset/7 Classes (Original Dataset).csv'
stop_words = '/kaggle/input/stop-words/stop words.txt'
stem_dictionary = '/kaggle/input/stem-dictionary/stem_dictionary.txt'

In [3]:
df = pd.read_csv(df_path)

In [4]:
df.head()

Unnamed: 0,Class Index,Paragraph
0,1,බැරේරා ශූරතාව සඳහා මොරාල්ස් අභිබවා යයි කෙසේ හෝ...
1,1,Ajax අවසානයේ Trabelsi සමඟ එකඟතාවයකට පැමිණේ ඇම්...
2,1,Steelers' Burress to miss Game With Jets (AP) ...
3,1,Mutombo පවසන්නේ ඔහු #39 රොකට් වලට වෙළඳාම් කරන ...
4,1,Ancira I-10 Chrysler Jeep Kia (ක්‍රීඩා ජාලය) -...


## Cleaning paragraph (Tokenizing, Removing punctuations, Removing non-Latin characters)

In [5]:
def clean_text(text):
    tokens = nltk.word_tokenize(text)
    regex = re.compile(u'[^\u0D80-\u0DFF]', re.UNICODE)
    tokens = [regex.sub('', w) for w in tokens]
    tokens = [c for c in tokens if c not in string.punctuation]
    return tokens

In [6]:
df['Cleaned Paragraph'] = df['Paragraph'].apply(lambda x: clean_text(x))
df.head()

Unnamed: 0,Class Index,Paragraph,Cleaned Paragraph
0,1,බැරේරා ශූරතාව සඳහා මොරාල්ස් අභිබවා යයි කෙසේ හෝ...,"[බැරේරා, ශූරතාව, සඳහා, මොරාල්ස්, අභිබවා, යයි, ..."
1,1,Ajax අවසානයේ Trabelsi සමඟ එකඟතාවයකට පැමිණේ ඇම්...,"[අවසානයේ, සමඟ, එකඟතාවයකට, පැමිණේ, ඇම්ස්ටර්ඩෑම්..."
2,1,Steelers' Burress to miss Game With Jets (AP) ...,"[ලබන්නා, වන, බ්රහස්පතින්දා, උගුරේ, අමාරුවක්, ස..."
3,1,Mutombo පවසන්නේ ඔහු #39 රොකට් වලට වෙළඳාම් කරන ...,"[පවසන්නේ, ඔහු, රොකට්, වලට, වෙළඳාම්, කරන, බවයි,..."
4,1,Ancira I-10 Chrysler Jeep Kia (ක්‍රීඩා ජාලය) -...,"[ක්රීඩා, ජාලය, හදිසියේම, අරගල, කරන, ලොස්, ඇන්ජ..."


## Removing Stopwords

In [7]:
stopwordsreader = open(stop_words, 'r', encoding='utf-8')
reader = csv.reader(stopwordsreader)

swords = []
for row in reader:
    swords.append(row[0])
print(swords)

['සහ', 'සමග', 'සමඟ', 'අහා', 'ආහ්', 'ආ', 'ඕහෝ', 'අනේ', 'අඳෝ', 'අපොයි', 'අපෝ', 'අයියෝ', 'ආයි', 'ඌයි', 'චී', 'චිහ්', 'චික්', 'හෝ\u200d', 'දෝ', 'දෝහෝ', 'මෙන්', 'සේ', 'වැනි', 'බඳු', 'වන්', 'අයුරු', 'අයුරින්', 'ලෙස', 'වැඩි', 'ශ්\u200dරී', 'හා', 'ය', 'නිසා', 'නිසාවෙන්', 'බවට', 'බව', 'බවෙන්', 'නම්', 'වැඩි', 'සිට', 'දී', 'මහා', 'මහ', 'පමණ', 'පමණින්', 'පමන', 'වන', 'විට', 'විටින්', 'මේ', 'මෙලෙස', 'මෙයින්', 'ඇති', 'ලෙස', 'සිදු', 'වශයෙන්', 'යන', 'සඳහා', 'මගින්', 'හෝ\u200d', 'ඉතා', 'ඒ', 'එම', 'ද', 'අතර', 'විසින්', 'සමග', 'පිළිබඳව', 'පිළිබඳ', 'තුළ', 'බව', 'වැනි', 'මහ', 'මෙම', 'මෙහි', 'මේ', 'වෙත', 'වෙතින්', 'වෙතට', 'වෙනුවෙන්', 'වෙනුවට', 'වෙන', 'ගැන', 'නෑ', 'අනුව', 'නව', 'පිළිබඳ', 'විශේෂ', 'දැනට', 'එහෙන්', 'මෙහෙන්', 'එහේ', 'මෙහේ', 'ම', 'තවත්', 'තව ', 'සහ', 'දක්වා', 'ට', 'ගේ', 'එ', 'ක', 'ක්', 'බවත්', 'බවද', 'මත', 'ඇතුලු', 'ඇතුළු', 'මෙසේ', 'වඩා', 'වඩාත්ම', 'නිති', 'නිතිත්', 'නිතොර', 'නිතර', 'ඉක්බිති', 'දැන්', 'යලි', 'පුන', 'ඉතින්', 'සිට', 'සිටන්', 'පටන්', 'තෙක්', 'දක්වා', 'සා', 'තාක්', 'තුවක්', 'පවා', 'ද

In [8]:
def remove_stop_words(tokens):
    regex = re.compile(u'[^\u0D80-\u0DFF]', re.UNICODE)
    tokens = [regex.sub('', w) for w in tokens]
    tokens = [c for c in tokens if c not in string.punctuation]
    return tokens

In [9]:
df['Stopwords Removed (Paragraph)'] = df['Cleaned Paragraph'].apply(lambda x: remove_stop_words(x))
df.head()

Unnamed: 0,Class Index,Paragraph,Cleaned Paragraph,Stopwords Removed (Paragraph)
0,1,බැරේරා ශූරතාව සඳහා මොරාල්ස් අභිබවා යයි කෙසේ හෝ...,"[බැරේරා, ශූරතාව, සඳහා, මොරාල්ස්, අභිබවා, යයි, ...","[බැරේරා, ශූරතාව, සඳහා, මොරාල්ස්, අභිබවා, යයි, ..."
1,1,Ajax අවසානයේ Trabelsi සමඟ එකඟතාවයකට පැමිණේ ඇම්...,"[අවසානයේ, සමඟ, එකඟතාවයකට, පැමිණේ, ඇම්ස්ටර්ඩෑම්...","[අවසානයේ, සමඟ, එකඟතාවයකට, පැමිණේ, ඇම්ස්ටර්ඩෑම්..."
2,1,Steelers' Burress to miss Game With Jets (AP) ...,"[ලබන්නා, වන, බ්රහස්පතින්දා, උගුරේ, අමාරුවක්, ස...","[ලබන්නා, වන, බ්රහස්පතින්දා, උගුරේ, අමාරුවක්, ස..."
3,1,Mutombo පවසන්නේ ඔහු #39 රොකට් වලට වෙළඳාම් කරන ...,"[පවසන්නේ, ඔහු, රොකට්, වලට, වෙළඳාම්, කරන, බවයි,...","[පවසන්නේ, ඔහු, රොකට්, වලට, වෙළඳාම්, කරන, බවයි,..."
4,1,Ancira I-10 Chrysler Jeep Kia (ක්‍රීඩා ජාලය) -...,"[ක්රීඩා, ජාලය, හදිසියේම, අරගල, කරන, ලොස්, ඇන්ජ...","[ක්රීඩා, ජාලය, හදිසියේම, අරගල, කරන, ලොස්, ඇන්ජ..."


## Stemming

In [10]:
stem_dict = open(stem_dictionary, "r", encoding='utf-8')
stem_dict = map(lambda s: s.strip(), stem_dict)

stem_dictionary = {}

for s in stem_dict:
    s = s.split("\t")
    stem_dictionary[s[0]] = s[1]

In [11]:
def stemming_words(tokens):
    for k, v in enumerate(tokens):
        tokens[k] = stem_dictionary.get(v, v)
    tokens = " ".join([c for c in tokens if c not in string.punctuation])
    return tokens

In [12]:
df['Stemming Words (Paragraph)'] = df['Stopwords Removed (Paragraph)'].apply(lambda x: stemming_words(x))
df.head()

Unnamed: 0,Class Index,Paragraph,Cleaned Paragraph,Stopwords Removed (Paragraph),Stemming Words (Paragraph)
0,1,බැරේරා ශූරතාව සඳහා මොරාල්ස් අභිබවා යයි කෙසේ හෝ...,"[බැරේරා, ශූරතාව, සඳහා, මොරාල්ස්, අභිබවා, යයි, ...","[බැරේරා, ශූරතා, සඳහා, මොරාල්ස්, අභිබවා, යයි, ක...",බැරේරා ශූරතා සඳහා මොරාල්ස් අභිබවා යයි කෙසේ හෝ ...
1,1,Ajax අවසානයේ Trabelsi සමඟ එකඟතාවයකට පැමිණේ ඇම්...,"[අවසානයේ, සමඟ, එකඟතාවයකට, පැමිණේ, ඇම්ස්ටර්ඩෑම්...","[අවසානය, සමඟ, එකඟතාවය, පැමිණේ, ඇම්ස්ටර්ඩෑම්, න...",අවසානය සමඟ එකඟතාවය පැමිණේ ඇම්ස්ටර්ඩෑම් නෙදර්ලන...
2,1,Steelers' Burress to miss Game With Jets (AP) ...,"[ලබන්නා, වන, බ්රහස්පතින්දා, උගුරේ, අමාරුවක්, ස...","[ලබන්නා, වන, බ්රහස්පතින්දා, උගුර, අමාරුවක, සමඟ...",ලබන්නා වන බ්රහස්පතින්දා උගුර අමාරුවක සමඟ පුහුණ...
3,1,Mutombo පවසන්නේ ඔහු #39 රොකට් වලට වෙළඳාම් කරන ...,"[පවසන්නේ, ඔහු, රොකට්, වලට, වෙළඳාම්, කරන, බවයි,...","[පවසන්නේ, ඔහු, රොකට්, වලට, වෙළඳාම, කරන, බව, උප...",පවසන්නේ ඔහු රොකට් වලට වෙළඳාම කරන බව උපස්ථ කරනු...
4,1,Ancira I-10 Chrysler Jeep Kia (ක්‍රීඩා ජාලය) -...,"[ක්රීඩා, ජාලය, හදිසියේම, අරගල, කරන, ලොස්, ඇන්ජ...","[ක්රීඩා, ජාලය, හදිසියේ, අරගල, කරන, ලොස්, ඇන්ජල...",ක්රීඩා ජාලය හදිසියේ අරගල කරන ලොස් ඇන්ජලීස් ක්ල...


In [13]:
df.drop(df.columns[[1, 2, 3]], axis=1, inplace=True)
df.head()

Unnamed: 0,Class Index,Stemming Words (Paragraph)
0,1,බැරේරා ශූරතා සඳහා මොරාල්ස් අභිබවා යයි කෙසේ හෝ ...
1,1,අවසානය සමඟ එකඟතාවය පැමිණේ ඇම්ස්ටර්ඩෑම් නෙදර්ලන...
2,1,ලබන්නා වන බ්රහස්පතින්දා උගුර අමාරුවක සමඟ පුහුණ...
3,1,පවසන්නේ ඔහු රොකට් වලට වෙළඳාම කරන බව උපස්ථ කරනු...
4,1,ක්රීඩා ජාලය හදිසියේ අරගල කරන ලොස් ඇන්ජලීස් ක්ල...


In [14]:
df = df.rename(columns={'Class Index': 'Labels', 'Stemming Words (Paragraph)': 'Paragraph'})

In [15]:
df.head()

Unnamed: 0,Labels,Paragraph
0,1,බැරේරා ශූරතා සඳහා මොරාල්ස් අභිබවා යයි කෙසේ හෝ ...
1,1,අවසානය සමඟ එකඟතාවය පැමිණේ ඇම්ස්ටර්ඩෑම් නෙදර්ලන...
2,1,ලබන්නා වන බ්රහස්පතින්දා උගුර අමාරුවක සමඟ පුහුණ...
3,1,පවසන්නේ ඔහු රොකට් වලට වෙළඳාම කරන බව උපස්ථ කරනු...
4,1,ක්රීඩා ජාලය හදිසියේ අරගල කරන ලොස් ඇන්ජලීස් ක්ල...


## Saving new preprocessed dataframe to CSV

In [16]:
df.to_csv('7 Classes (Preprocessed Dataset).csv', index=False)

## Splitting dataset to train and test

In [17]:
df = pd.read_csv('/kaggle/working/7 Classes (Preprocessed Dataset).csv')

In [18]:
df.head()

Unnamed: 0,Labels,Paragraph
0,1,බැරේරා ශූරතා සඳහා මොරාල්ස් අභිබවා යයි කෙසේ හෝ ...
1,1,අවසානය සමඟ එකඟතාවය පැමිණේ ඇම්ස්ටර්ඩෑම් නෙදර්ලන...
2,1,ලබන්නා වන බ්රහස්පතින්දා උගුර අමාරුවක සමඟ පුහුණ...
3,1,පවසන්නේ ඔහු රොකට් වලට වෙළඳාම කරන බව උපස්ථ කරනු...
4,1,ක්රීඩා ජාලය හදිසියේ අරගල කරන ලොස් ඇන්ජලීස් ක්ල...


In [19]:
# Split the data into training and testing sets (e.g., 80% train, 20% test)
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

In [20]:
# Save the training and testing sets as separate CSV files
train_df.to_csv('train.csv', index=False)
test_df.to_csv('test.csv', index=False)