**HASOC - sinhala**

In [None]:
import pandas as pd
import re
import csv

#####Accessing dataset through the drive

In [None]:
filename = '/content/drive/MyDrive/train_v2.csv'

try:
    train_data = pd.read_csv(filename, delimiter='\t')  # Load data as a DataFrame
except pd.errors.EmptyDataError:
    print("The file is empty or could not be loaded.")
except pd.errors.ParserError as e:
    print(f"Parser Error: {e}")

#####Preview of the dataset and understanding it

In [None]:
train_data.head()

Unnamed: 0,post_id,text,label
0,726758237668659201,@USER @USER පට්ට පට පට...,NOT
1,915618589855617026,පරණ කෑල්ල අද වෙනකම් හිටියනම් අදට අවුරුදු 4යි. ...,HOF
2,925001070430040065,යාළුවා කියලා හිතන් සර් ගේ ඔලුවට රෙද්ද දාලා නෙල...,NOT
3,1397219745707986955,හොඳ මිතුරියක් කතා කලා. විස්තර කතාකරමින් ඉදලා ම...,HOF
4,950376113150222336,"ඔය බනින්නෙ.. හරකා, මී හරකා කිය කිය...",HOF


In [None]:
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7500 entries, 0 to 7499
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   post_id  7500 non-null   int64 
 1   text     7500 non-null   object
 2   label    7500 non-null   object
dtypes: int64(1), object(2)
memory usage: 175.9+ KB


#####Cleaning the dataset by removing all mentions, hashtags and other language text.

In [None]:
def cleaning_text(df, text_field):
  df[text_field] = df[text_field].apply(lambda elem: re.sub(r"(@[A-Za-z0-9]+)|#|([A-Za-z0-9])|(\.+)|\t.+", "", elem))
  return df

In [None]:
train = cleaning_text(train_data, "text")

In [None]:
train

Unnamed: 0,post_id,text,label
0,726758237668659201,පට්ට පට පට,NOT
1,915618589855617026,පරණ කෑල්ල අද වෙනකම් හිටියනම් අදට අවුරුදු යි යා...,HOF
2,925001070430040065,යාළුවා කියලා හිතන් සර් ගේ ඔලුවට රෙද්ද දාලා නෙල...,NOT
3,1397219745707986955,හොඳ මිතුරියක් කතා කලා විස්තර කතාකරමින් ඉදලා මේ...,HOF
4,950376113150222336,"ඔය බනින්නෙ හරකා, මී හරකා කිය කිය",HOF
...,...,...,...
7495,930270216612872193,අද උදේ දැක්කා පට්ට ලස්සන හීනයක්,NOT
7496,1159471424613969921,කසල වෙන් කරලා දෙන්න පුරුදු වුනොත් වැඩේ ලේසි ...,NOT
7497,1073271775583100928,ඒත් පබාගේ පස්ස නම් ඉස්සෝ කොටුවක් උනත් දාන්න පු...,HOF
7498,1131018244733657088,සුදුවෑන්වලට මාරම මාර බයක් තියෙන ඈයෝ අන්තවාදයට...,HOF


In [None]:
#saving this in the drive only for the purpose of crosschecking if all the unnecessary info is removed
output_filename = 'train.csv'
train.to_csv(output_filename, index=False, encoding='utf-8')

#####NOT Removing stopwords

Spliting the clean data into 80-20 for training and testing

In [None]:
import pandas as pd

# Split the DataFrame into training and testing sets
train_1 = train.sample(frac=0.8, random_state=73)
test_1 = train.drop(train_1.index)

# Save the training and testing sets to CSV files
train_1.to_csv('train_1.csv', index=False)
test_1.to_csv('test_1.csv', index=False)

In [None]:
train_1

Unnamed: 0,post_id,text,label
1187,748888216367800321,ටහුඩු මම නම් වෝට් කරන්නේ නෑ,NOT
4990,711569238549368834,බැට් එකට වදින බෝලයක් බෝලයක් ගානේ පපුවෙ අමාරු හ...,NOT
5159,887722197552308228,යකෝ මගේ බඩුවක් ගන්න ගියා වගේනෙ !,NOT
913,1442439404404949000,බැන්දොත් බඳින්නෙ ඩේසිය වගේ නාකිවෙන්න වෙන්න කෑල...,HOF
5755,1127998077590106112,ඔබතුමා පාලනය අතට ගන්න අපට ඔබ විශ්වාසයි,NOT
...,...,...,...
4079,1132989248737427457,නෙදකින් මේ ගොනාගෙ කට ඉරියන් දවසින් දවස බෙල්ලෙ ...,NOT
4666,1058993267889459200,ඒක තැබිලි ගහක්දපොල් ගහක්ද මොනවද අයිසෙ ඔය බලන්න...,NOT
6988,1176489213732298753,පුදුම කාලකන්නි ටිකක් ඵනම් උන්ගෙ හිතෙ හමුදාව ක...,NOT
7137,936186031656730624,නැනේ අඩේ උඹට මතක ද? මම එනකං ඉන්නකොට...,NOT


In [None]:
test_1

Unnamed: 0,post_id,text,label
3,1397219745707986955,හොඳ මිතුරියක් කතා කලා විස්තර කතාකරමින් ඉදලා මේ...,HOF
7,715019979393863681,අඩො බර්ත්ඩේ එක දවසේ පු* පලාගන්න ආසද :,HOF
32,1137378811098484736,ෆෝන් එක ඔබ ඔබා ඉන්නෙ නැති එකක් දැක්කමද මංදා...,NOT
35,1164509759682351104,පුක කියන්නෙත් හොද මාර්කටින් ස්ට්‍රැජික් එකක් තමයි,HOF
38,1089761108985069569,ඩාලින් මම ඔයාටත් ෆේස් ස්ක්‍රබ් එකක් අරම් දෙන්...,NOT
...,...,...,...
7479,1054702134950879234,එකේ මැච් එක දෙනවා මැච් එකට වඩා පට්ට යන,NOT
7481,867028052135497728,", රෙන්න තියෙන පුක දෙන්නේ නෑ මල්ලී, පුක ආද...",HOF
7488,1121721686447902720,පළවෙනි එක අරලියගහ මන්දිරේ තියෙන්නෙ මේ වෙලාවෙ ...,NOT
7495,930270216612872193,අද උදේ දැක්කා පට්ට ලස්සන හීනයක්,NOT


In [None]:
#creating a label dictionary
from collections import defaultdict as ddict
import csv
label_dict1 = {
    'NOT':0,
    'HOF':1
}

In [None]:
#function for loading the dataset so that we only have the columns we need
def load_dataset(df="train_1.csv"):
  lines = []
  with open(df, "r") as f:
    reader = csv.reader(f)
    for line in reader:
      lines.append(line)
    tweet=[]
    label1 =[]
    dic_data = ddict(list)
    for (i,line) in enumerate(lines):
      if i==0:
        continue

      _tweet = line[1]
      _label1 = line[2]

      tweet.append(_tweet)
      label1.append(label_dict1[_label1])
    label_list1 = ["HOF", "NOT"]
    dic_data['tweet']=tweet
    dic_data['label1']=label1
    return dic_data,label_list1

In [None]:
train_d, label_list1= load_dataset()
print(train_d['label1'][:5])

[0, 0, 0, 1, 0]


#labeling the columns as X and Y

In [None]:
data = pd.DataFrame(
    {
        'X' : train_d['tweet'],
        'Y' : train_d['label1']
    }
)

# -----------------------------------------------------------------

In [None]:
import torch
!pip install transformers -q
!pip install tokenizers -q
!pip install datasets
from transformers import BertTokenizer, AutoTokenizer
from transformers import BertForSequenceClassification, AdamW, AutoModelForSequenceClassification
from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline

! pip install sentencepiece



loading a pretrained model and tokeniser of the same

In [None]:
tokenizer = AutoTokenizer.from_pretrained("keshan/SinhalaBERTo")
model = AutoModelForSequenceClassification.from_pretrained("keshan/SinhalaBERTo",num_labels=2)

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at keshan/SinhalaBERTo and are newly initialized: ['classifier.out_proj.weight', 'classifier.out_proj.bias', 'classifier.dense.bias', 'classifier.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
data

Unnamed: 0,X,Y
0,ටහුඩු මම නම් වෝට් කරන්නේ නෑ,0
1,බැට් එකට වදින බෝලයක් බෝලයක් ගානේ පපුවෙ අමාරු හ...,0
2,යකෝ මගේ බඩුවක් ගන්න ගියා වගේනෙ !,0
3,බැන්දොත් බඳින්නෙ ඩේසිය වගේ නාකිවෙන්න වෙන්න කෑල...,1
4,ඔබතුමා පාලනය අතට ගන්න අපට ඔබ විශ්වාසයි,0
...,...,...
5995,නෙදකින් මේ ගොනාගෙ කට ඉරියන් දවසින් දවස බෙල්ලෙ ...,0
5996,ඒක තැබිලි ගහක්දපොල් ගහක්ද මොනවද අයිසෙ ඔය බලන්න...,0
5997,පුදුම කාලකන්නි ටිකක් ඵනම් උන්ගෙ හිතෙ හමුදාව ක...,0
5998,නැනේ අඩේ උඹට මතක ද? මම එනකං ඉන්නකොට...,0


In [None]:
from torch.utils.data import Dataset, DataLoader
class Dataset(Dataset):
    def __init__(self, data, tokenizer, max_length):
        self.data = data
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index):
        text = self.data.iloc[index]['X']
        label = self.data.iloc[index]['Y']

        encoding = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,
            max_length=self.max_length,
            padding='max_length',
            truncation=True,
            return_tensors='pt'
        )

        input_ids = encoding['input_ids'].squeeze()
        attention_mask = encoding['attention_mask'].squeeze()

        return {
            'input_ids': input_ids,
            'attention_mask': attention_mask,
            'label': torch.tensor(label)
        }

In [None]:
df = pd.DataFrame(data)
df['max_token_count'] = df['X'].apply(lambda x: len(tokenizer.encode(x)))

# Find the maximum token count across all rows
max_tokens = df['max_token_count'].max()

print("Maximum token count:", max_tokens)
#=========================================================================================================

dataset = Dataset(data, tokenizer, max_length= max_tokens)

# Set device
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# Load the pre-trained model
model.to(device)

Maximum token count: 392


RobertaForSequenceClassification(
  (roberta): RobertaModel(
    (embeddings): RobertaEmbeddings(
      (word_embeddings): Embedding(52000, 768, padding_idx=1)
      (position_embeddings): Embedding(514, 768, padding_idx=1)
      (token_type_embeddings): Embedding(1, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): RobertaEncoder(
      (layer): ModuleList(
        (0-5): 6 x RobertaLayer(
          (attention): RobertaAttention(
            (self): RobertaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): RobertaSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (

In [None]:
# Set training parameters
batch_size = 16
learning_rate =  1e-6
epochs = 1

# Create data loader
data_loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

# Create optimizer and loss function
optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate)
loss_fn = torch.nn.CrossEntropyLoss()
#-----------------------------------------------------------------------training starts|

# Training loop
for epoch in range(epochs):
    total_loss = 0
    model.train()

    for batch in data_loader:
        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        labels = batch['label'].to(device)

        optimizer.zero_grad()

        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        logits = outputs.logits

        total_loss += loss.item()

        loss.backward()
        optimizer.step()

    avg_loss = total_loss / len(data_loader)
    print(f'Epoch {epoch + 1}/{epochs} - Loss: {avg_loss:.4f}')

Epoch 1/1 - Loss: 0.6360


In [None]:
save_directory = "/content/drive/MyDrive/sinhala_proj/model7"

In [None]:
model.save_pretrained(save_directory)

In [None]:
model_path = "/content/drive/MyDrive/sinhala_proj/model7"
model = AutoModelForSequenceClassification.from_pretrained(model_path)

In [None]:
#model = AutoModelForSequenceClassification.from_pretrained("/content/drive/MyDrive/sinhala_proj/model1")

In [None]:
import pandas as pd
import re
import csv

In [None]:
train_1

Unnamed: 0,post_id,text,label
1187,748888216367800321,ටහුඩු මම නම් වෝට් කරන්නේ නෑ,NOT
4990,711569238549368834,බැට් එකට වදින බෝලයක් බෝලයක් ගානේ පපුවෙ අමාරු හ...,NOT
5159,887722197552308228,යකෝ මගේ බඩුවක් ගන්න ගියා වගේනෙ !,NOT
913,1442439404404949000,බැන්දොත් බඳින්නෙ ඩේසිය වගේ නාකිවෙන්න වෙන්න කෑල...,HOF
5755,1127998077590106112,ඔබතුමා පාලනය අතට ගන්න අපට ඔබ විශ්වාසයි,NOT
...,...,...,...
4079,1132989248737427457,නෙදකින් මේ ගොනාගෙ කට ඉරියන් දවසින් දවස බෙල්ලෙ ...,NOT
4666,1058993267889459200,ඒක තැබිලි ගහක්දපොල් ගහක්ද මොනවද අයිසෙ ඔය බලන්න...,NOT
6988,1176489213732298753,පුදුම කාලකන්නි ටිකක් ඵනම් උන්ගෙ හිතෙ හමුදාව ක...,NOT
7137,936186031656730624,නැනේ අඩේ උඹට මතක ද? මම එනකං ඉන්නකොට...,NOT


In [None]:
test_1

Unnamed: 0,post_id,text,label
3,1397219745707986955,හොඳ මිතුරියක් කතා කලා විස්තර කතාකරමින් ඉදලා මේ...,HOF
7,715019979393863681,අඩො බර්ත්ඩේ එක දවසේ පු* පලාගන්න ආසද :,HOF
32,1137378811098484736,ෆෝන් එක ඔබ ඔබා ඉන්නෙ නැති එකක් දැක්කමද මංදා...,NOT
35,1164509759682351104,පුක කියන්නෙත් හොද මාර්කටින් ස්ට්‍රැජික් එකක් තමයි,HOF
38,1089761108985069569,ඩාලින් මම ඔයාටත් ෆේස් ස්ක්‍රබ් එකක් අරම් දෙන්...,NOT
...,...,...,...
7479,1054702134950879234,එකේ මැච් එක දෙනවා මැච් එකට වඩා පට්ට යන,NOT
7481,867028052135497728,", රෙන්න තියෙන පුක දෙන්නේ නෑ මල්ලී, පුක ආද...",HOF
7488,1121721686447902720,පළවෙනි එක අරලියගහ මන්දිරේ තියෙන්නෙ මේ වෙලාවෙ ...,NOT
7495,930270216612872193,අද උදේ දැක්කා පට්ට ලස්සන හීනයක්,NOT


In [None]:
from collections import defaultdict as ddict
import csv
label_dict1 = {
    'NOT':0,
    'HOF':1
}

In [None]:
def load_dataset(df="test_1.csv"):
  lines = []
  with open(df, "r") as f:
    reader = csv.reader(f)
    for line in reader:
      lines.append(line)
    tweet=[]
    label1 =[]
    dic_data = ddict(list)
    for (i,line) in enumerate(lines):
      if i==0:
        continue

      _tweet = line[1]
      _label1 = line[2]

      tweet.append(_tweet)
      label1.append(label_dict1[_label1])
    label_list1 = ["HOF", "NOT"]
    dic_data['tweet']=tweet
    dic_data['label1']=label1
    return dic_data,label_list1

In [None]:
test_d, label_list1= load_dataset()
print(test_d['label1'][:5])

[1, 1, 0, 1, 0]


In [None]:
datat = pd.DataFrame(
    {
        'X' : test_d['tweet'],
        'Y' : test_d['label1']
    }
)

In [None]:
datat

Unnamed: 0,X,Y
0,හොඳ මිතුරියක් කතා කලා විස්තර කතාකරමින් ඉදලා මේ...,1
1,අඩො බර්ත්ඩේ එක දවසේ පු* පලාගන්න ආසද :,1
2,ෆෝන් එක ඔබ ඔබා ඉන්නෙ නැති එකක් දැක්කමද මංදා...,0
3,පුක කියන්නෙත් හොද මාර්කටින් ස්ට්‍රැජික් එකක් තමයි,1
4,ඩාලින් මම ඔයාටත් ෆේස් ස්ක්‍රබ් එකක් අරම් දෙන්...,0
...,...,...
1495,එකේ මැච් එක දෙනවා මැච් එකට වඩා පට්ට යන,0
1496,", රෙන්න තියෙන පුක දෙන්නේ නෑ මල්ලී, පුක ආද...",1
1497,පළවෙනි එක අරලියගහ මන්දිරේ තියෙන්නෙ මේ වෙලාවෙ ...,0
1498,අද උදේ දැක්කා පට්ට ලස්සන හීනයක්,0


In [None]:
def get_accuracy(data_df, model, tokenizer, batch_size=16, device='cuda'):
    predicted_labels = []

    num_batches = (len(data_df) - 1) // batch_size + 1

    for i in range(num_batches):
        batch_texts = list(data_df['X'][i * batch_size: (i + 1) * batch_size])

        encoded_inputs = tokenizer.batch_encode_plus(batch_texts,
                                                     padding=True,
                                                     truncation=True,
                                                     max_length=508,
                                                     return_tensors='pt')

        with torch.no_grad():
            model.to(device)
            model_outputs = model(**encoded_inputs.to(device))

        batch_predicted_labels = torch.argmax(model_outputs.logits, dim=1)
        predicted_labels.extend(batch_predicted_labels.tolist())

    predicted_labels = predicted_labels[:len(data_df)]
    return np.array(predicted_labels)

In [None]:
# Label mapping
import numpy as np
from sklearn.metrics import accuracy_score, f1_score

predictions = get_accuracy(datat, model, tokenizer)

y = np.array(datat['Y'])
f1 = f1_score(y, predictions)
accuracy = accuracy_score(y, predictions)

print(f'Accuracy: {accuracy:.4f}')
print(f'F1 Score: {f1:.4f}')

Accuracy: 0.6193
F1 Score: 0.3787


In [None]:
import numpy as np

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
filename = '/content/drive/MyDrive/test - sinhala_test_data.csv'

try:
    test_data = pd.read_csv(filename, delimiter=',')
except pd.errors.EmptyDataError:
    print("The file is empty or could not be loaded.")
except pd.errors.ParserError as e:
    print(f"Parser Error: {e}")

In [None]:
test_data.head()

Unnamed: 0,post_id,text
0,task1a_test_1,ඔව් ඔව්.. තොපි ආදරේට කලොත් කරන්නෙ ඔහොම වැඩක් ත...
1,task1a_test_2,ඇයි උඹ අලි පු*න්ද? #SriLankanThreats
2,task1a_test_3,@USER @USER පක ටෝක් දෙන්න එපා
3,task1a_test_4,"මම නවය වසරේදී,පංති නායකයා කාලේ පංතියේ කොස්ස නැ..."
4,task1a_test_5,මේ ආන්ඩුවටනම් හෙන 7ම ගහන්න ඔනේ මුන්ට පේන්නෙ නැ...


In [None]:
test_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   post_id  2500 non-null   object
 1   text     2500 non-null   object
dtypes: object(2)
memory usage: 39.2+ KB


In [None]:
def cleaning_text(df, text_field):
  df[text_field] = df[text_field].apply(lambda elem: re.sub(r"(@[A-Za-z0-9]+)|#|([A-Za-z0-9])|(\.+)|\t.+", "", elem))
  return df

In [None]:
test_clean = cleaning_text(test_data, "text")

In [None]:
test_clean

Unnamed: 0,post_id,text
0,task1a_test_1,ඔව් ඔව් තොපි ආදරේට කලොත් කරන්නෙ ඔහොම වැඩක් තමයි
1,task1a_test_2,ඇයි උඹ අලි පු*න්ද?
2,task1a_test_3,පක ටෝක් දෙන්න එපා
3,task1a_test_4,"මම නවය වසරේදී,පංති නායකයා කාලේ පංතියේ කොස්ස නැ..."
4,task1a_test_5,මේ ආන්ඩුවටනම් හෙන ම ගහන්න ඔනේ මුන්ට පේන්නෙ නැද...
...,...,...
2495,task1a_test_2496,රටක ආර්ථිකය කෙලෙසපු මොළකරු පට්ට හොරෙක් ! ...
2496,task1a_test_2497,හරකා මොකා උනත් අවසානෙ මසට යාලු
2497,task1a_test_2498,තොපි වගේ කාළකන්නි මාධ්‍ය ආයතන තහනම් කරන එක තම...
2498,task1a_test_2499,රියැදුරු බලපත්‍ර නිකුත් කිරීම ඇතුළු සියලු කටයු...


In [None]:
import nltk
from nltk.corpus import stopwords
import requests
stopwords_url = "https://raw.githubusercontent.com/nlpcuom/Sinhala-Stopword-list/master/stop%20words.txt"
response = requests.get(stopwords_url)
stop_words_sinhala = set(response.text.splitlines())
stop_words_sinhala

{'අතර',
 'අන්න',
 'අනුව',
 'අනේ',
 'අඳෝ',
 'අපොයි',
 'අපෝ',
 'අයියෝ',
 'අයුරින්',
 'අයුරු',
 'අරබයා',
 'අහා',
 'ආ',
 'ආයි',
 'ආහ්',
 'ඇති',
 'ඇතුලු',
 'ඇතුළු',
 'ඇයි',
 'ඉක්බිති',
 'ඉතා',
 'ඉතින්',
 'ඉඳුරා',
 'උදෙසා',
 'ඌයි',
 'එ',
 'එනමුත්',
 'එනිසා',
 'එබැවින්',
 'එම',
 'එම්බල',
 'එම්බා',
 'එහෙත්',
 'එහෙන්',
 'එහේ',
 'ඒ',
 'ඔන්න',
 'ඕහෝ',
 'ක',
 'කලී',
 'ක්',
 'කිම',
 'කිම්',
 'ගානෙ',
 'ගැන',
 'ගේ',
 'චික්',
 'චිහ්',
 'චී',
 'ට',
 'තව',
 'තව ',
 'තවත්',
 'තාක්',
 'තුරා',
 'තුරාවට',
 'තුරු',
 'තුලින්',
 'තුවක්',
 'තුළ',
 'තෙක්',
 'ද',
 'දක්වා',
 'දැනට',
 'දැන්',
 'දී',
 'දෝ',
 'දෝහෝ',
 'නම්',
 'නමුත්',
 'නව',
 'නෑ',
 'නිතර',
 'නිති',
 'නිතිත්',
 'නිතොර',
 'නිසා',
 'නිසාවෙන්',
 'නොහොත්',
 'පටන්',
 'පතා',
 'පමණ',
 'පමණින්',
 'පමන',
 'පරිදි',
 'පවා',
 'පාසා',
 'පිණිස',
 'පිළිබඳ',
 'පිළිබඳව',
 'පුන',
 'බඳු',
 'බව',
 'බවට',
 'බවත්',
 'බවද',
 'බවෙන්',
 'බැවින්',
 'බොල',
 'බොහෝ',
 'ම',
 'මගින්',
 'මත',
 'මන්ද',
 'මහ',
 'මහා',
 'මිස',
 'මුත්',
 'මෙතෙක්',
 'මෙන්',
 'මෙන්න',
 'මෙම',
 'මෙයින්',


In [None]:
def remove_stopwords(df, text_field, stop_words_set):
    df[text_field] = df[text_field].apply(lambda text: ' '.join([word for word in text.split() if word not in stop_words_set]))
    return df
test = remove_stopwords(test_clean, 'text', stop_words_sinhala)
print(test)

               post_id                                               text
0        task1a_test_1    ඔව් ඔව් තොපි ආදරේට කලොත් කරන්නෙ ඔහොම වැඩක් තමයි
1        task1a_test_2                                     උඹ අලි පු*න්ද?
2        task1a_test_3                                  පක ටෝක් දෙන්න එපා
3        task1a_test_4  මම නවය වසරේදී,පංති නායකයා කාලේ පංතියේ කොස්ස නැ...
4        task1a_test_5  ආන්ඩුවටනම් හෙන ගහන්න ඔනේ මුන්ට පේන්නෙ නැද්ද යක...
...                ...                                                ...
2495  task1a_test_2496           රටක ආර්ථිකය කෙලෙසපු මොළකරු පට්ට හොරෙක් !
2496  task1a_test_2497                     හරකා මොකා උනත් අවසානෙ මසට යාලු
2497  task1a_test_2498  තොපි වගේ කාළකන්නි මාධ්‍ය ආයතන තහනම් කරන එක තමය...
2498  task1a_test_2499  රියැදුරු බලපත්‍ර නිකුත් කිරීම සියලු කටයුතු ලබන...
2499  task1a_test_2500  නොදකින් අම්මගෙන් බැනුම් අහගෙන පාඩම් නොකර මැච් ...

[2500 rows x 2 columns]


In [None]:
#saving this in the drive only for the purpose of crosschecking if all the unnecessary info is removed
output_filename = 'test.csv'
test.to_csv(output_filename, index=False, encoding='utf-8')

In [None]:
from collections import defaultdict as ddict
import csv
label_dict1 = {
    'NOT':0,
    'HOF':1
}

In [None]:
def load_dataset(df="test.csv"):
  lines = []
  with open(df, "r") as f:
    reader = csv.reader(f)
    for line in reader:
      lines.append(line)
    tweet=[]
    #label1 =[]
    dic_data = ddict(list)
    for (i,line) in enumerate(lines):
      if i==0:
        continue

      _tweet = line[1]
     # _label1 = line[3]

      tweet.append(_tweet)
      #label1.append(label_dict1[_label1])
    label_list1 = ["HOF", "NOT"]
    dic_data['tweet']=tweet
    #dic_data['label1']=label1
    return dic_data

In [None]:
test_d = load_dataset()
print(test_d['tweet'][:5])

['ඔව් ඔව් තොපි ආදරේට කලොත් කරන්නෙ ඔහොම වැඩක් තමයි', 'උඹ අලි පු*න්ද?', 'පක ටෝක් දෙන්න එපා', 'මම නවය වසරේදී,පංති නායකයා කාලේ පංතියේ කොස්ස නැති වුනු වෙලාවේ,කොස්ස ගෙනාව එකා රෙද්ද උස්සන් එද්දි, මං නායකකමින් ඉල්ලා අස්වුනා මතකයි!', 'ආන්ඩුවටනම් හෙන ගහන්න ඔනේ මුන්ට පේන්නෙ නැද්ද යකෝ නැගෙනහිර ඉඩම්වලට වෙනදේ මට්ටයන්ටයි දෙමලුන්ටයි විතරද? අම්මගෙ රෙද්දෙ සන්හිදියාව']


In [None]:
tdata = pd.DataFrame(
    {
        'X' : test_d['tweet'],
    }
)

In [None]:
tdata

Unnamed: 0,X
0,ඔව් ඔව් තොපි ආදරේට කලොත් කරන්නෙ ඔහොම වැඩක් තමයි
1,උඹ අලි පු*න්ද?
2,පක ටෝක් දෙන්න එපා
3,"මම නවය වසරේදී,පංති නායකයා කාලේ පංතියේ කොස්ස නැ..."
4,ආන්ඩුවටනම් හෙන ගහන්න ඔනේ මුන්ට පේන්නෙ නැද්ද යක...
...,...
2495,රටක ආර්ථිකය කෙලෙසපු මොළකරු පට්ට හොරෙක් !
2496,හරකා මොකා උනත් අවසානෙ මසට යාලු
2497,තොපි වගේ කාළකන්නි මාධ්‍ය ආයතන තහනම් කරන එක තමය...
2498,රියැදුරු බලපත්‍ර නිකුත් කිරීම සියලු කටයුතු ලබන...


In [None]:
predictions = get_accuracy(tdata, model, tokenizer)
predictions

array([1, 1, 1, ..., 1, 0, 1])

In [None]:
import csv

label_dict = {
    0: 'NOT',
    1: 'HOF'
}

input_csv_path = "test.csv"
output_csv_path = "final_predictions.csv"

with open(input_csv_path, 'r') as input_csv, open(output_csv_path, 'w', newline='') as output_csv:
    csv_reader = csv.reader(input_csv)
    csv_writer = csv.writer(output_csv)

    header = next(csv_reader)
    header.append("Predictions")
    csv_writer.writerow(header)

    for row, prediction in zip(csv_reader, predictions):
        mapped_label = label_dict[prediction]
        row.append(mapped_label)
        csv_writer.writerow(row)

print("Predictions added to the CSV with labels successfully.")

Predictions added to the CSV with labels successfully.


In [None]:
import csv


column_to_delete = 1

input_csv_path = "final_predictions.csv"
output_csv_path = "final_predictions_1.csv"

with open(input_csv_path, 'r') as input_csv, open(output_csv_path, 'w', newline='') as output_csv:
    csv_reader = csv.reader(input_csv)
    csv_writer = csv.writer(output_csv)

    for row in csv_reader:
        if column_to_delete < len(row):
            del row[column_to_delete]

        csv_writer.writerow(row)

print("Column deleted and CSV saved successfully.")


Column deleted and CSV saved successfully.
