Cleaning

In [6]:
import pandas as pd
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer

df = pd.read_csv('sentiment.csv')

In [7]:
# Remove duplicate rows
df.drop_duplicates(inplace=True)

In [8]:
# Check for missing values
print(df.isnull().sum())

id                       0
title                    0
body                     0
notification_priority    0
dtype: int64


In [9]:
# Normalize text data by converting to lowercase
df['title'] = df['title'].str.lower()
df['body'] = df['body'].str.lower()

In [10]:
# Remove unwanted characters and punctuation
df['title'] = df['title'].apply(lambda x: re.sub(r'[^\w\s]', '', x))
df['body'] = df['body'].apply(lambda x: re.sub(r'[^\w\s]', '', x))

In [None]:
df.head()

Tokenization

In [15]:
# Import the necessary library
from indicnlp.tokenize import indic_tokenize

# Nepali text for tokenization
sample_text = "यो एउटा सानो परीक्षण हो। यसले शब्द विभाजन गर्न मद्दत पुर्‍याउँछ।"

# Tokenizing the text into words
tokens = list(indic_tokenize.trivial_tokenize(sample_text))

# Print the tokens
print("Original Text:")
print(sample_text)
print("\nTokens:")
print(tokens)

Original Text:
यो एउटा सानो परीक्षण हो। यसले शब्द विभाजन गर्न मद्दत पुर्‍याउँछ।

Tokens:
['यो', 'एउटा', 'सानो', 'परीक्षण', 'हो', '।', 'यसले', 'शब्द', 'विभाजन', 'गर्न', 'मद्दत', 'पुर्\u200dयाउँछ', '।']


In [16]:
# Multiple lines of Nepali text
texts = [
    "यो एउटा सानो परीक्षण हो।",
    "म मौसम सुन्दर भएकोले खुशी छु।",
    "शिक्षा सबैका लागि अनिवार्य हुनुपर्छ।"
]

# Tokenize each line
tokenized_texts = [list(indic_tokenize.trivial_tokenize(text)) for text in texts]

# Print tokenized lines
for i, tokens in enumerate(tokenized_texts, 1):
    print(f"Tokens for Line {i}: {tokens}")

Tokens for Line 1: ['यो', 'एउटा', 'सानो', 'परीक्षण', 'हो', '।']
Tokens for Line 2: ['म', 'मौसम', 'सुन्दर', 'भएकोले', 'खुशी', 'छु', '।']
Tokens for Line 3: ['शिक्षा', 'सबैका', 'लागि', 'अनिवार्य', 'हुनुपर्छ', '।']


In [18]:

# Load the dataset
# Replace 'your_dataset.csv' with your actual file name
df = pd.read_csv('sentiment.csv')

# Preview the dataset
print("Original Dataset:")
print(df.head())

# Tokenization for the 'title' and 'body' columns
df['title_tokens'] = df['title'].apply(lambda x: list(indic_tokenize.trivial_tokenize(x)))
df['body_tokens'] = df['body'].apply(lambda x: list(indic_tokenize.trivial_tokenize(x)))

# Display the tokenized columns
print("\nDataset with Tokenized Columns:")
print(df[['id', 'title_tokens', 'body_tokens', 'notification_priority']].head())

# Save the updated dataset to a new CSV file
df.to_csv('tokenized_dataset.csv', index=False, encoding='utf-8-sig')
print("\nTokenized dataset saved as 'tokenized_dataset.csv'.")


Original Dataset:
   id                               title  \
0   1  फाइभजी मा प्रधानमन्त्रीको नयाँ कदम   
1   2   नेपाल मा प्रधानमन्त्रीको नयाँ कदम   
2   3               चीन फाइनल खेलको तयारी   
3   4          चीन सम्बन्धमा नयाँ मस्यौदा   
4   5  एआई ले नयाँ उपकरण सार्वजनिक गर्‍यो   

                                                body  notification_priority  
0  नेपाल को भ्रमणले आर्थिक विकासको नयाँ ढोका खोल्...                      1  
1  क्रिकेट को निर्णयले व्यापक प्रतिक्रिया ल्याएको छ।                      1  
2   ओलम्पिक प्रतियोगितामा नेपालको ऐतिहासिक प्रदर्शन।                      0  
3    नेपाल को निर्णयले व्यापक प्रतिक्रिया ल्याएको छ।                      1  
4  ओलम्पिक मा एआई प्रविधिको प्रयोगले सुधार ल्याउन...                      0  

Dataset with Tokenized Columns:
   id                               title_tokens  \
0   1   [फाइभजी, मा, प्रधानमन्त्रीको, नयाँ, कदम]   
1   2    [नेपाल, मा, प्रधानमन्त्रीको, नयाँ, कदम]   
2   3                 [चीन, फाइनल, खेलको, तयारी]   
3 