In [11]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import re
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report



In [2]:

nepali_stopwords = set([
    'अनि', 'अहिले', 'अरू', 'अर्को', 'अब', 'आफ्नो', 'इत्यादि', 'उनि', 'उसले', 'एक', 'एउटा',
    'एउटै', 'ओ', 'कति', 'कसैले', 'कसैलाई', 'कसैसँग', 'कसै', 'कसैको', 'कसको', 'कहिले',
    'कि', 'के', 'को', 'कोही', 'कोहीलाई', 'कोहीसँग', 'कुन', 'कुनै', 'कृपया', 'गरेको',
    'गर्छ', 'गर्नु', 'गरे', 'गर्छु', 'गरेछ', 'गरेका', 'गए', 'गएका', 'गएर', 'चाहिन्छ',
    'चाहे', 'जब', 'जहाँ', 'जे', 'त', 'तपाईं', 'तपाइँ', 'तपाइँले', 'तर', 'तिनी', 'तिनीहरू',
    'तिनीहरूलाई', 'तिनीहरूका', 'तिनीहरूको', 'ती', 'तीन', 'त्यो', 'त्स्याइ', 'दिएको', 'दिएर',
    'दुई', 'देखि', 'न', 'नभएको', 'नभए', 'नत्र', 'नजिकै', 'नाम', 'निकै', 'पनि', 'पर्छ',
    'पढ्ने', 'पारेर', 'पहिले', 'पनि', 'परेको', 'प्रति', 'फेरि', 'बनेको', 'बन्छ', 'बरु',
    'बाहेक', 'भएको', 'भएकाले', 'भएर', 'भने', 'भन्ने', 'भन्नु', 'भयो', 'भइ', 'भइरहेको',
    'म', 'मलाई', 'मेरो', 'हामी', 'हामीले', 'हाम्रो', 'हुन्छ', 'हुन्', 'हो', 'होइन', 'हरु',
    'संग', 'सक्ने', 'सबै', 'साथै', 'सधैं', 'समेत', 'सो', 'सोही', 'साथ', 'सिर्फ', 'सोधेको',
    'हुनु', 'हुन', 'थियो', 'थिए', 'थिइन्', 'थिएन', 'थाल्यो', 'तथा'
])


In [3]:
# reading data from given path
df=pd.read_csv(r"archive (2).zip")
# Removing nto available data
df.dropna(subset=['Sentences'], inplace=True)
# Removing duplicated data
df.drop_duplicates(subset=['Sentences'], inplace=True)
print(df.columns)
# Clean Data
df.head()





Index(['Unnamed: 0', 'Sentences', 'Sentiment'], dtype='object')


Unnamed: 0.1,Unnamed: 0,Sentences,Sentiment
0,0,"म एक शिक्षक , शिक्षा क्षेत्रमा रमाएको मान्छे ।...",1
1,1,म सरकारी स्कूल/कलेजमा पढेर करीब १२ बर्ष भन्दा ...,1
2,2,कति राम्रो शिव मन्दिर देख्न पाइयो कुन ठाउको हो...,1
3,3,मारुनी भन्ने वितिकै सामान्य नाचनीमा आधारित कथा...,1
4,4,यो फ्लिम हेरिसकेपछी थाहा भयो कि किन दर्सकहरुले...,1


In [4]:
# Clean Data

def clean_text(text):
    text = str(text)
   
    text = re.sub(r"http\S+|www\S+|https\S+", '', text)  # Remove links
    text = re.sub(r"[a-zA-Z]", "", text)                 # Remove English letters
    text = re.sub(r"[^\u0900-\u097F\s]", "", text)       # Remove everything except Nepali and spaces
    # text = re.sub(r"\d+", "", text) # Remove digits
    text = re.sub(r"[^\u0900-\u097F\s]", "", text)  # Remove punctuation & emojis
    text = re.sub(r"[0-9\u0966-\u096F]+", "", text)  # Remove Nepali and English digits 
    text=re.sub(r"।","",text) # remove |
    text = re.sub(r'\s+', ' ', text).strip()             # Normalize spaces
    
    return text
# Cleaning
df['clean_text'] = df['Sentences'].apply(clean_text)


# Show cleaned data
print(df[['Sentences', 'clean_text', 'Sentiment']].head())

                                           Sentences  \
0  म एक शिक्षक , शिक्षा क्षेत्रमा रमाएको मान्छे ।...   
1  म सरकारी स्कूल/कलेजमा पढेर करीब १२ बर्ष भन्दा ...   
2  कति राम्रो शिव मन्दिर देख्न पाइयो कुन ठाउको हो...   
3  मारुनी भन्ने वितिकै सामान्य नाचनीमा आधारित कथा...   
4  यो फ्लिम हेरिसकेपछी थाहा भयो कि किन दर्सकहरुले...   

                                          clean_text  Sentiment  
0  म एक शिक्षक शिक्षा क्षेत्रमा रमाएको मान्छे साम...          1  
1  म सरकारी स्कूलकलेजमा पढेर करीब बर्ष भन्दा बढी ...          1  
2  कति राम्रो शिव मन्दिर देख्न पाइयो कुन ठाउको हो...          1  
3  मारुनी भन्ने वितिकै सामान्य नाचनीमा आधारित कथा...          1  
4  यो फ्लिम हेरिसकेपछी थाहा भयो कि किन दर्सकहरुले...          1  


In [5]:
# Tokenizing 
def tokenization(sentence):
    return sentence.split()
# Applying the tokenization function
df['token'] = df['clean_text'].apply(tokenization)
print(df[["clean_text","token"]].head())

                                          clean_text  \
0  म एक शिक्षक शिक्षा क्षेत्रमा रमाएको मान्छे साम...   
1  म सरकारी स्कूलकलेजमा पढेर करीब बर्ष भन्दा बढी ...   
2  कति राम्रो शिव मन्दिर देख्न पाइयो कुन ठाउको हो...   
3  मारुनी भन्ने वितिकै सामान्य नाचनीमा आधारित कथा...   
4  यो फ्लिम हेरिसकेपछी थाहा भयो कि किन दर्सकहरुले...   

                                               token  
0  [म, एक, शिक्षक, शिक्षा, क्षेत्रमा, रमाएको, मान...  
1  [म, सरकारी, स्कूलकलेजमा, पढेर, करीब, बर्ष, भन्...  
2  [कति, राम्रो, शिव, मन्दिर, देख्न, पाइयो, कुन, ...  
3  [मारुनी, भन्ने, वितिकै, सामान्य, नाचनीमा, आधार...  
4  [यो, फ्लिम, हेरिसकेपछी, थाहा, भयो, कि, किन, दर...  


In [6]:
# Stop word 
def remove_stopwords(tokens):
    return [word for word in tokens if word not in nepali_stopwords]

df['filtered_tokens'] = df['token'].apply(remove_stopwords)
print("Filtered token",df['filtered_tokens'])
print(df["filtered_tokens"].head())
# Show result
print(df[['Sentences', 'clean_text', 'token', 'filtered_tokens', 'Sentiment']].head())

Filtered token 0        [शिक्षक, शिक्षा, क्षेत्रमा, रमाएको, मान्छे, सा...
1        [सरकारी, स्कूलकलेजमा, पढेर, करीब, बर्ष, भन्दा,...
2        [राम्रो, शिव, मन्दिर, देख्न, पाइयो, ठाउको, होल...
3        [मारुनी, वितिकै, सामान्य, नाचनीमा, आधारित, कथा...
4        [यो, फ्लिम, हेरिसकेपछी, थाहा, किन, दर्सकहरुले,...
                               ...                        
35784    [कोरोना, भाइरसलाई, विश्व, स्वास्थ्य, संगठनले, ...
35785       [डब्ल्युएचओले, दियाेको, कोरोनाको, नयाँ, कोभिड]
35786           [कोरोना, भाइरस, संक्रमणको, औपचारिक, कोभिड]
35787    [विश्व, स्वास्थ्य, संगठन, डब्लुएचओ, ले, नोबल, ...
35788    [कोरोनाभाइरसका, सङ्क्रमणको, कोभिड, भनेर, विश्व...
Name: filtered_tokens, Length: 35732, dtype: object
0    [शिक्षक, शिक्षा, क्षेत्रमा, रमाएको, मान्छे, सा...
1    [सरकारी, स्कूलकलेजमा, पढेर, करीब, बर्ष, भन्दा,...
2    [राम्रो, शिव, मन्दिर, देख्न, पाइयो, ठाउको, होल...
3    [मारुनी, वितिकै, सामान्य, नाचनीमा, आधारित, कथा...
4    [यो, फ्लिम, हेरिसकेपछी, थाहा, किन, दर्सकहरुले,...
Name: fil

In [7]:
print(df['Sentiment'].dtype)
# Since Sentiment is already is in numerical value so we will not Perform LabelEncoder


int64


In [15]:
# model Training
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
# TfidfVectorizer convert text into numerical vectors
X = df['Sentences'] #Feature 
y = df['Sentiment'] # Label
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# Step 3: Vectorize the text using TF-IDF
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X_train)  # learn vocabulary from training data
X_test = vectorizer.transform(X_test)        # apply same transform to test data
# Train SVM
model = SVC(kernel='linear')
model.fit(X_train, y_train)


In [16]:
# Step 4: Predict and evaluate
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

Accuracy: 0.6460053169161886
Classification Report:
               precision    recall  f1-score   support

          -1       0.66      0.70      0.68      2878
           0       0.51      0.08      0.14      1141
           1       0.64      0.80      0.71      3128

    accuracy                           0.65      7147
   macro avg       0.61      0.53      0.51      7147
weighted avg       0.63      0.65      0.61      7147



In [30]:
# Testing the model
user_input = input("नेपाली वाक्य लेख्नुहोस्: ")  # Enter a Nepali sentence
user_vector = vectorizer.transform([user_input])
prediction = model.predict(user_vector)[0]

sentiment_map = {-1: "Negative (नकारात्मक)", 0: "Neutral (तटस्थ)", 1: "Positive (सकारात्मक)"}
print("पूर्वानुमान गरिएको भावना:", sentiment_map.get(prediction, "Unknown"))



नेपाली वाक्य लेख्नुहोस्:  आज कति बजे बैठक छ?


पूर्वानुमान गरिएको भावना: Neutral (तटस्थ)
