### 1. Load the dataset

In [1]:
import pandas as pd
df = pd.read_csv(r'D:/JantakoAwaj-FYP/jka-ml-model/dataset/final_balanced_dataset.csv')
# display the first 1000 rows of the dataframe to check the data
df.head(10)

Unnamed: 0,SNo,Brief Description of the grievance,Category,Label
0,1,Mero ghar ko aagan ma dhulo dherai aauchha. Dh...,Environment,not_genuine
1,2,Mero galli ma hidda mero chhaya dherai lamo bh...,Public Infrastructure,not_genuine
2,3,वडा नं. १६ नवोदित स्कुल नजिकै द्याबु मार्गमा व...,नगर प्रहरी,genuine
3,4,नदीमा माछाहरू धेरै छन्। यिनीहरूले पानी फोहोर ग...,Environment,not_genuine
4,5,३१ वडा पञ्चकुमारी मन्दिर निरकाे खालि जग्गामा ...,नगर प्रहरी,genuine
5,6,I'm a student of nepal police school samakhusi...,शिक्षा,genuine
6,7,The school playground has grass. My daughter p...,Education,not_genuine
7,8,Mero pakhalu janawar le mero kapada khaidiyo. ...,Agriculture and Livestock,not_genuine
8,9,Aakash ma indreni niklenna. Aja indreni nikali...,Environment,not_genuine
9,10,मेरो बाख्राले अरुको खेतमा गएर घास खान्छ। उसलाई...,Agriculture and Livestock,not_genuine


### 2. handling missing values using
 - isnull().sum() -> to see how many missing values are present in the dataset
 - dropna() -> to drop missing values 

In [2]:
# to see how many missing values
print("Missing values in each column:")
print(df.isnull().sum())
# there are 25 missing values in the dataset column ['Brief Description of the grievance']
print('Shape of the dataframe before dropping missing values', df.shape)
print(' ')
# to drop missing values
print("Dropping rows with missing values in 'Brief Description of the grievance' column")
df.dropna(subset=['Brief Description of the grievance'], inplace=True)
print(df.isnull().sum())
print('Shape of the dataframe after dropping missing values', df.shape)



Missing values in each column:
SNo                                    0
Brief Description of the grievance    25
Category                               0
Label                                  0
dtype: int64
Shape of the dataframe before dropping missing values (9899, 4)
 
Dropping rows with missing values in 'Brief Description of the grievance' column
SNo                                   0
Brief Description of the grievance    0
Category                              0
Label                                 0
dtype: int64
Shape of the dataframe after dropping missing values (9874, 4)


In [3]:
print("Data types:")
print(df['Brief Description of the grievance'].apply(type).value_counts())
print("\nSample data:")
print(df['Brief Description of the grievance'].head(10))

Data types:
Brief Description of the grievance
<class 'str'>    9874
Name: count, dtype: int64

Sample data:
0    Mero ghar ko aagan ma dhulo dherai aauchha. Dh...
1    Mero galli ma hidda mero chhaya dherai lamo bh...
2    वडा नं. १६ नवोदित स्कुल नजिकै द्याबु मार्गमा व...
3    नदीमा माछाहरू धेरै छन्। यिनीहरूले पानी फोहोर ग...
4     ३१ वडा पञ्चकुमारी मन्दिर निरकाे खालि जग्गामा ...
5    I'm a student of nepal police school samakhusi...
6    The school playground has grass. My daughter p...
7    Mero pakhalu janawar le mero kapada khaidiyo. ...
8    Aakash ma indreni niklenna. Aja indreni nikali...
9    मेरो बाख्राले अरुको खेतमा गएर घास खान्छ। उसलाई...
Name: Brief Description of the grievance, dtype: object


### 3. lowercasing the texts

In [4]:
# astype() method returns a new DataFrame where the data types has been changed to the specified type.
df['cleaned_text'] = df['Brief Description of the grievance'].astype(str).str.lower() # .str.lower() is usedto lowercase strings in a column in Pandas dataframe

print(df[['Brief Description of the grievance', 'cleaned_text']].head(3000))

                     Brief Description of the grievance  \
0     Mero ghar ko aagan ma dhulo dherai aauchha. Dh...   
1     Mero galli ma hidda mero chhaya dherai lamo bh...   
2     वडा नं. १६ नवोदित स्कुल नजिकै द्याबु मार्गमा व...   
3     नदीमा माछाहरू धेरै छन्। यिनीहरूले पानी फोहोर ग...   
4      ३१ वडा पञ्चकुमारी मन्दिर निरकाे खालि जग्गामा ...   
...                                                 ...   
3007  प्रज्ञा प्रतिष्ठान को पुर्व पट्टि जथाभावि पार्...   
3008  मेरो बारीको मुलाले बोल्दैन। यसलाई बोल्न सिकाउन...   
3009  I am a resident of Balaju, Ganga hall and kind...   
3010  बानेश्वर चोकमा रहेको माहविर स्विटले बासी कुइएक...   
3011     ढलको ढकनी धेरै भारी छ। यसलाई हलुका बनाउनुपर्छ।   

                                           cleaned_text  
0     mero ghar ko aagan ma dhulo dherai aauchha. dh...  
1     mero galli ma hidda mero chhaya dherai lamo bh...  
2     वडा नं. १६ नवोदित स्कुल नजिकै द्याबु मार्गमा व...  
3     नदीमा माछाहरू धेरै छन्। यिनीहरूले पानी फोहोर ग...  
4

### 4. using regEx to further clean

In [None]:
import re

def clean_text(text):
    # Remove basic punctuation (keep Nepali/Unicode letters)
    text = re.sub(r'[!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]', '', text)
    # Remove only English digits, preserve Nepali numerals
    text = re.sub(r'[0-9]+', '', text)
    # Remove HTML tags
    text = re.sub(r'<.*?>', '', text)
    # Remove emojis
    emoji_pattern = re.compile(
        "["
        u"\U0001F600-\U0001F64F" # emoticons (Matches Unicode characters from U+1F600 to U+1F64F, which include smiley faces, winking faces, and other emoticon-like characters)
        u"\U0001F300-\U0001F5FF" # symbols & pictographs (Matches characters from U+1F300 to U+1F5FF, including weather symbols, food, animals, and other pictographs)
        u"\U0001F680-\U0001F6FF" # transport & map (Matches characters from U+1F680 to U+1F6FF, covering transport-related symbols like cars, planes, and map symbols)
        u"\U0001F1E0-\U0001F1FF" # flags (iOS) (Matches regional indicator symbols from U+1F1E0 to U+1F1FF, which are used to represent country flags)
        "]+", flags=re.UNICODE)
    text = emoji_pattern.sub(r'', text)
    # Remove URLs
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    # Remove multiple spaces
    text = re.sub(r'\s+', ' ', text).strip()
    return text
# Apply the cleaning function to the 'cleaned_text' column
df['cleaned_text'] = df['cleaned_text'].apply(clean_text)
print(df[['Brief Description of the grievance', 'cleaned_text']].head(3000))


                     Brief Description of the grievance  \
0     Mero ghar ko aagan ma dhulo dherai aauchha. Dh...   
1     Mero galli ma hidda mero chhaya dherai lamo bh...   
2     वडा नं. १६ नवोदित स्कुल नजिकै द्याबु मार्गमा व...   
3     नदीमा माछाहरू धेरै छन्। यिनीहरूले पानी फोहोर ग...   
4      ३१ वडा पञ्चकुमारी मन्दिर निरकाे खालि जग्गामा ...   
...                                                 ...   
3007  प्रज्ञा प्रतिष्ठान को पुर्व पट्टि जथाभावि पार्...   
3008  मेरो बारीको मुलाले बोल्दैन। यसलाई बोल्न सिकाउन...   
3009  I am a resident of Balaju, Ganga hall and kind...   
3010  बानेश्वर चोकमा रहेको माहविर स्विटले बासी कुइएक...   
3011     ढलको ढकनी धेरै भारी छ। यसलाई हलुका बनाउनुपर्छ।   

                                           cleaned_text  
0     mero ghar ko aagan ma dhulo dherai aauchha. dh...  
1     mero galli ma hidda mero chhaya dherai lamo bh...  
2     वडा नं. १६ नवोदित स्कुल नजिकै द्याबु मार्गमा व...  
3     नदीमा माछाहरू धेरै छन्। यिनीहरूले पानी फोहोर ग...  
4

In [6]:
#checking whether the cleaning function works as expected and not cleaning the  Nepali characters which are useful
# not needed for the code to run, just used for debugging
import unicodedata

sample = df['Brief Description of the grievance'].iloc[0]
print("Original:", sample)
print("Cleaned:", clean_text(sample))

for char in sample:
    print(f"{char} --> {unicodedata.name(char, 'UNKNOWN')} ({unicodedata.category(char)})")

Original: Mero ghar ko aagan ma dhulo dherai aauchha. Dhulo lai rokna paryo.
Cleaned: Mero ghar ko aagan ma dhulo dherai aauchha. Dhulo lai rokna paryo.
M --> LATIN CAPITAL LETTER M (Lu)
e --> LATIN SMALL LETTER E (Ll)
r --> LATIN SMALL LETTER R (Ll)
o --> LATIN SMALL LETTER O (Ll)
  --> SPACE (Zs)
g --> LATIN SMALL LETTER G (Ll)
h --> LATIN SMALL LETTER H (Ll)
a --> LATIN SMALL LETTER A (Ll)
r --> LATIN SMALL LETTER R (Ll)
  --> SPACE (Zs)
k --> LATIN SMALL LETTER K (Ll)
o --> LATIN SMALL LETTER O (Ll)
  --> SPACE (Zs)
a --> LATIN SMALL LETTER A (Ll)
a --> LATIN SMALL LETTER A (Ll)
g --> LATIN SMALL LETTER G (Ll)
a --> LATIN SMALL LETTER A (Ll)
n --> LATIN SMALL LETTER N (Ll)
  --> SPACE (Zs)
m --> LATIN SMALL LETTER M (Ll)
a --> LATIN SMALL LETTER A (Ll)
  --> SPACE (Zs)
d --> LATIN SMALL LETTER D (Ll)
h --> LATIN SMALL LETTER H (Ll)
u --> LATIN SMALL LETTER U (Ll)
l --> LATIN SMALL LETTER L (Ll)
o --> LATIN SMALL LETTER O (Ll)
  --> SPACE (Zs)
d --> LATIN SMALL LETTER D (Ll)
h --> L

In [7]:
print(df['cleaned_text'].isnull().sum())

0


### 5. tokenization using word_tokenize from nltk

In [8]:
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt') # nltk.download('punkt') #punkt is a pretrained tokenizer model that NLTK uses for sentence and word tokenization.
#It knows where to split text into words and sentences even when punctuation or abbreviations are present. It's not a typical algorithim but a resource file that works well with word_tokenize.
nltk.download('punkt_tab') #word_tokenize (and sent_tokenize) rely on the 'punkt' resource, but recent versions of NLTK (since v3.8.1, late 2023) split language-specific data into separate files, including punkt_tab.


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ASUS\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\ASUS\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [9]:
#checking the paths where NLTK looks for its data files (not needed for the code to run, just used for debugging)
import nltk
print("NLTK data paths:")
print(nltk.data.path)

# Test if punkt is accessible
try:
    nltk.data.find('tokenizers/punkt')
    print("Punkt found!")
except LookupError:
    print("Punkt not found in NLTK data paths.")

NLTK data paths:
['C:\\Users\\ASUS/nltk_data', 'd:\\jka-ml\\nltk_data', 'd:\\jka-ml\\share\\nltk_data', 'd:\\jka-ml\\lib\\nltk_data', 'C:\\Users\\ASUS\\AppData\\Roaming\\nltk_data', 'C:\\nltk_data', 'D:\\nltk_data', 'E:\\nltk_data']
Punkt found!


In [10]:
def tokenize_text(text):
    return word_tokenize(text)
df['tokenized_text'] = df['cleaned_text'].apply(tokenize_text)

print(df[['cleaned_text', 'tokenized_text']].head(3000))

                                           cleaned_text  \
0     mero ghar ko aagan ma dhulo dherai aauchha. dh...   
1     mero galli ma hidda mero chhaya dherai lamo bh...   
2     वडा नं. १६ नवोदित स्कुल नजिकै द्याबु मार्गमा व...   
3     नदीमा माछाहरू धेरै छन्। यिनीहरूले पानी फोहोर ग...   
4     ३१ वडा पञ्चकुमारी मन्दिर निरकाे खालि जग्गामा ल...   
...                                                 ...   
3007  प्रज्ञा प्रतिष्ठान को पुर्व पट्टि जथाभावि पार्...   
3008  मेरो बारीको मुलाले बोल्दैन। यसलाई बोल्न सिकाउन...   
3009  i am a resident of balaju, ganga hall and kind...   
3010  बानेश्वर चोकमा रहेको माहविर स्विटले बासी कुइएक...   
3011     ढलको ढकनी धेरै भारी छ। यसलाई हलुका बनाउनुपर्छ।   

                                         tokenized_text  
0     [mero, ghar, ko, aagan, ma, dhulo, dherai, aau...  
1     [mero, galli, ma, hidda, mero, chhaya, dherai,...  
2     [वडा, नं, ., १६, नवोदित, स्कुल, नजिकै, द्याबु,...  
3     [नदीमा, माछाहरू, धेरै, छन्।, यिनीहरूले, पानी, ...  
4

### 6. stopwords removal using nltk stopwords corpus and custom stop words for pure Nepali and romanized Nepali

In [11]:
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ASUS\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [12]:
# setting stopwords for English, Nepali and Romanized Nepali

#english stopwords from nltk
english_stopwords = set(stopwords.words('english'))

#nepali stopwords defining
nepali_stopwords=set([
    'अझै', 'अधिक', 'अन्य', 'अन्यत्र', 'अन्यथा', 'अब', 'अरु', 'अरुलाई', 'अर्को', 'अर्थात', 
    'अर्थात्', 'अलग', 'आए', 'आजको', 'आत्म', 'आदि', 'आफू', 'आफूलाई', 'आफै', 'आफैलाई', 
    'आफैले', 'आफ्नै', 'आफ्नो', 'आयो', 'उनको', 'उनले', 'उनि', 'उनी', 'उनीहरु', 'उप', 
    'उसलाई', 'उस्तै', 'उहाँ', 'उहालाई', 'ऊ', 'एउटै', 'एक', 'एकदम', 'ओठ', 'औं', 
    'कतै', 'कसरी', 'कसै', 'कसैले', 'कस्तो', 'कहाँ', 'कहाँबाट', 'कहिले', 'कहिलेकाहीं', 'का', 
    'कि', 'किन', 'किनभने', 'कुनै', 'कुरा', 'कृपया', 'के', 'केवल', 'केहि', 'केही', 
    'को', 'कोही', 'गए', 'गयौ', 'गर', 'गरि', 'गरी', 'गरे', 'गरेका', 'गरेको', 
    'गरेर', 'गरौं', 'गर्छ', 'गर्छु', 'गर्दछ', 'गर्दै', 'गर्न', 'गर्नु', 'गर्नुपर्छ', 'गर्ने', 
    'गर्नेछन्', 'गर्नेछौ', 'गैर', 'चार', 'चाले', 'चाहनुहुन्छ', 'चाहन्छु', 'चाहन्छौ', 'चाहन्छौं', 'चाहन्थे', 
    'चाहिए', 'छ', 'छन्', 'छु', 'छू', 'छैन', 'छौं', 'जब', 'जबकि', 'जसको', 
    'जसबाट', 'जसमा', 'जसलाई', 'जसले', 'जस्तै', 'जस्तो', 'जहाँ', 'जान', 'जाहिर', 'जुन', 
    'जे', 'जो', 'ठीक', 'त', 'तत्काल', 'तथा', 'तदनुसार', 'तपाई', 'तपाईं', 'तपाईको', 
    'तर', 'तल', 'तापनी', 'तिनिहरुलाई', 'तिनी', 'तिनीहरुको', 'तिनीहरू', 'तिनीहरूको', 'तिमि', 'तिमी', 
    'तिमीसँग', 'तिम्रो', 'तिर', 'ती', 'तीन', 'तुरुन्तै', 'तेस्कारण', 'तेस्रो', 'त्यसपछि', 'त्यहाँ', 
    'त्यो', 'त्सपछि', 'त्सैले', 'थप', 'थिए', 'थिएन', 'थिएनन्', 'थियो', 'दिए', 'दिनुभएको', 
    'दिनुहुन्छ', 'दुई', 'दुबै', 'देखि', 'देखिन्छ', 'देखियो', 'देखे', 'देखेको', 'देखेर', 'दोस्रो', 
    'द्वारा', 'धेरै', 'न', 'नगर्नुहोस्', 'नजिकै', 'नत्र', 'नयाँ', 'नि', 'निम्ति', 'निम्न', 
    'नै', 'नौ', 'पक्का', 'पक्कै', 'पछि', 'पछिल्लो', 'पटक', 'पनि', 'पर्छ', 'पर्थ्यो', 
    'पर्याप्त', 'पहिले', 'पहिलो', 'पहिल्यै', 'पाँच', 'पाँचौं', 'पूर्व', 'प्रति', 'प्रतेक', 'प्रत्येक', 
    'प्लस', 'फेरि', 'फेरी', 'बने', 'बन्द', 'बरु', 'बाट', 'बारे', 'बारेमा', 'बाहिर', 
    'बाहेक', 'बिरुद्ध', 'बिशेष', 'बीच', 'बीचमा', 'भए', 'भएको', 'भन', 'भने', 'भन्', 
    'भन्छन्', 'भन्छु', 'भन्दा', 'भन्नुभयो', 'भन्ने', 'भर', 'भित्र', 'भित्री', 'म', 'मँ', 
    'मलाई', 'मा', 'मात्र', 'माथि', 'मार्फत', 'मुख्य', 'मेरो', 'मैले', 'यति', 'यथोचित', 
    'यदि', 'यद्यपि', 'यस', 'यसको', 'यसपछि', 'यसबाहेक', 'यसरी', 'यसैले', 'यसो', 'यस्तो', 
    'यहाँ', 'यहाँसम्म', 'या', 'यी', 'यो', 'र', 'रही', 'रहेका', 'रहेको', 'राखे', 
    'राख्छ', 'राम्रो', 'रूप', 'लगभग', 'लाई', 'लागि', 'ले', 'वरीपरी', 'वा', 'वास्तवमा', 
    'विरुद्ध', 'शायद', 'सकदिन', 'सकिएन', 'सक्छ', 'सक्दैन', 'संग', 'संगै', 'सट्टा', 'सधै', 
    'सबै', 'सबैलाई', 'समय', 'समयमा', 'सम्भव', 'सम्म', 'सही', 'साँच्चै', 'सात', 'साथ', 
    'साथै', 'सायद', 'सारा', 'सो', 'सोही', 'स्पष्ट', 'हरे', 'हरेक', 'हामी', 'हामीसँग', 
    'हाम्रो', 'हुँ', 'हुँदैन', 'हुन', 'हुनु', 'हुनुहुन्छ', 'हुने', 'हुनेछ', 'हुनेछु', 'हुन्', 
    'हुन्छ', 'हुन्थे', 'हो', 'होइन', 'हौं'
])

#romanized Nepali stopwords defining
romanized_nepali_stopwords = set([
    'aajhai', 'adhik', 'anya', 'anyatra', 'anyathaa', 'aba', 'aru', 'arulai', 'arko', 'arthat',
    'arthat', 'alag', 'aae', 'aajako', 'aatma', 'aadi', 'aafu', 'aafulai', 'aafai', 'aafailai',
    'aafaille', 'aafnai', 'aafno', 'aayo', 'unko', 'unle', 'uni', 'unii', 'uniiharu', 'upa',
    'uslai', 'ustai', 'uhaa', 'uhaalai', 'uu', 'ekutai', 'ek', 'ekdam', 'oth', 'aun',
    'katai', 'kasari', 'kasai', 'kasaile', 'kasto', 'kahaa', 'kahaanbaata', 'kahile', 'kahilekaahi', 'kaa',
    'ki', 'kina', 'kinabhane', 'kunai', 'kuraa', 'kripayaa', 'ke', 'kewal', 'kehi', 'kehi',
    'ko', 'kohi', 'gae', 'gayau', 'gara', 'gari', 'garii', 'gare', 'garekaa', 'gareko',
    'garera', 'garau', 'garchha', 'garchhu', 'gardacha', 'gardai', 'garna', 'garnu', 'garnuparchha', 'garne',
    'garnechhan', 'garnechhau', 'gaira', 'chaar', 'chaale', 'chaahanuhunchha', 'chaahanchhu', 'chaahanchhau', 'chaahanchhau', 'chaahanthe',
    'chaahie', 'chha', 'chhan', 'chhu', 'chhuu', 'chhaina', 'chhau', 'jaba', 'jabaki', 'jasko',
    'jasbaata', 'jasmaa', 'jaslai', 'jasle', 'jastai', 'jasto', 'jahaa', 'jaana', 'jaahir', 'juna',
    'je', 'jo', 'thiik', 'ta', 'tatkaal', 'tathaa', 'tadanusaar', 'tapaai', 'tapaaii', 'tapaaiiko',
    'tara', 'tala', 'taapani', 'tiniharulai', 'tinii', 'tiniharuko', 'tiniharuu', 'tiniharuuko', 'timi', 'timii',
    'timiisanga', 'timro', 'tira', 'tii', 'tiin', 'turuntai', 'teskaraan', 'tesro', 'tyaspachhi', 'tyahaa',
    'tyo', 'tspachhi', 'tsaile', 'thapa', 'thie', 'thiena', 'thienan', 'thiyo', 'die', 'dinubhaeko',
    'dinuhunchha', 'duui', 'dubai', 'dekhi', 'dekhinchha', 'dekhiyo', 'dekhe', 'dekheko', 'dekhera', 'dosro',
    'dwaaraa', 'dherai', 'na', 'nagarnuhos', 'najikai', 'natra', 'nayaa', 'ni', 'nimti', 'nimna',
    'nai', 'nau', 'pakkaa', 'pakkai', 'pachhi', 'pachhillo', 'patak', 'pani', 'parchha', 'parthyo',
    'paryaapta', 'pahile', 'pahilo', 'pahilyai', 'paanch', 'paanchau', 'purwa', 'prati', 'pratek', 'pratyek',
    'plasa', 'pheri', 'pherii', 'bane', 'banda', 'baru', 'baata', 'baare', 'baaremaa', 'baahira',
    'baaheka', 'biruddha', 'bishesha', 'biich', 'biichmaa', 'bhae', 'bhaeko', 'bhana', 'bhane', 'bhan',
    'bhanchhan', 'bhanchhu', 'bhandaa', 'bhannubhayo', 'bhanne', 'bhara', 'bhitra', 'bhitrii', 'ma', 'ma',
    'malai', 'maa', 'maatra', 'maathi', 'maarphata', 'mukhya', 'mero', 'maile', 'yati', 'yathochita',
    'yadi', 'yadyapi', 'yasa', 'yasko', 'yaspachhi', 'yasbaaheka', 'yasari', 'yasaile', 'yaso', 'yasto',
    'yahaa', 'yahaasamma', 'yaa', 'yii', 'yo', 'ra', 'rahi', 'rahekaa', 'raheko', 'raakhe',
    'raakhchha', 'raamro', 'ruup', 'lagabhaga', 'lai', 'laagi', 'le', 'wariipari', 'waa', 'waastawamaa',
    'wiruddha', 'shayada', 'sakadina', 'sakiena', 'sakchha', 'sakdaina', 'sanga', 'sangai', 'satta', 'sadhai',
    'sabai', 'sabaile', 'samaya', 'samayamaa', 'sambhawa', 'samma', 'sahi', 'saachchai', 'saata', 'saatha',
    'saathai', 'saayada', 'saaraa', 'so', 'sohi', 'spashta', 'hare', 'hareka', 'haami', 'haamisanga',
    'haamro', 'hu', 'hundaina', 'huna', 'hunu', 'hunuhunchha', 'hune', 'hunechha', 'hunechhu', 'hun',
    'hunchha', 'hunthe', 'ho', 'hoina', 'hau'
])

# Combining all the stopwords into a single set
comnbined_stopwords_set = english_stopwords.union(nepali_stopwords).union(romanized_nepali_stopwords)

In [13]:
# Applying the stopwords removal to the tokenized text
def remove_stopwords(tokens):
    filtered_tokens = [word for word in tokens if word not in comnbined_stopwords_set] 
    return filtered_tokens

df['stopword_removed_tokens'] = df['tokenized_text'].apply(remove_stopwords)

print(df[['tokenized_text', 'stopword_removed_tokens']].head(3000))

                                         tokenized_text  \
0     [mero, ghar, ko, aagan, ma, dhulo, dherai, aau...   
1     [mero, galli, ma, hidda, mero, chhaya, dherai,...   
2     [वडा, नं, ., १६, नवोदित, स्कुल, नजिकै, द्याबु,...   
3     [नदीमा, माछाहरू, धेरै, छन्।, यिनीहरूले, पानी, ...   
4     [३१, वडा, पञ्चकुमारी, मन्दिर, निरकाे, खालि, जग...   
...                                                 ...   
3007  [प्रज्ञा, प्रतिष्ठान, को, पुर्व, पट्टि, जथाभाव...   
3008  [मेरो, बारीको, मुलाले, बोल्दैन।, यसलाई, बोल्न,...   
3009  [i, am, a, resident, of, balaju, ,, ganga, hal...   
3010  [बानेश्वर, चोकमा, रहेको, माहविर, स्विटले, बासी...   
3011  [ढलको, ढकनी, धेरै, भारी, छ।, यसलाई, हलुका, बना...   

                                stopword_removed_tokens  
0     [ghar, aagan, dhulo, aauchha, ., dhulo, rokna,...  
1     [galli, hidda, chhaya, lamo, bhayo, ., chhaya,...  
2     [वडा, नं, ., १६, नवोदित, स्कुल, द्याबु, मार्गम...  
3     [नदीमा, माछाहरू, छन्।, यिनीहरूले, पानी, फोहोर,...  
4

In [14]:
# saving the preprocessed dataframe to a new CSV file
import pickle
df_to_save = df[['Brief Description of the grievance', 'cleaned_text', 'stopword_removed_tokens', 'Label']]
df_to_save.to_pickle(r'D:/JantakoAwaj-FYP/jka-ml-model/dataset/preprocessed_data.pkl', protocol=pickle.HIGHEST_PROTOCOL) #pickle.HIGHEST_PROTOCOL is a constant that refers to the most efficient and latest protocol available for our Python version.