In [1]:
import pandas as pd
import string
import numpy as np
import re
import nepalitokenizers
import snowballstemmer

In [2]:
#create dataframe from csv file
df = pd.read_csv('Nepali_Dataset_New.csv')
print(df.shape)
df.head()

(4540, 2)


Unnamed: 0,News,Category
0,"\n﻿काठमाण्डौ, ६ असार । नेपाल ललितकला प्रज्ञा प...",politics
1,नेपालको आशा जीवितैकप्तान पारस खड्काले ब्याट र ...,sport
2,"\n﻿राजविराज, २६ फागुन । नेकपा एमालेलाई औद्योगि...",politics
3,"सामाजिक कार्यका लागि सुन्दरी""\nसौन्दर्य प्रतिय...",entertainment
4,"खराब प्रदर्शनपछि प्रशिक्षण पिच""महिला राष्ट्रिय...",sport


In [3]:
df['Category'].unique()

array(['politics', 'sport', 'entertainment', 'tech', 'business'],
      dtype=object)

### Text Cleaning and Stemming for Nepali Text

In [4]:
# Text cleaning function
def clean_text(text):
    # Remove non-Nepali characters
    cleaned_text = re.sub(r'[^\u0900-\u097F\s]', '', text)
    return cleaned_text.strip()

# Apply text cleaning
df['Cleaned_News'] = df['News'].apply(clean_text)

In [5]:
df.head()

Unnamed: 0,News,Category,Cleaned_News
0,"\n﻿काठमाण्डौ, ६ असार । नेपाल ललितकला प्रज्ञा प...",politics,काठमाण्डौ ६ असार । नेपाल ललितकला प्रज्ञा प्रति...
1,नेपालको आशा जीवितैकप्तान पारस खड्काले ब्याट र ...,sport,नेपालको आशा जीवितैकप्तान पारस खड्काले ब्याट र ...
2,"\n﻿राजविराज, २६ फागुन । नेकपा एमालेलाई औद्योगि...",politics,राजविराज २६ फागुन । नेकपा एमालेलाई औद्योगिक क्...
3,"सामाजिक कार्यका लागि सुन्दरी""\nसौन्दर्य प्रतिय...",entertainment,सामाजिक कार्यका लागि सुन्दरी\nसौन्दर्य प्रतियो...
4,"खराब प्रदर्शनपछि प्रशिक्षण पिच""महिला राष्ट्रिय...",sport,खराब प्रदर्शनपछि प्रशिक्षण पिचमहिला राष्ट्रिय ...


In [6]:
def sentence_tokenize(text):
    sentences = text.strip().split(u"।")
    sentences = [sentence.translate(str.maketrans('', '', string.punctuation)) for sentence in sentences]
    return sentences

def word_tokenize(sentence, new_punctuation=[]):
    punctuations = ['।', ',', ';', '?', '!', '—', '-', '.']
    if new_punctuation:
        punctuations = set(punctuations + new_punctuation)

    for punct in punctuations:
        sentence = ''.join(sentence.split(punct))

    return sentence

In [7]:
def tokenize_rows(row):
    text = row['Cleaned_News']
    sentences = sentence_tokenize(text)
    # print(sentences)
    cleaned_sentence_list = []
    
    for sentence in sentences:
        words = word_tokenize(sentence)
        cleaned_sentence_list.append(words)

    cleaned_sentence = ''.join(cleaned_sentence_list)

    return cleaned_sentence

In [8]:
df['Cleaned_News'] = df.apply(tokenize_rows, axis=1)

In [9]:
df.head()

Unnamed: 0,News,Category,Cleaned_News
0,"\n﻿काठमाण्डौ, ६ असार । नेपाल ललितकला प्रज्ञा प...",politics,काठमाण्डौ ६ असार नेपाल ललितकला प्रज्ञा प्रतिष...
1,नेपालको आशा जीवितैकप्तान पारस खड्काले ब्याट र ...,sport,नेपालको आशा जीवितैकप्तान पारस खड्काले ब्याट र ...
2,"\n﻿राजविराज, २६ फागुन । नेकपा एमालेलाई औद्योगि...",politics,राजविराज २६ फागुन नेकपा एमालेलाई औद्योगिक क्ष...
3,"सामाजिक कार्यका लागि सुन्दरी""\nसौन्दर्य प्रतिय...",entertainment,सामाजिक कार्यका लागि सुन्दरी\nसौन्दर्य प्रतियो...
4,"खराब प्रदर्शनपछि प्रशिक्षण पिच""महिला राष्ट्रिय...",sport,खराब प्रदर्शनपछि प्रशिक्षण पिचमहिला राष्ट्रिय ...


In [10]:
def stem_rows(row):
    sentence = row['Cleaned_News']
    tokens = sentence.split()
    stemmer = snowballstemmer.NepaliStemmer()
    stemmed = stemmer.stemWords(tokens)

    return ' '.join(stemmed)

In [11]:
df['Stemmed'] = df.apply(stem_rows, axis=1)

In [12]:
df.head()

Unnamed: 0,News,Category,Cleaned_News,Stemmed
0,"\n﻿काठमाण्डौ, ६ असार । नेपाल ललितकला प्रज्ञा प...",politics,काठमाण्डौ ६ असार नेपाल ललितकला प्रज्ञा प्रतिष...,काठमाण्डौ ६ असार नेपाल ललितकला प्रज्ञा प्रतिष्...
1,नेपालको आशा जीवितैकप्तान पारस खड्काले ब्याट र ...,sport,नेपालको आशा जीवितैकप्तान पारस खड्काले ब्याट र ...,नेपाल आशा जीवितैकप्तान पारस खड्का ब्याट र शक्त...
2,"\n﻿राजविराज, २६ फागुन । नेकपा एमालेलाई औद्योगि...",politics,राजविराज २६ फागुन नेकपा एमालेलाई औद्योगिक क्ष...,राजविराज २६ फागुन नेकपा एमाले औद्योगिक क्षेत्र...
3,"सामाजिक कार्यका लागि सुन्दरी""\nसौन्दर्य प्रतिय...",entertainment,सामाजिक कार्यका लागि सुन्दरी\nसौन्दर्य प्रतियो...,सामाजिक कार्य लागि सुन्दरी सौन्दर्य प्रतियोगित...
4,"खराब प्रदर्शनपछि प्रशिक्षण पिच""महिला राष्ट्रिय...",sport,खराब प्रदर्शनपछि प्रशिक्षण पिचमहिला राष्ट्रिय ...,खराब प्रदर्शन प्रशिक्षण पिचमहिला राष्ट्रिय यू ...


In [13]:
#save to new csv file
df.to_csv('preprocessed.csv', index=False)