Develop a jupyter notebook demonstrating several text cleaning methods in nepali text.

inltk: Indic nltk library, i.e, nltk supporting indic (Nepali, Indian, Punjabi, etc. ) languages.

In [4]:
#IMPORTING LIBRARIES FOR GENERAL NLP

import numpy as np
import pandas as pd
import re
from array import *
import inltk
from inltk.inltk import setup,tokenize

In [2]:
#GETTING AVAILABLE DATASET:

dataset_train = pd.read_csv("nepali_news_dataset/train.csv")
dataset_train.head()

Unnamed: 0,headings,paras,label
0,‘लभ स्टेसन’ भियतनाम र इन्डोनेसियामा,नेपाली कथानक फिल्म ‘लभ स्टेसन’ को टिम यति बेला...,entertainment
1,चाडबाडलगत्तै तरकारी सस्तियो,दसैंको मुखमा अस्वाभाविक बढेको तरकारी तथा फलफूल...,business
2,किङ्गफिसर बियर नेपाली बजारमा,एशियाकै ठूलो बियर कम्पनी मध्येको युनाइटेड ब्रु...,business
3,अर्बपतिका आँखा अन्तरिक्षतिर,संसारका धनाढ्यहरू अन्तरिक्ष यात्रालाई सस्तो र ...,business
4,‘आई एम सरी’ भन्दै सौगात,निकेश खड्का निर्देशित फिल्म ‘फाटेको जुत्ता’ को...,entertainment


In [3]:
#Finding the unique labels
dataset_train["label"].unique()

array(['entertainment', 'business', 'sports'], dtype=object)

In [15]:
dataset_train["paras"][]

'नेपाली कथानक फिल्म ‘लभ स्टेसन’ को टिम यति बेला भियतनाम र\xa0इन्डोनेसियामा छ\u202f। फिल्मको गीत छायांकनका लागि अभिनेता प्रदीप खड्का, अभिनेत्री जसिता गुरुङ, निर्माता गोविन्द शाही, कोरियोग्राफर शिशिर खाती, क्यामेरा पर्सन आलोक शुक्लासहितको टिम यी देश पुगेका हुन्\u202f।'

In [34]:
#Removing the punctuation symbols and numbers
cleaned_data = re.sub("[०-९,|:;‘’]", ' ', dataset_train['paras'][0]) 
cleaned_data

'नेपाली कथानक फिल्म  लभ स्टेसन  को टिम यति बेला भियतनाम र\xa0इन्डोनेसियामा छ\u202f। फिल्मको गीत छायांकनका लागि अभिनेता प्रदीप खड्का  अभिनेत्री जसिता गुरुङ  निर्माता गोविन्द शाही  कोरियोग्राफर शिशिर खाती  क्यामेरा पर्सन आलोक शुक्लासहितको टिम यी देश पुगेका हुन्\u202f।'

In [35]:
#Tokenizing the sentence into words
tokenized= tokenize(dataset_train["paras"][0],language_code='ne')
print(tokenized)

['▁नेपाली', '▁कथानक', '▁फिल्म', '▁‘', 'ल', 'भ', '▁स्टेसन', '’', '▁को', '▁टिम', '▁यति', '▁बेला', '▁भियतनाम', '▁र', '▁इन्डोनेसिया', 'मा', '▁छ', '▁।', '▁फिल्म', 'को', '▁गीत', '▁छाया', 'ंक', 'न', 'का', '▁लागि', '▁अभिनेता', '▁प्रदीप', '▁खड्का', ',', '▁अभिनेत्री', '▁जस', 'िता', '▁गुरुङ', ',', '▁निर्माता', '▁गोविन्द', '▁शाही', ',', '▁को', 'रियो', 'ग्राफ', 'र', '▁शिशिर', '▁खा', 'ती', ',', '▁क्यामेरा', '▁पर्', 'सन', '▁आ', 'लोक', '▁शुक्ल', 'ा', 'सहित', 'को', '▁टिम', '▁यी', '▁देश', '▁पुगेका', '▁हुन्', '▁।']


In [36]:
#Introducing nepali stopwords

my_file = open('nepali_stopwords.txt', encoding='utf-8')
all_the_lines = my_file.readlines()
items = []
for i in all_the_lines:
    items.append(i)

nep_stopwords = list(map(lambda s: s.strip(), items))
print(nep_stopwords)

['अक्सर', 'अगाडि', 'अझै', 'अनुसार', 'अन्तर्गत', 'अन्य', 'अन्यत्र', 'अन्यथा', 'अब', 'अरू', 'अरूलाई', 'अर्को', 'अर्थात', 'अर्थात्', 'अलग', 'आए', 'आजको', 'आठ', 'आत्म', 'आदि', 'आफू', 'आफूलाई', 'आफैलाई', 'आफ्नै', 'आफ्नो', 'आयो', 'उदाहरण', 'उन', 'उनको', 'उनले', 'उप', 'उहाँलाई', 'एउटै', 'एक', 'एकदम', 'औं', 'कतै', 'कम से कम', 'कसरी', 'कसै', 'कसैले', 'कहाँबाट', 'कहिलेकाहीं', 'कहिल्यै', 'कहीं', 'का', 'कि', 'किन', 'किनभने', 'कुनै', 'कुरा', 'कृपया', 'के', 'केहि', 'केही', 'को', 'कोही', 'क्रमशः', 'गए', 'गरि', 'गरी', 'गरेका', 'गरेको', 'गरेर', 'गरौं', 'गर्छ', 'गर्छु', 'गर्दै', 'गर्न', 'गर्नु', 'गर्नुपर्छ', 'गर्ने', 'गर्यौं', 'गैर', 'चाँडै', 'चार', 'चाले', 'चाहनुहुन्छ', 'चाहन्छु', 'चाहिए', 'छ', 'छन्', 'छु', 'छैन', 'छौँ', 'छौं', 'जताततै', 'जब', 'जबकि', 'जसको', 'जसबाट', 'जसमा', 'जसलाई', 'जसले', 'जस्तै', 'जस्तो', 'जस्तोसुकै', 'जहाँ', 'जान', 'जाहिर', 'जुन', 'जे', 'जो', 'ठीक', 'त', 'तत्काल', 'तथा', 'तदनुसार', 'तपाइँको', 'तपाईं', 'तर', 'तल', 'तापनि', 'तिनी', 'तिनीहरू', 'तिनीहरूको', 'तिनीहरूलाई', 'तिनीहरूले',

In [38]:
#Finding the cleaned-up sentences with no stopwords

no_stopword_cleaned_data= [word for word in tokenized if not word in nep_stopwords]
print(no_stopword_cleaned_data)

['▁नेपाली', '▁कथानक', '▁फिल्म', '▁‘', 'ल', 'भ', '▁स्टेसन', '’', '▁को', '▁टिम', '▁यति', '▁बेला', '▁भियतनाम', '▁र', '▁इन्डोनेसिया', '▁छ', '▁।', '▁फिल्म', '▁गीत', '▁छाया', 'ंक', '▁लागि', '▁अभिनेता', '▁प्रदीप', '▁खड्का', ',', '▁अभिनेत्री', '▁जस', 'िता', '▁गुरुङ', ',', '▁निर्माता', '▁गोविन्द', '▁शाही', ',', '▁को', 'रियो', 'ग्राफ', '▁शिशिर', '▁खा', ',', '▁क्यामेरा', '▁पर्', 'सन', '▁आ', 'लोक', '▁शुक्ल', 'ा', 'सहित', '▁टिम', '▁यी', '▁देश', '▁पुगेका', '▁हुन्', '▁।']
