In [1]:
# Importing pandas library for dataset manipulation
import pandas as pd

In [2]:
# importing raw dataset generated from tweets scraping
tweets_df = pd.read_csv('1.2 - scraped-tweets.csv', header=None)

In [3]:
tweets_df.head()

Unnamed: 0,0
0,जुम्राको उत्पति को कथा त कास्टिङ मात्र हो हेर्...
1,स्याङ्जाको पुतलीबजार नगरपालिका गण्डकी प्रदेशको...
2,फेक मिडिया गरेर दुनियाँमा अफबाह फैलाउनेलाई भाट...
3,चाइनाने कोरोना फैलाउछ र किटमास्क बेच्छ अमेरिका...
4,जोर र बिजोर ले अर्थतन्त्र लाईन मा आउने भए तेत्...


In [4]:
# Defining name of column for the tweets
tweets_df.columns = ["tweets"]
tweets_df.shape

(28575, 1)

In [5]:
# Dropping null columns and duplicate data having same tweets
tweets_df = tweets_df.dropna()
tweets_df = tweets_df.drop_duplicates(subset=['tweets'], keep='first')
tweets_df.shape

(28575, 1)

In [6]:
# resetting index for the dataset 
tweets_df = tweets_df.reset_index(drop=False)
tweets_df.drop('index', inplace=True, axis=1)
tweets_df.head()
tweets_df.shape

(28575, 1)

In [7]:
# Retiving most used words so that words with no meaning could be added to stop words list
import collections
cloud_text = ' '.join(tweets_df['tweets'])
words_frequency = collections.Counter(cloud_text.split())
words_frequency.most_common(500)[:10]

[('कोभिड', 29212),
 ('छ', 10798),
 ('को', 8986),
 ('र', 8297),
 ('कोरोना', 8120),
 ('भाइरस', 4336),
 ('भएको', 4011),
 ('पनि', 3482),
 ('संक्रमण', 3172),
 ('मृत्यु', 3129)]

In [8]:
# Reading stop words from external file and storing it to set 
with open('stop_words.txt', encoding="utf-8") as f:
    words = [line.strip() for line in f]
stop_words = set(words)

In [9]:
", ".join(stop_words)

'तिनिहरुलाई, दिनुभएको, भन्दा, अरु, आदि, साँच्चै, अब, सक्दैन, तिनी, किन, राखे, एउटै, र, गर्नेछन्, अनुसार, कम से कम, उप, भन्ने, बाहेक, बीच, बिशेष, लगभग, सबैलाई, हाम्रो, कसैले, पहिले, छौँ, कोभिड, उन, अन्यत्र, आफ्नो, जब, बाट, होला, कोरोना, आफैलाई, हुनेछ, चाहन्छौ, अरुलाई, गर्छु, अन्यथा, जस्तो, पछि, जहाँ, विरुद्ध, थिएनन्, कुरा, देखेको, लाई, तथा, नेपाल, देखिन्छ, केवल, गर्दछ, तपाईं, छौं, जसमा, गयौ, प्लस, यद्यपि, कहिल्यै, जसको, तत्काल, चार, ती, गरौं, तीन, अगाडि, रूप, छ, तर, विश्वभर, गरेका, सबै, बन्न, आफू, जसले, देखि, पटक, हुँदैन, हुन, साथ, यहाँ, भन्, केहि, सही, देख, संगै, जस्तै, यस्तो, हुँ, हौं, कसै, गर्नु, कोही, ठीक, भने, उनीहरु, जसलाई, आफूलाई, तापनि, सोही, अर्थात, ले, सँग, बन्द, शायद, दोश्रो, चाहनुहुन्छ, यदि, द्वारा, जसबाट, यस, निम्नानुसार, प्रति, गैर, स्पष्ट, तिम्रो, छैन, काठमाडौं, धेरै, तपाई, अन्तर्गत, दिनुहुन्छ, त्यसैले, गर्न, हुन्, एक, भए, अरूलाई, यो, वरिपरि, तिनीहरूको, गए, दिए, हामीसँग, लागि, उनले, आजको, तिमी, प्रतेक, सँगै, तेस्कारण, गरी, तिनीहरूले, कहाँ, अर्थात्, यसैले, पनि, अक्सर, साथै

In [9]:
# Importing libraries for cleaning and preprocessing tweets
from Nepali_nlp import Stem
from inltk.inltk import tokenize
from nltk.tokenize import word_tokenize

In [10]:
# Tokenizing, steaming and stop word removing from tweets
def clean_tweets(text):
#     print(text)
    nltk_token = word_tokenize(text)
    nltk_tokens = [word for word in nltk_token if word not in stop_words]
    text = " ".join(nltk_tokens)
    steams = [word for word in Stem().rootify(text) if word not in stop_words]
    steamed_text = " ".join(steams)
    return steamed_text

In [11]:
# Tokenizing tweets with the help of inltk library
def inltk_clean_tweets(steamed_text):
    tokens = tokenize(steamed_text, 'ne')
    tokens = [word for word in tokens if (word not in stop_words and word.replace('▁', '') not in stop_words)]
    cleaned_text =  " ".join(tokens)
    return cleaned_text

In [12]:
# preprocess(tweets_df['tweets'][2])

In [13]:
# creating new column based on clean_tweets function
tweets_df['cleaned_tweets'] = tweets_df['tweets'].apply(clean_tweets)

In [14]:
tweets_df

Unnamed: 0,tweets,cleaned_tweets
0,जुम्राको उत्पति को कथा त कास्टिङ मात्र हो हेर्...,जुम्रा उत्पति कथा कास्टिङ हेर् गर्नुस दुनिया र...
1,स्याङ्जाको पुतलीबजार नगरपालिका गण्डकी प्रदेशको...,स्याङ्जा पुतलीबजार नगरपालि गण्ड प्रदेश कोभिड१९...
2,फेक मिडिया गरेर दुनियाँमा अफबाह फैलाउनेलाई भाट...,फेक मिडिया दुनियाँ अफबाह फैलाउ भाटा हान् सरकार...
3,चाइनाने कोरोना फैलाउछ र किटमास्क बेच्छ अमेरिका...,चाइना फैलाउ किटमास्क बेच् अमेरिका युद्ध फैलाउ ...
4,जोर र बिजोर ले अर्थतन्त्र लाईन मा आउने भए तेत्...,जोर बिजोर अर्थतन्त्र लाईन आउ तेत्रो संक्रमण बे...
...,...,...
28570,कोरोना भाईरस बिशेष गीत समूह बिश्व भरी कोरोना भ...,भाईरस गीत समूह बिश्व भरी भाईरस महामारी भाईरस प...
28571,सम्मान गर साथीहरुलाई अपमान होइन सत्ताको तातो र...,सम्मान सा अपमान सत्ता तातो राप निस्क कठोर शब्द...
28572,कोरोना कहरले दुई वर्ष हुन नसकेको माध्यमिक शिक्...,कहर वर्ष नसक माध्यमिक शिक्षा परीक्षा यसवर्ष आज...
28573,काठमाडौँको मेयरको प्रदिस्पर्दमा त मिस्टर भिसिट...,काठमाडौँ मेयर प्रदिस्पर्द मिस्टर भिसिट उर्फ को...


In [15]:
# creating new column based on clean_tweets function
tweets_df['cleaned_tweets'] = tweets_df['tweets'].apply(clean_tweets)

# creating new column based on inltk_clean_tweets function
tweets_df['inltk_cleaned_tweets'] = tweets_df['cleaned_tweets'].apply(inltk_clean_tweets)

In [16]:
tweets_df

Unnamed: 0,tweets,cleaned_tweets,inltk_cleaned_tweets
0,जुम्राको उत्पति को कथा त कास्टिङ मात्र हो हेर्...,जुम्रा उत्पति कथा कास्टिङ हेर् गर्नुस दुनिया र...,▁जु म् रा ▁उत्पति ▁कथा स्ट िङ ▁हे र् स ▁दुनिया...
1,स्याङ्जाको पुतलीबजार नगरपालिका गण्डकी प्रदेशको...,स्याङ्जा पुतलीबजार नगरपालि गण्ड प्रदेश कोभिड१९...,▁स्याङ्जा ▁पुतलीबजार ▁नगर पा लि ▁ग ण्ड ▁प्रदेश...
2,फेक मिडिया गरेर दुनियाँमा अफबाह फैलाउनेलाई भाट...,फेक मिडिया दुनियाँ अफबाह फैलाउ भाटा हान् सरकार...,▁फे क ▁मिडिया ▁दुनियाँ ▁अफ बाह ▁फैल ा उ ▁भा टा...
3,चाइनाने कोरोना फैलाउछ र किटमास्क बेच्छ अमेरिका...,चाइना फैलाउ किटमास्क बेच् अमेरिका युद्ध फैलाउ ...,▁ चाइना ▁फैल ा उ ट स्क ▁बेच ् ▁अमेरिका ▁युद्ध ...
4,जोर र बिजोर ले अर्थतन्त्र लाईन मा आउने भए तेत्...,जोर बिजोर अर्थतन्त्र लाईन आउ तेत्रो संक्रमण बे...,▁जोर ▁बि जोर ▁अर्थतन्त्र ▁लाईन ▁आउ ▁ते त्रो ▁स...
...,...,...,...
28570,कोरोना भाईरस बिशेष गीत समूह बिश्व भरी कोरोना भ...,भाईरस गीत समूह बिश्व भरी भाईरस महामारी भाईरस प...,▁भाई रस ▁गीत ▁समूह ▁बिश्व ▁भरी ▁भाई रस ▁महामार...
28571,सम्मान गर साथीहरुलाई अपमान होइन सत्ताको तातो र...,सम्मान सा अपमान सत्ता तातो राप निस्क कठोर शब्द...,▁सम्मान ▁सा ▁अपमान ▁सत्ता ▁तातो ाप ▁निस्क ▁कठो...
28572,कोरोना कहरले दुई वर्ष हुन नसकेको माध्यमिक शिक्...,कहर वर्ष नसक माध्यमिक शिक्षा परीक्षा यसवर्ष आज...,▁कह ▁वर्ष सक ▁माध्यमिक ▁शिक्षा ▁परीक्षा वर्ष ▁...
28573,काठमाडौँको मेयरको प्रदिस्पर्दमा त मिस्टर भिसिट...,काठमाडौँ मेयर प्रदिस्पर्द मिस्टर भिसिट उर्फ को...,▁काठमाडौँ ▁मेयर ▁प्र दि स्प र्द ▁मिस्ट ▁भि सि ...


In [17]:
tweets_df = tweets_df.drop_duplicates(subset=['tweets'], keep='first')
tweets_df = tweets_df.dropna(subset=['inltk_cleaned_tweets'])
tweets_df = tweets_df.dropna(subset=['cleaned_tweets'])
tweets_df = tweets_df.dropna(subset=['tweets'])
tweets_df = tweets_df.reset_index(drop=False)
tweets_df.drop('index', inplace=True, axis=1)

(28575, 3)

In [18]:
# Exporting dataset to further label it
tweets_df.to_csv('2.2 - unlabelled-tweets.csv', index=False)

In [19]:
# !pip install tensorflow-history-plot

In [25]:
tweets_df

Unnamed: 0,tweets,cleaned_tweets,inltk_cleaned_tweets
0,जुम्राको उत्पति को कथा त कास्टिङ मात्र हो हेर्...,जुम्रा उत्पति कथा कास्टिङ हेर् गर्नुस दुनिया र...,▁जु म् रा ▁उत्पति ▁कथा स्ट िङ ▁हे र् स ▁दुनिया...
1,स्याङ्जाको पुतलीबजार नगरपालिका गण्डकी प्रदेशको...,स्याङ्जा पुतलीबजार नगरपालि गण्ड प्रदेश कोभिड१९...,▁स्याङ्जा ▁पुतलीबजार ▁नगर पा लि ▁ग ण्ड ▁प्रदेश...
2,फेक मिडिया गरेर दुनियाँमा अफबाह फैलाउनेलाई भाट...,फेक मिडिया दुनियाँ अफबाह फैलाउ भाटा हान् सरकार...,▁फे क ▁मिडिया ▁दुनियाँ ▁अफ बाह ▁फैल ा उ ▁भा टा...
3,चाइनाने कोरोना फैलाउछ र किटमास्क बेच्छ अमेरिका...,चाइना फैलाउ किटमास्क बेच् अमेरिका युद्ध फैलाउ ...,▁ चाइना ▁फैल ा उ ट स्क ▁बेच ् ▁अमेरिका ▁युद्ध ...
4,जोर र बिजोर ले अर्थतन्त्र लाईन मा आउने भए तेत्...,जोर बिजोर अर्थतन्त्र लाईन आउ तेत्रो संक्रमण बे...,▁जोर ▁बि जोर ▁अर्थतन्त्र ▁लाईन ▁आउ ▁ते त्रो ▁स...
...,...,...,...
28570,कोरोना भाईरस बिशेष गीत समूह बिश्व भरी कोरोना भ...,भाईरस गीत समूह बिश्व भरी भाईरस महामारी भाईरस प...,▁भाई रस ▁गीत ▁समूह ▁बिश्व ▁भरी ▁भाई रस ▁महामार...
28571,सम्मान गर साथीहरुलाई अपमान होइन सत्ताको तातो र...,सम्मान सा अपमान सत्ता तातो राप निस्क कठोर शब्द...,▁सम्मान ▁सा ▁अपमान ▁सत्ता ▁तातो ाप ▁निस्क ▁कठो...
28572,कोरोना कहरले दुई वर्ष हुन नसकेको माध्यमिक शिक्...,कहर वर्ष नसक माध्यमिक शिक्षा परीक्षा यसवर्ष आज...,▁कह ▁वर्ष सक ▁माध्यमिक ▁शिक्षा ▁परीक्षा वर्ष ▁...
28573,काठमाडौँको मेयरको प्रदिस्पर्दमा त मिस्टर भिसिट...,काठमाडौँ मेयर प्रदिस्पर्द मिस्टर भिसिट उर्फ को...,▁काठमाडौँ ▁मेयर ▁प्र दि स्प र्द ▁मिस्ट ▁भि सि ...


In [10]:
with open('short.txt', encoding="utf-8") as f:
    sw = [line.strip() for line in f]
sf = set(words)

In [20]:
# labelled_df = pd.read_csv('2.3 - labelled-tweets.csv')
# labelled_df['label']

In [21]:
# tweets_df['label'] = labelled_df['label']

In [22]:
# tweets_df

In [23]:
# labelled_df

In [24]:
# tweets_df.to_csv('2.3 - labelled-tweets.csv', index=False)