In [1]:
# connecting to google drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# importing the necessary libraries
import pandas as pd
from sklearn.preprocessing import LabelEncoder

In [32]:
# reading the train dataset
train_df = pd.read_csv('/content/drive/MyDrive/NLP/data/hindi-train.csv', sep="\t", encoding='utf-8', header=None,names=['label','text'])
train_df.head()

Unnamed: 0,label,text
0,india,मेट्रो की इस लाइन के चलने से दक्षिणी दिल्ली से...
1,pakistan,नेटिजन यानि इंटरनेट पर सक्रिय नागरिक अब ट्विटर...
2,news,इसमें एक फ़्लाइट एटेनडेंट की मदद की गुहार है औ...
3,india,"प्रतीक खुलेपन का, आज़ाद ख्याली का और भीड़ से अ..."
4,india,ख़ासकर पिछले 10 साल तक प्रधानमंत्री रहे मनमोहन...


In [33]:
# reading the train dataset
test_df = pd.read_csv('/content/drive/MyDrive/NLP/data/hindi-test.csv', sep="\t", encoding='utf-8', header=None,names=['label','text'])
test_df.head()

Unnamed: 0,label,text
0,india,बुधवार को राज्य सभा में विपक्ष के सवालों के जव...
1,india,लखनऊ स्थित पत्रकार समीरात्मज मिश्र को बुलंदशहर...
2,india,लगभग 1300 हेक्टेयर ज़मीन का अधिग्रहण किया जा च...
3,international,हालांकि उनके अंगरक्षकों को बमों को जाम करने वा...
4,india,आयोग का कहना है कि इस तरह के परीक्षण से महिलाओ...


In [34]:
# extracting the text from the training dataset
text = train_df['text']
text.head()

0    मेट्रो की इस लाइन के चलने से दक्षिणी दिल्ली से...
1    नेटिजन यानि इंटरनेट पर सक्रिय नागरिक अब ट्विटर...
2    इसमें एक फ़्लाइट एटेनडेंट की मदद की गुहार है औ...
3    प्रतीक खुलेपन का, आज़ाद ख्याली का और भीड़ से अ...
4    ख़ासकर पिछले 10 साल तक प्रधानमंत्री रहे मनमोहन...
Name: text, dtype: object

In [35]:
# cleaning the text column of the training text
def punctuation_cleaning():
  for i in range(len(text)):
    text[i] = str(text[i])
    text[i] = text[i].replace('\u200b', '')
    text[i] = text[i].replace('?', '')
    text[i] = text[i].replace('\n', '')
    text[i] = text[i].replace('\r', '')
    text[i] = text[i].replace('\\', '')
    text[i] = text[i].replace("\'", '')
    text[i] = text[i].replace("','", '')
    text[i] = text[i].replace('!', '')
    text[i] = text[i].replace('-', '')
    text[i] = text[i].replace('\\','')
    text[i] = text[i].replace(':', '')
    text[i] = text[i].replace("'", '')
    text[i] = text[i].replace('.', '')
    text[i] = text[i].replace(';', '')
    text[i] = text[i].replace('|', '')
    text[i] = text[i].replace(',', '')
    text[i] = text[i].replace('..', '')
    text[i] = text[i].replace('..!', '')
    text[i] = text[i].replace('..?', '')
    text[i] = text[i].replace('2018: ', '')
    text[i] = text[i].replace('PHOTOS:', '')
    text[i] = text[i].replace('vs', '')
    text[i] = text[i].replace('(LIVE):', '')
    text[i] = text[i].replace('(VIDEO):', '')

punctuation_cleaning()

In [36]:
train_df = train_df[train_df['text'].notnull()]
test_df = test_df[test_df['text'].notnull()]

In [37]:
# training dataset after cleaning
train_df.head()

Unnamed: 0,label,text
0,india,मेट्रो की इस लाइन के चलने से दक्षिणी दिल्ली से...
1,pakistan,नेटिजन यानि इंटरनेट पर सक्रिय नागरिक अब ट्विटर...
2,news,इसमें एक फ़्लाइट एटेनडेंट की मदद की गुहार है औ...
3,india,प्रतीक खुलेपन का आज़ाद ख्याली का और भीड़ से अल...
4,india,ख़ासकर पिछले 10 साल तक प्रधानमंत्री रहे मनमोहन...


In [38]:
train_df['label'].value_counts()

india              1390
international       904
entertainment       285
sport               258
news                230
science             194
business             54
pakistan             43
southasia            42
institutional        19
social               18
china                14
multimedia           12
learningenglish       5
Name: label, dtype: int64

In [39]:
test_df['label'].value_counts()

india              357
international      212
sport               72
entertainment       71
science             61
news                49
southasia           10
pakistan             8
business             7
social               6
china                5
institutional        4
learningenglish      3
multimedia           1
Name: label, dtype: int64

In [40]:
train_df = train_df.loc[(train_df.label == 'india') | (train_df.label == 'international') | (train_df.label == 'entertainment')]

In [41]:
test_df = test_df.loc[(test_df.label == 'india') | (test_df.label == 'international') | (test_df.label == 'entertainment')]

In [42]:
train_df['label'].value_counts()

india            1390
international     904
entertainment     285
Name: label, dtype: int64

In [43]:
test_df['label'].value_counts()

india            357
international    212
entertainment     71
Name: label, dtype: int64

In [44]:
labelencoder = LabelEncoder()

In [45]:
# Assigning numerical values to label for the training dataset
train_df['label'] = labelencoder.fit_transform(train_df['label'])
train_df.head()

Unnamed: 0,label,text
0,1,मेट्रो की इस लाइन के चलने से दक्षिणी दिल्ली से...
3,1,प्रतीक खुलेपन का आज़ाद ख्याली का और भीड़ से अल...
4,1,ख़ासकर पिछले 10 साल तक प्रधानमंत्री रहे मनमोहन...
5,1,चीनी भाषा में ‘नीहाव’ (क्या हाल हैं) कहकर वो अ...
6,1,मुंबई पुलिस की क्राईम ब्रांच को इस जांच का जिम...


In [46]:
# Assigning numerical values to label for the testing dataset
test_df['label'] = labelencoder.fit_transform(test_df['label'])
test_df.head()

Unnamed: 0,label,text
0,1,बुधवार को राज्य सभा में विपक्ष के सवालों के जव...
1,1,लखनऊ स्थित पत्रकार समीरात्मज मिश्र को बुलंदशहर...
2,1,लगभग 1300 हेक्टेयर ज़मीन का अधिग्रहण किया जा च...
3,2,हालांकि उनके अंगरक्षकों को बमों को जाम करने वा...
4,1,आयोग का कहना है कि इस तरह के परीक्षण से महिलाओ...


In [47]:
# writing the cleaned training dataset to a new csv file
train_df.to_csv('/content/drive/MyDrive/NLP/data/clean-hindi-train.csv', index = False)

In [48]:
# writing the cleaned testing dataset to a new csv file
test_df.to_csv('/content/drive/MyDrive/NLP/data/clean-hindi-test.csv', index = False)