In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
from keras.preprocessing.text import text_to_word_sequence
import numpy as np
from tqdm import tqdm_notebook as tqdm
from collections import Counter

df = pd.read_csv('./utt_spk_text.tsv', sep='\t')

df.columns = ['id1', 'id2', 'transcript']

Using TensorFlow backend.


In [2]:
df.head()

Unnamed: 0,id1,id2,transcript
0,000039928e,976b1,এ ধরণের কার্ড নিয়ে
1,00005debc7,f83df,হতে উপার্জিত অর্থ
2,00009e687c,9813c,হাসির বিষয় হয়েই আছে
3,00012843bc,7ec1c,সার্ক দেশগুলোতে
4,00012880b1,e43d4,সহজেই যাওয়া যায়


In [3]:
# Breaking a sentence into list of words then storing it
tokenized = [ text_to_word_sequence(sentence) for sentence in tqdm(df['transcript']) ]

HBox(children=(IntProgress(value=0, max=127564), HTML(value='')))




In [4]:
# Squishing the 2d list into 1d
all_tokens = np.hstack(tokenized).tolist()

In [5]:
# Token Counter
token_counter = Counter(all_tokens)

In [6]:
token_counter

Counter({'এ': 3048,
         'ধরণের': 103,
         'কার্ড': 92,
         'নিয়ে': 2496,
         'হতে': 768,
         'উপার্জিত': 9,
         'অর্থ': 249,
         'হাসির': 44,
         'বিষয়': 226,
         'হয়েই': 38,
         'আছে': 1424,
         'সার্ক': 9,
         'দেশগুলোতে': 7,
         'সহজেই': 57,
         'যাওয়া': 244,
         'যায়': 1622,
         'অন্তর্ভুক্তও': 1,
         'করেছে': 975,
         'রাশিয়া': 63,
         'সুরকার': 14,
         'হিসেবে': 952,
         'যাতে': 147,
         'বিবাহ': 62,
         'শাদী': 3,
         'দিলে': 138,
         'আপনার': 215,
         'গল্প': 375,
         'ছাড়া': 339,
         'ব্যাপারটাকে': 5,
         'নিয়ন্ত্রিত': 27,
         'করাই': 25,
         'বীরভূম': 7,
         'জেলা': 261,
         'হাসপাতালে': 306,
         'মান্নান': 20,
         'সৈয়দের': 6,
         'মৃত্যুর': 199,
         'পর': 1898,
         'বেরিয়েছে': 19,
         'পুলিশের': 424,
         'সন্দেহ': 77,
         'বাঙালি': 163,
         'মধ্যবিত্তের': 3,

In [7]:
# Unique Tokens Found in the dataset
unique_tokens = list(token_counter.keys())

In [8]:
print(unique_tokens[:10])

['এ', 'ধরণের', 'কার্ড', 'নিয়ে', 'হতে', 'উপার্জিত', 'অর্থ', 'হাসির', 'বিষয়', 'হয়েই']


In [9]:
# Vocabulary size
vocabulary_size = len(unique_tokens)

In [10]:
print(vocabulary_size)

142002


# Most N common tokens

In [11]:
token_counter.most_common(100)

[('করে', 5800),
 ('না', 5799),
 ('থেকে', 4917),
 ('এই', 4440),
 ('হয়', 4006),
 ('ও', 3971),
 ('তার', 3083),
 ('করা', 3062),
 ('এ', 3048),
 ('একটি', 3013),
 ('তিনি', 2915),
 ('জন্য', 2580),
 ('নিয়ে', 2496),
 ('হয়েছে', 2437),
 ('হবে', 2287),
 ('এক', 2282),
 ('এবং', 2142),
 ('সঙ্গে', 2092),
 ('তাদের', 2083),
 ('করেন', 2002),
 ('হয়ে', 1963),
 ('যে', 1947),
 ('ছিল', 1940),
 ('পর', 1898),
 ('আর', 1878),
 ('করতে', 1870),
 ('কথা', 1808),
 ('মধ্যে', 1773),
 ('তারা', 1736),
 ('আমি', 1658),
 ('বলে', 1637),
 ('যায়', 1622),
 ('আমার', 1567),
 ('আছে', 1424),
 ('সে', 1424),
 ('এর', 1420),
 ('সময়', 1390),
 ('দিয়ে', 1383),
 ('কিছু', 1293),
 ('কোনো', 1287),
 ('সেই', 1285),
 ('অনেক', 1245),
 ('হচ্ছে', 1241),
 ('কিন্তু', 1238),
 ('কি', 1233),
 ('শুরু', 1213),
 ('করার', 1199),
 ('প্রথম', 1167),
 ('তবে', 1165),
 ('আমাদের', 1123),
 ('কোন', 1121),
 ('বিভিন্ন', 1102),
 ('রয়েছে', 1102),
 ('তাঁর', 1093),
 ('নেই', 1092),
 ('বা', 1070),
 ('এখন', 1058),
 ('বলেন', 1048),
 ('একটা', 1045),
 ('মনে', 1042),
 ('সব