In [29]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
from keras.preprocessing.text import text_to_word_sequence
import numpy as np
from tqdm import tqdm
from collections import Counter
from pprint import pprint

df = pd.read_csv('./utt_spk_text.tsv', sep='\t')

df.columns = ['id1', 'id2', 'transcript']

In [30]:
df.head()

Unnamed: 0,id1,id2,transcript
0,000039928e,976b1,এ ধরণের কার্ড নিয়ে
1,00005debc7,f83df,হতে উপার্জিত অর্থ
2,00009e687c,9813c,হাসির বিষয় হয়েই আছে
3,00012843bc,7ec1c,সার্ক দেশগুলোতে
4,00012880b1,e43d4,সহজেই যাওয়া যায়


In [31]:
# Breaking a sentence into list of words then storing it
tokenized = [ text_to_word_sequence(sentence) for sentence in tqdm(df['transcript']) ]

100%|██████████| 127564/127564 [00:01<00:00, 113768.04it/s]


In [32]:
# Squishing the 2d list into 1d
all_tokens = np.hstack(tokenized).tolist()

In [40]:
# Token Counter
token_counter = Counter(all_tokens)

In [41]:
# Unique Tokens Found in the dataset
unique_tokens = list(token_counter.keys())

In [42]:
print(unique_tokens[:10])

['এ', 'ধরণের', 'কার্ড', 'নিয়ে', 'হতে', 'উপার্জিত', 'অর্থ', 'হাসির', 'বিষয়', 'হয়েই']


In [43]:
# Vocabulary size
vocabulary_size = len(unique_tokens)

In [44]:
print(vocabulary_size)

142002


# Most N common tokens

In [45]:
token_counter.most_common(100)

[('করে', 5800),
 ('না', 5799),
 ('থেকে', 4917),
 ('এই', 4440),
 ('হয়', 4006),
 ('ও', 3971),
 ('তার', 3083),
 ('করা', 3062),
 ('এ', 3048),
 ('একটি', 3013),
 ('তিনি', 2915),
 ('জন্য', 2580),
 ('নিয়ে', 2496),
 ('হয়েছে', 2437),
 ('হবে', 2287),
 ('এক', 2282),
 ('এবং', 2142),
 ('সঙ্গে', 2092),
 ('তাদের', 2083),
 ('করেন', 2002),
 ('হয়ে', 1963),
 ('যে', 1947),
 ('ছিল', 1940),
 ('পর', 1898),
 ('আর', 1878),
 ('করতে', 1870),
 ('কথা', 1808),
 ('মধ্যে', 1773),
 ('তারা', 1736),
 ('আমি', 1658),
 ('বলে', 1637),
 ('যায়', 1622),
 ('আমার', 1567),
 ('আছে', 1424),
 ('সে', 1424),
 ('এর', 1420),
 ('সময়', 1390),
 ('দিয়ে', 1383),
 ('কিছু', 1293),
 ('কোনো', 1287),
 ('সেই', 1285),
 ('অনেক', 1245),
 ('হচ্ছে', 1241),
 ('কিন্তু', 1238),
 ('কি', 1233),
 ('শুরু', 1213),
 ('করার', 1199),
 ('প্রথম', 1167),
 ('তবে', 1165),
 ('আমাদের', 1123),
 ('কোন', 1121),
 ('বিভিন্ন', 1102),
 ('রয়েছে', 1102),
 ('তাঁর', 1093),
 ('নেই', 1092),
 ('বা', 1070),
 ('এখন', 1058),
 ('বলেন', 1048),
 ('একটা', 1045),
 ('মনে', 1042),
 ('সব

# Least N Tokens

In [46]:
tokens_with_counts = list(sorted([ (token, count) for token, count in zip(token_counter.keys(), token_counter.values()) ], key=lambda x: x[1]))

In [47]:
pprint(tokens_with_counts[:100])

[('অন্তর্ভুক্তও', 1),
 ('মার্কিনি', 1),
 ('বাবুর্চি', 1),
 ('লকার্নো', 1),
 ('‘এককাট্টা', 1),
 ('শ্রেণী’', 1),
 ('আসানকারীদের', 1),
 ('প্রচারপত্রে', 1),
 ('বিনোদনপত্রিকায়', 1),
 ('আরামদায়ক', 1),
 ('ভবানীপুর', 1),
 ('খোয়াইলাম', 1),
 ('কাব্যকারের', 1),
 ('ইউনিয়নকারী', 1),
 ('কবিওয়ালের', 1),
 ('সারবত্তা', 1),
 ('ধপধপাইয়া', 1),
 ('হাঁটাটি', 1),
 ('দেমোফোনের', 1),
 ('আন্ন্যালাচা', 1),
 ('সেপাইরা', 1),
 ('স্বচ্ছতার', 1),
 ('৪৫মিনিটে', 1),
 ('খোঁপায়', 1),
 ('মহাসঙ্কট', 1),
 ('আলকাউসার', 1),
 ('সমাঝোতার', 1),
 ('ছটু', 1),
 ('ম্যাথিউসের', 1),
 ('পারবেন।', 1),
 ('মেমোরি', 1),
 ('সরকারপ্রধান', 1),
 ('সঞ্চয়', 1),
 ('জগতকে', 1),
 ('খুড়তুতো', 1),
 ('ঝরনার', 1),
 ('বাধ্যই', 1),
 ('মম’র', 1),
 ('বলিভিয়া', 1),
 ('চেয়েছেন।', 1),
 ('ঠাহর', 1),
 ('জিরাবাটা', 1),
 ('দিয়েনাড়ুন', 1),
 ('আর্কাইভিস্ট', 1),
 ('আর্লউইন', 1),
 ('মূঢ়', 1),
 ('কর্ণকুহর', 1),
 ('সিদ্ধান্তগুলো', 1),
 ('দৃষ্টিভঙ্গি’তে', 1),
 ('ক্ষুধা', 1),
 ('খোঁপা', 1),
 ('মর্জিশাসিত', 1),
 ('গোলমুখে', 1),
 ('১৩২', 1),
 ('গুলগুলিয়া', 1)