In [8]:
import pandas as pd
from collections import Counter, defaultdict
from pprint import pprint
from tqdm import tqdm
df = pd.read_json('./choturmatrik.json', encoding='utf-8')

# Finding Empty Samples

In [9]:
print(df[ df.content.str.len() == 0].head())

      content        tags
10204               কবিতা
12720               কবিতা
12887               কবিতা
13687               কবিতা
15602          আবোল তাবোল


In [10]:
# So non empty strings
df = df[df.content.str.len() != 0 ]

# Finding Unique Labels

In [11]:
labels = list(set(df.tags))
print(labels)

index2label = { i: labels[i] for i in range(len(labels)) }
label2index = { labels[i] : i for i in range(len(labels)) }

['কিছু একটা লিখতে ইচ্ছে হচ্ছে', 'সমসাময়িক', 'কবিতা', 'গল্প', 'আবোল তাবোল']


# Class base sample distribution

In [12]:
for label in labels:
    print( "{:20} --- {} samples".format( label, df[ df.tags == label ].shape[0]  ))

কিছু একটা লিখতে ইচ্ছে হচ্ছে --- 616 samples
সমসাময়িক             --- 1 samples
কবিতা                --- 3184 samples
গল্প                 --- 898 samples
আবোল তাবোল           --- 447 samples


# Replacing Labels with Index 

In [13]:
df.tags = df.tags.replace(label2index)

In [14]:
df.head()

Unnamed: 0,content,tags
1,"অফিসে তেমন ব্যস্ততা নেই, \nকেমন একটা নিঃসঙ্গ ভ...",2
10,আমাদের ফেসবুক ঠিকানা: \nগ্রুপ: Facebook.com/gr...,4
10000,ঝিরিঝিরি বৃষ্টির অধরে \nপয়ারের চুম্বন পাখা মেল...,2
10008,কেন পান্থ এ চঞ্চলতা! \nআজি শ্রাবণঘনগহন মোহে \n...,2
10011,"মন ভাল নেই মনের ভেতর \nমন খারাপের গন্ধ, \nক্লা...",2


In [15]:
for content in df.content[:100]:
    pprint(content)
    print("----")

('অফিসে তেমন ব্যস্ততা নেই, \n'
 'কেমন একটা নিঃসঙ্গ ভাব \n'
 'মনটাকে পেতে আজকে আমার \n'
 'দিয়েছে বদলে আগের স্বভাব। \n'
 'ফেলে আসা দিন গুলো ভাবাচ্ছে, \n'
 'স্মৃতিরা আমাকে অতিষ্ঠ করে \n'
 'হয়তো বা কোন প্রতিশোধ নিতে- \n'
 'চাচ্ছে, ওরাও জুলম করছে। \n'
 'হয়ত ঘোরের মধ্যে পড়ে গেছি, \n'
 'একজন তুমি বা কাল্পনিক - \n'
 'প্রেমীকাকে খুব বিনয় করছি, \n'
 'বলছি, আমায় তুমিও বোঝ না? \n'
 'কেন কাছে আসো না ভালবাস না, \n'
 'তাহলে তো আর কিছুই হবে না, \n'
 'আমার কখনো - \n'
 'বিয়েই হবে না, সুখ মিলবে না । \n'
 'হা হা হা, দারুণ মজার তাই না? \n'
 'এমন মজার সময় কাটছে \n'
 'তবুও আমার ভাল লাগছে না, \n'
 'নিজেকে বন্দী বন্দী লাগছে \n'
 'সবকিছু যেন অচেনা অজানা। \n'
 'চেনা জানা সুখ গুলো নেই আর, \n'
 'কোথায় যে সব গিয়েছে হারিয়ে \n'
 'কেউ তার খোঁজ হয়ত জানে না \n'
 'ঠিকানা কোথায় বলতে পারে না। \n'
 'যৌবনে একাকী থাকা কষ্টের, \n'
 'একারণেই কি কাজে গতি আসে? \n'
 'সবাই চেষ্টা করে তারাতারি \n'
 'সঙ্গিনী আর সফলতা পেতে। \n'
 'আমার কি তবে প্রয়োজন সেই - \n'
 'সফলতা আর সেই সঙ্গিনী? \n'
 'হয়তো বা তাই, \n'
 'একারণেই তো বন্য হয়ে যাই। \n

 'কাণ্ড কি সম্ভব ? সেই সাথে বুঝলাম, কখনও কোন কিছু মন দিয়ে চাইলে, হাল ছাড়া '
 'যাবে না । আজ হউক আর কাল হউক, সেটা মিলবেই মিলবে ।    কাল থেকে নিউ ইয়র্ক শহরে '
 'ক্লাস শুরু । দেখি কিছু শিখতে পারি কিনা । ')
----
('১. \n'
 'আলপথ থেমে গেছে। এখন দিগন্ত ছোঁয়ার তাড়া নেই। বারোয়ারি ভঞ্জনে বিক্ষত দেহ।শুষ্ক '
 'তৃণদের চোখে ঝলসানো আগামী। চৈতালি হাসি নেই কৃষাণীর মুখে। থেমে গেছে রাখালি '
 'সুর। বুড়ো বটের সঞ্চয়ী পাতারা ঝরে যায় তপ্ত লু হাওয়ায়। উঠোনের শূণ্য মাচায় ঝুলে '
 'থাকে কৌরব মালা।  শ্যামা ফিঙে আর আসে না মলিন সকালে। দীঘল পথের মতো ধুলো মলিন '
 'দুপুর মুখ লুকায় শিয়ালকাটার ঝোপে। গুটি পায়ে অশ্বুথের মগডাল থেকে নেমে আসে '
 'তামাটে বিকেল। একরাশ মচ্ছব গাঁথা নিয়ে এগিয়ে যায় লক্ষিপেঁচার কোটরে। ঘনায়মান '
 'গোধূলির অন্তরালে ওৎ পেতে থাকে জগদ্দল সন্ধ্যা। তৎপর হয়ে উঠে সন্ধানী উদবিড়ালের '
 'দল। চোখে জিঘাংসার আলো জ্বেলে জেগে থাকে পিয়াসী রাত।  দূরে দিগন্ত রেখায় কি '
 'সবুজ অকেষ্ট্রার আবছা অবয়ব ভেসে ওঠে ? এ আলপথে একদিন ঘাসফুলের গল্প খুঁজে পেতো '
 'চঞ্চলা কিশোরী। খালি পায়ে রিমঝিম ছন্দ তুলে \n'
 'হারিয়ে যেতো সবুজের কো

# Removing Punctuations and Stopwords

In [16]:
STOP_WORDS = list(set("""
অতএব অথচ অথবা অনুযায়ী অনেক অনেকে অনেকেই অন্তত  অবধি অবশ্য অর্থাৎ অন্য অনুযায়ী অর্ধভাগে
আগামী আগে আগেই আছে আজ আদ্যভাগে আপনার আপনি আবার আমরা আমাকে আমাদের আমার  আমি আর আরও 
ইত্যাদি ইহা 
উচিত উনি উপর উপরে উত্তর
এ এঁদের এঁরা এই এক একই একজন একটা একটি  একবার একে এখন এখনও এখানে এখানেই এটা এসো
এটাই এটি এত এতটাই এতে এদের এবং এবার এমন এমনি এমনকি এর এরা এলো এস এসে 
ঐ 
ও ওঁদের ওঁর ওঁরা ওই ওকে ওখানে ওদের ওর ওরা 
কখনও কত কথা কবে কয়েক  কয়েকটি করছে করছেন করতে  করবে করবেন করলে কয়েক  কয়েকটি করিয়ে করিয়া করায়
করলেন করা করাই করায় করার করি করিতে করিয়া করিয়ে করে করেই করেছিলেন করেছে করেছেন করেন কাউকে 
কাছ কাছে কাজ কাজে কারও কারণ কি কিংবা কিছু কিছুই কিন্তু কী কে কেউ কেউই কেন কোন কোনও কোনো কেমনে কোটি
ক্ষেত্রে খুব 
গিয়ে গিয়েছে গুলি গেছে গেল গেলে গোটা গিয়ে গিয়েছে
চলে চান চায় চেয়ে চায় চেয়ে চার চালু চেষ্টা 
ছাড়া ছাড়াও ছিল ছিলেন ছাড়া ছাড়াও
জন জনকে জনের জন্য জন্যে জানতে জানা জানানো জানায়  জানিয়ে  জানিয়েছে জানায় জাানিয়ে জানিয়েছে
টি 
ঠিক 
তখন তত তথা তবু তবে তা তাঁকে তাঁদের তাঁর তাঁরা তাঁহারা তাই তাও তাকে তাতে তাদের তার তারপর তারা তারই তাহলে তাহা তাহাতে তাহার তিনই 
তিনি তিনিও তুমি তুলে তেমন তো তোমার তুই তোরা তোর তোমাদের তোদের
থাকবে থাকবেন থাকা থাকায় থাকে থাকেন থেকে থেকেই  থেকেও থাকায়
দিকে দিতে দিয়ে দিয়েছে দিয়েছেন দিলেন দিয়ে দু  দুটি  দুটো দেওয়া দেওয়ার দেখতে দেখা দেখে দেন দেয়  দেশের  
দ্বারা দিয়েছে দিয়েছেন দেয় দেওয়া দেওয়ার দিন দুই
ধরা ধরে 
নয় না নাই নাকি নাগাদ নানা নিজে নিজেই নিজেদের নিজের নিতে নিয়ে নিয়ে নেই নেওয়া নেওয়ার নয় নতুন
পক্ষে পর পরে পরেই পরেও পর্যন্ত পাওয়া পারি পারে পারেন পেয়ে প্রতি প্রভৃতি প্রায় পাওয়া পেয়ে প্রায় পাঁচ প্রথম প্রাথমিক
ফলে ফিরে ফের 
বছর বদলে বরং বলতে বলল বললেন বলা বলে বলেছেন বলেন  বসে বহু বা বাদে বার বিনা বিভিন্ন বিশেষ বিষয়টি বেশ ব্যবহার ব্যাপারে বক্তব্য বন বেশি
ভাবে  ভাবেই 
মত মতো মতোই মধ্যভাগে মধ্যে মধ্যেই  মধ্যেও মনে মাত্র মাধ্যমে মানুষ মানুষের মোট মোটেই মোদের মোর 
যখন যত যতটা যথেষ্ট যদি যদিও যা যাঁর যাঁরা যাওয়া  যাওয়ার যাকে যাচ্ছে যাতে যাদের যান যাবে যায় যার  যারা যায় যিনি যে যেখানে যেতে যেন 
যেমন 
রকম রয়েছে রাখা রেখে রয়েছে 
লক্ষ 
শুধু শুরু 
সাধারণ সামনে সঙ্গে সঙ্গেও সব সবার সমস্ত সম্প্রতি সময় সহ সহিত সাথে সুতরাং সে  সেই সেখান সেখানে  সেটা সেটাই সেটাও সেটি স্পষ্ট স্বয়ং 
হইতে হইবে হইয়া হওয়া হওয়ায় হওয়ার হচ্ছে হত হতে হতেই হন হবে হবেন হয় হয়তো হয়নি হয়ে হয়েই হয়েছিল হয়েছে হাজার
হয়েছেন হল হলে হলেই হলেও হলো হিসাবে হিসেবে হৈলে হোক হয় হয়ে হয়েছে হৈতে হইয়া  হয়েছিল হয়েছেন হয়নি হয়েই হয়তো হওয়া হওয়ার হওয়ায়
""".split()))

In [17]:
# get a sample 
sample = df.content.iloc[0]
# print out the sample
print(sample)

অফিসে তেমন ব্যস্ততা নেই, 
কেমন একটা নিঃসঙ্গ ভাব 
মনটাকে পেতে আজকে আমার 
দিয়েছে বদলে আগের স্বভাব। 
ফেলে আসা দিন গুলো ভাবাচ্ছে, 
স্মৃতিরা আমাকে অতিষ্ঠ করে 
হয়তো বা কোন প্রতিশোধ নিতে- 
চাচ্ছে, ওরাও জুলম করছে। 
হয়ত ঘোরের মধ্যে পড়ে গেছি, 
একজন তুমি বা কাল্পনিক - 
প্রেমীকাকে খুব বিনয় করছি, 
বলছি, আমায় তুমিও বোঝ না? 
কেন কাছে আসো না ভালবাস না, 
তাহলে তো আর কিছুই হবে না, 
আমার কখনো - 
বিয়েই হবে না, সুখ মিলবে না । 
হা হা হা, দারুণ মজার তাই না? 
এমন মজার সময় কাটছে 
তবুও আমার ভাল লাগছে না, 
নিজেকে বন্দী বন্দী লাগছে 
সবকিছু যেন অচেনা অজানা। 
চেনা জানা সুখ গুলো নেই আর, 
কোথায় যে সব গিয়েছে হারিয়ে 
কেউ তার খোঁজ হয়ত জানে না 
ঠিকানা কোথায় বলতে পারে না। 
যৌবনে একাকী থাকা কষ্টের, 
একারণেই কি কাজে গতি আসে? 
সবাই চেষ্টা করে তারাতারি 
সঙ্গিনী আর সফলতা পেতে। 
আমার কি তবে প্রয়োজন সেই - 
সফলতা আর সেই সঙ্গিনী? 
হয়তো বা তাই, 
একারণেই তো বন্য হয়ে যাই। 
আমার বন্যতা হরেক রকম 
কান্না হাসির , পড়ার লেখার, 
বলার , চলার, দেবার নেবার 
ঘুমের, জাগার ইত্যাদি ইত্যাদি। 
এর সবি আমি প্রকাশ করেছি 
এর সবি হল আপন স্বভাব।


In [18]:
# We will remove if these characters are encountered
FILTERS = """
!\"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n?,।!‍.0123456789০১২৩৪৫৬৭৮৯‘\u200c–“”…‘'
"""

In [20]:
translate_dict = dict((c, ' ') for c in FILTERS)
translate_map = str.maketrans(translate_dict)

In [21]:
print(sample.translate(translate_map))

অফিসে তেমন ব্যস্ততা নেই   কেমন একটা নিঃসঙ্গ ভাব  মনটাকে পেতে আজকে আমার  দিয়েছে বদলে আগের স্বভাব   ফেলে আসা দিন গুলো ভাবাচ্ছে   স্মৃতিরা আমাকে অতিষ্ঠ করে  হয়তো বা কোন প্রতিশোধ নিতে   চাচ্ছে  ওরাও জুলম করছে   হয়ত ঘোরের মধ্যে পড়ে গেছি   একজন তুমি বা কাল্পনিক    প্রেমীকাকে খুব বিনয় করছি   বলছি  আমায় তুমিও বোঝ না   কেন কাছে আসো না ভালবাস না   তাহলে তো আর কিছুই হবে না   আমার কখনো    বিয়েই হবে না  সুখ মিলবে না    হা হা হা  দারুণ মজার তাই না   এমন মজার সময় কাটছে  তবুও আমার ভাল লাগছে না   নিজেকে বন্দী বন্দী লাগছে  সবকিছু যেন অচেনা অজানা   চেনা জানা সুখ গুলো নেই আর   কোথায় যে সব গিয়েছে হারিয়ে  কেউ তার খোঁজ হয়ত জানে না  ঠিকানা কোথায় বলতে পারে না   যৌবনে একাকী থাকা কষ্টের   একারণেই কি কাজে গতি আসে   সবাই চেষ্টা করে তারাতারি  সঙ্গিনী আর সফলতা পেতে   আমার কি তবে প্রয়োজন সেই    সফলতা আর সেই সঙ্গিনী   হয়তো বা তাই   একারণেই তো বন্য হয়ে যাই   আমার বন্যতা হরেক রকম  কান্না হাসির   পড়ার লেখার   বলার   চলার  দেবার নেবার  ঘুমের  জাগার ইত্যাদি ইত্যাদি   এর সবি আমি প্রকাশ করেছি  এর সবি হল আপন স্বভাব 


In [22]:
words = sample.translate(translate_map).split()

In [23]:
print(words)

['অফিসে', 'তেমন', 'ব্যস্ততা', 'নেই', 'কেমন', 'একটা', 'নিঃসঙ্গ', 'ভাব', 'মনটাকে', 'পেতে', 'আজকে', 'আমার', 'দিয়েছে', 'বদলে', 'আগের', 'স্বভাব', 'ফেলে', 'আসা', 'দিন', 'গুলো', 'ভাবাচ্ছে', 'স্মৃতিরা', 'আমাকে', 'অতিষ্ঠ', 'করে', 'হয়তো', 'বা', 'কোন', 'প্রতিশোধ', 'নিতে', 'চাচ্ছে', 'ওরাও', 'জুলম', 'করছে', 'হয়ত', 'ঘোরের', 'মধ্যে', 'পড়ে', 'গেছি', 'একজন', 'তুমি', 'বা', 'কাল্পনিক', 'প্রেমীকাকে', 'খুব', 'বিনয়', 'করছি', 'বলছি', 'আমায়', 'তুমিও', 'বোঝ', 'না', 'কেন', 'কাছে', 'আসো', 'না', 'ভালবাস', 'না', 'তাহলে', 'তো', 'আর', 'কিছুই', 'হবে', 'না', 'আমার', 'কখনো', 'বিয়েই', 'হবে', 'না', 'সুখ', 'মিলবে', 'না', 'হা', 'হা', 'হা', 'দারুণ', 'মজার', 'তাই', 'না', 'এমন', 'মজার', 'সময়', 'কাটছে', 'তবুও', 'আমার', 'ভাল', 'লাগছে', 'না', 'নিজেকে', 'বন্দী', 'বন্দী', 'লাগছে', 'সবকিছু', 'যেন', 'অচেনা', 'অজানা', 'চেনা', 'জানা', 'সুখ', 'গুলো', 'নেই', 'আর', 'কোথায়', 'যে', 'সব', 'গিয়েছে', 'হারিয়ে', 'কেউ', 'তার', 'খোঁজ', 'হয়ত', 'জানে', 'না', 'ঠিকানা', 'কোথায়', 'বলতে', 'পারে', 'না', 'যৌবনে', 'একাকী', 'থাকা', 'কষ্টের', 'একারণেই', 'কি

In [90]:
# this function removes stopwords as well
def sentence_to_wordlist(sentence, filters="!\"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n?,।!‍.'0123456789০১২৩৪৫৬৭৮৯‘\u200c–“”…‘"):
    # just to be safe
    sentence = sentence.lower()
    translate_dict = dict((c, ' ') for c in filters)
    translate_map = str.maketrans(translate_dict)
    wordlist = sentence.translate(translate_map).split()
    return list(filter(lambda x: x not in STOP_WORDS, wordlist))

In [294]:
class Vocabulary(object):
    def __init__(self, documents=None):
        self.token2id = defaultdict(lambda : 0)
        self.id2token = defaultdict(lambda : ' ')
        # token count in a document
        self.dfs = {}
        self.token_collection = set()
        self.token_counter = Counter()
        self.documents = []
        
        if documents != None:
            self.update_documents(documents)
            
    def update_token_dictionary(self, remove_previous=False):
        
        if remove_previous:
            self.token2id = defaultdict(lambda : 0)
            self.id2token = defaultdict(lambda : ' ')
            self.token2id.update({' ' : 0})
            self.id2token.update({0 : ' '})
        
        self.id2token.update({ idx+1: word for idx, word in enumerate(self.token_collection) })
        self.token2id.update({ word: idx+1 for idx, word in enumerate(self.token_collection) })
        
            
    
    def update_documents(self, documents):
        # Extending the documents
        self.documents.extend(documents)
        
        for idx, document in enumerate(documents):
            for word in document:
                self.token_counter[word] += 1
                self.token_collection.add(word)
        
        self.update_token_dictionary()
        
        
    
    # add_documents removes the previous ones
    def add_documents(self, documents):
        self.documents = []
        self.token_counter = Counter()
        self.token2id = defaultdict(lambda : 0)
        self.id2token = defaultdict(lambda : ' ')
        self.update_documents(documents)
        
    def __len__(self):
        assert len(self.id2token) == len(self.token2id)
        return len(self.id2token)
    
    def get_token_count(self, token):
        if token not in self.token2id.keys():
            raise ValueError("Token doesn't exist")
        return self.token_counter[token]
    
    
    def reduce_vocabulary_by_frequency(self, threshold):
        token_collection = [ tok for tok in self.token_counter if self.token_counter[tok] > threshold ]
        self.token_collection = set(token_collection)
        self.update_token_dictionary(remove_previous=True)
        
    def bow_from_saved_documents(self):
        bow_matrix = np.zeros((len(self.documents), len(self.token_collection)))
        
        for i, doc in enumerate(self.documents):
            for tok in doc:
                bow_matrix[i, self.token2id[tok] - 1] += 1
        
        return bow_matrix
    
    def doc2bow(self, doc):
        bow = np.zeros(len(self.token_collection) + 1)
        
        for tok in doc:
            bow[v.token2id[tok]] += 1
            
        return bow[1:]
    
    
    def __getitem__(self, key):
        if key >= len(self.id2token):
            raise KeyError("Key can't be equal or greater than total token count")
        return self.id2token[key]

In [210]:
#%time documents = [ sentence_to_wordlist(sent) for sent in tqdm(df.content)  ]
v = Vocabulary()

In [70]:
v.update_documents(documents)

In [71]:
v.reduce_vocabulary_by_frequency(100)

In [95]:
print(unique_tokens, len(unique_tokens))

['Deep', 'ও', 'Learning', 'করি', 'পছন্দ', 'Linguistic', 'Programming', 'না', 'জিনিস', 'মানে', 'আমি', 'এক', 'Neuro', 'NLP'] 14


In [98]:
c1 = Counter()

In [130]:
import numpy as np
# 1 for space
bow = np.zeros((len(docs), len(unique_tokens) + 1))

In [131]:
for i, doc in enumerate(docs):
    for tok in doc:
        bow[i, v.token2id[tok]] += 1

In [124]:
v.token_collection - set(docs[0])

{'Deep',
 'Learning',
 'Linguistic',
 'Neuro',
 'Programming',
 'এক',
 'ও',
 'জিনিস',
 'না',
 'মানে'}

In [133]:
pprint(bow)

array([[0., 0., 0., 0., 1., 1., 0., 0., 0., 0., 0., 1., 0., 0., 1.],
       [0., 0., 0., 0., 0., 0., 1., 1., 1., 0., 1., 0., 0., 1., 1.],
       [0., 1., 1., 1., 0., 0., 0., 0., 1., 1., 0., 0., 1., 0., 1.]])


In [178]:
bow[:, :].shape

(3, 15)

In [295]:
docs = [
    ['আমি', 'NLP', 'পছন্দ', 'করি', ' dsa'],
    ['NLP', 'মানে', 'Neuro', 'Linguistic', 'Programming', 'না', ' asd'],
    ['NLP', 'ও', 'Deep', 'Learning', 'এক', 'জিনিস', 'না']
]

v = Vocabulary()
v.add_documents(docs)
new_doc = ['NLP', 'কঠিন', 'নাকি', 'সহজ']

In [270]:
bow_sample = np.zeros(len(v.token_collection) + 1)
new_doc = ['NLP', 'কঠিন', 'নাকি', 'সহজ']

for tok in new_doc:
    bow_sample[v.token2id[tok]] += 1

print(bow_sample)

[3. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]


# Classification

In [361]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.utils import shuffle

In [363]:
# discard tokens below this frequency threshold
FREQ_THRESHOLD = 50
# train test data 
v = Vocabulary()
v.add_documents(documents)
v.reduce_vocabulary_by_frequency(FREQ_THRESHOLD)
train_x = v.bow_from_saved_documents()

In [364]:
train_y = np.asarray(df.tags)

train_x, train_y = shuffle(train_x, train_y, random_state=42)

In [365]:
X_train, X_test, y_train, y_test = train_test_split(train_x, train_y, test_size=0.33, random_state=42)

In [366]:
lr = LogisticRegression(C=1e5)
lr.fit(X_train, y_train)

LogisticRegression(C=100000.0, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
          solver='liblinear', tol=0.0001, verbose=0, warm_start=False)

In [367]:
y_pred = lr.predict(X_test)

In [368]:
accuracy_score(y_true=y_test, y_pred=y_pred)

0.7657445556209534

In [385]:
test_string = """
  গগনে গরজে মেঘ, ঘন বরষা।

     কূলে একা বসে আছি, নাহি ভরসা।
  """

doc = sentence_to_wordlist(test_string)
bow_of_doc = v.doc2bow(doc)
output = lr.predict([bow_of_doc])
print(index2label[output[0]])

কবিতা


In [381]:
bow = v.doc2bow(prediction_docs[0])

In [382]:
lr.predict([bow])

array([2])

In [383]:
index2label[2]

'কবিতা'