In [1]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.neighbors import NearestNeighbors
import json

In [2]:
# Define some example document texts
docs = [
    "I love food",
    "Healthy food, healthy life",
    "Get a hobby, enjoy life",
    "My hobby is to play chess. I enjoy it. ",
    "I enjoy my life to fullest. I cook healthy food. I go to gym. I play basketball"
]

In [3]:
# Create a count vectorizer to transform the documents into term-frequency matrix
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(docs)

# Print the vocabulary and the term-frequency matrix
vocab = vectorizer.get_feature_names_out()
print("Vocabulary:", vocab)
print("Term-frequency matrix:")
print(X.toarray())

Vocabulary: ['basketball' 'chess' 'cook' 'enjoy' 'food' 'fullest' 'get' 'go' 'gym'
 'healthy' 'hobby' 'is' 'it' 'life' 'love' 'my' 'play' 'to']
Term-frequency matrix:
[[0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 1 0 0 0 0 2 0 0 0 1 0 0 0 0]
 [0 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 0 0]
 [0 1 0 1 0 0 0 0 0 0 1 1 1 0 0 1 1 1]
 [1 0 1 1 1 1 0 1 1 1 0 0 0 1 0 1 1 2]]


In [4]:
# Create an LDA model with 2 topics
lda = LatentDirichletAllocation(n_components=6, random_state=0)
lda.fit(X)

In [5]:
# Print the topic-word distribution
print("Topic-word distribution:")

topic_word_dist = []
for cnt,topic in enumerate(lda.components_,1):
    dist = list(zip(vocab,topic))
    topic_word_dist.append(dist)
    print("Topic",cnt, dist)

Topic-word distribution:
Topic 1 [('basketball', 1.1666581844201933), ('chess', 0.16666702176878165), ('cook', 1.1666581844201933), ('enjoy', 1.166607759044104), ('food', 2.1664795018981358), ('fullest', 1.1666581844201933), ('get', 0.16666739766826313), ('go', 1.1666581844201933), ('gym', 1.1666581844201933), ('healthy', 1.166331851145414), ('hobby', 0.16666775247052856), ('is', 0.16666702176878165), ('it', 0.16666702176878165), ('life', 1.1663286715080512), ('love', 1.1666033221084486), ('my', 1.1665598269598174), ('play', 1.1665598269598174), ('to', 2.1667920684638213)]
Topic 2 [('basketball', 0.16666908943905392), ('chess', 0.16666906737761397), ('cook', 0.16666908943905392), ('enjoy', 0.1666764963018281), ('food', 0.16668040544193347), ('fullest', 0.16666908943905392), ('get', 0.16667167559861432), ('go', 0.16666908943905392), ('gym', 0.16666908943905392), ('healthy', 0.16667333832209918), ('hobby', 0.16667407503821602), ('is', 0.16666906737761397), ('it', 0.16666906737761397), ('

In [6]:
# Print the document-topic distribution
print("Document-topic distribution:")
document_topic_dist = lda.transform(X)
print(document_topic_dist)

Document-topic distribution:
[[0.72193512 0.05556418 0.05556418 0.05555762 0.05581471 0.05556418]
 [0.03357559 0.03333561 0.03333561 0.03333388 0.8330837  0.03333561]
 [0.03341761 0.03333676 0.03333676 0.03353845 0.83303365 0.03333676]
 [0.01860595 0.01852065 0.01852065 0.90726079 0.01857131 0.01852065]
 [0.94029388 0.01190671 0.01190671 0.01197165 0.01201433 0.01190671]]


In [7]:
print(document_topic_dist,"\n")

document_topic_argmax=document_topic_dist.argsort(axis=1)[:,::-1] #.argsort(axis=1)[:,::-1]
print(document_topic_argmax,"\n")

for cnt,topic_idx, in enumerate(document_topic_argmax):
    print(docs[cnt][:300])
    print("Document",cnt+1, "talks about topic", (topic_idx+1), "\n")

[[0.72193512 0.05556418 0.05556418 0.05555762 0.05581471 0.05556418]
 [0.03357559 0.03333561 0.03333561 0.03333388 0.8330837  0.03333561]
 [0.03341761 0.03333676 0.03333676 0.03353845 0.83303365 0.03333676]
 [0.01860595 0.01852065 0.01852065 0.90726079 0.01857131 0.01852065]
 [0.94029388 0.01190671 0.01190671 0.01197165 0.01201433 0.01190671]] 

[[0 4 5 2 1 3]
 [4 0 5 2 1 3]
 [4 3 0 5 2 1]
 [3 0 4 5 2 1]
 [0 4 3 5 2 1]] 

I love food
Document 1 talks about topic [1 5 6 3 2 4] 

Healthy food, healthy life
Document 2 talks about topic [5 1 6 3 2 4] 

Get a hobby, enjoy life
Document 3 talks about topic [5 4 1 6 3 2] 

My hobby is to play chess. I enjoy it. 
Document 4 talks about topic [4 1 5 6 3 2] 

I enjoy my life to fullest. I cook healthy food. I go to gym. I play basketball
Document 5 talks about topic [1 5 4 6 3 2] 



In [8]:
d = {}
with open("cleaned_one.json","r",encoding="UTF-8") as fp:
    d = json.load(fp)


In [9]:
book_names = np.array(list(d.keys()))
texts = list(d.values())
texts = [" ".join(text) for text in texts]

In [10]:
texts[1][:100]

'কড়া রোদ চারদিক বাতাস উষ্ণ গেট বাইরে প্রকাণ্ড শিমুল গাছ লাল লাল ফুলা বসন্তকাল লক্ষণ এই একটা সে একটা '

In [11]:
vectorizer = CountVectorizer()
texts_transformed = vectorizer.fit_transform(texts)
np.shape(texts_transformed)

(12, 2902)

In [12]:
# print(texts_transformed[0,:20])
vocab = list(vectorizer.get_feature_names_out())
# print(texts_transformed[:,-5:].todense())
len(vocab)

2902

In [13]:
# Create an LDA model with 6 topics
lda = LatentDirichletAllocation(n_components=6, random_state=0)
lda.fit(texts_transformed)

In [14]:
# Print the document-topic distribution
np.set_printoptions(suppress=True)
print("Document-topic distribution:")
document_topic_dist = lda.transform(texts_transformed)
print(document_topic_dist)

Document-topic distribution:
[[0.00001701 0.9999154  0.00001681 0.00001698 0.00001699 0.00001681]
 [0.37227719 0.0148007  0.00001896 0.00139565 0.61148853 0.00001896]
 [0.50141812 0.49854131 0.0000101  0.0000102  0.00001018 0.0000101 ]
 [0.00000514 0.99997439 0.00000509 0.00000515 0.00000514 0.00000509]
 [0.99968728 0.00000447 0.00000443 0.00029492 0.00000447 0.00000443]
 [0.04078448 0.00000275 0.00000272 0.95904886 0.00015849 0.00000272]
 [0.00001361 0.99993223 0.00001347 0.00001361 0.0000136  0.00001347]
 [0.25805846 0.74122829 0.00001922 0.0006554  0.0000194  0.00001922]
 [0.89278653 0.0000289  0.0000286  0.10709849 0.00002888 0.0000286 ]
 [0.33786183 0.662074   0.00001597 0.00001612 0.00001611 0.00001597]
 [0.91358847 0.08633133 0.00001992 0.00002016 0.0000202  0.00001992]
 [0.98757399 0.00286752 0.00001197 0.00952248 0.00001208 0.00001197]]


In [15]:
document_topic_argmax=document_topic_dist.argsort(axis=1)[:,::-1] #.argsort(axis=1)[:,::-1]
# print(document_topic_argmax,"\n")

for cnt,topic_idx, in enumerate(document_topic_argmax):
    print("Book:", book_names[cnt])
    print(texts[cnt][:30])
    print("Document",cnt+1, "talks about topic", (topic_idx+1), "\n")

Book: দিনের শেষে
জহির লাজুক মুখ বলা স্যার আজ এক
Document 1 talks about topic [2 1 5 4 6 3] 

Book: এই বসন্তে
কড়া রোদ চারদিক বাতাস উষ্ণ গেট
Document 2 talks about topic [5 1 2 4 6 3] 

Book: এপিটাফ
কাল রাত আমার খুব ভাল ঘুম হওয়া 
Document 3 talks about topic [1 2 4 5 6 3] 

Book: কে কথা কয়
এই মুহূর্ত অতি তুচ্ছ একটা বিষয়
Document 4 talks about topic [2 4 1 5 6 3] 

Book: মেঘ বলেছে যাব যাব
একদল হাঁস সঙ্গ সে হাঁটা তার মা
Document 5 talks about topic [1 4 2 5 6 3] 

Book: মধ্যাহ্ন
হরিচরণ সাহা তাঁর পাকাবাড়ির পি
Document 6 talks about topic [4 1 5 2 6 3] 

Book: মৃন্ময়ীর মন ভালো নেই
মৃন্ময়ী ঘুম ভাঙা মহান দায়িত্ব 
Document 7 talks about topic [2 1 4 5 6 3] 

Book: নীল অপরাজিতা
তিনি ট্রেন থেকে নামা দুপুর বেল
Document 8 talks about topic [2 1 4 5 6 3] 

Book: নির্বাসন
রাত্রি তাঁর ভালো ঘুম হয় নি বা
Document 9 talks about topic [1 4 2 5 6 3] 

Book: নক্ষত্রের রাত
দেয়াল অদ্ভুত আকৃতি একটা জার্মা
Document 10 talks about topic [2 1 4 5 6 3] 

Book: প্রথম প্রহর
আমার বয়স প্রায় বত্রিশ প্রায়
Document

In [16]:
# Create a NearestNeighbors model (using Euclidean distance here)
model_knn = NearestNeighbors(metric='euclidean', algorithm='brute', n_neighbors=6, n_jobs=-1)

# Fit the model to your data
model_knn.fit(document_topic_dist)

# Get the top 6 closest distributions for each distribution
distances, indices = model_knn.kneighbors(document_topic_dist)

In [26]:
np.set_printoptions(suppress=True)
idx_dist_pair = []
for i in range(12):
    temp = [(book_names[idx],dist) for idx,dist in zip(indices[i][1:],distances[i][1:])]
    idx_dist_pair.append(temp)
pd.DataFrame(idx_dist_pair, index=book_names)

Unnamed: 0,0,1,2,3,4
দিনের শেষে,"(মৃন্ময়ীর মন ভালো নেই, 1.8437391668919367e-05)","(কে কথা কয়, 6.461583107627962e-05)","(নীল অপরাজিতা, 0.3653831104404315)","(নক্ষত্রের রাত, 0.4777823079314146)","(এপিটাফ, 0.7090691449062192)"
এই বসন্তে,"(এপিটাফ, 0.7903100983215775)","(নির্বাসন, 0.8100643050231014)","(প্রথম প্রহর, 0.8197743314022894)","(উড়ালপঙ্খি, 0.8675840299886486)","(মেঘ বলেছে যাব যাব, 0.8762284635908387)"
এপিটাফ,"(নক্ষত্রের রাত, 0.23128683750092982)","(নীল অপরাজিতা, 0.34368781221156314)","(প্রথম প্রহর, 0.5829249271352744)","(নির্বাসন, 0.6427688231135116)","(উড়ালপঙ্খি, 0.6943561913232386)"
কে কথা কয়,"(মৃন্ময়ীর মন ভালো নেই, 4.6178449705539176e-05)","(দিনের শেষে, 6.461583107627962e-05)","(নীল অপরাজিতা, 0.3654332719119993)","(নক্ষত্রের রাত, 0.47783240620168504)","(এপিটাফ, 0.7091192415142729)"
মেঘ বলেছে যাব যাব,"(উড়ালপঙ্খি, 0.015494421371625617)","(প্রথম প্রহর, 0.121923777637518)","(নির্বাসন, 0.1511118027985817)","(এপিটাফ, 0.7048483675538061)","(এই বসন্তে, 0.8762284635908387)"
মধ্যাহ্ন,"(এপিটাফ, 1.1749379632047094)","(এই বসন্তে, 1.183609092826644)","(নক্ষত্রের রাত, 1.2026375633807371)","(নির্বাসন, 1.204876318998709)","(নীল অপরাজিতা, 1.2309107721163173)"
মৃন্ময়ীর মন ভালো নেই,"(দিনের শেষে, 1.8437391668919367e-05)","(কে কথা কয়, 4.6178449705539176e-05)","(নীল অপরাজিতা, 0.3653974278675799)","(নক্ষত্রের রাত, 0.47779660744681657)","(এপিটাফ, 0.7090834440634305)"
নীল অপরাজিতা,"(নক্ষত্রের রাত, 0.11240279562587763)","(এপিটাফ, 0.34368781221156314)","(দিনের শেষে, 0.3653831104404315)","(মৃন্ময়ীর মন ভালো নেই, 0.3653974278675799)","(কে কথা কয়, 0.3654332719119993)"
নির্বাসন,"(উড়ালপঙ্খি, 0.13606541949733164)","(প্রথম প্রহর, 0.13909205100743818)","(মেঘ বলেছে যাব যাব, 0.1511118027985817)","(এপিটাফ, 0.6427688231135116)","(এই বসন্তে, 0.8100643050231014)"
নক্ষত্রের রাত,"(নীল অপরাজিতা, 0.11240279562587763)","(এপিটাফ, 0.23128683750092982)","(দিনের শেষে, 0.4777823079314146)","(মৃন্ময়ীর মন ভালো নেই, 0.47779660744681657)","(কে কথা কয়, 0.47783240620168504)"


In [18]:
# For each distribution, print the indices of the 5 closest distributions
for i in range(len(document_topic_dist)):
    # print(f"Document {i} is closest to documents {indices[i][1:]}.")
    print(f"{book_names[i]}: {book_names[indices[i][1:]]}")

দিনের শেষে: ['মৃন্ময়ীর মন ভালো নেই' 'কে কথা কয়' 'নীল অপরাজিতা' 'নক্ষত্রের রাত'
 'এপিটাফ']
এই বসন্তে: ['এপিটাফ' 'নির্বাসন' 'প্রথম প্রহর' 'উড়ালপঙ্খি' 'মেঘ বলেছে যাব যাব']
এপিটাফ: ['নক্ষত্রের রাত' 'নীল অপরাজিতা' 'প্রথম প্রহর' 'নির্বাসন' 'উড়ালপঙ্খি']
কে কথা কয়: ['মৃন্ময়ীর মন ভালো নেই' 'দিনের শেষে' 'নীল অপরাজিতা' 'নক্ষত্রের রাত'
 'এপিটাফ']
মেঘ বলেছে যাব যাব: ['উড়ালপঙ্খি' 'প্রথম প্রহর' 'নির্বাসন' 'এপিটাফ' 'এই বসন্তে']
মধ্যাহ্ন: ['এপিটাফ' 'এই বসন্তে' 'নক্ষত্রের রাত' 'নির্বাসন' 'নীল অপরাজিতা']
মৃন্ময়ীর মন ভালো নেই: ['দিনের শেষে' 'কে কথা কয়' 'নীল অপরাজিতা' 'নক্ষত্রের রাত' 'এপিটাফ']
নীল অপরাজিতা: ['নক্ষত্রের রাত' 'এপিটাফ' 'দিনের শেষে' 'মৃন্ময়ীর মন ভালো নেই' 'কে কথা কয়']
নির্বাসন: ['উড়ালপঙ্খি' 'প্রথম প্রহর' 'মেঘ বলেছে যাব যাব' 'এপিটাফ' 'এই বসন্তে']
নক্ষত্রের রাত: ['নীল অপরাজিতা' 'এপিটাফ' 'দিনের শেষে' 'মৃন্ময়ীর মন ভালো নেই' 'কে কথা কয়']
প্রথম প্রহর: ['উড়ালপঙ্খি' 'মেঘ বলেছে যাব যাব' 'নির্বাসন' 'এপিটাফ' 'নক্ষত্রের রাত']
উড়ালপঙ্খি: ['মেঘ বলেছে যাব যাব' 'প্রথম প্রহর' 'নির্বাসন' 'এপিটাফ' 'এই বসন্তে']
