In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

In [2]:
val_df = pd.read_parquet('../Lab5/validation.parquet')
test_df = pd.read_parquet('../Lab5/test.parquet')

In [3]:
print("Validation columns:", val_df.columns)
print("Test columns:", test_df.columns)
print("Validation size:", len(val_df))
print("Test size:", len(test_df))

Validation columns: Index(['paragraph_id', 'sentences'], dtype='object')
Test columns: Index(['paragraph_id', 'sentences'], dtype='object')
Validation size: 1000
Test size: 1000


In [4]:
val_sentences = val_df['sentences'].astype(str).tolist()
test_sentences = test_df['sentences'].astype(str).tolist()

In [5]:
vectorizer = TfidfVectorizer()
val_tfidf = vectorizer.fit_transform(val_sentences)
test_tfidf = vectorizer.fit_transform(test_sentences)

In [6]:
val_sim_matrix = cosine_similarity(val_tfidf)
test_sim_matrix = cosine_similarity(test_tfidf)

In [7]:
np.fill_diagonal(val_sim_matrix, -1)
np.fill_diagonal(test_sim_matrix, -1)

In [8]:
val_nn_idx = val_sim_matrix.argmax(axis=1)
test_nn_idx = test_sim_matrix.argmax(axis=1)


In [9]:
val_df['nearest_neighbor_idx'] = val_nn_idx
val_df['nearest_neighbor_sentence'] = [val_sentences[i] for i in val_nn_idx]
test_df['nearest_neighbor_idx'] = test_nn_idx
test_df['nearest_neighbor_sentence'] = [test_sentences[i] for i in test_nn_idx]


In [10]:
print(val_df[['sentences', 'nearest_neighbor_sentence']].head())

                                           sentences  \
0  [{'text': 'होम स्क्रीन या एपलॉक, फिंगरप्रिंट य...   
1  [{'text': 'ने कहा COVID19 से लड़ने के लिए एक न...   
2  [{'text': 'एफ़आईआर में वरिष्ठ डॉक्टर ने कहा है ...   
3  [{'text': 'भाजपाइयों ने किया राष्ट्रपति शासन क...   
4  [{'text': 'रांची से करीब 70 किमी दूर देवड़ी मा...   

                           nearest_neighbor_sentence  
0  [{'text': 'मोबाइल बैंकिंग ऐप में एक्सेस करने क...  
1  [{'text': 'हर मैच को अहम बताते हुए बल्लेबाज ने...  
2  [{'text': 'श्री शंकराचार्य कॉलेज में स्टूडेंट ...  
3  [{'text': 'इससे पहले राष्ट्रपति डाक्टर हसन रूह...  
4  [{'text': 'अगर बात करें मैच की, तो इसका पहला ग...  


In [None]:
# val_df.to_parquet("validation_with_neighbors.parquet", index=False)
# test_df.to_parquet("test_with_neighbors.parquet", index=False)