# Importing related libraries

In [1]:
import json, math
from scipy import spatial
from sklearn.feature_extraction.text import TfidfVectorizer

# Functions and Data for the Search Engine

### Cosine Function

It is taking cosine distance between two vectors (i.e., query and doc), and subtracting it from 1 to convert it into similarity. 

In case of any exception it will return - infinity

In [2]:
def cosine(query, doc):
    try:
        return 1 - spatial.distance.cosine(query, doc)
    except:
        return -math.inf

### Reading JSON file

In [3]:
with open('scraped-news.json', 'r', encoding='utf-8') as file:
    info = json.load(file)

# printing length
print(len(info))

# printing first dictionary
print(info[0])

1000
{'url': 'https://www.urdupoint.com/daily/livenews/2021-11-06/news-2952365.html', 'title': 'ملک میں سونے کی مجوعی قیمت میں5201 روپے کا بڑا اضافہ ہوگیا', 'desc': 'سونے کی فی تولہ نئی قیمت ایک لاکھ 23 ہزار روپے ہوگئی، جبکہ 10گرام سونے کی نئی قیمت ایک لاکھ 5 ہزار 453 روپے ہوچکی ہے۔ سندھ صرافہ بازار ایسوسی ایشن', 'detail': 'کراچی (اردوپوائنٹ اخبارتازہ ترین۔ 06 نومبر2021ء) عالمی مارکیٹ میں سونے کی فی تولہ قیمتوں میں اتارچڑھاؤ کا سلسلہ جاری ہے، جس کے باعث پاکستان میں بھی سونے کی قیمت میں بڑا ردوبدل دیکھا گیا ہے، ملک میں سونے کی مجموعی قیمت 5 ہزار201 روپے مہنگی ہوگئی، فی تولہ قیمت میں 2800 روپے اور 10 گرام سونے کی قیمت میں2401 روپے اضافہ ہوگیا ہے۔ سندھ صرافہ بازار ایسوسی ایشن کے مطابق عالمی مارکیٹ میں سونے کی قیمت میں یکدم بڑا اضافہ ہوا ہے۔(جاری ہے)   عالمی صرافہ بازار میں سونے کی قدر 26 امریکی ڈالر اضافے سے 1818 ڈالر فی اونس پر پہنچ گئی ہے۔ عالمی مارکیٹ میں سونے کی قیمت بڑھنے سے پاکستان میں سونے کی فی تولہ قیمت میں 2 ہزار 800 روپے کا اضافہ ہوا، جس کے بعد سونے کی فی تولہ نئی قیمت ایک لاکھ

### Making the set of documents, through concatenating all of the descriptive items in our JSON (i.e., title, description, and details)

In [4]:
docs = []
for i, item in enumerate(info):
    if 'detail' in item:
        docs.append(item['title'] + ' ' + item['desc'] + ' ' + item['detail'])
    else:
        docs.append(item['title'] + ' ' + item['desc'])

### Checking one random doc at index 90

In [5]:
docs[90]

'صدر عارف علوی نے وفاقی بینکنگ محتسب کے پرائیویٹ بینک کو متاثرہ شہری کو 8 لاکھ روپے کی رقم واپس کرنے کے فیصلے کی توثیق کردی قانون کے تحت بینکنگ محتسب بینکوں کی بد انتظامی، بے ضابطگیوں اور حکام کی بد عنوانی میں تفتیش کرنے اور حکم جاری کرنے کا مجاز ہے، فیصلہ اسلام آباد(اُردو پوائنٹ اخبارتازہ ترین - این این آئی۔ 06 نومبر2021ء) صدر عارف علوی نے وفاقی بینکنگ محتسب کے پرائیویٹ بینک کو متاثرہ شہری کو 8 لاکھ روپے کی رقم واپس کرنے کے فیصلے کی توثیق کردی۔ جاری اعلامیہ کے مطابق صدر مملکت نے فراڈ سے متاثرہ شہری کو 8 لاکھ روپے کی گمشدہ رقم واپس کرنے کا حکم برقرار رکھا ،صدر مملکت نے وفاقی بینکنگ محتسب کے فیصلے کے خلاف سونیری بینک کی اپیل مسترد کر دی۔ صدر مملکت نے کہاکہ بینک کی جانب سے بد انتظامی اور بے ضابطگی ثابت ہوتی ہے، بینک انتطامیہ کی جانب سے شہری کو فراڈ کا نشانہ بنایا گیا۔ صدر مملکت نے کہاکہ قانون کے تحت بد انتظامی پر بینک شہری کو رقم واپس کرنے کا پابند ہے، شیخو پورہ کیمتاثرہ شہری نے سونیری بینک میں 20 لاکھ کی رقم جمع کروائی تھی۔(جاری ہے)   اعلامیہ کے مطابق متاثرہ شہری کے پاس 20 لاکھ روپے بی

### Vectorizing the documents throgh sklearn-based TFIDF vectorizer

In [6]:
vectorizor = TfidfVectorizer()
transformed_docs = vectorizor.fit_transform(docs)

### Query Transformation (as it is based on the transfomed-docs)

In [7]:
query = 'افغانستان انسانی حقوق'

In [8]:
transformed_query = vectorizor.transform([query])

# the transformed query in sparse format, and the respective TF-IDF weights
print(transformed_query)

  (0, 5321)	0.5390894628286751
  (0, 2341)	0.6102979171904231
  (0, 1997)	0.5804472442351002


### Example of converting sparse-array into the non-sparse vector through `toarray()` function

In [9]:
print(transformed_query.toarray())

[[0. 0. 0. ... 0. 0. 0.]]


### Iterating query vector over all document vectors for calculating cosine similarity.
### Keeping result as a list of tuples in format: `(doc_id, similarity_score)`

In [10]:
result = [] 
vectorized_query = transformed_query.toarray()

for i,doc_item in enumerate(transformed_docs):
    vectorized_doc = doc_item.toarray()
    result.append((i, 1 - spatial.distance.cosine(vectorized_query, vectorized_doc)))

In [11]:
print(result)

[(0, 0.0), (1, 0.0), (2, 0.0), (3, 0.0), (4, 0.0), (5, 0.0), (6, 0.0), (7, 0.0), (8, 0.14570518624232276), (9, 0.0), (10, 0.0), (11, 0.0), (12, 0.0), (13, 0.0), (14, 0.0), (15, 0.0), (16, 0.027233081843819007), (17, 0.0), (18, 0.0), (19, 0.0), (20, 0.0), (21, 0.0), (22, 0.0), (23, 0.0), (24, 0.0), (25, 0.0), (26, 0.0), (27, 0.0), (28, 0.0), (29, 0.0), (30, 0.0), (31, 0.0), (32, 0.0), (33, 0.0), (34, 0.0), (35, 0.0), (36, 0.0), (37, 0.0), (38, 0.0), (39, 0.08101094964895394), (40, 0.0), (41, 0.0), (42, 0.0), (43, 0.0), (44, 0.0), (45, 0.0), (46, 0.0), (47, 0.0), (48, 0.0), (49, 0.0), (50, 0.0), (51, 0.0), (52, 0.0), (53, 0.0), (54, 0.0), (55, 0.0), (56, 0.0), (57, 0.0), (58, 0.0), (59, 0.0), (60, 0.0), (61, 0.0), (62, 0.0), (63, 0.0), (64, 0.0), (65, 0.0), (66, 0.0), (67, 0.0), (68, 0.0), (69, 0.0), (70, 0.0), (71, 0.0), (72, 0.0), (73, 0.0765409517133665), (74, 0.0), (75, 0.0), (76, 0.0), (77, 0.0), (78, 0.0), (79, 0.0), (80, 0.0), (81, 0.0), (82, 0.0), (83, 0.0), (84, 0.01471112866467

### Filtering all result where similarity score > 0

In [12]:
result = [x for x in result if x[1] > 0.]
print(result)

[(8, 0.14570518624232276), (16, 0.027233081843819007), (39, 0.08101094964895394), (73, 0.0765409517133665), (84, 0.01471112866467561), (105, 0.030884252000514145), (108, 0.024250325217264), (118, 0.11919500500250635), (136, 0.03010742262174604), (153, 0.012004350600952951), (154, 0.08697189808478423), (172, 0.15255944915382502), (174, 0.02431645043248576), (176, 0.038541120751557356), (178, 0.010322592104881734), (196, 0.09698024688824758), (200, 0.08870792673796113), (210, 0.17012683356727898), (211, 0.03501903904371706), (213, 0.0234748802612349), (221, 0.02467495147243881), (234, 0.020971002475436262), (238, 0.0123192546294979), (245, 0.01989993479834362), (253, 0.01625984014475801), (258, 0.010000802570795164), (272, 0.012741407461405507), (306, 0.13565662173668946), (314, 0.09975308351852674), (331, 0.10581966809244125), (358, 0.021744599100216533), (381, 0.049128664858860915), (382, 0.025071297269204096), (390, 0.082637594569958), (400, 0.01866908907743814), (403, 0.0560326019600

### Sorting results with decreasing order of similarity scores

In [14]:
result = sorted(result, key=lambda x: x[1])[::-1]
print(result)

[(619, 0.20609765183489137), (931, 0.17232486791227808), (210, 0.17012683356727898), (977, 0.15515068255881004), (172, 0.15255944915382502), (963, 0.1467932194296705), (8, 0.14570518624232276), (969, 0.14296821071733956), (471, 0.14272593302997127), (306, 0.13565662173668946), (118, 0.11919500500250635), (522, 0.113584190490709), (435, 0.10899913772679248), (331, 0.10581966809244125), (924, 0.10577366348122375), (490, 0.10260035664714329), (314, 0.09975308351852674), (573, 0.09792151147666062), (196, 0.09698024688824758), (533, 0.095722218897205), (531, 0.0939103395690064), (759, 0.09081413235970737), (200, 0.08870792673796113), (767, 0.08779451803201166), (154, 0.08697189808478423), (694, 0.0850389023667808), (390, 0.082637594569958), (39, 0.08101094964895394), (614, 0.0808536617256872), (475, 0.07979104210397692), (570, 0.0784202830743922), (73, 0.0765409517133665), (768, 0.07456353495061774), (760, 0.0745221771760255), (940, 0.060986127970999005), (776, 0.05958516740478048), (403, 0

### top-k relevent documents w.r.t the given query. In our case k=3

In [15]:
k_result = result[:3]
k_result

[(619, 0.20609765183489137),
 (931, 0.17232486791227808),
 (210, 0.17012683356727898)]

### Printing Query and Result

In [16]:
print('Query:', query)
print()
print('-' * 50)
print()
    
for i,similarity in k_result:
    print('Document ID', i)
    print('Similarity Score', similarity)
    print('Document', docs[i])
    print()
    print('-' * 50)
    print()

Query: افغانستان انسانی حقوق

--------------------------------------------------

Document ID 619
Similarity Score 0.20609765183489137
Document اقوام متحدہ کی ہائی کمشنر برائے انسانی حقوق کی ایتھوپیا میں بڑھتے ہوئے تنازعے کو ختم کرنے اور شہریوں کے تحفظ کی اپیل  اقوام متحدہ ۔ (اُردو پوائنٹ اخبارتازہ ترین - اے پی پی۔ 04 نومبر2021ء) : ایتھوپیا کے علاقے ٹگرے میں بڑھتے ہوئے تنازعے کے درمیان، اقوام متحدہ کی ہائی کمشنر برائے انسانی حقوق، مشیل بیچلیٹ نے تمام فریقوں سے تشدد کو ختم کرنے اور شہریوں کے تحفظ اور ان کے حقوق کے مکمل احترام کو ترجیح دینے کی اپیل کی ہے ۔ حقوق کے سربراہ کی اپیل ایتھوپیا میں ہنگامی حالت کے اعلان کے بعد کی گئی، جیسا کہ رپورٹس میں کہا گیا ہے کہ ٹگراین فورسز نے پڑوسی امہارا کے علاقے میں مزید پیش قدمی کی ہیاور ایتھوپیا کی سرکاری افواج کی طرف سے دجلہ کے دارالحکومت میکیل پر گولہ باری کی دیگر خبروں کی اطلاعات ہیں۔مشیل بیچلیٹ نے کہاکہ ایتھوپیا کے علاقے ٹگرے میں خطرات سنگین ہیں کہ صورتحال کو مستحکم کرنے سے کہیں زیادہ وسیع اقدامات کرنے کی ضرورت ہے جن میں گرفتاری اور نظربندی کے وسی