## **import packages**

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from tqdm import tqdm
import numpy as np


## **Read & Load Data**

In [2]:
main_doc = pd.read_csv("varzesh3.csv") 
doc = main_doc.get(key='title')


FileNotFoundError: [Errno 2] No such file or directory: 'varzesh3.csv'

## **Tf-idf vectorization**

In [None]:
vectorizer = TfidfVectorizer(lowercase=True)
vectorizer.fit(doc)
vectorizer.vocabulary_

{'500': 0,
 'آقاسی': 1,
 'آمریکا': 2,
 'احساسی': 3,
 'از': 4,
 'است': 5,
 'استارت': 6,
 'استقلال': 7,
 'اسکوچیچ': 8,
 'اضافه': 9,
 'ام': 10,
 'انتخاب': 11,
 'انتخابات': 12,
 'انگاپت': 13,
 'اول': 14,
 'ایران': 15,
 'با': 16,
 'باروز': 17,
 'باید': 18,
 'با۳': 19,
 'برای': 20,
 'برنده': 21,
 'برگزاری': 22,
 'بزرگ': 23,
 'بلژیک': 24,
 'به': 25,
 'بگیریم': 26,
 'بیل': 27,
 'تمرین': 28,
 'توضیح': 29,
 'توفان': 30,
 'تیلور': 31,
 'تیم': 32,
 'تیمی': 33,
 'جام': 34,
 'جهانی': 35,
 'جهنم': 36,
 'حسن': 37,
 'خانه': 38,
 'خندان': 39,
 'داخل': 40,
 'دادیم': 41,
 'در': 42,
 'درباره': 43,
 'درخشش': 44,
 'دروغ': 45,
 'دوبنده': 46,
 'دور': 47,
 'دوچرخه': 48,
 'رئال': 49,
 'را': 50,
 'رادار': 51,
 'رسمی': 52,
 'رسید': 53,
 'رفته': 54,
 'رفقا': 55,
 'رقابت': 56,
 'روبرتو': 57,
 'رودیگر': 58,
 'رونالدو': 59,
 'رکورد': 60,
 'زور': 61,
 'ستارگان': 62,
 'سردار': 63,
 'سرمربی': 64,
 'سلتیکس': 65,
 'سه': 66,
 'سوارکاری': 67,
 'سواری': 68,
 'سیاه': 69,
 'شد': 70,
 'شدند': 71,
 'شریفی': 72,
 'ششمی': 73,
 'شما

In [None]:
doc_tfidf = vectorizer.transform(doc)
type(doc_tfidf), doc_tfidf.shape


(scipy.sparse.csr.csr_matrix, (20, 128))

In [None]:
doc_tfidf[0].A


array([[0.        , 0.        , 0.37010128, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.37010128,
        0.37010128, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.26891286, 0.        , 0.        ,
        0.        , 0.        , 0.37010128, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.37

In [None]:
vectorizer = TfidfVectorizer()
tfidf_doc = vectorizer.fit_transform(doc)
tfidf_doc.shape, len(vectorizer.vocabulary_)


((20, 128), 128)

In [None]:
list(vectorizer.vocabulary_.keys())[:4]


['صدرنشینی', 'آمریکا', 'ششمی', 'ایران']

## **Test a Query**

In [None]:
query = 'فوتبال'
vectorizer.transform([query])[0]

<1x128 sparse matrix of type '<class 'numpy.float64'>'
	with 0 stored elements in Compressed Sparse Row format>

## **similarities**

In [None]:
cosines = []
for d in tqdm(tfidf_doc):
  cosines.append(float(cosine_similarity(d, tfidf_query)))

20it [00:00, 914.23it/s]


## **Sorting**

In [None]:
k = 4
sorted_ids = np.argsort(cosines)
for i in range(k):
   print(i)
   cur_id = sorted_ids[-i-1]
   print(doc[cur_id], cosines[cur_id])

0
سردار رکورد کریم را نشانه رفته است (عکس) 0.0
1
ولز 1-2 هلند؛ توفان در وقت‌های اضافه! 0.0
2
آقاسی: از داخل استقلال به اسکوچیچ دروغ گفتند! 0.0
3
پایان 500 کیلومتر دوچرخه‌سواری؛ رونالدو به مقصد رسید! 0.0
