# ДЗ 2  
## Ранжирование: TF-IDF, матрица Document-Term, косинусная близость

### TfidfVectorizer

In [109]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity, linear_kernel
import numpy as np
from scipy.spatial.distance import cosine
 
# инициализируем
vectorizer = TfidfVectorizer()


# составляем корпус документов
corpus = [
  'слово1 слово2 слово3',
  'слово2 слово3',
  'слово1 слово2 слово1',
  'слово4',
    'слово4 слово3'
]

# считаем
X = vectorizer.fit_transform(corpus)
 
# получится следующая структура:
#        |  слово1  |  слово2  |  слово3  |  слово4
# текст1 |   0.6    |    0.5   |   0.6    |    0
# текст2 |   0      |    0.6   |   0.8    |    0
# текст3 |   0.9    |    0.4   |   0      |    0
# текст4 |   0      |    0     |   0      |    1


# показать матрицу
print('X:\n', X.toarray(), '\n')

 
# чтобы получить сгенерированный словарВ ь, из приведенной структуры CountVectorizer
# порядок совпадает с матрицей
print('get_feature_names:', vectorizer.get_feature_names(), '\n')  # ['слово1', 'слово2', 'слово3', 'слово4']
 
    
# чтобы узнать индекс токена в словаре
print('vocabulary_.get:', vectorizer.vocabulary_.get('слово1')) # вернет 0
print('vocabulary_.get:', vectorizer.vocabulary_.get('слово4'), '\n') # вернет 3

 
# теперь можно быстро подсчитать вектор для нового документа
print('transform:', vectorizer.transform(['слово1 слово4 слово4']).toarray())  # результат [[0.36673901, 0, 0, 0.93032387]]


X:
 [[0.64846263 0.53828256 0.53828256 0.        ]
 [0.         0.70710678 0.70710678 0.        ]
 [0.92360774 0.38333893 0.         0.        ]
 [0.         0.         0.         1.        ]
 [0.         0.         0.63871058 0.76944707]] 

get_feature_names: ['слово1', 'слово2', 'слово3', 'слово4'] 

vocabulary_.get: 0
vocabulary_.get: 3 

transform: [[0.4472136  0.         0.         0.89442719]]




In [86]:
X = X.toarray()

In [94]:
np.dot([1, 2], [2, 3])

8

In [141]:
linear_kernel([[1, 2]], [[1, 2]])

array([[5.]])

In [105]:
np.sum(np.array([[1, 2], [1, 2]]) * np.array([[1, 2], [1, 2]]), axis=1)

array([5, 5])

In [139]:
np.linalg.norm(a, 2, 0)

array([17.95945317, 18.74843582, 18.11295281, 18.34501387, 18.428281  ,
       18.26873763, 17.90002343, 17.89449703, 18.66100251, 17.87605931,
       17.82135734, 18.21049892, 18.13449088, 18.27999593, 18.24252096,
       18.33282006, 18.37017487, 17.87680323, 18.19760059, 18.68799967,
       18.51832504, 18.75841247, 18.25401363, 17.90436109, 18.27677587,
       18.35312555, 18.22661233, 18.46850985, 18.56196884, 18.54775023,
       18.37476932, 18.58633344, 18.26496066, 18.16496623, 18.39819456,
       18.50035468, 18.11241546, 18.45648478, 18.41342338, 18.04375901,
       18.22247643, 17.95125689, 18.6331638 , 18.58991404, 18.21818565,
       19.01430709, 18.12979223, 17.86683139, 18.23420055, 18.30198231,
       18.22058869, 18.24985941, 18.56980476, 18.46685506, 18.24195684,
       18.33685716, 18.29796464, 18.37458887, 18.47047076, 18.31664561,
       18.4065035 , 17.99597045, 18.35321572, 18.20531504, 18.39311142,
       18.34924683, 18.20762542, 18.17010841, 18.27257897, 18.18

In [90]:
a = [1, 2, 3, 4, 5]

In [91]:
a = np.tile(a,(4, 1))

In [92]:
np.dot(a, X)

array([[3.41928586, 3.10251291, 5.14604901, 7.84723536],
       [3.41928586, 3.10251291, 5.14604901, 7.84723536],
       [3.41928586, 3.10251291, 5.14604901, 7.84723536],
       [3.41928586, 3.10251291, 5.14604901, 7.84723536]])

In [151]:
a = np.random.rand(1000, 100)
b = np.random.rand(1, 100)

In [131]:
np.argsort(np.sum(a * b, 1)).shape

(1000,)

In [134]:
np.allclose(np.argsort(np.sum(a * b, 1)), np.argsort(np.apply_along_axis(lambda x: cosine(x, b), 1, a)))

False

In [123]:
np.apply_along_axis(lambda x: cosine(x, b), 1, a)

array([0.23861301, 0.0746884 , 0.05174952])

In [58]:
cosine_similarity(X, np.tile(a,(4, 1)))

array([[0.60977503, 0.60977503, 0.60977503, 0.60977503],
       [0.64549722, 0.64549722, 0.64549722, 0.64549722],
       [0.30860252, 0.30860252, 0.30860252, 0.30860252],
       [0.73029674, 0.73029674, 0.73029674, 0.73029674],
       [0.91176088, 0.91176088, 0.91176088, 0.91176088]])

In [68]:
np.random.rand(4, 5) @ np.random.rand(5, 5)

array([[1.34097884, 2.14717719, 1.15460809, 1.91986604, 1.34024372],
       [1.72681216, 1.8621103 , 1.12576654, 1.70285053, 1.74829029],
       [1.78348893, 2.63032783, 1.43038022, 2.58133667, 1.96885661],
       [1.93086794, 2.69391415, 1.40457226, 2.47099716, 1.87456797]])

In [69]:
cosine_similarity(np.random.rand(4, 5), np.random.rand(4, 5))

array([[0.89090364, 0.86909201, 0.54241922, 0.72138391],
       [0.73044964, 0.78792104, 0.73984001, 0.79345319],
       [0.79747927, 0.81802887, 0.46768485, 0.69949758],
       [0.68332501, 0.66200616, 0.62953487, 0.67892594]])

In [49]:
np.apply_along_axis(lambda x: cosine_similarity(x, a), 1, X.toarray())

ValueError: Expected 2D array, got 1D array instead:
array=[0.64846263 0.53828256 0.53828256 0.        ].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

In [202]:
np.random.randint([[9, 9], [1, 5312]])

array([[   0,    4],
       [   0, 4431]])

In [224]:
np.random.rand((2, 3,) )[:, 0]

TypeError: 'tuple' object cannot be interpreted as an integer

In [208]:
np.take_along_axis(np.random.rand(1, 3), np.array([[2, 2, 2]]), 1)

array([[0.78103362, 0.78103362, 0.78103362]])

In [157]:
np.ones([2, 3]).take_along_axis([1, 2])

AttributeError: 'numpy.ndarray' object has no attribute 'take_along_axis'

### __Задача__:    

Реализуйте поиск, где 
- в качестве метода векторизации документов корпуса - **TF-IDF**
- формат хранения индекса - **матрица Document-Term**
- метрика близости пар (запрос, документ) - **косинусная близость**


Что должно быть в реализации:
- функция индексации корпуса, на выходе которой посчитанная матрица Document-Term 
- функция индексации запроса, на выходе которой посчитанный вектор запроса
- функция с реализацией подсчета близости запроса и документов корпуса, на выходе которой вектор, i-й элемент которого обозначает близость запроса с i-м документом корпуса
- главная функция, объединяющая все это вместе; на входе - запрос, на выходе - отсортированные по убыванию имена документов коллекции

В качестве корпуса возьмите корпус Друзей из первого задания.

**На что направлена эта задача:** 
Реализация от начала до конца механики поиска с использованием простых компонентов.
