# ДЗ 2  
## Ранжирование: TF-IDF, матрица Document-Term, косинусная близость

### TfidfVectorizer

In [1]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer


# инициализируем
vectorizer = TfidfVectorizer()


# составляем корпус документов
corpus = [
  'слово1 слово2 слово3',
  'слово2 слово3',
  'слово1 слово2 слово1',
  'слово4'
]

# считаем
X = vectorizer.fit_transform(corpus)
 
# получится следующая структура:
#        |  слово1  |  слово2  |  слово3  |  слово4
# текст1 |   0.6    |    0.5   |   0.6    |    0
# текст2 |   0      |    0.6   |   0.8    |    0
# текст3 |   0.9    |    0.4   |   0      |    0
# текст4 |   0      |    0     |   0      |    1


# показать матрицу
print('X:\n', X.toarray(), '\n')

 
# чтобы получить сгенерированный словарВ ь, из приведенной структуры CountVectorizer
# порядок совпадает с матрицей
print('get_feature_names:', vectorizer.get_feature_names(), '\n')  # ['слово1', 'слово2', 'слово3', 'слово4']
 
    
# чтобы узнать индекс токена в словаре
print('vocabulary_.get:', vectorizer.vocabulary_.get('слово1')) # вернет 0
print('vocabulary_.get:', vectorizer.vocabulary_.get('слово4'), '\n') # вернет 3

 
# теперь можно быстро подсчитать вектор для нового документа
print('transform:', vectorizer.transform(['слово1 слово4 слово4']).toarray())  # результат [[0.36673901, 0, 0, 0.93032387]]


X:
 [[0.61366674 0.49681612 0.61366674 0.        ]
 [0.         0.62922751 0.77722116 0.        ]
 [0.92693676 0.3752176  0.         0.        ]
 [0.         0.         0.         1.        ]] 

get_feature_names: ['слово1', 'слово2', 'слово3', 'слово4'] 

vocabulary_.get: 0
vocabulary_.get: 3 

transform: [[0.36673901 0.         0.         0.93032387]]


### __Задача__:    

Реализуйте поиск, где 
- в качестве метода векторизации документов корпуса - **TF-IDF**
- формат хранения индекса - **матрица Document-Term**
- метрика близости пар (запрос, документ) - **косинусная близость**
- в качестве корпуса - **корпус Друзей из первого задания**


Что должно быть в реализации:
- функция индексации корпуса, на выходе которой посчитанная матрица Document-Term 
- функция индексации запроса, на выходе которой посчитанный вектор запроса
- функция с реализацией подсчета близости запроса и документов корпуса, на выходе которой вектор, i-й элемент которого обозначает близость запроса с i-м документом корпуса
- главная функция, объединяющая все это вместе; на входе - запрос, на выходе - отсортированные по убыванию имена документов коллекции


**На что направлена эта задача:** 
Реализация от начала до конца механики поиска с использованием простых компонентов.
