# ДЗ 2  
## Ранжирование: TF-IDF, матрица Document-Term, косинусная близость

### TfidfVectorizer

In [1]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer


# инициализируем
vectorizer = TfidfVectorizer()


# составляем корпус документов
corpus = [
  'слово1 слово2 слово3',
  'слово2 слово3',
  'слово1 слово2 слово1',
  'слово4'
]

# считаем
X = vectorizer.fit_transform(corpus)
 
# получится следующая структура:
#        |  слово1  |  слово2  |  слово3  |  слово4
# текст1 |   0.6    |    0.5   |   0.6    |    0
# текст2 |   0      |    0.6   |   0.8    |    0
# текст3 |   0.9    |    0.4   |   0      |    0
# текст4 |   0      |    0     |   0      |    1


# показать матрицу
print('X:\n', X.toarray(), '\n')

 
# чтобы получить сгенерированный словарВ ь, из приведенной структуры CountVectorizer
# порядок совпадает с матрицей
print('get_feature_names:', vectorizer.get_feature_names(), '\n')  # ['слово1', 'слово2', 'слово3', 'слово4']
 
    
# чтобы узнать индекс токена в словаре
print('vocabulary_.get:', vectorizer.vocabulary_.get('слово1')) # вернет 0
print('vocabulary_.get:', vectorizer.vocabulary_.get('слово4'), '\n') # вернет 3

 
# теперь можно быстро подсчитать вектор для нового документа
print('transform:', vectorizer.transform(['слово1 слово4 слово4']).toarray())  # результат [[0.36673901, 0, 0, 0.93032387]]


X:
 [[0.61366674 0.49681612 0.61366674 0.        ]
 [0.         0.62922751 0.77722116 0.        ]
 [0.92693676 0.3752176  0.         0.        ]
 [0.         0.         0.         1.        ]] 

get_feature_names: ['слово1', 'слово2', 'слово3', 'слово4'] 

vocabulary_.get: 0
vocabulary_.get: 3 

transform: [[0.36673901 0.         0.         0.93032387]]


### __Задача__:    

Реализуйте поиск, где 
- в качестве метода векторизации документов корпуса - **TF-IDF**
- формат хранения индекса - **матрица Document-Term**
- метрика близости пар (запрос, документ) - **косинусная близость**
- в качестве корпуса - **корпус Друзей из первого задания**


Что должно быть в реализации:
- функция индексации корпуса, на выходе которой посчитанная матрица Document-Term 
- функция индексации запроса, на выходе которой посчитанный вектор запроса
- функция с реализацией подсчета близости запроса и документов корпуса, на выходе которой вектор, i-й элемент которого обозначает близость запроса с i-м документом корпуса
- главная функция, объединяющая все это вместе; на входе - запрос, на выходе - отсортированные по убыванию имена документов коллекции


**На что направлена эта задача:** 
Реализация от начала до конца механики поиска с использованием простых компонентов.


In [1]:
import os
from ipynb.fs.full.corpus_indexation import make_index
from ipynb.fs.full.query_indexation import query_vector
from ipynb.fs.full.similarity_calculation import calc_similarity, print_res

In [2]:
corpus_name = 'friends-data'
corpus_dir = os.path.join(os.getcwd(), corpus_name) 

In [7]:
query = "ортодонт"

In [9]:
def main(corpus_dir, query):
    matrix, vectorizer = make_index(corpus_dir)
    vec = query_vector(query, vectorizer)
    res = calc_similarity(matrix, vec, corpus_dir)
    print_res(res)

In [10]:
main(corpus_dir, query)

0it [00:00, ?it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 20/20 [00:14<00:00,  1.39it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:18<00:00,  1.36it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 21/21 [00:18<00:00,  1.15it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 26/26 [00:20<00:00,  1.26it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 24/24 [00:17<00:00,  1.34it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:20<00:00,  1.23it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 24/24 [00:18<00:00,  1.27it/s]


Friends - 1x02 - The One With The Sonogram At The End.ru.txt
Friends - 1x01 - The One Where Monica Gets A Roommate.ru.txt
Friends - 1x03 - The One With The Thumb.ru.txt
Friends - 1x04 - The One With George Stephanopoulos.ru.txt
Friends - 1x05 - The One With The East German Laundry Detergent.ru.txt
Friends - 1x06 - The One With The Butt.ru.txt
Friends - 1x07 - The One With The Blackout.ru.txt
Friends - 1x08 - The One Where Nana Dies Twice.ru.txt
Friends - 1x09 - The One Where Underdog Gets Away.ru.txt
Friends - 1x10 - The One With The Monkey.ru.txt
Friends - 1x11 - The One With Mrs. Bing.ru.txt
Friends - 1x12 - The One With The Dozen Lasagnas.ru.txt
Friends - 1x13 - The One With The Boobies.ru.txt
Friends - 1x14 - The One With The Candy Hearts.ru.txt
Friends - 1x15 - The One With The Stoned Guy.ru.txt
Friends - 1x16 - The One With Two Parts (1).ru.txt
Friends - 1x17 - The One With Two Parts (2).ru.txt
Friends - 1x18 - The One With All The Poker.ru.txt
Friends - 1x19 - The One Where The 