# Линейная алгебра: сходство текстов и аппроксимация функций

## Задача 1: сравнение предложений

Дан набор предложений, скопированных с Википедии. Каждое из них имеет "кошачью тему" в одном из трех смыслов:

* кошки (животные)
* UNIX-утилита cat для вывода содержимого файлов
* версии операционной системы OS X, названные в честь семейства кошачьих

Задача — найти два предложения, которые ближе всего по смыслу к расположенному в самой первой строке. В качестве меры близости по смыслу мы будем использовать косинусное расстояние.

In [22]:

sentence_list = [row.strip().lower() for row in open('sentences.txt')]

Произведем токенизацию, то есть разбиение текстов на слова. Для этого можно воспользоваться регулярным выражением, которое считает разделителем любой символ, не являющийся буквой: re.split('[^a-z]', t). Не забудем удалить пустые слова после разделения.

In [23]:
import re
sentence_words = [re.split('[^a-z]', sentence) for sentence in sentence_list]

In [24]:
sentence_words = [filter(None, sw) for sw in sentence_words]

Составим список всех слов, встречающихся в предложениях. Сопоставим каждому слову индекс от нуля до (d - 1), где d — число различных слов в предложениях. Для этого удобно воспользоваться структурой dict

In [39]:
import itertools
words_dict = dict.fromkeys(set(itertools.chain.from_iterable(sentence_words)))
d = 0
for key in words_dict:
    words_dict[key] = d
    d += 1


Создаем матрицу размера n * d, где n — число предложений. Заполняем ее: элемент с индексом (i, j) в этой матрице должен быть равен количеству вхождений j-го слова в i-е предложение. У вас должна получиться матрица размера 22 * 254.

In [41]:
import numpy as np

In [48]:
words_frequency = np.zeros((len(sentence_words), len(words_dict)))

In [50]:
for i in range(len(sentence_words)):
    for word in sentence_words[i]:
        words_frequency[i, words_dict[word]] =+ 1
        

Найдем косинусное расстояние от предложения в самой первой строке (In comparison to dogs, cats have not undergone...) до всех остальных с помощью функции scipy.spatial.distance.cosine. Какие номера у двух предложений, ближайших к нему по этому расстоянию (строки нумеруются с нуля)? Эти два числа и будут ответами на задание. Само предложение (In comparison to dogs, cats have not undergone... ) имеет индекс 0.

In [53]:
cosine_distance = np.zeros(len(sentence_words))

In [57]:
from scipy.spatial.distance import cosine
for i in range(words_frequency.shape[0]):
    cosine_distance[i] = cosine(words_frequency[0,:], words_frequency[i,:])
    

In [58]:
cosine_distance

array([0.        , 0.94023857, 0.86198689, 0.88854436, 0.80553888,
       0.93517963, 0.75474426, 0.91548457, 0.90695158, 0.88335763,
       0.87035926, 0.87035926, 0.87737213, 0.87035926, 0.86198689,
       0.94023857, 0.85361499, 0.95037083, 0.94427218, 0.94023857,
       0.84275727, 0.82503645])

In [70]:
answer = cosine_distance.argsort()[1:3]

Запишем полученные числа в файл, разделив пробелом. Обратите внимание, что файл должен состоять из одной строки, в конце которой не должно быть переноса. Пример файла с решением вы можете найти в конце задания (submission-1.txt).


In [71]:
!touch submisson-1.txt

In [72]:
f = open('submission-1.txt','w')
f.write(str(answer[0]) + ' ' + str(answer[1]))
f.close();