Выполните следующие шаги:

1) Скачайте файл с предложениями (sentences.txt).
2) Каждая строка в файле соответствует одному предложению. Считайте их, приведите каждую к нижнему регистру с помощью строковой функции lower().
3) Произведите токенизацию, то есть разбиение текстов на слова. Для этого можно воспользоваться регулярным выражением, которое считает разделителем любой символ, не являющийся буквой: re.split('[^a-z]', t). Не забудьте удалить пустые слова после разделения.
4) Составьте список всех слов, встречающихся в предложениях. Сопоставьте каждому слову индекс от нуля до (d - 1), где d — число различных слов в предложениях. Для этого удобно воспользоваться структурой dict.
5) Создайте матрицу размера n * d, где n — число предложений. Заполните ее: элемент с индексом (i, j) в этой матрице должен быть равен количеству вхождений j-го слова в i-е предложение. У вас должна получиться матрица размера 22 * 254.
6) Найдите косинусное расстояние от предложения в самой первой строке (In comparison to dogs, cats have not undergone...) до всех остальных с помощью функции scipy.spatial.distance.cosine. Какие номера у двух предложений, ближайших к нему по этому расстоянию (строки нумеруются с нуля)? Эти два числа и будут ответами на задание. Само предложение (In comparison to dogs, cats have not undergone... ) имеет индекс 0.
7) Запишите полученные числа в файл, разделив пробелом. Обратите внимание, что файл должен состоять из одной строки, в конце которой не должно быть переноса. Пример файла с решением вы можете найти в конце задания (submission-1.txt).
8) Совпадают ли ближайшие два предложения по тематике с первым? Совпадают ли тематики у следующих по близости предложений?

Разумеется, использованный вами метод крайне простой. Например, он не учитывает формы слов (так, cat и cats он считает разными словами, хотя по сути они означают одно и то же), не удаляет из текстов артикли и прочие ненужные слова. Позже мы будем подробно изучать анализ текстов, где выясним, как достичь высокого качества в задаче поиска похожих предложений. 

In [1]:
import re
import numpy as np
import scipy.spatial

In [2]:
sents = []
ex_sents = []
with open('sentences.txt', 'r') as file:
    for element in file:
        buffer = element.lower()
        buffer = re.split('[^a-z]', buffer)
        ex_sents.append(buffer)
        sc_buffer = []
        for element in buffer:
            if len(element) != 0:
                sc_buffer.append(element)
        sents.append(sc_buffer) 

In [3]:
indict = {}
counter = 1
for line in sents:
    for element in line:
        if element in indict:
            pass
        else:
            indict[element] = counter
            counter += 1

In [4]:
ctdict = {}
for line in sents:
    for element in line:
        if element in ctdict:
            ctdict[element] = ctdict[element] + 1
        else:
            ctdict[element] = 1

In [5]:
matrix = []
for line in range(len(ex_sents)):
    buff = []
    for element in indict:
        buff.append(ex_sents[line].count(element))
    matrix.append(buff)

In [6]:
wordmatrix = np.array(matrix)
print(wordmatrix.shape)
print('My matrix:\n', wordmatrix)

(22, 254)
My matrix:
 [[1 1 1 ... 0 0 0]
 [0 0 1 ... 0 0 0]
 [0 0 2 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [1 0 1 ... 0 0 0]
 [0 0 1 ... 1 1 1]]


In [7]:
cosinrange = []
for i in range(len(ex_sents)):
    cosinrange.append((scipy.spatial.distance.cosine(wordmatrix[0,:], wordmatrix[i,:])))
print(cosinrange)

[0.0, 0.9527544408738466, 0.8644738145642124, 0.8951715163278082, 0.7770887149698589, 0.9402385695332803, 0.7327387580875756, 0.9258750683338899, 0.8842724875284311, 0.9055088817476932, 0.8328165362273942, 0.8804771390665607, 0.8396432548525454, 0.8703592552895671, 0.8740118423302576, 0.9442721787424647, 0.8406361854220809, 0.956644501523794, 0.9442721787424647, 0.8885443574849294, 0.8427572744917122, 0.8250364469440588]


In [10]:
rangedict = {}
for i in range(len(cosinrange)):
    rangedict[i] = cosinrange[i]
    
rangedict = sorted(rangedict.items(), key=lambda x: x[1], reverse=False)
print(rangedict)

[(0, 0.0), (6, 0.7327387580875756), (4, 0.7770887149698589), (21, 0.8250364469440588), (10, 0.8328165362273942), (12, 0.8396432548525454), (16, 0.8406361854220809), (20, 0.8427572744917122), (2, 0.8644738145642124), (13, 0.8703592552895671), (14, 0.8740118423302576), (11, 0.8804771390665607), (8, 0.8842724875284311), (19, 0.8885443574849294), (3, 0.8951715163278082), (9, 0.9055088817476932), (7, 0.9258750683338899), (5, 0.9402385695332803), (15, 0.9442721787424647), (18, 0.9442721787424647), (1, 0.9527544408738466), (17, 0.956644501523794)]


In [9]:
with open('submission-1.txt', 'w') as fh:
    fh.write('{} {}'.format(rangedict[1][0], rangedict[2][0]))