# Линейная алгебра: сходство текстов и аппроксимация функций

Данное задание состоит из двух частей. В каждой ответом будет набор чисел, который вам нужно будет ввести в соответствующее поле через пробел.

Задача 1: сравнение предложений

Дан набор предложений, скопированных из Википедии. Каждое из них имеет "кошачью тему" в одном из трех смыслов:

кошки (животные)
UNIX-утилита cat для вывода содержимого файлов
версии операционной системы OS X, названные в честь семейства кошачьих
Ваша задача — найти два предложения, которые ближе всего по смыслу к расположенному в самой первой строке. В качестве меры близости по смыслу мы будем использовать косинусное расстояние.

Выполните следующие шаги:

Скачайте файл с предложениями (sentences.txt).
Каждая строка в файле соответствует одному предложению. Считайте их, приведите каждую к нижнему регистру с помощью строковой функции lower().
Произведите токенизацию, то есть разбиение текстов на слова. Для этого можно воспользоваться регулярным выражением, которое считает разделителем любой символ, не являющийся буквой: re.split('[^a-z]', t). Не забудьте удалить пустые слова после разделения.
Составьте список всех слов, встречающихся в предложениях. Сопоставьте каждому слову индекс от нуля до (d - 1), где d — число различных слов в предложениях. Для этого удобно воспользоваться структурой dict.
Создайте матрицу размера n * d, где n — число предложений. Заполните ее: элемент с индексом (i, j) в этой матрице должен быть равен количеству вхождений j-го слова в i-е предложение. У вас должна получиться матрица размера 22 * 254.
Найдите косинусное расстояние от предложения в самой первой строке (In comparison to dogs, cats have not undergone...) до всех остальных с помощью функции scipy.spatial.distance.cosine. Какие номера у двух предложений, ближайших к нему по этому расстоянию (строки нумеруются с нуля)? Эти два числа и будут ответами на задание. Само предложение (In comparison to dogs, cats have not undergone... ) имеет индекс 0.
Запишите полученные числа в ответ, разделив пробелом.
Совпадают ли ближайшие два предложения по тематике с первым? Совпадают ли тематики у следующих по близости предложений?
Разумеется, использованный вами метод крайне простой. Например, он не учитывает формы слов (так, cat и cats он считает разными словами, хотя по сути они означают одно и то же), не удаляет из текстов артикли и прочие ненужные слова. Позже мы будем подробно изучать анализ текстов, где выясним, как достичь высокого качества в задаче поиска похожих предложений.

In [3]:
import re
import numpy as np

sent_list = []

#создаем список предложений, каждое предложение - список слов
with open('cats_sentences.txt', 'r') as file_obj:
    for line in file_obj:
        sent_list.append(re.split('[^a-z]', line.lower()))

#удаляем пустые слова
for s in sent_list: 
    while '' in s:   
        s.remove('')
    

#создаем словарь токенов с уникальными индексами
tokens = {}

index = 0
for line in sent_list:
     for word in line:
        if tokens.has_key(word)==False:
            tokens[word] = index
            index = index + 1
 
 
#создаем матрицу заполняем ее
cats_matrix = np.zeros((len(sent_list),len(tokens))) 

for index,line in enumerate(sent_list):
    for k,v in tokens.items():
        a = line.count(k)
        cats_matrix[index][v] = a
     
        
#вычисляем косинусное расстояние
from scipy.spatial import distance
cl = {}
for i in range(1,len(cats_matrix)):
   cl[i] =distance.cosine(cats_matrix[0],cats_matrix[i])

sorted(cl.items(),key=lambda x:x[1])

[(6, 0.7327387580875756),
 (4, 0.7770887149698589),
 (21, 0.8250364469440588),
 (10, 0.8328165362273942),
 (12, 0.8396432548525454),
 (16, 0.8406361854220809),
 (20, 0.8427572744917122),
 (2, 0.8644738145642124),
 (13, 0.8703592552895671),
 (14, 0.8740118423302576),
 (11, 0.8804771390665607),
 (8, 0.8842724875284311),
 (19, 0.8885443574849294),
 (3, 0.8951715163278082),
 (9, 0.9055088817476932),
 (7, 0.9258750683338899),
 (5, 0.9402385695332803),
 (15, 0.9442721787424647),
 (18, 0.9442721787424647),
 (1, 0.9527544408738466),
 (17, 0.956644501523794)]