# сходство текстов 

## Введение
В этом задании вы познакомитесь с некоторыми базовыми методами из линейной алгебры, реализованными в пакете SciPy — в частности, с методами подсчета косинусного расстояния и решения систем линейных уравнений. Обе эти задачи еще много раз встретятся нам в специализации. Так, на решении систем линейных уравнений основана настройка линейных моделей — очень большого и важного класса алгоритмов машинного обучения. Косинусное расстояние же часто используется в анализе текстов для измерения сходства между ними.

Дан набор предложений, скопированных с Википедии. Каждое из них имеет "кошачью тему" в одном из трех смыслов:

кошки (животные)
UNIX-утилита cat для вывода содержимого файлов
версии операционной системы OS X, названные в честь семейства кошачьих
Ваша задача — найти два предложения, которые ближе всего по смыслу к расположенному в самой первой строке. В качестве меры близости по смыслу мы будем использовать косинусное расстояние.

sentences.txt
Выполните следующие шаги:

Скачайте файл с предложениями (sentences.txt).
Каждая строка в файле соответствует одному предложению. Считайте их, приведите каждую к нижнему регистру с помощью строковой функции lower().
Произведите токенизацию, то есть разбиение текстов на слова. Для этого можно воспользоваться регулярным выражением, которое считает разделителем любой символ, не являющийся буквой: re.split('[^a-z]', t). Не забудьте удалить пустые слова после разделения.
Составьте список всех слов, встречающихся в предложениях. Сопоставьте каждому слову индекс от нуля до (d - 1), где d — число различных слов в предложениях. Для этого удобно воспользоваться структурой dict.
Создайте матрицу размера n * d, где n — число предложений. Заполните ее: элемент с индексом (i, j) в этой матрице должен быть равен количеству вхождений j-го слова в i-е предложение. У вас должна получиться матрица размера 22 * 254.
Найдите косинусное расстояние от предложения в самой первой строке (In comparison to dogs, cats have not undergone...) до всех остальных с помощью функции scipy.spatial.distance.cosine. Какие номера у двух предложений, ближайших к нему по этому расстоянию (строки нумеруются с нуля)? Эти два числа и будут ответами на задание. Само предложение (In comparison to dogs, cats have not undergone... ) имеет индекс 0.
Запишите полученные числа в файл, разделив пробелом. Обратите внимание, что файл должен состоять из одной строки, в конце которой не должно быть переноса. Пример файла с решением вы можете найти в конце задания (submission-1.txt).
Совпадают ли ближайшие два предложения по тематике с первым? Совпадают ли тематики у следующих по близости предложений?
Разумеется, использованный вами метод крайне простой. Например, он не учитывает формы слов (так, cat и cats он считает разными словами, хотя по сути они означают одно и то же), не удаляет из текстов артикли и прочие ненужные слова. Позже мы будем подробно изучать анализ текстов, где выясним, как достичь высокого качества в задаче поиска похожих предложений.

In [None]:
import re
import numpy as np
from scipy.spatial import distance

In [292]:
def getLineAndWord(path):
    file = ''
    linelist = []
    with open(path) as fileline:
        k = 0
        for line in fileline:
            file = file + str(line)
            linelist.append(re.split('[^a-z]', line.lower()))
            k+=1
            
    number_line = sum(1 for line in open(path, 'r'))
    file = file.lower()
    file = re.split('[^a-z]', file)
    filelist = ' '.join(file).split()
    dictionary = {} 
    k = 0
    for i in filelist:
        if not(i in dictionary):
            dictionary[i] = k
            k+=1
    
    return dictionary, linelist

In [298]:
# считаем слова в предложении line должен быть списком
def count_word(word, line):
    e = 0
    for element in line:
        if element == word:
            e+=1
    return e


In [303]:
def get_matrix(path):
    dictionary, linelist = getLineAndWord(path)
    
    matrix = np.zeros((len(linelist),len(dictionary)))
    for i in range(len(linelist)):
        for e in dictionary:
            matrix[i, dictionary.get(e)] = count_word(e, linelist[i])
    return matrix

In [312]:
for i in range(mat.shape[0]-1):
    print(i+1, distance.cosine(mat[0, :],mat[i+1, :]))

1 0.9527544408738466
2 0.8644738145642124
3 0.8951715163278082
4 0.7770887149698589
5 0.9402385695332803
6 0.7327387580875756
7 0.9258750683338899
8 0.8842724875284311
9 0.9055088817476932
10 0.8328165362273942
11 0.8804771390665607
12 0.8396432548525454
13 0.8703592552895671
14 0.8740118423302576
15 0.9442721787424647
16 0.8406361854220809
17 0.956644501523794
18 0.9442721787424647
19 0.8885443574849294
20 0.8427572744917122
21 0.8250364469440588


In [321]:
def get_result(path):
    mat = get_matrix(path)
    listresult = {}
    for i in range(mat.shape[0]-1):
        listresult[i] = distance.cosine(mat[0, :],mat[i+1, :])
    return listresult

In [322]:
res_assemble = get_result('/eos/user/g/gtolkach/SWAN_projects/cursera/sentences.txt')

In [324]:
sort_result = sorted(res_assemble.items(), key=lambda x: x[1])
print(sort_result[0][0]+1, sort_result[1][0]+1)

6 4
