# Задача 1: сравнение предложений
Дан набор предложений, скопированных с Википедии. Каждое из них имеет "кошачью тему" в одном из трех смыслов:

    кошки (животные)
    UNIX-утилита cat для вывода содержимого файлов
    версии операционной системы OS X, названные в честь семейства кошачьих

Ваша задача — найти два предложения, которые ближе всего по смыслу к расположенному в самой первой строке. В качестве меры близости по смыслу мы будем использовать косинусное расстояние.

In [1]:
# импортируем необходимые библиотеки
import numpy as np
import re

## 1. Каждая строка в файле соответствует одному предложению. Считайте их, приведите каждую к нижнему регистру.

In [2]:
# открываем файл
with open('sentences.txt', 'r') as file:   
    # считываем текст и приводим к нижнему регистру
    string = file.read().lower()  
    # создаем черновой список из слов
    items_tmp = re.split('[^a-z]', string)    
# с помощью множества удаляем дубликаты из очищенного списка
unique_words = list(set(items_tmp))
# контрольный вывод на печать 
print(unique_words[:5], len(unique_words))

['', 'left', 'piped', 'made', 'intel'] 255


In [3]:
# открываем файл
with open('sentences.txt', 'r') as file:  
    # создаем список с предложениями
    sentences = [] 
    # цикл перебирающий каждое слово из файла
    for line in file: 
        # удаляем из каждой строки всё кроме цифр, букв и пробелов
        line_list_tmp = re.sub(r'[^\w\s]', '' ,line.lower()) 
        # создаем список из строк, разделяем по символу конца строки. Получаем список предложений
        line_list_tmp = re.split(r'\n', line_list_tmp) 
        # очищаем созданный список от пустых ('') значений
        line_list = [sentences for sentences in line_list_tmp if sentences != ''] 
        sentences += line_list
# контрольный вывод на печать
print(sentences, len(sentences))

['in comparison to dogs cats have not undergone major changes during the domestication process', 'as cat simply catenates streams of bytes it can be also used to concatenate binary files where it will just concatenate sequence of bytes', 'a common interactive use of cat for a single file is to output the content of a file to standard output', 'cats can hear sounds too faint or too high in frequency for human ears such as those made by mice and other small animals', 'in one people deliberately tamed cats in a process of artificial selection as they were useful predators of vermin', 'the domesticated cat and its closest wild ancestor are both diploid organisms that possess 38 chromosomes and roughly 20000 genes', 'domestic cats are similar in size to the other members of the genus felis typically weighing between 4 and 5 kg 88 and 110 lb', 'however if the output is piped or redirected cat is unnecessary', 'cat with one named file is safer where human error is a concern  one wrong use of 

## 2. Составьте список всех слов, встречающихся в предложениях. Сопоставьте каждому слову индекс от нуля до (d - 1), где d — число различных слов в предложениях


In [4]:
# создаем временный, пустой список
list_tmp = [] 
# счетчик кол-ва слов в списке (используется для присвоения ключа значению)
counter = 0  
# цикл перебирающий каждое слово из списка уникальных слов
for word in unique_words: 
    # добавляем в пустой список будущую пару ключ-значение
    list_tmp.append([counter, word]) 
    # изменяем значение счетчика после каждой итерации
    counter += 1 
# преобразуем список в словарь
dict_words = dict(list_tmp) 
# контрольный вывод на печать
print(dict_words, len(dict_words))

{0: '', 1: 'left', 2: 'piped', 3: 'made', 4: 'intel', 5: 'type', 6: 'separate', 7: 'of', 8: 'installation', 9: 'you', 10: 'place', 11: 'drive', 12: 'roughly', 13: 'os', 14: 'developed', 15: 'most', 16: 'tiger', 17: 'weighing', 18: 'learned', 19: 'wild', 20: 'linux', 21: 'between', 22: 'flow', 23: 'streams', 24: 'domesticated', 25: 'firmware', 26: 'not', 27: 'files', 28: 'community', 29: 'computers', 30: 'run', 31: 'binary', 32: 'domestication', 33: 'useful', 34: 'during', 35: 'yosemite', 36: 'the', 37: 'now', 38: 'osx', 39: 'or', 40: 'moved', 41: 'without', 42: 'concern', 43: 'file', 44: 'catenates', 45: 'displays', 46: 'based', 47: 'marks', 48: 'concatenate', 49: 'information', 50: 'allow', 51: 'arguments', 52: 'disk', 53: 'predecessor', 54: 'small', 55: 'simply', 56: 'later', 57: 'as', 58: 'output', 59: 'will', 60: 'hear', 61: 'versions', 62: 'vermin', 63: 'recent', 64: 'one', 65: 'possess', 66: 'editions', 67: 'incremental', 68: 'safari', 69: 'process', 70: 'version', 71: 'no', 72: 

## 3. Создайте матрицу размера n * d, где n — число предложений. Заполните ее: элемент с индексом (i, j) в этой матрице должен быть равен количеству вхождений j-го слова в i-е предложение. 

In [5]:
# кол-во предложений
n = len(sentences) 
# кол-во уникальных слов (-1, не учитываем пустое значение в dict_words)
d = len(dict_words) - 1
# создаем 0 матрицу размером n на d
word_matrix = np.zeros((n,d), dtype=int) 
for i in range(n): 
    for j in range(d):
        # элемент матрицы (i, j) равен количеству вхождений j-го слова в i-е предложение
        word_matrix[i][j] = sentences[i].split(' ').count(dict_words[j]) 
# контроль размера
print(word_matrix.shape) 
# первое предложение для примера
print(word_matrix[0]) 


(22, 254)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 1
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1
 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]


## 4. Найдите косинусное расстояние от предложения в самой первой строке (In comparison to dogs, cats have not undergone...) до всех остальных с помощью функции scipy.spatial.distance.cosine. Какие номера у двух предложений, ближайших к нему по этому расстоянию (строки нумеруются с нуля)? Эти два числа и будут ответами на задание.

In [6]:
from scipy.spatial import distance
# создаем пустой список для записи значений
cos_matrix = [] 
# цикл перебора от 0 до i - го элемента
for i in range(n):  
    # добавляем в список значение косинусного расстояния от 0 до i - го элемента 
    cos_matrix.append(distance.cosine(word_matrix[0], word_matrix[i])) 
# создаем список результатов вида [кос. расстояние - номер предложения]
result = [] 
# счетчик предложений
counter = 0 
# цикл перебирающий каждое значение кос. расстояния
for i in cos_matrix: 
    # добавляем в список пару: кос. расстояние - номер предложения
    result.append([i, counter]) 
    counter += 1
# перобразуем список в словарь
result = dict(result) 
# сортируем список с кос. росстояниями по возрастанию 
list_keys = sorted(cos_matrix) 
write_string = ''
# цикл для добавления номера предложения в строку ответа 
for i in list_keys[1:3]: 
    write_string += str(result[i])
#запись ответа в файл
with open('answer1.txt', 'w') as output_file: 
    output_file.write(' '.join(write_string))
# вывод на печать ответа
print(' '.join(write_string))

6 4
