# Линейная алгебра: сходство текстов и аппроксимация функций
В этом задании вы познакомитесь с некоторыми базовыми методами из линейной алгебры, реализованными в пакете SciPy — в частности, с методами подсчета косинусного расстояния и решения систем линейных уравнений. Обе эти задачи еще много раз встретятся нам в специализации. Так, на решении систем линейных уравнений основана настройка линейных моделей — очень большого и важного класса алгоритмов машинного обучения. Косинусное расстояние же часто используется в анализе текстов для измерения сходства между ними.

## Задание
Дан набор предложений, скопированных с Википедии. Каждое из них имеет "кошачью тему" в одном из трех смыслов:

    *кошки (животные)
    *UNIX-утилита cat для вывода содержимого файлов
    *версии операционной системы OS X, названные в честь семейства кошачьих

Ваша задача — найти два предложения, которые ближе всего по смыслу к расположенному в самой первой строке. В качестве меры близости по смыслу мы будем использовать косинусное расстояние.

In [1]:
import numpy as np
from scipy.spatial.distance import cosine

In [2]:
def main():
    with open('cat.txt', 'r') as f:
        lines = []
        for line in f:
            lines.append(line.lower())

        tokens = {}
        for sentence in lines:
            for word in sentence.split():
                cleaned_word = word.strip('.,''!-*<"">()/\\')
                tokens[cleaned_word] = 0

        del tokens['']
        lc = 0
        for token in tokens:
            tokens[token] = lc
            lc += 1

        a = np.zeros((len(lines), len(tokens)))
        for i in range(len(lines)):
            for token in tokens:
                j = tokens[token]
                word_map = {}
                for word in lines[i].split():
                    cleaned_word_ = word.strip('.,''!-*<"">()/\\')
                    if cleaned_word_ not in word_map:
                        word_map[cleaned_word_] = 0
                    word_map[cleaned_word_] += 1

                if token in word_map:
                    a[i, j] = word_map[token]
            #print('line {} = {}'.format(i+1, a[i]))
          
        distance = {}
        for i in range(1, len(lines)):
            print(i+1, cosine(a[0], a[i]))
            distance[i] = cosine(a[0], a[i])
        
        

        import operator

        distance_items = distance.items()
        distance_cos_items = sorted(
            distance_items, key=operator.itemgetter(1))
        print(distance_cos_items[:2])

In [3]:
if __name__ == "__main__":
    main()

2 0.9527544408738466
3 0.8644738145642124
4 0.8951715163278082
5 0.7770887149698589
6 0.9430197117701811
7 0.7518541665072674
8 0.9258750683338899
9 0.8842724875284311
10 0.9512049963525734
11 0.8328165362273942
12 0.8804771390665607
13 0.8396432548525454
14 0.8804771390665607
15 0.8773721321030068
16 0.9454455274410019
17 0.8288158029956348
18 0.9572039507489087
19 0.9442721787424647
20 0.8885443574849294
21 0.8396432548525454
22 0.8250364469440588
[(6, 0.7518541665072674), (4, 0.7770887149698589)]
