# Линейная алгебра: сходство текстов и аппроксимация функций

Данное задание основано на материалах секции, посвященной введению в линейную алгебру. Вам понадобится компьютер с установленным интерпретатором Python и подключенными библиотеками NumPy и SciPy.

### Вы научитесь:

- читать тексты из файла с помощью Python и разбивать их на слова
- переводить тексты в векторные пространства, вычислять расстояния в этих пространствах
- решать системы линейных уравнений
- приближать любые функции с помощью многочленов

### Введение

В этом задании вы познакомитесь с некоторыми базовыми методами из линейной алгебры, реализованными в пакете SciPy — в частности, с методами подсчета косинусного расстояния и решения систем линейных уравнений. Обе эти задачи еще много раз встретятся нам в специализации. Так, на решении систем линейных уравнений основана настройка линейных моделей — очень большого и важного класса алгоритмов машинного обучения. Косинусное расстояние же часто используется в анализе текстов для измерения сходства между ними.

### Материалы

Справка по функциям пакета scipy.linalg: http://docs.scipy.org/doc/scipy/reference/linalg.html

Справка по работе с файлами в Python: https://docs.python.org/2/tutorial/inputoutput.html#reading-and-writing-files

Справка по регулярным выражениям в Python (если вы захотите узнать про них чуть больше): https://docs.python.org/2/library/re.html

### Инструкция по выполнению

Данное задание состоит из двух частей. В каждой ответом будет набор чисел, который вам нужно будет ввести в соответствующее поле через пробел.

### Задача 1: сравнение предложений

Дан набор предложений, скопированных с Википедии. Каждое из них имеет "кошачью тему" в одном из трех смыслов:

- кошки (животные)
- UNIX-утилита cat для вывода содержимого файлов
- версии операционной системы OS X, названные в честь семейства кошачьих

Ваша задача — найти два предложения, которые ближе всего по смыслу к расположенному в самой первой строке. В качестве меры близости по смыслу мы будем использовать косинусное расстояние.

#### Выполните следующие шаги:

1. Скачайте файл с предложениями (sentences.txt).

In [110]:
f =  open('sentences.txt', 'r')
sentences = list(f)
f.close()

2.Каждая строка в файле соответствует одному предложению. Считайте их, приведите каждую к нижнему регистру с помощью строковой функции lower().

In [111]:
for s in xrange(0, len(sentences)):
    sentences[s] = str.lower(sentences[s])  


3.Произведите токенизацию, то есть разбиение текстов на слова. Для этого можно воспользоваться регулярным выражением, которое считает разделителем любой символ, не являющийся буквой: re.split('[^a-z]', t). Не забудьте удалить пустые слова после разделения.

In [99]:
import re
# Пример
re.split('[^a-z]', sentences[0]) 

['in',
 'comparison',
 'to',
 'dogs',
 '',
 'cats',
 'have',
 'not',
 'undergone',
 'major',
 'changes',
 'during',
 'the',
 'domestication',
 'process',
 '',
 '']

In [134]:
words = []

In [136]:
for s in xrange(0, len(sentences)):
    word_list = re.split('[^a-z]', sentences[s])
    
    # Удаление пустых слов
    word_list = filter(None, word_list)
    
    words.append(word_list)

In [229]:
len(words) # this is strange

44

4.Составьте список всех слов, встречающихся в предложениях. Сопоставьте каждому слову индекс от нуля до (d - 1), где d — число различных слов в предложениях. Для этого удобно воспользоваться структурой dict.

In [139]:
# Flatten the list of lists
flattened_words = [word for word_list in words for word in word_list]

In [140]:
print flattened_words

['in', 'comparison', 'to', 'dogs', 'cats', 'have', 'not', 'undergone', 'major', 'changes', 'during', 'the', 'domestication', 'process', 'as', 'cat', 'simply', 'catenates', 'streams', 'of', 'bytes', 'it', 'can', 'be', 'also', 'used', 'to', 'concatenate', 'binary', 'files', 'where', 'it', 'will', 'just', 'concatenate', 'sequence', 'of', 'bytes', 'a', 'common', 'interactive', 'use', 'of', 'cat', 'for', 'a', 'single', 'file', 'is', 'to', 'output', 'the', 'content', 'of', 'a', 'file', 'to', 'standard', 'output', 'cats', 'can', 'hear', 'sounds', 'too', 'faint', 'or', 'too', 'high', 'in', 'frequency', 'for', 'human', 'ears', 'such', 'as', 'those', 'made', 'by', 'mice', 'and', 'other', 'small', 'animals', 'in', 'one', 'people', 'deliberately', 'tamed', 'cats', 'in', 'a', 'process', 'of', 'artificial', 'selection', 'as', 'they', 'were', 'useful', 'predators', 'of', 'vermin', 'the', 'domesticated', 'cat', 'and', 'its', 'closest', 'wild', 'ancestor', 'are', 'both', 'diploid', 'organisms', 'that',

In [141]:
len(flattened_words)

968

In [145]:
# write a function that takes a list and return a list without duplicates, 
# preserving the order of elements
def rmv_dups_preserve_ordr(seq):
    # order preserving
    noDupes = []
    [noDupes.append(i) for i in seq if not noDupes.count(i)]
    return noDupes

In [146]:
words_unique = rmv_dups_preserve_ordr(flattened_words)
len(words_unique)

254

In [149]:
words_dict = dict(enumerate(words_unique))

In [142]:
# by using set() we delete duplicate words
words_set = set(flattened_words)

In [143]:
print words_set

set(['displays', 'osx', 'selection', 'safari', 'just', 'developed', 'over', 'vermin', 'domestic', 'named', 'installed', 'symbols', 'through', 'human', 'world', 'disk', 'its', 'fifth', 'features', 'tamed', 'upgrade', 'lb', 'drive', 'to', 'won', 'deliberately', 'marks', 'has', 'predecessor', 'non', 'which', 'read', 'october', 'every', 'os', 'they', 'not', 'during', 'now', 'possess', 'intel', 'keyboards', 'bytes', 'unnecessary', 'patch', 'predators', 'small', 'output', 'entirely', 'where', 'ears', 'available', 'on', 'often', 'sequence', 'some', 'lion', 'frequency', 'are', 'year', 'download', 'terms', 'concern', 'error', 'for', 'pipes', 'since', 'factory', 'artificial', 'content', 'version', 'run', 'between', 'new', 'learned', 'three', 'piped', 'common', 'concatenate', 'be', 'weighing', 'genes', 'use', 'standard', 'release', 'diploid', 'members', 'x', 'based', 'safer', 'by', 'both', 'commands', 'installation', 'installs', 'of', 'needing', 'allows', 'according', 'july', 'later', 'mac', 's',

5.Создайте матрицу размера n на d, где n — число предложений. Заполните ее: элемент с индексом (i, j) в этой матрице должен быть равен количеству вхождений j-го слова в i-е предложение. У вас должна получиться матрица размера 22 * 254.

In [180]:
import numpy as np

In [183]:
M = np.empty((22, 254))

In [184]:
M.shape

(22, 254)

In [222]:
for i in xrange(22):
    for j in xrange(len(words_dict)):
        M[i, j] = words[i].count(words_dict[j])

In [223]:
print M


[[ 1.  1.  1. ...,  0.  0.  0.]
 [ 0.  0.  1. ...,  0.  0.  0.]
 [ 0.  0.  2. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 1.  0.  1. ...,  0.  0.  0.]
 [ 0.  0.  1. ...,  1.  1.  1.]]


6.Найдите косинусное расстояние от предложения в самой первой строке (In comparison to dogs, cats have not undergone...) до всех остальных с помощью функции scipy.spatial.distance.cosine. Какие номера у двух предложений, ближайших к нему по этому расстоянию (строки нумеруются с нуля)? Эти два числа и будут ответами на задание. Само предложение (In comparison to dogs, cats have not undergone... ) имеет индекс 0.

In [226]:
from scipy import spatial

In [243]:
dist_cos = np.empty(21)

In [273]:
for i in xrange(len(dist_cos)):
    dist_cos[i] = spatial.distance.cosine(M[0, ], M[i,])    

In [270]:
np.set_printoptions(suppress=True)

In [274]:
print dist_cos

[ 0.          0.95275444  0.86447381  0.89517152  0.77708871  0.94023857
  0.73273876  0.92587507  0.88427249  0.90550888  0.83281654  0.88047714
  0.83964325  0.87035926  0.87401184  0.94427218  0.84063619  0.9566445
  0.94427218  0.88854436  0.84275727]


In [278]:
idx = np.argpartition(dist_cos, 3)

In [280]:
print idx
print dist_cos[4], dist_cos[] 

[ 4  0  6 10  3  5  2  7  8  9  1 11 12 13 14 15 16 17 18 19 20]
0.77708871497 0.732738758088


In [277]:
print(dist_cos[idx[:3]])

[ 0.77708871  0.          0.73273876]


In [253]:
dist_cos_1 = np.delete(dist_cos, np.argmin(dist_cos)) 

In [256]:
np.argmin(dist_cos_1)

5

In [257]:
dist_cos_1[5]

0.7327387580875756

In [265]:
dist_cos_2 = np.delete(dist_cos_1, np.argmin(dist_cos_1))

In [267]:
np.argmin(dist_cos_2)

3

7.Запишите полученные числа в файл, разделив пробелом. Обратите внимание, что файл должен состоять из одной строки, в конце которой не должно быть переноса. Пример файла с решением вы можете найти в конце задания (submission-1.txt).

In [269]:
file_obj = open('submission-1.txt', 'w')
string = '6 4'
file_obj.write(string)
file_obj.close()

8.Совпадают ли ближайшие два предложения по тематике с первым? Совпадают ли тематики у следующих по близости предложений?

In [281]:
print sentences[0]
print sentences[6]
print sentences[4]

in comparison to dogs, cats have not undergone major changes during the domestication process.

domestic cats are similar in size to the other members of the genus felis, typically weighing between 4 and 5 kg (8.8 and 11.0 lb).

in one, people deliberately tamed cats in a process of artificial selection, as they were useful predators of vermin.



Разумеется, использованный вами метод крайне простой. Например, он не учитывает формы слов (так, cat и cats он считает разными словами, хотя по сути они означают одно и то же), не удаляет из текстов артикли и прочие ненужные слова. Позже мы будем подробно изучать анализ текстов, где выясним, как достичь высокого качества в задаче поиска похожих предложений.