# Семинар 1. Числа с плавающей точкой. Векторы и их свойства. Нормы

## Задача 1

Все нормы в конечномерном пространстве эквивалентны. Покажем это на конкретных примеров для норм $\|\cdot\|_2, \|\cdot\|_1, \|\cdot\|_{\infty}$

## Задача 2

На лекции показали, как складывать числа в формате плавающей точки. Давайте обсудим нюансы того, как выполняется умножение чисел в таком формате. Для удобстав рассмотрим те же самые числа, что были на лекции.

## Задача 3

Покажем, почему сложение чисел в формате плавающей точки будет давать разную точность при разном порядке. 
Рассмотрим следующий замечательный факт

$$
\sum_{n=1}^{\infty} \frac{1}{n^2} = \frac{\pi^2}{6}
$$

и проверим, что он действительно выполяняется с некоторой точность. На этом примере проанализируем как лучше складывать такие ряды.

In [36]:
import numpy as np
from numba import jit

N = int(1e6)
items = np.array([1./n**2 for n in range(1, N+1)], dtype=np.float32)
target = np.pi**2 / 6
print(np.sum(items, dtype=np.float32) - target)

@jit(nopython=True)
def forward_sum(series):
    series_val = np.float32(0)
    for it in series:
        series_val += it
    return series_val
series_val = forward_sum(items)
print(series_val - target)

@jit(nopython=True)
def backward_sum(series):
    series_val = np.float32(0)
    for it in series[::-1]:
        series_val += it
    return series_val

series_val = backward_sum(items)
print(series_val - target)

-2.392844625331847e-06
-0.0002087441248377342
-1.0815424402732532e-06


## Задача 4 

Для рассмотренных норм можно построить споряжённые нормы с помощью следующего определения

$$ \|z\|_* = \max_{\|x\| \leq 1} (z, x). $$

Найдём сопряжённую норму для евклидовой нормы. 

## Задача 5

Посмотрим на векторные представления слов и то, как векторы, которыми "заменяют" слова сохраняют семантические свойства слов. Это означает, что арифметичесике операции над векторами дают векторы похожие на представления соответствующих слов.

In [1]:
# !pip install gensim
import gensim.downloader as api
# Warning! 2 Gb model will be downloaded!
wv = api.load('word2vec-google-news-300')

In [2]:
for index, word in enumerate(wv.index_to_key):
    if index == 10:
        break
    print(f"word #{index}/{len(wv.index_to_key)} is {word}")

word #0/3000000 is </s>
word #1/3000000 is in
word #2/3000000 is for
word #3/3000000 is that
word #4/3000000 is is
word #5/3000000 is on
word #6/3000000 is ##
word #7/3000000 is The
word #8/3000000 is with
word #9/3000000 is said


In [22]:
pairs = [
    ('plane', 'boeing'),
    ('plane', 'airbus'),
    ('plane', 'shuttle'),
    ('plane', 'bombardier'),
    ('plane', 'vehicle'),
]
for w1, w2 in pairs:
    print('%r \t %r \t %.2f' % (w1, w2, wv.similarity(w1, w2)))

'plane' 	 'boeing' 	 0.40
'plane' 	 'airbus' 	 0.64
'plane' 	 'shuttle' 	 0.32
'plane' 	 'bombardier' 	 0.38
'plane' 	 'vehicle' 	 0.38


In [25]:
print(wv.most_similar(positive=['plane'], topn=5))

[('airplane', 0.8348400592803955), ('jet', 0.7661097049713135), ('planes', 0.7439613938331604), ('aircraft', 0.7360519170761108), ('jetliner', 0.7206446528434753)]


In [48]:
unknown_vec = wv["Russia"] - wv["Moscow"] + wv["Paris"]
sim = wv.cosine_similarities(unknown_vec, wv.vectors)
idx = np.argsort(sim)[::-1]
for i in idx[:10]:
    print(wv.index_to_key[i])

France
Paris
extradites_Noriega
Villebon_Sur_Yvette
PARIS_AFX_Gaz_de
Belgium
Gaz_De
French
Emilie_Lepennec
called_Xynthia_blew
