# Векторы и операции над ними

### Создание векторов

Самый простой способ создать вектор в NumPy — это задать его явно с помощью numpy.array(list, dtype = None, ...).

Первый параметр создает итерируемый объект, из которого можно создать вектор. Второй параметр задает тип значений вектора, например, float — для вещественных значений и int — для целочисленных. Если этот параметр не задан, то тип данных будет определен из типа элементов первого аргумента. 

In [35]:
import numpy as np

In [23]:
a = np.array([1, 2, 3, 4])
print a

[1 2 3 4]


In [3]:
b = np.array([1, 2, 3, 4, 5], dtype = float)
print b

[1. 2. 3. 4. 5.]


In [4]:
c = np.array([True, False, True], dtype = bool)
print c

[ True False  True]


Тип значений вектора можно узнать с помощью dtype.

In [21]:
print c.dtype

bool


Другим способом задания вектора является функция numpy.arange(([start, ]stop, [step, ]...), которая задает последовательность чисел заданного типа из промежутка с шагом.

In [8]:
d = np.arange(10, 20, 2)
print d

[10 12 14 16 18]


In [9]:
f = np.arange(0, 1, 0.3, dtype = float)
print f

[0.  0.3 0.6 0.9]


По сути вектор в NumPy является одномерным массивом.

In [10]:
print c.ndim

1


ndim - это количество размерностей.

In [11]:
print c.shape

(3L,)


Shape задает длину вектора.

### Операции над векторами

Векторы в NumPy можно складывать, вычитать, умножать на число и умножать на другой вектор (покоординатно):

In [12]:
a = np.array([1, 2, 3])
b = np.array([6, 5, 4])
k = 2

print a
print b
print k

[1 2 3]
[6 5 4]
2


In [13]:
print a + b

[7 7 7]


In [14]:
print a - b

[-5 -3 -1]


In [15]:
print a * b 

[ 6 10 12]


In [16]:
print k * a 

[2 4 6]


### Нормы векторов

Некоторые нормы.

### p-норма

p-норма (норма Гёльдера) для вектора $x = (x_{1}, \dots, x_{n}) \in \mathbb{R}^{n}$ вычисляется по формуле:

$$
\left\Vert x \right\Vert_{p} = \left( \sum_{i=1}^n \left| x_{i} \right|^{p} \right)^{1 / p},~p \geq 1.
$$

В частных случаях при:
* $p = 1$ получаем $\ell_{1}$ норму
* $p = 2$ получаем $\ell_{2}$ норму

Нам понабится модуль numpy.linalg, реализующий некоторые приложения линейной алгебры. Для вычисления различных норм мы используем функцию numpy.linalg.norm(x, ord = None, ...), где первый аргумент — исходный вектор, а второй параметр определяет норму (1 или 2).

In [25]:
from numpy.linalg import norm

### $\ell_{1}$ норма

$\ell_{1}$ норма 
(также известная как манхэттенское расстояние)
для вектора $x = (x_{1}, \dots, x_{n}) \in \mathbb{R}^{n}$ вычисляется по формуле:

$$
 \left\Vert x \right\Vert_{1} = \sum_{i=1}^n \left| x_{i} \right|.
$$

Ей в функции numpy.linalg.norm() соответствует параметр ord = 1.

In [28]:
a = np.array([1, 2, -3])
print a

[ 1  2 -3]


In [32]:
print norm(a, ord = 1)

6.0


### $\ell_{2}$ норма

$\ell_{2}$ норма (также известная как евклидова норма)
для вектора $x = (x_{1}, \dots, x_{n}) \in \mathbb{R}^{n}$ вычисляется по формуле:

$$
 \left\Vert x \right\Vert_{2} = \sqrt{\sum_{i=1}^n \left( x_{i} \right)^2}.
$$

Ей соответствует параметр ord = 2.

In [33]:
a = np.array([1, 2, -3])
print a

[ 1  2 -3]


In [34]:
print norm(a, ord = 2)

3.7416573867739413


### Расстояния между векторами

Для двух векторов $x = (x_{1}, \dots, x_{n}) \in \mathbb{R}^{n}$ и $y = (y_{1}, \dots, y_{n}) \in \mathbb{R}^{n}$ $\ell_{1}$ и $\ell_{2}$ раccтояния вычисляются по следующим формулам соответственно:

$$
 \rho_{1}\left( x, y \right) = \left\Vert x - y \right\Vert_{1} = \sum_{i=1}^n \left| x_{i} - y_{i} \right|
$$

$$
 \rho_{2}\left( x, y \right) = \left\Vert x - y \right\Vert_{2} = 
 \sqrt{\sum_{i=1}^n \left( x_{i} - y_{i} \right)^2}.
$$

In [36]:
a = np.array([1, 2, -3])
b = np.array([-4, 3, 8])
print a
print b

[ 1  2 -3]
[-4  3  8]


In [39]:
print norm(a - b, ord = 1)

17.0


In [38]:
print norm(a - b, ord = 2)

12.12435565298214


Также расстояние между векторами можно посчитать с помощью функции scipy.spatial.distance.cdist(XA, XB, metric='euclidean', p=2, ...) из модуля SciPy, предназначенного для выполнения научных и инженерных расчётов. 

In [45]:
from scipy.spatial.distance import cdist

Эта функция требует, чтобы размерность XA и XB была как минимум двумерная. По этой причине для использования этой функции необходимо преобразовать векторы к вектор-строкам.

Параметры XA, XB — исходные вектор-строки, а metric и p задают метрику расстояния.

Первый способ из вектора сделать вектор-строку (вектор-столбец) — это использовать метод array.reshape(shape), где параметр shape задает размерность вектора.

In [40]:
a = np.array([6, 3, -5])
b = np.array([-1, 0, 7])
print a
print a.shape
print b
print b.shape

[ 6  3 -5]
(3L,)
[-1  0  7]
(3L,)


In [43]:
a = a.reshape((1, 3))
b = b.reshape((1, 3))
print 'После применения метода reshape:\n'
print a
print a.shape
print b
print b.shape

После применения метода reshape:

[[ 6  3 -5]]
(1L, 3L)
[[-1  0  7]]
(1L, 3L)


In [48]:
print cdist(a, b, metric = 'cityblock')

[[22.]]


Манхэттенское расстояние между a и b.

После применения этого метода размерность полученных вектор-строк будет равна shape. Следующий метод позволяет сделать такое же преобразование, но не изменяет размерность исходного вектора.  

В NumPy к размерностям объектов можно добавлять фиктивные оси с помощью np.newaxis. Для того, чтобы понять, как это сделать, рассмотрим пример:

In [49]:
d = np.array([3, 0, 8, 9, -10])
print d
print d.shape

[  3   0   8   9 -10]
(5L,)


In [50]:
print 'Вектор d с newaxis --> вектор-строка:\n', d[np.newaxis, :]
print 'Полученная размерность:', d[np.newaxis, :].shape

print 'Вектор d с newaxis --> вектор-столбец:\n', d[:, np.newaxis]
print 'Полученная размерность:', d[:, np.newaxis].shape

Вектор d с newaxis --> вектор-строка:
[[  3   0   8   9 -10]]
Полученная размерность: (1L, 5L)
Вектор d с newaxis --> вектор-столбец:
[[  3]
 [  0]
 [  8]
 [  9]
 [-10]]
Полученная размерность: (5L, 1L)


Важно, что np.newaxis добавляет к размерности ось, длина которой равна 1 (это и логично, так как количество элементов должно сохраняться). Таким образом, надо вставлять новую ось там, где нужна единица в размерности. 

Теперь посчитаем расстояния с помощью cdist, используя np.newaxis для преобразования векторов.

In [52]:
a = np.array([6, 3, -5])
b = np.array([-1, 0, 7])
print cdist(a[np.newaxis, :], b[np.newaxis, :], metric='euclidean')

[[14.2126704]]


Евклидово расстояние между a и b.

В данном случае эта функция предподчительнее norm, так как она вычисляет попарные расстояния быстрее и эффективнее. 

### Скалярное произведение и угол между векторами

In [53]:
a = np.array([0, 5, -1])
b = np.array([-4, 9, 3])
print a
print b

[ 0  5 -1]
[-4  9  3]


Скалярное произведение в пространстве $\mathbb{R}^{n}$ для двух векторов $x = (x_{1}, \dots, x_{n})$ и $y = (y_{1}, \dots, y_{n})$ определяется как:

$$
\langle x, y \rangle = \sum_{i=1}^n x_{i} y_{i}.
$$

Скалярное произведение двух векторов можно вычислять с помощью функции numpy.dot(a, b, ...) или метода vec1.dot(vec2), где vec1 и vec2 — исходные векторы.

In [54]:
print np.dot(a, b)

42


In [55]:
print a.dot(b)

42


Длиной вектора $x = (x_{1}, \dots, x_{n}) \in \mathbb{R}^{n}$ называется квадратный корень из скалярного произведения, то есть длина равна евклидовой норме вектора:

$$
\left| x \right| = \sqrt{\langle x, x \rangle} = \sqrt{\sum_{i=1}^n x_{i}^2} =  \left\Vert x \right\Vert_{2}.
$$

Теперь, когда мы знаем расстояние между двумя ненулевыми векторами и их длины, мы можем вычислить угол между ними через скалярное произведение:

$$
\langle x, y \rangle = \left| x \right| | y | \cos(\alpha)
\implies \cos(\alpha) = \frac{\langle x, y \rangle}{\left| x \right| | y |},
$$

где $\alpha \in [0, \pi]$ — угол между векторами $x$ и $y$.

In [56]:
cos_angle = np.dot(a, b) / norm(a) / norm(b)
print cos_angle
print np.arccos(cos_angle)

0.8000362836474323
0.6434406336093618
