# Семинар про Numpy

In [1]:
import numpy as np

# Зачем нужен этот пакет? 

`numpy` — библиотека, позволяющая удобно работать с многомерными массивами и матрицами, содержащая математические функции. Кроме того, `numpy` позволяет векторизовать многие вычисления и пригождается в анализе данных.

In [2]:
x = [1, 2, 3]
y = [4, 5, 6]

print(x + y) # списки объединились вмесссте
print(3 * x) # список продублировался трижды 
type(x)

[1, 2, 3, 4, 5, 6]
[1, 2, 3, 1, 2, 3, 1, 2, 3]


list

In [3]:
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])

print(x + y) # в случае numpy поэлементное сложение
print(3 * x) # каждый элемент умножился на число
type(x)

[5 7 9]
[3 6 9]


numpy.ndarray

Работает более быстро.

In [4]:
x = np.arange(10**7)
x[:10]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
y = list(x)
y[:10]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [6]:
%%timeit 
sum(y)

1.13 s ± 46.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [7]:
%%timeit 
np.sum(x)

6.03 ms ± 721 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


# 1. Вектора и матрицы

Посмотрим на основы работы с матрицами и векторами подробнее!

## 1.1 Вектора

Векторно работает не только сложение, но и все другие операции. 

In [8]:
x = np.array([1,-10,3,0,1,75,3])
x[3:6]

array([ 0,  1, 75])

In [9]:
x[x > 0]

array([ 1,  3,  1, 75,  3])

In [10]:
x[(x > 0)&(x <= 70)]

array([1, 3, 1, 3])

In [11]:
x[[2,5]]

array([ 3, 75])

Есть много сопособов создать в `numpy` вектор. Можно сделать это перечислением элементов, как выше для вектора `x`. А можно с помощью различных специальных функций.

In [12]:
y = np.arange(start=10, stop=20, step=2) # последнее значение не включается!
y

array([10, 12, 14, 16, 18])

In [13]:
y = np.ones(5) # вектор длины 5 из единиц
y

array([1., 1., 1., 1., 1.])

In [14]:
y = np.zeros(4) # вектор длины 4 из нулей
y

array([0., 0., 0., 0.])

In [15]:
y = np.random.rand(5)  # случайный вектор, равномерное распределение на [0;1] 
y

array([0.08300865, 0.72974462, 0.75087135, 0.66142326, 0.04489368])

In [16]:
y = np.ones_like(x) # вектор из единиц такой же длины как вектор x
y

array([1, 1, 1, 1, 1, 1, 1])

По сути вектор в `numpy` является одномерным массивом, что соответствует интуитивному определению вектора:

In [17]:
y.shape # размерность вектора

(7,)

Более подробно о том, как создавать векторы в `NumPy`, 
см. [документацию](http://docs.scipy.org/doc/numpy-1.10.1/user/basics.creation.html).

## 1.2 Матрицы

Можно создать матрицу!

In [18]:
A = np.array([[1, 2, 3], [2, 5, 6], [6, 7, 4]])
A

array([[1, 2, 3],
       [2, 5, 6],
       [6, 7, 4]])

In [19]:
A.shape # размерность

(3, 3)

In [20]:
A[2]    # вторая строка матрицы

array([6, 7, 4])

In [21]:
A[:,1]  # первый столбец матрицы

array([2, 5, 7])

In [22]:
A[2][1] # можно срезать сначала строку, потом столбец

7

In [23]:
A[2,1]  # либос разу обе размерности

7

In [24]:
A[1:,1:] # можно найти срез

array([[5, 6],
       [7, 4]])

Более подробно о различных способах индексирования в массивах
см. [документацию](http://docs.scipy.org/doc/numpy/reference/arrays.indexing.html).

In [25]:
A > 5

array([[False, False, False],
       [False, False,  True],
       [ True,  True, False]])

In [26]:
A[A > 5]

array([6, 6, 7])

In [27]:
np.where(A > 5)  # номера строк и столбцов

(array([1, 2, 2]), array([2, 0, 1]))

In [28]:
idx = np.where(A > 5)
A[idx]

array([6, 6, 7])

Можно создавать специальные матрицы разными функциями, по аналогии с векторами. 

In [29]:
np.ones((3,3)) 

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [30]:
np.zeros((3,3)) 

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [31]:
np.random.normal(size=(3,3))

array([[-0.0361256 ,  0.43559029,  1.50079402],
       [ 0.2742143 , -0.8604755 , -0.16980162],
       [-0.78596025,  1.75187966, -0.92504816]])

In [32]:
np.eye(5) # единичная матрица

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Можно изменять размерности, если число элементов позволяет это сделать.

In [33]:
v = np.arange(0, 24, 2)
v

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22])

In [34]:
v.shape

(12,)

In [35]:
v.reshape((3, 4))

array([[ 0,  2,  4,  6],
       [ 8, 10, 12, 14],
       [16, 18, 20, 22]])

In [36]:
v.reshape((3, 6))

ValueError: cannot reshape array of size 12 into shape (3,6)

In [37]:
v.reshape((3, -1)) # -1 => если возможно, найди размерность второй оси автоматически

array([[ 0,  2,  4,  6],
       [ 8, 10, 12, 14],
       [16, 18, 20, 22]])

In [38]:
D = np.random.normal(size=(3,3,3))
D.shape

(3, 3, 3)

In [39]:
D  # Вектор из матриц

array([[[-0.33258426,  0.51560963,  1.51220033],
        [ 0.2561937 , -0.83646691,  1.52926473],
        [ 1.62069317, -1.03074117, -0.16747828]],

       [[-0.13419933, -0.64552509, -0.4405012 ],
        [-1.60217588, -0.55219259, -0.25367737],
        [ 0.35185851,  0.81382537,  1.17123809]],

       [[ 0.40575706, -0.24288298, -0.02642558],
        [ 0.95152404,  0.58450746, -1.49231671],
        [ 0.92225737, -2.1344927 , -1.25928176]]])

Массивы можно объединять:



In [40]:
A = np.array([[1, 2], [3, 4]])
np.hstack((A, np.zeros(A.shape)))

array([[1., 2., 0., 0.],
       [3., 4., 0., 0.]])

In [41]:
np.vstack((A, np.zeros(A.shape)))

array([[1., 2.],
       [3., 4.],
       [0., 0.],
       [0., 0.]])

Более подробно о том, как создавать массивы в `numpy`, 
см. [документацию](http://docs.scipy.org/doc/numpy-1.10.1/user/basics.creation.html).

## 1.3 Векторы, вектор-строки и вектор-столбцы

In [42]:
a = np.array([1, 2, 3])
a

array([1, 2, 3])

In [43]:
b = np.array([[1], [2], [3]])
b

array([[1],
       [2],
       [3]])

In [44]:
a.shape

(3,)

In [45]:
b.shape

(3, 1)

__Обратите внимание:__ _вектор_ (одномерный массив) и _вектор-столбец_ или _вектор-строка_ (двумерные массивы) являются различными объектами в `numpy`, хотя математически задают один и тот же объект. В случае одномерного массива кортеж `shape` состоит из одного числа и имеет вид `(n,)`, где `n` — длина вектора. В случае двумерных векторов в `shape` присутствует еще одна размерность, равная единице. 

В большинстве случаев неважно, какое представление использовать, потому что часто срабатывает приведение типов. Но некоторые операции не работают для одномерных массивов. Например, транспонирование:

In [46]:
a.T

array([1, 2, 3])

In [47]:
b.T

array([[1, 2, 3]])

## 1.4  Умножение матриц и векторов-столбцов

Матрицы можно умножать!

In [48]:
A = np.array([[1, 0], [0, 1]])
B = np.array([[4, 1], [2, 2]])
A@B

array([[4, 1],
       [2, 2]])

In [49]:
np.dot(A, B)

array([[4, 1],
       [2, 2]])

In [50]:
x = np.array([1, 2])
B@x

array([6, 6])

__Обратите внимание:__ операция __`*`__ производит над матрицами покоординатное умножение, а не матричное!

In [51]:
A * B

array([[4, 0],
       [0, 2]])

Более подробно о матричном умножении в `numpy`
см. [документацию](http://docs.scipy.org/doc/numpy-1.10.0/reference/routines.linalg.html#matrix-and-vector-products).

## 1.5 Другие операции над матрицами

In [52]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 10]])
A  

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8, 10]])

In [53]:
A.T  # Транспонирование

array([[ 1,  4,  7],
       [ 2,  5,  8],
       [ 3,  6, 10]])

In [54]:
np.linalg.det(A) # Определитель

-2.9999999999999996

In [55]:
np.linalg.matrix_rank(A) # Ранг матрицы

3

In [56]:
np.diag(A) # главная диагональ

array([ 1,  5, 10])

In [57]:
B = np.linalg.inv(A) # обратная матрица
B

array([[-0.66666667, -1.33333333,  1.        ],
       [-0.66666667,  3.66666667, -2.        ],
       [ 1.        , -2.        ,  1.        ]])

In [58]:
A@B # Единичная матрица

array([[1.00000000e+00, 0.00000000e+00, 1.11022302e-16],
       [0.00000000e+00, 1.00000000e+00, 2.22044605e-16],
       [8.88178420e-16, 0.00000000e+00, 1.00000000e+00]])

In [59]:
np.sum((A@B - np.eye(3))**2) # невязка между элементами

2.0830858278492343e-30

У некоторых функций бывает параметр `axis`, который позволяет применить эту функцию по разным осям. Если речь о матрицах, то по строкам или столбцам:

In [60]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 10]])
A

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8, 10]])

In [61]:
A.sum()

46

In [62]:
A.sum(axis=0)

array([12, 15, 19])

In [63]:
np.sum(A, axis=1)

array([ 6, 15, 25])

# 2. Решаем задачи

В будущем вы будете учить анализ данных. Там неожиданно выяснится, что любые данные - это матрица. Там-то вы и увидите впервые всю мощь numpy. 

### Задание 1:

Реализуйте функцию, возвращающую максимальный элемент в векторе $x$ среди элементов, перед которыми стоит нулевой. 

Например, для `x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0])` ответом является `5`. Если нулевых элементов нет, функция должна возвращать `None`.

In [67]:
x = np.array([1, 5, 8, 6, 6, 1, 7, 4, 4, 0])
y = np.random.randint(9, size=10)

def max_element_before_zero(x):
    shift_by_one = np.hstack((1, x))
    bool_array = (shift_by_one == 0)[:np.size(shift_by_one) - 1]
    if np.size(x[bool_array]) == 0:
        return None
    else:
        return np.max(x[bool_array])
    
print('Случайный вектор:', x, 'Максимальный элемент:', max_element_before_zero(x), sep='\n')
print(' ')
print('Случайный вектор:', y, 'Максимальный элемент:', max_element_before_zero(y), sep='\n')

Случайный вектор:
[1 5 8 6 6 1 7 4 4 0]
Максимальный элемент:
None
 
Случайный вектор:
[1 6 6 8 7 4 4 2 4 0]
Максимальный элемент:
None


__Зачем?__ 

К вам в голову тут должна была прийти мысль: "Зачем? Можно же использовать цикл!". Да, можно. Но векторные вычисления работают на порядок быстрее. Часто сделать их намного удобнее, чем написать цикл.

### Задание 2:

Есть матрица $X$. Нужно отнормировать её столбцы к отрезку $[0;1]:$

$$
x^{*} = \frac{x−min(x)}{max(x)−min(x)}
$$

In [68]:
X = np.random.normal(size=(5,5))
X

array([[-0.29573891, -0.84997366,  0.7969028 ,  0.20269066,  0.68969439],
       [ 1.45096032,  0.05462041,  0.27125423,  0.52689547, -1.00156592],
       [-0.42142528, -0.94736649, -0.42823488, -0.98346175, -0.34705659],
       [-0.71608479, -1.05511298, -0.92022325,  0.26592516, -0.45338546],
       [-0.04518416, -0.45219597,  1.02574257,  0.0253482 , -1.46770858]])

In [69]:
(X - X.min(axis=0))/(X.max(axis=0) - X.min(axis=0))

array([[0.19397191, 0.18485459, 0.88240298, 0.78534561, 1.        ],
       [1.        , 1.        , 0.61228078, 1.        , 0.21606657],
       [0.13597294, 0.09709222, 0.25282477, 0.        , 0.51944491],
       [0.        , 0.        , 0.        , 0.82721286, 0.47015932],
       [0.30959237, 0.54329897, 1.        , 0.66792805, 0.        ]])

__Зачем?__ 

К вам в голову тут должна была прийти мысль: "Зачем вообще делать это?". 

Обычно в машинном обучении по строчкам записывают наблюдения, по столбцам разные признаки. Часто между объектами надо считать расстояния. Представим, что у нас в выборке два наблюдения. Петя, который весит $50$ кг при росте $1$ метр. И Вася, который вести $75$ кг при росте в $1.5$ метра. То есть Петя описывается вектором $(50, 1)$, а Вася $(75, 1.5)$. 

Если нам надо вычислить между парнями расстояние, мы будем делать это так:

In [70]:
print((50 - 75) ** 2)
print((1 - 1.5) ** 2)
(50 - 75) ** 2 + (1 - 1.5) ** 2

625
0.25


625.25

Намного больше внимания уделяется весу. Чтобы такого не возникало, надо отнормировать все признаки к одной шкале. Например, отрезку $[0;1]$. 

> Если хотите узнать о том как линал используется в машинном обучении больше, смотрите небольшой видос про рекомендательные системы ["От матрицы до больших данных"](https://www.youtube.com/watch?v=Or119IXozCM)

### Задание 3:

Реализуйте функцию, принимающую на вход матрицу $X$ и некоторое число $a$ и возвращающую ближайший к числу элемент матрицы. А потом перепишите её так, чтобы она возвращала самый дальний элемент. 

In [71]:
def nearest_value(X, v):
    Y = np.abs(X - v)
    m = np.min(Y)
    inds = np.where(Y == m)
    return X[inds[0][0], inds[1][0]]

X = np.arange(0,10).reshape((2, 5))
v = 3.6
print ('Матрица:', X, 'Число:', v, 'Ближайший к числу элемент матрицы:', nearest_value(X, v), sep='\n')

Матрица:
[[0 1 2 3 4]
 [5 6 7 8 9]]
Число:
3.6
Ближайший к числу элемент матрицы:
4


In [72]:
# Решение в одну строку
def get_nearest_value(X, v):
    return X.reshape(1, -1)[0][np.argmin(np.abs(X - v))]

print ('Матрица:', X, 'Число:', v, 
       'Ближайший к числу элемент матрицы:', get_nearest_value(X, v), sep='\n')

Матрица:
[[0 1 2 3 4]
 [5 6 7 8 9]]
Число:
3.6
Ближайший к числу элемент матрицы:
4


### Задание 4:

Усложним предыдущую задачу! Дана матрица $X$ и вектор $v$. Нужно найти в матрице $X$ строку, которая будет ближе всего к вектору $v$. 

In [73]:
X = np.random.binomial(100, 0.5, size=(5,3))/100
v = np.random.uniform(size=(5,1))
X, v

(array([[0.46, 0.56, 0.42],
        [0.48, 0.43, 0.64],
        [0.49, 0.45, 0.48],
        [0.54, 0.58, 0.43],
        [0.49, 0.47, 0.55]]),
 array([[0.68375326],
        [0.21737854],
        [0.26845901],
        [0.43438965],
        [0.16611799]]))

In [74]:
R = (X - v)**2
R

array([[5.00655218e-02, 1.53148696e-02, 6.95657827e-02],
       [6.89700296e-02, 4.52078839e-02, 1.78608896e-01],
       [4.90804103e-02, 3.29571311e-02, 4.47495905e-02],
       [1.11535455e-02, 2.12023733e-02, 1.92690481e-05],
       [1.04899555e-01, 9.23442745e-02, 1.47365396e-01]])

In [75]:
z = np.sqrt(np.sum(R, axis=0))
z

array([0.5330751 , 0.45500168, 0.66355778])

In [76]:
X[:, np.where(z == np.min(z))].T

array([[[0.56, 0.43, 0.45, 0.58, 0.47]]])

__Зачем?__ 

Зачем вообще кому-то нужны задания 3 и 4?! В машинном обучения всюду вектора! Например, есть волшебная технология __word2vec__. В ней все слова превращают в вектора так, чтобы в них был закодирован смысл слова. В итоге неожиданно оказывается, что эти вектора можно складывать и вычитать. Если взять вектор _король_, вычесть из него _мужчина_ и добавить _женщина_, внезапно получится вектор, самым близким к которому является _королева_. 

Все эти вычисления удобно делать в `numpy`, написанными нами функциями. Поиграться с такой моделью и калькулятором слов можно [на сайте resvectores](https://rusvectores.org/ru/calculator/#)

### Больше заданий для практики можно найти: 

- В [необязательном контесте](https://official.contest.yandex.ru/contest/25960/enter/) вас ждут простые и не очень задачи на numpy
- В сборнике [100 упражнений на `numpy`](https://github.com/rougier/numpy-100/blob/master/100_Numpy_exercises_with_solutions.md), там же [вариант без решения с подсказками.](https://github.com/rougier/numpy-100) Некоторые упражнения странные и бесполезные. 

------------------------

# 3. Бонус-трек: линейная алгебра

> Эту часть тетрадки мы __НЕ будем__ делать на семинаре. Её можно помотреть после него. Внутри много полезного функционала. Но ясное дело далеко не весь. Если хочется больше линала, да ещё и с python, добро пожаловать [курс по линал от ББ Демешева](https://www.coursera.org/learn/lineinaya-algebra) 

В этой части тетрадки мы поглубже поссмотим на функционал пакета. Далее нам понабится модуль `numpy.linalg`, реализующий некоторые приложения линейной алгебры.

## 3.1 Нормы векторов 

Вспомним некоторые нормы, которые можно ввести в пространстве $\mathbb{R}^{n}$, и рассмотрим, с помощью каких библиотек и функций их можно вычислять в `numpy`.  Для вычисления различных норм мы используем функцию `numpy.linalg.norm(x, ord=None, ...)`, где `x` — исходный вектор, `ord` — параметр, определяющий норму (мы рассмотрим два варианта его значений — 1 и 2). 

### $\ell_{2}$ норма

$\ell_{2}$ норма (также известная как евклидова норма)
для вектора $x = (x_{1}, \dots, x_{n}) \in \mathbb{R}^{n}$ вычисляется по формуле:

$$
 \left\Vert x \right\Vert_{2} = \sqrt{\sum_{i=1}^n \left( x_{i} \right)^2}.
$$

Ей в функции `numpy.linalg.norm(x, ord=None, ...)` соответствует параметр `ord=2`.

In [77]:
from numpy.linalg import norm

In [78]:
a = np.array([1, 2, -3])
norm(a, ord=2)

3.7416573867739413

### $\ell_{1}$ норма

$\ell_{1}$ норма 
(также известная как [манхэттенское расстояние](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%B3%D0%BE%D1%80%D0%BE%D0%B4%D1%81%D0%BA%D0%B8%D1%85_%D0%BA%D0%B2%D0%B0%D1%80%D1%82%D0%B0%D0%BB%D0%BE%D0%B2))
для вектора $x = (x_{1}, \dots, x_{n}) \in \mathbb{R}^{n}$ вычисляется по формуле:

$$
 \left\Vert x \right\Vert_{1} = \sum_{i=1}^n \left| x_{i} \right|.
$$

Ей в функции `numpy.linalg.norm(x, ord=None, ...)` соответствует параметр `ord=1`.

In [79]:
a = np.array([1, 2, -3])
norm(a, ord=1)

6.0

Более подробно о том, какие еще нормы (в том числе матричные) можно вычислить, см. [документацию](http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.linalg.norm.html). 

## 3.2   Расстояния между векторами

Для двух векторов $x = (x_{1}, \dots, x_{n}) \in \mathbb{R}^{n}$ и $y = (y_{1}, \dots, y_{n}) \in \mathbb{R}^{n}$ $\ell_{1}$ и $\ell_{2}$ раccтояния вычисляются по следующим формулам соответственно:

$$
 \rho_{1}\left( x, y \right) = \left\Vert x - y \right\Vert_{1} = \sum_{i=1}^n \left| x_{i} - y_{i} \right|
$$

$$
 \rho_{2}\left( x, y \right) = \left\Vert x - y \right\Vert_{2} = 
 \sqrt{\sum_{i=1}^n \left( x_{i} - y_{i} \right)^2}.
$$

In [80]:
a = np.array([1, 2, -3])
b = np.array([-4, 3, 8])

In [81]:
norm(a - b, ord=1)

17.0

In [82]:
norm(a - b, ord=2)

12.12435565298214

Также расстояние между векторами можно посчитать с помощью функции  `scipy.spatial.distance.cdist(XA, XB, metric='euclidean', p=2, ...)` из модуля `scipy`, предназначенного для выполнения научных и инженерных расчётов. 

In [83]:
from scipy.spatial.distance import cdist

`scipy.spatial.distance.cdist(...)` требует, чтобы размерность `XA` и `XB` была как минимум двумерная. По этой причине для использования этой функции необходимо преобразовать _векторы_, которые мы рассматриваем в этом ноутбуке, к _вектор-строкам_ с помощью способов, которые мы рассмотрим ниже. 

Параметры `XA, XB` — исходные вектор-строки, а `metric` и `p` задают метрику расстояния
(более подробно о том, какие метрики можно использовать, см. [документацию](http://docs.scipy.org/doc/scipy-0.16.0/reference/generated/scipy.spatial.distance.cdist.html)).

Первый способ из _вектора_ сделать _веткор-строку (вектор-столбец)_ — это использовать _метод_ `array.reshape(shape)`, где параметр `shape` задает размерность вектора (кортеж чисел).

In [85]:
a = np.array([6, 3, -5])
b = np.array([-1, 0, 7])

print('Вектор a:', a)
print('Его размерность:', a.shape)
print('Вектор b:', b)
print('Его размерность:', b.shape)

Вектор a: [ 6  3 -5]
Его размерность: (3,)
Вектор b: [-1  0  7]
Его размерность: (3,)


In [86]:
a = a.reshape((1, 3))
b = b.reshape((1, 3))

print('После применения метода reshape:\n')
print('Вектор-строка a:', a)
print('Его размерность:', a.shape)
print('Вектор-строка b:', b)
print('Его размерность:', b.shape)

После применения метода reshape:

Вектор-строка a: [[ 6  3 -5]]
Его размерность: (1, 3)
Вектор-строка b: [[-1  0  7]]
Его размерность: (1, 3)


In [87]:
print('Манхэттенское расстояние между a и b (через cdist):', cdist(a, b, metric='cityblock'))

Манхэттенское расстояние между a и b (через cdist): [[22.]]


Заметим, что после применения этого метода размерность полученных вектор-строк будет равна `shape`. Следующий метод позволяет сделать такое же преобразование, но не изменяет размерность исходного вектора.  

В `numpy` к размерностям объектов можно добавлять фиктивные оси с помощью `np.newaxis`. Для того, чтобы понять, как это сделать, рассмотрим пример:

In [88]:
d = np.array([3, 0, 8, 9, -10])

print('Вектор d:', d)
print('Его размерность:', d.shape)

Вектор d: [  3   0   8   9 -10]
Его размерность: (5,)


In [90]:
print('Вектор d с newaxis --> вектор-строка:\n', d[np.newaxis, :])
print('Полученная размерность:', d[np.newaxis, :].shape)
print(' ')
print('Вектор d с newaxis --> вектор-столбец:\n', d[:, np.newaxis])
print('Полученная размерность:', d[:, np.newaxis].shape)

Вектор d с newaxis --> вектор-строка:
 [[  3   0   8   9 -10]]
Полученная размерность: (1, 5)
 
Вектор d с newaxis --> вектор-столбец:
 [[  3]
 [  0]
 [  8]
 [  9]
 [-10]]
Полученная размерность: (5, 1)


Важно, что `np.newaxis` добавляет к размерности ось, длина которой равна 1 (это и логично, так как количество элементов должно сохраняться). Таким образом, надо вставлять новую ось там, где нужна единица в размерности. 

Теперь посчитаем расстояния с помощью `scipy.spatial.distance.cdist(...)`, используя `np.newaxis` для преобразования векторов:

In [91]:
a = np.array([6, 3, -5])
b = np.array([-1, 0, 7])

print('Евклидово расстояние между a и b (через cdist):', cdist(a[np.newaxis, :], 
                                                               b[np.newaxis, :], 
                                                               metric='euclidean'))

Евклидово расстояние между a и b (через cdist): [[14.2126704]]


Эта функция также позволяет вычислять попарные расстояния между множествами векторов. Например, пусть у нас имеется матрица размера $m_{A} \times n$. Мы можем рассматривать ее как описание некоторых $m_{A}$ наблюдений в $n$-мерном пространстве. Пусть также имеется еще одна аналогичная матрица размера $m_{B} \times n$, где  $m_{B}$ векторов в том же $n$-мерном пространстве. Часто необходимо посчитать попарные расстояния между векторами первого и второго множеств. 

В этом случае можно пользоваться функцией `scipy.spatial.distance.cdist(XA, XB, metric='euclidean', p=2, ...)`, где в качестве `XA, XB` необходимо передать две описанные матрицы. Функция возаращает матрицу попарных расстояний размера $m_{A} \times m_{B}$, где элемент матрицы на $[i, j]$-ой позиции равен расстоянию между $i$-тым вектором первого множества и $j$-ым вектором второго множества. 

В данном случае эта функция предподчительнее `numpy.linalg.norm(...)`, так как она вычисляет попарные расстояния быстрее и эффективнее. 

## 3.3 Скалярное произведение и угол между векторами

In [92]:
a = np.array([0, 5, -1])
b = np.array([-4, 9, 3])

Скалярное произведение в пространстве $\mathbb{R}^{n}$ для двух векторов $x = (x_{1}, \dots, x_{n})$ и $y = (y_{1}, \dots, y_{n})$ определяется как:

$$
\langle x, y \rangle = \sum_{i=1}^n x_{i} y_{i}.
$$

Скалярное произведение двух векторов можно вычислять помощью функции `numpy.dot(a, b, ...)` или _метода_ `vec1.dot(vec2)`, где `vec1` и `vec2` — исходные векторы. Также эти функции подходят для матричного умножения, о котором речь пойдет в следующем уроке. 

In [93]:
np.dot(a, b) # через функцию

42

In [94]:
a.dot(b) # через метод

42

In [95]:
a@b # через матричное умножение

42

Длиной вектора $x = (x_{1}, \dots, x_{n}) \in \mathbb{R}^{n}$ называется квадратный корень из скалярного произведения, то есть длина равна евклидовой норме вектора:

$$
\left| x \right| = \sqrt{\langle x, x \rangle} = \sqrt{\sum_{i=1}^n x_{i}^2} =  \left\Vert x \right\Vert_{2}.
$$

Теперь, когда мы знаем расстояние между двумя ненулевыми векторами и их длины, мы можем вычислить угол между ними через скалярное произведение:

$$
\langle x, y \rangle = \left| x \right| | y | \cos(\alpha)
\implies \cos(\alpha) = \frac{\langle x, y \rangle}{\left| x \right| | y |},
$$

где $\alpha \in [0, \pi]$ — угол между векторами $x$ и $y$.

In [96]:
cos_angle = np.dot(a, b) / norm(a) / norm(b)
cos_angle  # косинус угла

0.8000362836474323

In [97]:
np.arccos(cos_angle) # сам угол

0.6434406336093618

Более подробно о том, как вычислять скалярное произведение в `numpy`, 
см. [документацию](http://docs.scipy.org/doc/numpy/reference/routines.linalg.html#matrix-and-vector-products).

## 3.4 Системы линейных уравнений

__Системой линейных алгебраических уравнений__ называется система вида $Ax = b$, где $A \in \mathbb{R}^{n \times m}, x \in \mathbb{R}^{m \times 1}, b \in \mathbb{R}^{n \times 1}$. В случае квадратной невырожденной матрицы $A$ решение системы единственно.

В `numpy` решение такой системы можно найти с помощью функции `numpy.linalg.solve(a, b)`, где первый аргумент — матрица $A$, второй — столбец $b$.

In [102]:
A = np.array([[3, 1], [1, 2]])
b = np.array([9, 8])
x = np.linalg.solve(A, b)
x

array([2., 3.])

Убедимся, что вектор $x$ действительно является решением системы:

In [103]:
A.dot(x)

array([9., 8.])

Бывают случаи, когда решение системы не существует. Но хотелось бы все равно "решить" такую систему. Логичным кажется искать такой вектор $x$, который минимизирует выражение $\left\Vert Ax - b\right\Vert^{2}$ — так мы приблизим выражение $Ax$ к $b$.

В `numpy` такое псевдорешение можно искать с помощью функции `numpy.linalg.lstsq(a, b, ...)`, где первые два аргумента такие же, как и для функции `numpy.linalg.solve()`. 

Помимо решения функция возвращает еще три значения, которые нам сейчас не понадобятся.

In [108]:
A = np.array([[0, 1], [1, 1], [2, 1], [3, 1]])
b = np.array([-1, 0.2, 0.9, 2.1])
x, res, r, s = np.linalg.lstsq(A, b)

  x, res, r, s = np.linalg.lstsq(A, b)


In [109]:
A

array([[0, 1],
       [1, 1],
       [2, 1],
       [3, 1]])

In [110]:
b

array([-1. ,  0.2,  0.9,  2.1])

In [111]:
x

array([ 1.  , -0.95])

## 3.5 Собственные числа и собственные вектора матрицы

Для квадратных матриц определены понятия __собственного вектора__ и __собственного числа__.

Пусть $A$ — квадратная матрица и $A \in \mathbb{R}^{n \times n}$. __Собственным вектором__ матрицы $A$ называется такой ненулевой вектор $x \in \mathbb{R}^{n}$, что для некоторого $\lambda \in \mathbb{R}$ выполняется равенство $Ax = \lambda x$. При этом $\lambda$ называется __собственным числом__ матрицы $A$. Собственные числа и собственные векторы матрицы играют важную роль в теории линейной алгебры и ее практических приложениях.

В `numpy` собственные числа и собственные векторы матрицы вычисляются с помощью функции `numpy.linalg.eig(a)`, где `a` — исходная матрица. В качестве результата эта функция выдает одномерный массив `v` собственных чисел и двумерный массив `w`, в котором по столбцам записаны собственные вектора, так что вектор `w[:, i]` соотвествует собственному числу `v[i]`.

In [112]:
a = np.array([[-1, -6], [2, 6]])
w, v = np.linalg.eig(a)

In [113]:
w

array([2., 3.])

In [114]:
v

array([[-0.89442719,  0.83205029],
       [ 0.4472136 , -0.5547002 ]])

__Обратите внимание:__ у вещественной матрицы собственные значения или собственные векторы могут быть комплексными.

## 3.6  Комплексные числа в питоне

__Комплексными числами__ называются числа вида $x + iy$, где $x$ и $y$ — вещественные числа, а $i$ — мнимая единица (величина, для которой выполняется равенство $i^{2} = -1$). Множество всех комплексных чисел обозначается буквой $\mathbb{C}$ (подробнее про комплексные числа см. [википедию](https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BC%D0%BF%D0%BB%D0%B5%D0%BA%D1%81%D0%BD%D0%BE%D0%B5_%D1%87%D0%B8%D1%81%D0%BB%D0%BE)).

В питоне комплескные числа можно задать следующим образом ( $j$ обозначает мнимую единицу):

In [115]:
a = 3 + 2j
a

(3+2j)

In [116]:
b = 1j
b

1j

In [117]:
a * a

(5+12j)

In [118]:
a / (4 - 5j)

(0.0487804878048781+0.5609756097560976j)

In [119]:
np.abs(a)

3.605551275463989

In [120]:
np.sqrt(3**2 + 2**2)

3.605551275463989