# 8. Модуль NumPy. Операции с векторами


В этом юните вы узнаете, что многомерные массивы также называются векторами. Вы научитесь:

        производить арифметические операции с векторами;
        считать скалярное произведение векторов и расстояние между ними;
        получать базовую статистику о векторе.


В программировании вектором называют одномерный проиндексированный набор данных, другими словами — одномерный массив.

→ На самом деле, между вектором из геометрии и вектором из программирования есть логическая связь. Вектор — это не просто какой-то абстрактный отрезок. По определению, вектор должен обладать длиной и направлением. Задать эти параметры можно с помощью набора координат, который сам по себе также называется вектором. В какой-то момент развития линейной алгебры связь между набором чисел в строке и вектором на чертеже стала практически исторической. Отсюда и пошло второе определение вектора как упорядоченного набора чисел.

## Векторы в NumPy и арифметика

С векторами в NumPy можно производить арифметические операции: складывать, вычитать, умножать друг на друга, возводить один вектор в степень другого и т. д.

Операция, применённая к двум векторам, на самом деле применяется поэлементно. То есть при сложении двух векторов первым элементом нового вектора будет сумма первых элементов исходных векторов, вторым — сумма вторых элементов и т. д.

Рассмотрим примеры ↓

In [1]:
# Произведём сложение двух векторов:
import numpy as np
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 + vec2
# array([14. , 10. , 10.6, 15.5])

array([14. , 10. , 10.6, 15.5])

Что бы произошло при сложении двух списков? Их элементы просто объединились бы в один список:

In [2]:
list1 = [2, 4, 7, 2.5]
list2 = [12, 6, 3.6, 13]
list1 + list2
# [2, 4, 7, 2.5, 12, 6, 3.6, 13]

[2, 4, 7, 2.5, 12, 6, 3.6, 13]

Чтобы сложить два этих списка поэлементно, нам пришлось бы написать списочное сокращение с применением функции zip():

In [3]:
[x + y for x, y in zip(list1, list2)]
# [14, 10, 10.6, 15.5]

[14, 10, 10.6, 15.5]

Для совершения арифметических операций с векторами они должны быть одинаковой длины.

Поэлементно умножим два вектора одинаковой длины:

In [4]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 * vec2
# array([24. , 24. , 25.2, 32.5])

array([24. , 24. , 25.2, 32.5])

А теперь создадим vec2, который будет на один элемент короче, чем vec1:

In [5]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6])
 
vec1 * vec2
# ValueError: operands could not be broadcast together with shapes (4,) (3,)
# Ошибка значения: операнд не может быть распространён одновременно на структуры с формами (4,) и (3,).

ValueError: ignored

Возникла ValueError.

Исключением является случай, когда операция происходит с вектором и одним числом. Например, вектор целиком можно умножить на число или возвести в степень этого числа:

In [6]:
vec = np.arange(5) # [0,1,2,3,4]
vec * 10
# array([ 0, 10, 20, 30, 40])
vec ** 2
# array([ 0,  1,  4,  9, 16])

array([ 0,  1,  4,  9, 16])

Также векторы можно сравнивать друг с другом поэлементно:

In [7]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
 
vec1 > vec2
# array([False, False,  True, False])

array([False, False,  True, False])

В результате получаем вектор исходной длины из булевых переменных, которые соответствуют результату поэлементного сравнения чисел из двух векторов.

Аналогично можно сравнивать вектор с числом:

In [8]:
vec = np.array([14,15,9,26,53,5,89])
vec <= 26
# array([ True,  True,  True,  True, False,  True, False])

array([ True,  True,  True,  True, False,  True, False])

## Продвинутые операции с векторами

В курсе алгебры проходят в том числе следующие действия с векторами: вычисление длины (нормы) вектора, нахождение расстояния между векторами, вычисление скалярного произведения. Некоторые из них очень часто используются в машинном обучении, алгоритмах кластеризации и построении математических моделей. Как специалистам в Data Science вам предстоит с этим работать.

Например, ключевые черты лица человека можно представить в виде вектора из чисел. Допустим, что у нас есть база данных всех существующих лиц, представленных в виде векторов. Тогда в идеальном случае, когда мы получим новый вектор с чертами лица, нам будет достаточно найти тот вектор из базы данных, расстояние до которого минимально, чтобы определить человека по лицу.

Длиной вектора называют корень из суммы квадратов всех его координат. Для вектора из *n* чисел *x1, x2 ... xn*,  верна формула:

**lenght = корень из(x1\*\*2+x2\*\*2+...+xn\*\*2)**


Посчитаем длину следующего вектора:

In [9]:
vec = np.array([3, 4])

Для начала воспользуемся формулой: возведём все элементы в квадрат, посчитаем их сумму, а затем найдём квадратный корень. Найдите все перечисленные операции в данном коде:

In [10]:
length = np.sqrt(np.sum(vec ** 2))
print(length)
# 5.0

5.0


Но можно было поступить проще. В NumPy есть специальный подмодуль linalg, который позволяет производить операции из линейной алгебры.

Для вычисления длины вектора нам потребуется функция norm:

In [11]:
length = np.linalg.norm(vec)
print(length)
# 5.0

5.0


Мы получили то же самое расстояние с помощью одного действия!

Расстоянием между двумя векторами называют квадратный корень из суммы квадратов разностей соответствующих координат. Звучит сложно, поэтому лучше посмотрите на формулу (считаем расстояние между векторами **X** и **Y** ):

**distance = корень из((x1-y1)\*\*2+(x2-y2)\*\*2+...+(xn-yn)\*\*2)**

 По сути, расстояние между векторами — это длина такого вектора, который является разностью этих векторов. В самом деле, при вычитании двух векторов вычитаются их соответствующие координаты.

 Реализуем вычисление расстояния в коде. Сначала — «сложным» способом напрямую из формулы:

In [12]:
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.sqrt(np.sum((vec1 - vec2) ** 2))
distance
# 12.206555615733702

12.206555615733702

А теперь применим более простой способ — используем уже известную нам функцию np.linalg.norm:

In [16]:
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.linalg.norm(vec1-vec2)
distance
print(vec1)

[0 3 5]


Наконец, скалярным произведением двух векторов называют сумму произведений их соответствующих координат. Вот формула для скалярного произведения векторов **X** и **Y** из **n** координат:

**X\*Y=x1\*y1+x2\*y2+...+xn\*yn**

Откуда такое странное название? Слово «скаляр» — синоним слова «число». То есть результатом вычисления скалярного произведения векторов является число — скаляр. Дело в том, что существуют и другие произведения векторов, не все из которых дают на выходе число.

Реализуем это в коде (по-английски скалярное произведение называют dot — точечный — или scalar product, отсюда и такое название переменной):

In [19]:
vec1 = np.arange(1, 6)
vec2 = np.linspace(10, 20, 5)
scalar_product = np.sum(vec1 * vec2)
scalar_product
print(vec1,vec2,scalar_product)
# 250.0

[1 2 3 4 5] [10.  12.5 15.  17.5 20. ] 250.0


Наверное, вы уже догадались, что в NumPy есть множество встроенных функций, поэтому возник резонный вопрос: можно ли проще и вообще без формул?

Да! Для этого используют функцию np.dot(x, y):

In [20]:
scalar_product = np.dot(vec1, vec2)
scalar_product
# 250.0

250.0

---
Скалярное произведение также имеет широкое применение в математике и других операциях с векторами. В частности, равенство скалярного произведения нулю означает перпендикулярность рассматриваемых векторов:

In [21]:
x = np.array([25, 0])
y = np.array([0, 10])
np.dot(x, y)
# 0

0

Здесь были специально заданы векторы, параллельные осям **x** и **y** (так как одна из координат в них равна нулю). Они перпендикулярны, как перпендикулярны соответствующие оси, а скалярное произведение действительно равно нулю.

В целом, скалярное произведение часто используется для определения угла между векторами.

*Зачем это может пригодиться специалисту в Data Science?*

Вам ещё обязательно предстоит работать с векторами не только при изучении теории линейной алгебры, но и при освоении машинного обучения на практике. Например, есть специальные преобразования, которые позволяют превратить слова в тексте в числовые векторы. Затем с помощью определения направлений полученных векторов можно находить слова-синонимы и антонимы, а также оценивать общую эмоциональную окраску текста. Такие алгоритмы для анализа данных используются, чтобы автоматически по отзывам определять степень удовлетворённости клиентов продуктом.

## Задание 8.4 

In [34]:
# Задание 8.4 
import numpy as np
a = np.array([23, 34, 27])
b = np.array([-54, 1,  46])
c = np.array([46, 68, 54])

# Пишите здесь команды, который помогут
# найти ответы на вопросы

# 8.4. найдите пару сонаправленных векторов
# сумма длин сонаправленных векторов должна быть равной длине суммы двух векторов.
length_a = np.linalg.norm(a)
length_b = np.linalg.norm(b)
length_c = np.linalg.norm(c)
print(length_a, length_b, length_c)
sum_l_ab, sum_l_ac, sum_l_bc = length_a + length_b, length_a + length_c, length_b + length_c
print(sum_l_ab, sum_l_ac, sum_l_bc)
sum_ab, sum_bc, sum_ca = a+b, b+c, c+a
print(sum_ab, sum_bc, sum_ca)
lenght_sum_ab, lenght_sum_bc, lenght_sum_ca = np.linalg.norm(sum_ab), np.linalg.norm(sum_bc), np.linalg.norm(sum_ca)
print(lenght_sum_ab, lenght_sum_bc, lenght_sum_ca)

# Упрощаем расчеты:
pair = ((a, b), (b, c), (c, a))
for x, y in pair:
  print(x, y)
  if (np.linalg.norm(x) + np.linalg.norm(y)) == np.linalg.norm(x + y):
    print(f'Искомое: {x} и {y}')

49.13247398615299 70.94363960215179 98.26494797230598
120.07611358830478 147.39742195845895 169.20858757445777
[-31  35  73] [ -8  69 100] [ 69 102  81]
86.68909966079934 121.75795661885921 147.39742195845895
[23 34 27] [-54   1  46]
[-54   1  46] [46 68 54]
[46 68 54] [23 34 27]
Искомое: [46 68 54] и [23 34 27]


In [38]:
# Задание 8.5 
import numpy as np
a = np.array([23, 34, 27])
b = np.array([-54, 1,  46])
c = np.array([46, 68, 54])

# Пишите здесь команды, который помогут
# найти ответы на вопросы

# 8.5 Найдите пару векторов, расстояние между которыми больше 100.
pair = ((a, b), (b, c), (c, a))
for x, y in pair:
  print(x, y)
  if np.linalg.norm(x - y) > 100 or np.linalg.norm(y - x) > 100:
    print('Find vectors: {} and {}'.format(x, y))

[23 34 27] [-54   1  46]
[-54   1  46] [46 68 54]
70.94363960215179 98.26494797230598
Find vectors: [-54   1  46] and [46 68 54]
[46 68 54] [23 34 27]


In [40]:
# Задание 8.6
import numpy as np
a = np.array([23, 34, 27])
b = np.array([-54, 1,  46])
c = np.array([46, 68, 54])

# Пишите здесь команды, который помогут
# найти ответы на вопросы

# 8.6 Найдите пару перпендикулярных векторов с помощью скалярного 
# произведения (оно должно быть равно нулю).
pair = ((a, b), (b, c), (c, a))
for x, y in pair:
  print(x, y)
  if np.dot(x, y) == 0:
    print('Find vectors: {} and {}'.format(x, y))
  else:
    print('none')

[23 34 27] [-54   1  46]
none
[-54   1  46] [46 68 54]
none
[46 68 54] [23 34 27]
none


# Базовые статистические функции для векторов

После теоретического экскурса в линейную алгебру давайте изучим несколько удобных функций, которые позволяют быстро получать статистику о векторе.

→
Функции np.min и np.max позволяют находить максимальное и минимальное значение в векторе. Их можно записывать как в виде np.min(<vector>), так и в виде <vector>.min():

In [43]:
vec = np.array([2,7,18,28,18,1,8,4])
vec.min()
# 1

1

In [44]:
np.max(vec)
# 28

28

Функция mean позволяет посчитать среднее значение. Больше не требуется реализовывать её «руками»!

In [45]:
vec.mean()
# 10.75

10.75

Существует множество дополнительных функций для получения статистических данных о векторе. Уделять им всем внимание сейчас не требуется, к тому же у вас пока не было модуля по статистике.

Однако если вам вдруг потребуется какая-либо базовая статистическая функция, она, скорее всего, уже реализована в NumPy.