# Векторы в NumPy и арифметика

Операция, применённая к двум векторам, на самом деле применяется поэлементно. То есть при сложении двух векторов первым элементом нового вектора будет сумма первых элементов исходных векторов, вторым — сумма вторых элементов и т. д.

In [2]:
# Произведём сложение двух векторов:

import numpy as np
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 + vec2

array([14. , 10. , 10.6, 15.5])

In [4]:
# Что бы произошло при сложении двух списков? Их элементы просто объединились бы в один список:

list1 = [2, 4, 7, 2.5]
list2 = [12, 6, 3.6, 13]
list1 + list2

# Чтобы сложить два этих списка поэлементно, нам пришлось бы написать списочное сокращение с применением функции zip():

[x + y for x, y in zip(list1, list2)]

[14, 10, 10.6, 15.5]

Для совершения арифметических операций с векторами они должны быть одинаковой длины.

In [5]:
# Поэлементно умножим два вектора одинаковой длины:

vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 * vec2

array([24. , 24. , 25.2, 32.5])

In [7]:
# А теперь создадим vec2, который будет на один элемент короче, чем vec1:

vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6])
 
vec1 * vec2

ValueError: operands could not be broadcast together with shapes (4,) (3,) 

In [9]:
# Исключением является случай, когда операция происходит с вектором и одним числом. Например, вектор целиком можно умножить на число или возвести в степень этого числа:

vec = np.arange(5)
vec * 10

vec ** 2


array([ 0,  1,  4,  9, 16])

In [None]:
# Также векторы можно сравнивать друг с другом поэлементно:

vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
 
vec1 > vec2

# В результате получаем вектор исходной длины из булевых переменных, которые соответствуют результату поэлементного сравнения чисел из двух векторов.

array([False, False,  True, False])

In [11]:
# Аналогично можно сравнивать вектор с числом:

vec = np.array([14,15,9,26,53,5,89])
vec <= 26

array([ True,  True,  True,  True, False,  True, False])

# Продвинутые операции с векторами

В курсе алгебры проходят в том числе следующие действия с векторами: вычисление длины (нормы) вектора, нахождение расстояния между векторами, вычисление скалярного произведения. Некоторые из них очень часто используются в машинном обучении, алгоритмах кластеризации и построении математических моделей. Как специалистам в Data Science вам предстоит с этим работать.

Например, ключевые черты лица человека можно представить в виде вектора из чисел. Допустим, что у нас есть база данных всех существующих лиц, представленных в виде векторов. Тогда в идеальном случае, когда мы получим новый вектор с чертами лица, нам будет достаточно найти тот вектор из базы данных, расстояние до которого минимально, чтобы определить человека по лицу.

Длина вектора, то есть расстояние между его началом и концом, [в евклидовом пространстве] вычисляется как квадратный корень из суммы квадратов всех его координат. Для вектора из  чисел ,  …  верна формула:




In [14]:
# Посчитаем длину следующего вектора:

vec = np.array([3, 4])

# Для начала воспользуемся формулой: возведём все элементы в квадрат, посчитаем их сумму, а затем найдём квадратный корень. Найдите все перечисленные операции в данном коде:

length = np.sqrt(np.sum(vec ** 2))
print(length)

5.0


In [15]:
# Но можно было поступить проще. В NumPy есть специальный подмодуль linalg, который позволяет производить операции из линейной алгебры.

# Для вычисления длины вектора нам потребуется функция norm:

length = np.linalg.norm(vec)
print(length)

# Мы получили то же самое расстояние с помощью одного действия!

5.0


Расстояние между двумя векторами, то есть расстояние между их концами, [в евклидовом пространстве] вычисляется как квадратный корень из суммы квадратов разностей соответствующих координат.

→ По сути, расстояние между векторами — это длина такого вектора, который является разностью этих векторов. В самом деле, при вычитании двух векторов вычитаются их соответствующие координаты.

In [16]:
# Реализуем вычисление расстояния в коде. Сначала — «сложным» способом напрямую из формулы:

vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.sqrt(np.sum((vec1 - vec2) ** 2))
distance

np.float64(12.206555615733702)

In [17]:
# А теперь применим более простой способ — используем уже известную нам функцию np.linalg.norm:

vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.linalg.norm(vec1 - vec2)
distance

np.float64(12.206555615733702)

Наконец, скалярным произведением двух векторов называют сумму произведений их соответствующих координат. 

Откуда такое странное название? Слово «скаляр» — синоним слова «число». То есть результатом вычисления скалярного произведения векторов является число — скаляр. Дело в том, что существуют и другие произведения векторов, не все из которых дают на выходе число.

In [18]:
# Реализуем это в коде (по-английски скалярное произведение называют dot — точечный — или scalar product, отсюда и такое название переменной):

vec1 = np.arange(1, 6)
vec2 = np.linspace(10, 20, 5)
scalar_product = np.sum(vec1 * vec2)
scalar_product

np.float64(250.0)

In [19]:
# Наверное, вы уже догадались, что в NumPy есть множество встроенных функций, поэтому возник резонный вопрос: можно ли проще и вообще без формул?

# Да! Для этого используют функцию np.dot(x, y):

scalar_product = np.dot(vec1, vec2)
scalar_product

np.float64(250.0)

In [21]:
# Скалярное произведение также имеет широкое применение в математике и других операциях с векторами. В частности, равенство скалярного произведения нулю означает перпендикулярность рассматриваемых векторов:

x = np.array([25, 0])
y = np.array([0, 10])
np.dot(x, y)

# Здесь были специально заданы векторы, параллельные осям  и  (так как одна из координат в них равна нулю). Они перпендикулярны, как перпендикулярны соответствующие оси, а скалярное произведение действительно равно нулю.

# В целом, скалярное произведение часто используется для определения угла между векторами.

np.int64(0)

Зачем это может пригодиться специалисту в Data Science?

→ Вам ещё обязательно предстоит работать с векторами не только при изучении теории линейной алгебры, но и при освоении машинного обучения на практике. Например, есть специальные преобразования, которые позволяют превратить слова в тексте в числовые векторы. Затем с помощью определения направлений полученных векторов можно находить слова-синонимы и антонимы, а также оценивать общую эмоциональную окраску текста. Такие алгоритмы для анализа данных используются, чтобы автоматически по отзывам определять степень удовлетворённости клиентов продуктом.

# Базовые статистические функции для векторов

In [23]:
# Функции np.min и np.max позволяют находить максимальное и минимальное значение в векторе. Их можно записывать как в виде np.min(<vector>), так и в виде <vector>.min():

vec = np.array([2,7,18,28,18,1,8,4])
vec.min()

np.max(vec)

np.int64(28)

In [24]:
# Функция mean позволяет посчитать среднее значение. Больше не требуется реализовывать её «руками»!

vec.mean()

np.float64(10.75)