<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">В программировании вектором называют одномерный проиндексированный набор данных, другими словами — одномерный массив.

## Векторы в NumPy и арифметика

Векторы в NumPy и арифметика

С векторами в NumPy можно производить арифметические операции: складывать, вычитать, умножать друг на друга, возводить один вектор в степень другого и т. д.

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Операция, применённая к двум векторам, на самом деле применяется поэлементно. То есть при сложении двух векторов первым элементом нового вектора будет сумма первых элементов исходных векторов, вторым — сумма вторых элементов и т. д.</div>

Рассмотрим примеры ↓

Произведём сложение двух векторов:

In [1]:
import numpy as np
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 + vec2
# array([14. , 10. , 10.6, 15.5])

array([14. , 10. , 10.6, 15.5])

Что бы произошло при сложении двух списков? Их элементы просто объединились бы в один список:

In [2]:
list1 = [2, 4, 7, 2.5]
list2 = [12, 6, 3.6, 13]
list1 + list2
# [2, 4, 7, 2.5, 12, 6, 3.6, 13]

[2, 4, 7, 2.5, 12, 6, 3.6, 13]

Чтобы сложить два этих списка поэлементно, нам пришлось бы написать списочное сокращение с применением функции zip():

In [3]:
[x + y for x, y in zip(list1, list2)]
# [14, 10, 10.6, 15.5]

[14, 10, 10.6, 15.5]

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Для совершения арифметических операций с векторами они должны быть одинаковой длины.</div>

Поэлементно умножим два вектора одинаковой длины:

In [4]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 * vec2
# array([24. , 24. , 25.2, 32.5])

array([24. , 24. , 25.2, 32.5])

А теперь создадим vec2, который будет на один элемент короче, чем vec1:

In [5]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6])
 
vec1 * vec2
# ValueError: operands could not be broadcast together with shapes (4,) (3,)
# Ошибка значения: операнд не может быть распространён одновременно на структуры с формами (4,) и (3,).

ValueError: operands could not be broadcast together with shapes (4,) (3,) 

Исключением является случай, когда операция происходит с вектором и одним числом. Например, вектор целиком можно умножить на число или возвести в степень этого числа:

In [6]:
vec = np.arange(5)
vec * 10
# array([ 0, 10, 20, 30, 40])
vec ** 2
# array([ 0,  1,  4,  9, 16])

array([ 0,  1,  4,  9, 16])

Также векторы можно сравнивать друг с другом поэлементно:

In [7]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
 
vec1 > vec2
# array([False, False,  True, False])

array([False, False,  True, False])

В результате получаем вектор исходной длины из булевых переменных, которые соответствуют результату поэлементного сравнения чисел из двух векторов.

Аналогично можно сравнивать вектор с числом:

In [8]:
vec = np.array([14,15,9,26,53,5,89])
vec <= 26
# array([ True,  True,  True,  True, False,  True, False])

array([ True,  True,  True,  True, False,  True, False])

## Продвинутые операции с векторами

В курсе алгебры проходят в том числе следующие действия с векторами: вычисление длины (нормы) вектора, нахождение расстояния между векторами, вычисление скалярного произведения. Некоторые из них очень часто используются в машинном обучении, алгоритмах кластеризации и построении математических моделей. Как специалистам в Data Science вам предстоит с этим работать.

Например, ключевые черты лица человека можно представить в виде вектора из чисел. Допустим, что у нас есть база данных всех существующих лиц, представленных в виде векторов. Тогда в идеальном случае, когда мы получим новый вектор с чертами лица, нам будет достаточно найти тот вектор из базы данных, расстояние до которого минимально, чтобы определить человека по лицу.

Длина вектора, то есть расстояние между его началом и концом, [в евклидовом пространстве] вычисляется как квадратный корень из суммы квадратов всех его координат. Для вектора из *n* чисел x<sub>1</sub>, x<sub>2</sub> … x<sub>n</sub> верна формула:
<p style='text-align: center;'><img src='./images/vector_length.png'></p>



Посчитаем длину следующего вектора:

In [9]:
vec = np.array([3, 4])

Для начала воспользуемся формулой: возведём все элементы в квадрат, посчитаем их сумму, а затем найдём квадратный корень. Найдите все перечисленные операции в данном коде:

In [10]:
length = np.sqrt(np.sum(vec ** 2))
print(length)
# 5.0

5.0


Но можно было поступить проще. В NumPy есть специальный подмодуль *linalg*, который позволяет производить операции из линейной алгебры.

Для вычисления длины вектора нам потребуется функция norm:

In [11]:
length = np.linalg.norm(vec)
print(length)
# 5.0

5.0


Расстояние между двумя векторами, то есть расстояние между их концами, [в евклидовом пространстве] вычисляется как квадратный корень из суммы квадратов разностей соответствующих координат. Звучит сложно, поэтому лучше посмотрите на формулу (считаем расстояние между векторами X и Y): 
    <p style='text-align: center;'><img src='./images/vectors_distance.png'></p>

→ По сути, расстояние между векторами — это длина такого вектора, который является разностью этих векторов. В самом деле, при вычитании двух векторов вычитаются их соответствующие координаты.

Реализуем вычисление расстояния в коде. Сначала — «сложным» способом напрямую из формулы:

In [12]:

vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.sqrt(np.sum((vec1 - vec2) ** 2))
distance
# 12.206555615733702

12.206555615733702

А теперь применим более простой способ — используем уже известную нам функцию np.linalg.norm:

In [13]:
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.linalg.norm(vec1 - vec2)
distance
# 12.206555615733702

12.206555615733702

Наконец, скалярным произведением двух векторов называют сумму произведений их соответствующих координат. Вот формула для скалярного произведения векторов X и Y из n координат:
   ![](./images/vector_scalar.png "Vector Distance")

Откуда такое странное название? Слово «скаляр» — синоним слова «число». То есть результатом вычисления скалярного произведения векторов является число — скаляр. Дело в том, что существуют и другие произведения векторов, не все из которых дают на выходе число.

Реализуем это в коде (по-английски скалярное произведение называют dot — точечный — или scalar product, отсюда и такое название переменной):

In [14]:
vec1 = np.arange(1, 6)
vec2 = np.linspace(10, 20, 5)
scalar_product = np.sum(vec1 * vec2)
scalar_product
# 250.0

250.0



?
Наверное, вы уже догадались, что в NumPy есть множество встроенных функций, поэтому возник резонный вопрос: можно ли проще и вообще без формул?

Да! Для этого используют функцию np.dot(x, y):

In [15]:
scalar_product = np.dot(vec1, vec2)
scalar_product
# 250.0

250.0

Скалярное произведение также имеет широкое применение в математике и других операциях с векторами. В частности, равенство скалярного произведения нулю означает ``перпендикулярность`` рассматриваемых векторов:

In [16]:
x = np.array([25, 0])
y = np.array([0, 10])
np.dot(x, y)
# 0

0

Здесь были специально заданы векторы, параллельные осям и (так как одна из координат в них равна нулю). Они перпендикулярны, как перпендикулярны соответствующие оси, а скалярное произведение действительно равно нулю.

В целом, скалярное произведение часто используется для определения угла между векторами.

?
Зачем это может пригодиться специалисту в Data Science?

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Вам ещё обязательно предстоит работать с векторами не только при изучении теории линейной алгебры, но и при освоении машинного обучения на практике. Например, есть специальные преобразования, которые позволяют превратить слова в тексте в числовые векторы. Затем с помощью определения направлений полученных векторов можно находить слова-синонимы и антонимы, а также оценивать общую эмоциональную окраску текста. Такие алгоритмы для анализа данных используются, чтобы автоматически по отзывам определять степень удовлетворённости клиентов продуктом.

## Задание 8.4

Векторы в геометрии называются сонаправленными, если они коллинеарны и их направления совпадают. Отметим, что прямые, на которых лежат сонаправленные вектора, всегда по определению являются параллельными.

На рисунке ниже представлен пример сонаправленных векторов a, b и c:

Однако на практике не всегда есть возможность нарисовать вектора, чтобы понять, являются ли они сонаправленными. Поэтому есть несколько математических способов определить сонаправленность векторов. Один из них: сумма длин сонаправленных векторов должна быть равной длине суммы двух векторов.<br>
<p style="text-align: center;"><img src='./images/vector_scalar.png', alt="Vector Distance"></p>



Но почему это так?

Это утверждение известно как закон **параллелограмма** и является следствием свойств векторов в геометрии.

При сложении двух векторов A и B мы можем представить их в виде сторон параллелограмма, где диагональ параллелограмма представляет собой вектор C, который является суммой векторов A и B. Закон параллелограмма утверждает, что сумма квадратов длин двух сторон параллелограмма, образованных сонаправленными векторами A и B, равна сумме квадратов длины диагонали C, которая представляет собой сумму двух векторов A и B.

Геометрически можно представить, что квадрат длины вектора A + B образуется добавлением двух прямоугольников, каждый из которых имеет длину и ширину, соответствующие длинам векторов A и B. Поскольку два прямоугольника имеют общую сторону, которая представляет собой длину сонаправленных векторов A и B, мы можем записать сумму квадратов длин этих векторов как сумму площадей прямоугольников. Из теоремы Пифагора мы знаем, что квадрат длины диагонали параллелограмма равен сумме квадратов длин его сторон, так что сумма квадратов длин векторов A и B равна квадрату длины вектора C, то есть суммы двух векторов A и B.
<p style="text-align: center;"><img src='./images/parallel_vectors.png'></p>


С помощью введённого ранее критерия сонаправленности найдите пару сонаправленных векторов среди векторов a, b и c.

In [19]:
a = np.array([23, 34, 27])
b = np.array([-54, 1, 46])
c = np.array([46, 68, 54])
print(a, b ,c)

[23 34 27] [-54   1  46] [46 68 54]


In [22]:
a_len = np.linalg.norm(a)
b_len = np.linalg.norm(b)
c_len = np.linalg.norm(c)
print(a_len, b_len, c_len)

49.13247398615299 70.94363960215179 98.26494797230598


In [24]:
a_b_c = a + b + c
a_b_c_len = np.linalg.norm(a_b_c)
a_b_c_len

164.20414123888594

In [27]:
a_b_c_len == (a_len + b_len + c_len)

False

In [29]:
a_len + b_len == np.linalg.norm(a+b)

False

In [31]:
a_len + c_len == np.linalg.norm(a+c)

True

In [32]:
b_len + c_len == np.linalg.norm(b+c)

False

###  Задание 8.5
Найдите пару векторов, расстояние между которыми больше 100.


In [34]:
a_b_dist = np.linalg.norm(a-b)
a_b_dist

85.901105930017

In [35]:
a_c_dist = np.linalg.norm(a-c)
a_c_dist

49.13247398615299

In [36]:
b_c_dist = np.linalg.norm(b-c)
b_c_dist

120.6358155772986

##  Задание 8.6
Найдите пару перпендикулярных векторов с помощью скалярного произведения (оно должно быть равно нулю).


In [39]:
a_b_dot = np.dot(a,b)
a_b_dot

34

In [40]:
a_c_dot = np.dot(a,c)
a_c_dot

4828

In [41]:
b_c_dot = np.dot(b,c)
b_c_dot

68

## Базовые статистические функции для векторов

После теоретического экскурса в линейную алгебру давайте изучим несколько удобных функций, которые позволяют быстро получать статистику о векторе.

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Функции np.min и np.max позволяют находить максимальное и минимальное значение в векторе. Их можно записывать как в виде np.min(<vector>), так и в виде <vector>.min():

In [42]:
vec = np.array([2,7,18,28,18,1,8,4])
vec.min()
# 1
np.max(vec)
# 28

28

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Функция mean позволяет посчитать среднее значение. Больше не требуется реализовывать её «руками»!

In [43]:
vec.mean()
# 10.75

10.75

Существует множество дополнительных функций для получения статистических данных о векторе. Уделять им всем внимание сейчас не требуется, к тому же у вас пока не было модуля по статистике.

Однако если вам вдруг потребуется какая-либо базовая статистическая функция, она, скорее всего, уже реализована в NumPy. [Документация](https://numpy.org/doc/stable/reference/routines.statistics.html)
