# Модуль NumPy

Данная библиотека предназначена для точной и быстрой работы с числами.

- Дело в том, что Python изначально проигрывает по быстродействию компилируемым языкам программирования, таким как C или C++. Библиотека NumPy решает эту проблему. Особенно эффективно она обрабатывает большие объёмы данных. При этом она также позволяет программисту упростить обработку данных.

Такая одна позиция в памяти, в которой может храниться 0 или 1, называется битом.

В памяти компьютера принято объединять биты в группы по 8 штук. Группа из 8 битов называется байтом.

Сколько же чисел войдёт в 1 байт? 2 ** 8 = 256. Если мы захотим записать в байт целые неотрицательные числа, мы сможем записать числа от 0 до 255 включительно.
- Обратите внимание, число 256 вписать уже не получится, поскольку считать начали не с 1, а с 0.

Чтобы узнать максимальное целое положительное число, которое можно уместить в  бит, необходимо воспользоваться следующей формулой:
2**n-1

## ЦЕЛОЧИСЛЕННЫЕ ТИПЫ ДАННЫХ В NUMPY

Это тип данных с общим корнем int. Int может быть со следующими окончаниями: int8, int16, int32 и int64. Окончание типа данных в NumPy показывает, сколько битов памяти должно быть выделено для хранения переменной.

In [1]:
import numpy as np
a = np.int8(25)
print(a)

25


Воспользуемся функцией type:

In [2]:
print(type(a))

<class 'numpy.int8'>


Чтобы узнать границы int, можно воспользоваться функцией np.iinfo (int info):

In [3]:
# Можно применить к самому
# названию типа данных
np.iinfo(np.int8)
# iinfo(min=-128, max=127, dtype=int8)

# Можно применить к существующему
# конкретному объекту
np.iinfo(a)

iinfo(min=-128, max=127, dtype=int8)

В NumPy доступны и беззнаковые целочисленные типы данных. Они имеют корень uint (unsigned int — беззнаковое целое). uint доступны также с выделением памяти в 8, 16, 32 и 64 бита. При этом максимально возможное число оказывается в два раза больше, чем для соответствующего int, поскольку отрицательные числа исключены из типа данных uint.

In [4]:
b = np.uint8(124)
print(b)
# 124
print(type(b))
# <class 'numpy.uint8'>
np.iinfo(b)

124
<class 'numpy.uint8'>


iinfo(min=0, max=255, dtype=uint8)

Следует понимать, что произойдёт, если выделенной памяти для хранения переменной окажется недостаточно.

Например, попробуем преобразовать число 260 в тип данных np.int8. Вспомните, какое максимальное число может храниться в этом типе данных.

In [5]:
a = np.int8(260)
print(a)

4


В переменной a теперь оказалось число 4, а не 260. По сути в переменную записался остаток от деления 260 на 256, а не само число. Ошибка при этом не возникла.
- Если же при арифметических операциях происходит переполнение максимально выделенной памяти для типа, возникает предупреждение.

### ТИПЫ ДАННЫХ С ПЛАВАЮЩЕЙ ТОЧКОЙ В NUMPY

Помимо целых чисел, в NumPy, конечно, есть и дробные — float. Их названия строятся по тому же принципу: корень + объём памяти в битах. Беззнаковых float нет.

Доступны следующие типы данных float: float16, float32, float64 (применяется по умолчанию, если объём памяти не задан дополнительно), float128.

Чтобы узнать границы float и его точность, можно воспользоваться функцией np.finfo(<float тип данных>) (от англ. float info)

Примечание. Если ввести в VS Code команду np.finfo(np.float128), ответом будет AttributeError: module 'numpy' has no attribute 'float128'. Всё потому, что numpy.float128 не поддерживается в Windows с использованием компилятора MS. Если вам всё же нужно поработать с numpy.float128, воспользуйтесь онлайн-IDE.

In [6]:
np.finfo(np.float64)

finfo(resolution=1e-15, min=-1.7976931348623157e+308, max=1.7976931348623157e+308, dtype=float64)

посмотрим на значения min и max. Они указаны в стандартном виде числа. Это такой формат записи числа, при котором число записывается в виде x*10**n, где  n — целое число, а x для  верно: 1 =< x < 10
- Например, 2021 можно записать в виде 2.021*10**3
-  При выводе числа в стандартном виде вместо умножения на 10 в степени  n пишется буква e, знак степени (+ или -) и сама степень.
- Следовательно, число 2021 может быть представлено как 2.021e+3
- Таким образом, минимальным значением float16 является -6.55040e+04, или -65504.0. Максимальное значение — 6.55040e+04, или 65504.0.

Resolution (от англ. «разрешение») в выводе finfo означает точность, с которой сохраняется десятичная часть числа в стандартном виде. Для float16 это 0.001, то есть числа 4.12 и 4.13 будут отличимы друг от друга, а вот 4.124 и 4.125 — нет. Третий знак числа float16 идёт уже с шагом 0.005:

In [7]:
print(np.float16(4.12))

print(np.float16(4.13))

print(np.float16(4.123))

print(np.float16(4.124))

print(np.float16(4.125))

4.12
4.13
4.12
4.125
4.125


### ДОПОЛНИТЕЛЬНЫЕ ТИПЫ ДАННЫХ В NUMPY

Полный список (а точнее, словарь) типов данных в NumPy можно получить с помощью атрибута sctypeDict. Вывод не приводится, поскольку в этом словаре содержится более 100 ключей (их число может варьироваться в зависимости от версии NumPy)! Однако основные названия типов данных в NumPy не меняются от версии к версии.

In [8]:
print(np.sctypeDict)
print(len(np.sctypeDict))

{'?': <class 'numpy.bool_'>, 0: <class 'numpy.bool_'>, 'byte': <class 'numpy.int8'>, 'b': <class 'numpy.int8'>, 1: <class 'numpy.int8'>, 'ubyte': <class 'numpy.uint8'>, 'B': <class 'numpy.uint8'>, 2: <class 'numpy.uint8'>, 'short': <class 'numpy.int16'>, 'h': <class 'numpy.int16'>, 3: <class 'numpy.int16'>, 'ushort': <class 'numpy.uint16'>, 'H': <class 'numpy.uint16'>, 4: <class 'numpy.uint16'>, 'i': <class 'numpy.intc'>, 5: <class 'numpy.intc'>, 'uint': <class 'numpy.uint32'>, 'I': <class 'numpy.uintc'>, 6: <class 'numpy.uintc'>, 'intp': <class 'numpy.int64'>, 'p': <class 'numpy.int64'>, 9: <class 'numpy.int64'>, 'uintp': <class 'numpy.uint64'>, 'P': <class 'numpy.uint64'>, 10: <class 'numpy.uint64'>, 'long': <class 'numpy.int32'>, 'l': <class 'numpy.int32'>, 7: <class 'numpy.int32'>, 'ulong': <class 'numpy.uint32'>, 'L': <class 'numpy.uint32'>, 8: <class 'numpy.uint32'>, 'longlong': <class 'numpy.int64'>, 'q': <class 'numpy.int64'>, 'ulonglong': <class 'numpy.uint64'>, 'Q': <class 'n

На самом деле реальных типов данных гораздо меньше, просто одни и те же типы данных могут иметь разные ярлыки. Получить список названий уникальных типов данных NumPy можно с помощью следующего выражения. Попробуйте вспомнить, что делают все функции, которые в нём использованы:

In [9]:
print(*sorted(map(str, set(np.sctypeDict.values()))), sep='\n')

<class 'numpy.bool_'>
<class 'numpy.bytes_'>
<class 'numpy.clongdouble'>
<class 'numpy.complex128'>
<class 'numpy.complex64'>
<class 'numpy.datetime64'>
<class 'numpy.float16'>
<class 'numpy.float32'>
<class 'numpy.float64'>
<class 'numpy.int16'>
<class 'numpy.int32'>
<class 'numpy.int64'>
<class 'numpy.int8'>
<class 'numpy.intc'>
<class 'numpy.longdouble'>
<class 'numpy.object_'>
<class 'numpy.str_'>
<class 'numpy.timedelta64'>
<class 'numpy.uint16'>
<class 'numpy.uint32'>
<class 'numpy.uint64'>
<class 'numpy.uint8'>
<class 'numpy.uintc'>
<class 'numpy.void'>


Всего в выдаче будет 24 строки. Int, uint и float мы уже изучили. Datetime и timedelta используются для хранения времени, complex используется для работы с комплéксными числами.

Следует обратить внимание на типы данных bool_ и str_. Они аналогичны bool и str из встроенных в Python, однако записывать их необходимо именно с нижним подчёркиванием, иначе произойдёт приведение к стандартному типу данных, а не типу NumPy. В целом, существенной разницы между этими типами данных нет, однако о такой двойственности следует помнить при сравнении типов переменных: тип bool не является эквивалентным numpy.bool_, несмотря на то что оба типа данных хранят значения True или False.

### Модуль NumPy. Массивы

→ Массив в программировании — это ещё одна структура данных. Она позволяет хранить элементы в заданном порядке точно так же, как это делают списки. 

Однако массивы обладают особым свойством: элемент по любому номеру из массива можно получить за одно и то же время. Другими словами, неважно, находится элемент в начале, в середине или в конце списка — на времени получения элемента из массива по индексу (номеру) это никак не скажется.

Итак, массив — это структура данных, в которой:

- 1
Элементы хранятся в указанном порядке.

- 2
Каждый элемент можно получить по индексу за одинаковое время.

- 3
Все элементы приведены к одному и тому же типу данных.

- 4
Максимальное число элементов и объём выделенной памяти заданы заранее.

Размерностью массива называют то число индексов, которое необходимо для однозначного получения элемента из массива.

Соответственно, чтобы найти элемент в массиве размерности 1 (строка из чисел) достаточно одного индекса.
В двумерном массиве (таблице из чисел) потребуется уже два индекса: номер строки и номер столбца.
Для трёхмерного массива (например, контейнеры на судне расположены по длине, ширине и высоте судна) потребуется уже три индекса.
Максимальная размерность массива программно не ограничена, но с добавлением каждой размерности в несколько раз увеличивается объём требуемой для его хранения памяти. Поэтому в какой-то момент места для массива большой размерности может не хватить, однако фактическая максимальная размерность зависит от возможностей компьютера.

Форма (структура) массива — это информация о количестве размерностей массива и протяжённости массива по каждой из размерностей. Например, можно задать двумерный массив размера 3x5 — у этой таблицы две размерности: 3 строки и 5 столбцов.

В списке не гарантируется получение любого элемента по индексу за одинаковое время (обычно чем больше индекс, тем дольше занимает время получения элемента).
- Также с совокупностью элементов списка работать дольше, чем с элементами массива. На самом деле Python list является чем-то средним между классическим списком из теории структур данных и массивом, но по скорости он тоже проигрывает массивам.

Зато к преимуществам списка можно отнести легко изменяющуюся длину, а также возможность хранения данных разных типов в одной структуре данных. С другой стороны, последнее может быть и недостатком: при работе с массивами одинаковых данных можно быть уверенным, что там не окажется «сюрпризов» в виде данных неподходящего типа.

### СОЗДАНИЕ МАССИВА ИЗ СПИСКА

In [10]:
import numpy as np
arr = np.array([1,5,2,9,10])
arr

array([ 1,  5,  2,  9, 10])

### ТИПЫ ДАННЫХ В МАССИВЕ

Мы только что узнали, что массив — это набор однотипных данных, но не указали никакой тип. Какого типа данные хранятся теперь в массиве arr? Узнать это можно, напечатав свойство dtype:

In [11]:
arr = np.array([1,5,2,9,10])
arr.dtype

dtype('int32')

Также тип данных можно будет указать или изменить позднее, если окажется, что текущий тип избыточен или, наоборот, недостаточен для хранения чисел с требуемой точностью. Однако числа в массиве всё равно будут одного и того же типа данных, даже если разработчик этого явно не указал.

Поменять тип данных во всём массиве можно с помощью тех же функций, которыми мы пользовались для преобразования типов отдельных переменных в предыдущем юните (например, np.int32 или np.float128)

При преобразовании типов данных в массиве не забывайте о том, что часть чисел может потерять смысл, если менять тип данных с более ёмкого на менее ёмкий.

### СВОЙСТВА NUMPY-МАССИВОВ

Будем тренироваться на массивах arr и nd_arr:

In [13]:
arr = np.array([1,5,2,9,10], dtype=np.int8)
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ], dtype=np.int16)

Узнать размерность массива можно с помощью .ndim:

In [18]:
arr.ndim


1

In [17]:
nd_arr.ndim

2

Узнать общее число элементов в массиве можно с помощью .size:

In [19]:
arr.size

5

In [20]:
nd_arr.size

9

Форма или структура массива хранится в атрибуте .shape:

In [21]:
arr.shape

(5,)

In [23]:
nd_arr.shape

(3, 3)

Форма массива хранится в виде кортежа с числом элементов, равным размерности массива. Соответственно, для одномерного массива напечатан кортеж длины 1. Обратите внимание, что для двумерного массива вначале было напечатано число «строк», а затем число «столбцов». Это так только отчасти. На самом деле массив как бы состоит из внешних и внутренних массивов: вспомните, что мы передавали список, состоящий из трёх списков, длина каждого из которых равнялась трём. Форма массива определяется от длины внешнего массива (3) к внутреннему (3).

Наконец, узнать, сколько «весит» каждый элемент массива в байтах позволяет .itemsize:

In [24]:
arr.itemsize

1

In [25]:
nd_arr.itemsize

2

Действительно, в arr хранятся числа в виде int8 (8 бит => 1 байт), а в nd_arr — в виде int16 (16 бит => 2 байта).

### ЗАПОЛНЕНИЕ НОВЫХ МАССИВОВ

Массив из нулей создаётся функцией np.zeros. Она принимает аргументы shape (обязательный) — форма массива (одно число или кортеж) и dtype (необязательный) — тип данных, который будет храниться в массиве.

Создадим одномерный массив из пяти элементов:

In [26]:
zeros_1d = np.zeros(5)
zeros_1d

array([0., 0., 0., 0., 0.])

Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура: arange([start,] stop, [step,], dtype=None).

Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:

- start (входит в диапазон возвращаемых значений) задаёт начальное число;
- stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
- step задаёт шаг, с которым в массив добавляются новые значения.

В отличие от range, в функции arange все перечисленные параметры могут иметь тип float.

На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step лучше использовать функцию linspace (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

- start и stop являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
- num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
- endpoint — включён или исключён конец диапазона (по умолчанию включён);
- retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
- dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).

Создадим массив из десяти чисел между 1 и 2:

In [27]:
arr = np.linspace(1, 2, 10)
arr

array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
       1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

Создадим массив из десяти чисел между 1 и 2, не включая 2:

In [28]:
arr = np.linspace(1, 2, 10, endpoint=False)
arr

array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

Узнаем, какой шаг был использован для создания массива из десяти чисел между 1 и 2, где 2 включалось и не включалось:

In [29]:
arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)

0.1111111111111111


In [30]:
arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)

0.1


### ИЗМЕНЕНИЕ ФОРМЫ МАССИВА

Создадим массив из восьми чисел:

In [31]:
import numpy as np
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

Поменять форму массива arr можно с помощью присвоения атрибуту shape кортежа с желаемой формой:

In [32]:
arr.shape = (2, 4)
arr

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

Как и принято в NumPy, первое число задало число строк, а второе — число столбцов.

Присвоение нового значения атрибуту shape изменяет тот массив, с которым производится действие.

Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, нужно использовать функцию reshape. Она также принимает в качестве аргумента кортеж из чисел для формы, но возвращает новый массив, а не изменяет исходный:

In [33]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4))
arr_new

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

У функции reshape есть дополнительный именованный аргумент order. Он задаёт принцип, по которому элементы заполняют массив новой формы. Если order='C' (по умолчанию), массив заполняется по строкам, как в примере выше. Если order='F', массив заполняется числами по столбцам:

In [34]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4), order='F')
arr_new

array([[0, 2, 4, 6],
       [1, 3, 5, 7]])

Ещё одной часто используемой операцией с формой массива (особенно двумерного) является транспонирование. Эта операция меняет строки и столбцы массива местами. В NumPy эту операцию совершает функция transpose.

In [35]:
arr = np.arange(8)
arr.shape = (2, 4)
arr

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

Транспонируем его:

In [36]:
arr_trans = arr.transpose()
arr_trans

array([[0, 4],
       [1, 5],
       [2, 6],
       [3, 7]])

При транспонировании одномерного массива его форма не меняется.

### ИНДЕКСЫ И СРЕЗЫ В МАССИВАХ

В определении массива указано, что он позволяет быстро получать элементы по индексу. Как же это происходит?

In [37]:
arr = np.linspace(1, 2, 6)
arr

array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])

In [38]:
print(arr[2])

1.4


Привычная запись для срезов работает и для одномерных массивов:

In [39]:
print(arr[2:4])

[1.4 1.6]


Наконец, напечатать массив в обратном порядке можно с помощью привычной конструкции [::-1]:

In [40]:
print(arr[::-1])

[2.  1.8 1.6 1.4 1.2 1. ]


С многомерными массивами работать немного интереснее. Создадим двумерный массив из одномерного:

In [41]:
nd_array =  np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
nd_array

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5],
       [4. , 4.5, 5. , 5.5]])

In [42]:
nd_array[1, 2]

3.0

Также через запятую можно передавать срезы или даже их комбинации с индексами. Например, получим все элементы из колонки 3 для первых двух строк:

In [43]:
nd_array[:2, 2]

array([1., 3.])

Несмотря на то что в массиве этот срез является столбцом, вместо него мы получили одномерный массив в виде строки.

Можно применять срезы сразу и к строкам, и к столбцам:

In [44]:
nd_array[1:, 2:4]

array([[3. , 3.5],
       [5. , 5.5]])

Чтобы получить все значения из какой-то оси, можно оставить на её месте двоеточие. Например, из всех строк получим срез с третьего по четвёртый столбцы:

In [45]:
nd_array[:, 2:4]

array([[1. , 1.5],
       [3. , 3.5],
       [5. , 5.5]])

Чтобы получить самую последнюю ось (в данном случае все столбцы), двоеточие писать необязательно. Строки будут получены целиком по умолчанию:

In [46]:
nd_array[:2]

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5]])

### СОРТИРОВКА ОДНОМЕРНЫХ МАССИВОВ

Иногда возникает задача по сортировке значений в массиве. Для её решения существуют встроенная в NumPy функция sort. Она обладает дополнительными параметрами, в том числе возможностью сортировки многомерных массивов, однако пока что это нам не потребуется. Применять функцию можно двумя способами.

Способ 1. Функция np.sort(<массив>) возвращает новый отсортированный массив:

Способ 2. Функция <массив>.sort() сортирует исходный массив и возвращает None:

### РАБОТА С ПРОПУЩЕННЫМИ ДАННЫМИ

Начнём с примера — создадим массив:

In [47]:
data = np.array([4, 9, -4, 3])

Воспользуемся встроенной в NumPy функцией sqrt, чтобы посчитать квадратные корни из элементов.

In [48]:
roots = np.sqrt(data)
roots

  roots = np.sqrt(data)


array([2.        , 3.        ,        nan, 1.73205081])

NumPy выдал предупреждение о том, что в функцию sqrt попало некорректное значение. Это было число -4, а как вы помните, корень из отрицательного числа в действительных числах не берётся. Однако программа не сломалась окончательно, а продолжила работу. На том месте, где должен был оказаться корень из -4, теперь присутствует объект nan. Он расшифровывается как Not a number (не число). Этот объект аналогичен встроенному типу None, но имеет несколько отличий:

Отличие 1. None является отдельным объектом типа NoneType. np.nan — это отдельный представитель класса float:

Отличие 2. None могут быть равны друг другу, а np.nan — нет:

Иногда работать с отсутствующими данными всё же нужно. Они могут возникнуть не только потому, что мы применили функцию к некорректному аргументу. Например, при анализе вакансий на сайте для некоторых из них может быть не указана зарплата, но при этом нам необходимо проанализировать статистику по зарплатам на сайте. Если попробовать посчитать сумму массива, который содержит np.nan, в итоге получится nan:

In [49]:
sum(roots)

nan

Можно заполнить пропущенные значения, например, нулями. Для этого с помощью функции np.isnan(<массив>) узнаем, на каких местах в массиве находятся «не числа»:

In [50]:
np.isnan(roots)

array([False, False,  True, False])

Можно использовать полученный массив из True и False для извлечения элементов из массива roots, на месте которых в булевом массиве указано True. Таким способом можно узнать сами элементы, которые удовлетворяют условию np.isnan:

In [51]:
roots[np.isnan(roots)]

array([nan])

Этим элементам можно присвоить новые значения, например 0:

In [52]:
roots[np.isnan(roots)] = 0
roots

array([2.        , 3.        , 0.        , 1.73205081])

После этого, если пропущенных значений больше нет, можем подсчитать сумму элементов массива:

In [53]:
sum(roots)

6.732050807568877

Ранее проблема при подсчёте суммы элементов в массиве roots возникала из-за того, что отсутствовало значение для квадратного корня из -4 — вместо него было указано np.nan. Сумма элементов массива, содержащего nan, также является nan. Поэтому приходится заменить nan, например, на 0, чтобы подсчитать сумму элементов массива.

### Операции с векторами

В программировании вектором называют одномерный проиндексированный набор данных, другими словами — одномерный массив.

С векторами в NumPy можно производить арифметические операции: складывать, вычитать, умножать друг на друга, возводить один вектор в степень другого и т. д.

Операция, применённая к двум векторам, на самом деле применяется поэлементно. То есть при сложении двух векторов первым элементом нового вектора будет сумма первых элементов исходных векторов, вторым — сумма вторых элементов и т. д.

Произведём сложение двух векторов:

In [54]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 + vec2

array([14. , 10. , 10.6, 15.5])

*Для совершения арифметических операций с векторами они должны быть одинаковой длины.*

Исключением является случай, когда операция происходит с вектором и одним числом. Например, вектор целиком можно умножить на число или возвести в степень этого числа.

Также векторы можно сравнивать друг с другом поэлементно:

In [55]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
 
vec1 > vec2

array([False, False,  True, False])

Аналогично можно сравнивать вектор с числом:

In [56]:
vec = np.array([14,15,9,26,53,5,89])
vec <= 26

array([ True,  True,  True,  True, False,  True, False])

### ПРОДВИНУТЫЕ ОПЕРАЦИИ С ВЕКТОРАМИ

Длина вектора, то есть расстояние между его началом и концом, [в евклидовом пространстве] вычисляется как квадратный корень из суммы квадратов всех его координат.

Посчитаем длину следующего вектора:

In [57]:
vec = np.array([3, 4])

Для начала воспользуемся формулой: возведём все элементы в квадрат, посчитаем их сумму, а затем найдём квадратный корень. Найдите все перечисленные операции в данном коде:

In [58]:
length = np.sqrt(np.sum(vec ** 2))
print(length)

5.0


Но можно было поступить проще. В NumPy есть специальный подмодуль linalg, который позволяет производить операции из линейной алгебры.

Для вычисления длины вектора нам потребуется функция norm:

In [59]:
length = np.linalg.norm(vec)
print(length)

5.0


Расстояние между двумя векторами, то есть расстояние между их концами, [в евклидовом пространстве] вычисляется как квадратный корень из суммы квадратов разностей соответствующих координат.

→ По сути, расстояние между векторами — это длина такого вектора, который является разностью этих векторов. В самом деле, при вычитании двух векторов вычитаются их соответствующие координаты.

Реализуем вычисление расстояния в коде. Сначала — «сложным» способом напрямую из формулы:

In [60]:
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.sqrt(np.sum((vec1 - vec2) ** 2))
distance

12.206555615733702

А теперь применим более простой способ — используем уже известную нам функцию np.linalg.norm:

In [61]:
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.linalg.norm(vec1 - vec2)
distance

12.206555615733702

Наконец, скалярным произведением двух векторов называют сумму произведений их соответствующих координат. 

Реализуем это в коде (по-английски скалярное произведение называют dot — точечный — или scalar product, отсюда и такое название переменной):

In [62]:
vec1 = np.arange(1, 6)
vec2 = np.linspace(10, 20, 5)
scalar_product = np.sum(vec1 * vec2)
scalar_product

250.0

можно ли проще и вообще без формул? Да! Для этого используют функцию np.dot(x, y):

In [63]:
scalar_product = np.dot(vec1, vec2)
scalar_product

250.0

Скалярное произведение также имеет широкое применение в математике и других операциях с векторами. В частности, равенство скалярного произведения нулю означает перпендикулярность рассматриваемых векторов.

В целом, скалярное произведение часто используется для определения угла между векторами.

### БАЗОВЫЕ СТАТИСТИЧЕСКИЕ ФУНКЦИИ ДЛЯ ВЕКТОРОВ

Функции np.min и np.max позволяют находить максимальное и минимальное значение в векторе. Их можно записывать как в виде np.min(<vector>), так и в виде <vector>.min():

In [64]:
vec = np.array([2,7,18,28,18,1,8,4])
vec.min()

1

In [65]:
np.max(vec)

28

Функция mean позволяет посчитать среднее значение. Больше не требуется реализовывать её «руками»!

In [66]:
vec.mean()

10.75

### Случайные числа

Случайное число — это число, которое возникает в результате случайного процесса.

Большинство компьютеров не имеет оборудования для генерации случайных чисел за счёт случайных процессов, хотя подобные приборы существуют. Вместо случайных чисел обычный компьютер (или даже большой мощный сервер) генерирует псевдослучайные числа.

Псевдослучайные числа — это такая последовательность чисел, которая возникает с помощью применения математических формул к какому-то исходному числу (например, текущему времени в микросекундах). Элементы, получаемые таким образом, почти не зависят друг от друга: например, при генерации следующего 0 или 1 не имеет значения, что выпало ранее — 0 или 1.

Для генерации псевдослучайных чисел в NumPy существует подмодуль random.

Самой «базовой» функцией в нём можно считать функцию rand. По умолчанию она генерирует число с плавающей точкой между 0 (включительно) и 1 (не включительно):

In [67]:
np.random.rand()

0.03494756617897099

Чтобы получить случайное число в диапазоне, например, от 0 до 100, достаточно просто умножить генерируемое число на 100:

In [68]:
np.random.rand() * 100

34.37553852868347

На самом деле rand умеет генерировать не только отдельные числа — функция принимает в качестве аргументов через запятую целые числа, которые задают форму генерируемого массива. Например, получим массив из пяти случайных чисел:

In [69]:
np.random.rand(5)

array([0.01954406, 0.36471061, 0.04833965, 0.36828245, 0.6699394 ])

In [70]:
np.random.rand(2, 3)

array([[0.75398807, 0.30762216, 0.94162027],
       [0.80839954, 0.47094786, 0.49217892]])

Функция rand может принимать неограниченное число целых чисел для задания формы массива

Если передать в rand кортеж, возникнет ошибка. Есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, которая принимает в качестве аргумента именно кортеж без распаковки. Она называется sample. Возможно, именно функция sample покажется вам удобнее, поскольку информацию о форме массива обычно удобнее хранить в коде в виде кортежа и не задумываться потом о его распаковке. В остальном функция sample не отличается от rand.

Не всегда требуются числа в диапазоне именно от 0 до 1. На самом деле с помощью специальных формул можно из диапазона от 0 до 1 получить любой другой желаемый диапазон, однако это не требуется делать самостоятельно — в NumPy доступна функция uniform:
- uniform(low=0.0, high=1.0, size=None)

Первые два аргумента — нижняя и верхняя границы диапазона в формате float, третий опциональный аргумент — форма массива (если не задан, возвращается одно число). Форма массива задаётся кортежем или одним числом.

Получим пять чисел в интервале от 0.5 до 0.75:

In [71]:
np.random.uniform(0.5, 0.75, size=5)

array([0.73961951, 0.66671865, 0.71810634, 0.66687693, 0.65052307])

Получим массив из двух строк и трёх столбцов из чисел в интервале от -1000 до 500:

In [72]:
np.random.uniform(-1000, 500, size=(2, 3))

array([[-456.38885284, -727.71681167, -600.7384036 ],
       [-810.45289604, -546.88558331, -353.61431587]])

### ГЕНЕРАЦИЯ INT

Не всегда требуется генерировать числа с плавающей точкой. Иногда бывает удобно получить целые числа int (например, для поля игры в лото). Для генерации целых чисел используется функция random.randint:
- randint(low, high=None, size=None, dtype=int)

Функцию randint нельзя запустить совсем без параметров, необходимо указать хотя бы одно число.

- Если указан только аргумент low, числа будут генерироваться от 0 до low-1, то есть верхняя граница не включается.
- Если задать low и high, числа будут генерироваться от low (включительно) до high (не включительно).
- size задаёт форму массива уже привычным для вас образом: одним числом — для одномерного или кортежем — для многомерного.
- dtype позволяет задать конкретный тип данных, который должен быть использован в массиве.

In [73]:
np.random.randint(4, size=(2,3))

array([[1, 3, 2],
       [1, 0, 2]])

Чтобы задать и нижнюю, и верхнюю границы самостоятельно, передадим два числа, а затем форму:

In [74]:
np.random.randint(6, 12, size=(3,3))

array([[ 9, 11, 10],
       [ 6,  9,  6],
       [ 7,  7,  7]])

### ГЕНЕРАЦИЯ ВЫБОРОК

Просто перемешать все числа в массиве позволяет функция random.shuffle.

In [76]:
arr = np.arange(6)
print(np.random.shuffle(arr))
arr

None


array([5, 3, 4, 2, 0, 1])

Функция random.shuffle перемешивает тот массив, к которому применяется, и возвращает None.

Чтобы получить новый перемешанный массив, а исходный оставить без изменений, можно использовать функцию random.permutation. Она принимает на вход один аргумент — или массив целиком, или одно число:

In [77]:
playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffled = np.random.permutation(playlist)
print(shuffled)
print(playlist)

['Deep Purple' 'Pink Floyd' 'The Beatles' 'ACDC']
['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']


Перемешать набор чисел от 0 до n-1 можно с помощью записи np.random.permutation(n), где n — верхняя граница, которая бы использовалась для генерации набора чисел функцией arange.

In [78]:
np.random.permutation(10)

array([4, 7, 2, 1, 8, 3, 6, 0, 5, 9])

Чтобы получить случайный набор объектов из массива, используется функция random.choice:
- choice(a, size=None, replace=True)

a — одномерный массив или число для генерации arange(a);

size — желаемая форма массива (число для получения одномерного массива, кортеж — для многомерного; если параметр не задан, возвращается один объект);

replace — параметр, задающий, могут ли элементы повторяться (по умолчанию могут).

In [79]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
 
choice = np.random.choice(workers, size=2, replace=False)
print(choice)

['Kate' 'Nikita']


На выходе получили массив из двух имён без повторений. 

### SEED ГЕНЕРАТОРА ПСЕВДОСЛУЧАЙНЫХ ЧИСЕЛ

→ Как уже было сказано ранее, NumPy генерирует не истинные случайные числа (такие числа получаются в результате случайных процессов), а псевдослучайные, которые получаются с помощью особых преобразований какого-либо исходного числа. Обычно компьютер берёт это число автоматически, например, из текущего времени в микросекундах (на самом деле используются другие ещё менее предсказуемые числа). Такое число называют seed (от англ. — «зерно»).

Самостоятельно задать seed в NumPy можно с помощью функции np.random.seed(<np.uint32>). Число в скобках должно быть в пределах от 0 до 2**32 - 1 (=4294967295).

In [80]:
np.random.seed(23)
np.random.randint(10, size=(3,4))

array([[3, 6, 8, 9],
       [6, 8, 7, 9],
       [3, 6, 1, 2]])

Если вы запустите этот код на своём компьютере, то, скорее всего, увидите тот же самый набор чисел!