Модуль NumPy. Массивы

→ Массив в программировании — это ещё одна структура данных. Она позволяет хранить элементы в заданном порядке точно так же, как это делают списки. 

Однако массивы обладают особым свойством: элемент по любому номеру из массива можно получить за одно и то же время. Другими словами, неважно, находится элемент в начале, в середине или в конце списка — на времени получения элемента из массива по индексу (номеру) это никак не скажется.

Обычно такое быстродействие массивов достигается за счёт того, что все элементы в массиве приведены к одному и тому же типу данных. Как именно это позволяет ускорить работу с данными, будет показано немного позднее.

Наконец, традиционные массивы обладают заданной программистом длиной (числом элементов), на которую компьютер выделяет память. Для сравнения — в списке длина изначально ничем не ограничена.

Итак, массив — это структура данных, в которой:
1. Элементы хранятся в указанном порядке.

2. Каждый элемент можно получить по индексу за одинаковое время.

3. Все элементы приведены к одному и тому же типу данных.

4. Максимальное число элементов и объём выделенной памяти заданы заранее.

Размерностью массива называют то число индексов, которое необходимо для однозначного получения элемента из массива.

Соответственно, чтобы найти элемент в массиве размерности 1 (строка из чисел) достаточно одного индекса.
В двумерном массиве (таблице из чисел) потребуется уже два индекса: номер строки и номер столбца.
Для трёхмерного массива (например, контейнеры на судне расположены по длине, ширине и высоте судна) потребуется уже три индекса.
Максимальная размерность массива программно не ограничена, но с добавлением каждой размерности в несколько раз увеличивается объём требуемой для его хранения памяти. Поэтому в какой-то момент места для массива большой размерности может не хватить, однако фактическая максимальная размерность зависит от возможностей компьютера.

Форма (структура) массива — это информация о количестве размерностей массива и протяжённости массива по каждой из размерностей. Например, можно задать двумерный массив размера 3x5 — у этой таблицы две размерности: 3 строки и 5 столбцов.

Чем же всё это отличается от списка?

В списке не гарантируется получение любого элемента по индексу за одинаковое время (обычно чем больше индекс, тем дольше занимает время получения элемента).
Также с совокупностью элементов списка работать дольше, чем с элементами массива. На самом деле Python list является чем-то средним между классическим списком из теории структур данных и массивом, но по скорости он тоже проигрывает массивам.
Зато к преимуществам списка можно отнести легко изменяющуюся длину, а также возможность хранения данных разных типов в одной структуре данных. С другой стороны, последнее может быть и недостатком: при работе с массивами одинаковых данных можно быть уверенным, что там не окажется «сюрпризов» в виде данных неподходящего типа.

In [26]:
#СОЗДАНИЕ МАССИВА ИЗ СПИСКА

#Создать массив из списка можно с помощью функции np.array(<объект>):

import numpy as np
arr = np.array([1,5,2,9,10])
arr
# array([ 1,  5,  2,  9, 10])

array([ 1,  5,  2,  9, 10])

Название ndarray — это сокращение от n-dimensional array, -мерный массив.

Таким образом, массивы в NumPy, даже одномерные, на самом деле хранятся в объекте, который позволяет работать с многомерными массивами.

In [27]:
#Давайте теперь создадим двумерный массив из списка списков. Его также можно назвать таблицей чисел или матрицей. Сделаем это с помощью той же функции np.array():

# Перечислить список из списков можно
# было и в одну строку, но на нескольких
# строках получается нагляднее
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ])
nd_arr
# array([[12, 45, 78],
#        [34, 56, 13],
#        [12, 98, 76]])

array([[12, 45, 78],
       [34, 56, 13],
       [12, 98, 76]])

In [28]:
#ТИПЫ ДАННЫХ В МАССИВЕ
#Мы только что узнали, что массив — это набор однотипных данных, но не указали никакой тип. 
# Какого типа данные хранятся теперь в массиве arr? Узнать это можно, напечатав свойство dtype:

arr = np.array([1,5,2,9,10])
arr.dtype
# dtype('int64')

dtype('int32')

In [29]:
# Задать тип данных сразу при создании массива можно с помощью параметра dtype:

arr = np.array([1,5,2,9,10], dtype=np.int8)
arr
# array([ 1,  5,  2,  9, 10], dtype=int8)

array([ 1,  5,  2,  9, 10], dtype=int8)

In [30]:
#Теперь, если добавить в arr число больше 127 или меньше -128, оно потеряет исходное значение, как и при преобразовании к меньшему типу:

arr[2] = 2000
arr
# array([  1,   5, -48,   9,  10], dtype=int8)

#Если добавить float в массив int, пропадёт десятичная часть:

arr[2] = 125.5
arr
# array([  1,   5, 125,   9,  10], dtype=int8)

array([  1,   5, 125,   9,  10], dtype=int8)

In [31]:
#Строку, которую можно преобразовать в число, можно сразу положить в массив. Она будет приведена к нужному типу автоматически:

arr[2] = '12'
arr
# array([ 1,  5, 12,  9, 10], dtype=int8)

array([ 1,  5, 12,  9, 10], dtype=int8)

In [32]:
#А вот при попытке положить в массив строку, которую нельзя преобразовать в число, возникнет ошибка:

arr[2] = 'test'
# ValueError: invalid literal for int() with base 10: 'test'

ValueError: invalid literal for int() with base 10: 'test'

In [None]:
#При преобразовании типов данных в массиве не забывайте о том, что часть чисел может потерять смысл, если менять тип данных с более ёмкого на менее ёмкий:

arr = np.array([12321, -1234, 3435, -214, 100], dtype=np.int32)
arr
# array([12321, -1234,  3435,  -214,   100], dtype=int32)
 
arr = np.uint8(arr)
arr
# array([ 33,  46, 107,  42, 100], dtype=uint8)
#Все числа, кроме 100, не могли быть корректно представлены в формате uint8, поэтому они отличаются от того, что ожидалось.

array([ 33,  46, 107,  42, 100], dtype=uint8)

СВОЙСТВА NUMPY-МАССИВОВ

In [None]:
#Узнать размерность массива можно с помощью .ndim:

arr.ndim
# 1
nd_arr.ndim
# 2
#В самом деле, мы создали arr одномерным, а nd_arr — двумерным.

2

In [None]:
#Узнать общее число элементов в массиве можно с помощью .size:

arr.size
# 5
nd_arr.size
# 9

9

In [None]:
#Форма или структура массива хранится в атрибуте .shape:

arr.shape
# (5,)
nd_arr.shape
# (3, 3)

(3, 3)

In [None]:
#Наконец, узнать, сколько «весит» каждый элемент массива в байтах позволяет .itemsize:

arr.itemsize
# 1
nd_arr.itemsize
# 2

4

ЗАПОЛНЕНИЕ НОВЫХ МАССИВОВ
Не всегда значения, которые будут храниться в массиве, уже доступны, а иметь для них массив уже хочется.
Можно заранее подготовить массив заданной размерности, заполненный нулями, а потом загружать в него реальные данные по мере необходимости.
Массив из нулей создаётся функцией np.zeros. Она принимает аргументы shape (обязательный) — форма массива (одно число или кортеж) и dtype (необязательный) — тип данных, который будет храниться в массиве.

In [None]:
#Создадим одномерный массив из пяти элементов:

zeros_1d = np.zeros(5)
zeros_1d
# array([0., 0., 0., 0., 0.])

array([0., 0., 0., 0., 0.])

In [None]:
#Создадим трёхмерный массив с формой 5x4x3 и типом float32:

zeros_3d = np.zeros((5,4,3), dtype=np.float32)
print(zeros_3d.shape)
# (5, 4, 3)

(5, 4, 3)


Функция arrange
Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура: arange([start,] stop, [step,], dtype=None).

Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:

start (входит в диапазон возвращаемых значений) задаёт начальное число;
stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
step задаёт шаг, с которым в массив добавляются новые значения.
В отличие от range, в функции arange все перечисленные параметры могут иметь тип float.

In [None]:
#Поэкспериментируем. Создадим массив из пяти чисел от 0 до 4:

np.arange(5)
# array([0, 1, 2, 3, 4])

array([0, 1, 2, 3, 4])

In [None]:
#Создадим массив от 2.5 до 5:

np.arange(2.5, 5)
# array([2.5, 3.5, 4.5])

array([2.5, 3.5, 4.5])

In [None]:
#Создадим массив от 2.5 до 5 с шагом 0.5 и с типом float16:

np.arange(2.5, 5, 0.5, dtype=np.float16)
# array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step лучше использовать функцию linspace (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

start и stop являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
endpoint — включён или исключён конец диапазона (по умолчанию включён);
retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).

In [None]:
#Создадим массив из десяти чисел между 1 и 2:

arr = np.linspace(1, 2, 10)
arr
# array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
#        1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
       1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

In [None]:
#Создадим массив из десяти чисел между 1 и 2, не включая 2:

arr = np.linspace(1, 2, 10, endpoint=False)
arr
# array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

In [None]:
#Узнаем, какой шаг был использован для создания массива из десяти чисел между 1 и 2, где 2 включалось и не включалось:

arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)
# 0.1111111111111111

arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)

0.1111111111111111
0.1


→ Функцию linspace очень удобно использовать при построении графиков различных функций, поскольку она позволяет получить равномерный массив чисел, к которому можно применить исследуемую функцию и показать результат на графике. Вы научитесь это делать в модуле, посвящённом визуализации.

ИЗМЕНЕНИЕ ФОРМЫ МАССИВА
В предыдущем юните вы научились получать одномерные массивы из чисел с помощью функции arange. В NumPy существуют функции, которые позволяют менять форму массива

In [None]:
#Создадим массив из восьми чисел:

import numpy as np
arr = np.arange(8)
arr
# array([0, 1, 2, 3, 4, 5, 6, 7])

array([0, 1, 2, 3, 4, 5, 6, 7])

In [None]:
#Поменять форму массива arr можно с помощью присвоения атрибуту shape кортежа с желаемой формой:

arr.shape = (2, 4)
arr
# array([[0, 1, 2, 3],
#        [4, 5, 6, 7]])
#Как и принято в NumPy, первое число задало число строк, а второе — число столбцов.

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

Присвоение нового значения атрибуту shape изменяет тот массив, с которым производится действие.

Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, нужно использовать функцию reshape. Она также принимает в качестве аргумента кортеж из чисел для формы, но возвращает новый массив, а не изменяет исходный:

In [None]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4))
arr_new
# array([[0, 1, 2, 3],
#       [4, 5, 6, 7]])

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

У функции reshape есть дополнительный именованный аргумент order. Он задаёт принцип, по которому элементы заполняют массив новой формы. Если order='C' (по умолчанию), массив заполняется по строкам, как в примере выше. Если order='F', массив заполняется числами по столбца

In [None]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4), order='F')
arr_new
# array([[0, 2, 4, 6],
#       [1, 3, 5, 7]])

array([[0, 2, 4, 6],
       [1, 3, 5, 7]])

Ещё одной часто используемой операцией с формой массива (особенно двумерного) является транспонирование. Эта операция меняет строки и столбцы массива местами. В NumPy эту операцию совершает функция transpose.

In [None]:
#Будем работать с двумерным массивом:

arr = np.arange(8)
arr.shape = (2, 4)
arr
# array([[0, 1, 2, 3],
#        [4, 5, 6, 7]])

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [None]:
#Транспонируем его:

arr_trans = arr.transpose()
arr_trans
# array([[0, 4],
#        [1, 5],
#        [2, 6],
#        [3, 7]])

array([[0, 4],
       [1, 5],
       [2, 6],
       [3, 7]])

In [None]:
#При транспонировании одномерного массива его форма не меняется:

arr = np.arange(3)
print(arr.shape)
# (3,)
arr_trans = arr.transpose()
print(arr_trans.shape)
# (3,)

(3,)
(3,)


ИНДЕКСЫ И СРЕЗЫ В МАССИВАХ

In [None]:
#Создадим массив из шести чисел:

arr = np.linspace(1, 2, 6)
arr
# array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])

array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])

In [None]:
#Обратиться к его элементу по индексу можно так же, как и к списку:

print(arr[2])
# 1.4
#Привычная запись для срезов работает и для одномерных массивов:

print(arr[2:4])
# [1.4 1.6]
#Наконец, напечатать массив в обратном порядке можно с помощью привычной конструкции [::-1]:

print(arr[::-1])
# [2.  1.8 1.6 1.4 1.2 1. ]

1.4
[1.4 1.6]
[2.  1.8 1.6 1.4 1.2 1. ]


In [None]:
#Создадим двумерный массив из одномерного:

nd_array =  np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
nd_array
# array([[0. , 0.5, 1. , 1.5],
#        [2. , 2.5, 3. , 3.5],
#        [4. , 4.5, 5. , 5.5]])

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5],
       [4. , 4.5, 5. , 5.5]])

In [None]:
#Можно воспользоваться привычной записью нескольких индексов в нескольких квадратных скобках:

nd_array[1][2]

3.0

In [None]:
#Мы бы так и делали, если бы приходилось работать со списком из списков. 
# Однако проводить индексацию по массиву в NumPy можно проще: достаточно в одних и тех же квадратных скобках перечислить индексы через запятую. Вот так:

nd_array[1, 2]

3.0

In [None]:
#Также через запятую можно передавать срезы или даже их комбинации с индексами. 
# Например, получим все элементы из колонки 3 для первых двух строк:

nd_array[:2, 2]
# Несмотря на то что в массиве этот срез является столбцом, вместо него мы получили одномерный массив в виде строки.

array([1., 3.])

In [None]:
#Можно применять срезы сразу и к строкам, и к столбцам:

nd_array[1:, 2:4]
# array([[3. , 3.5],
#       [5. , 5.5]])

array([[3. , 3.5],
       [5. , 5.5]])

In [34]:
#Чтобы получить все значения из какой-то оси, можно оставить на её месте двоеточие. 
# Например, из всех строк получим срез с третьего по четвёртый столбцы:

nd_array[:, 2:4]
# array([[1. , 1.5],
#       [3. , 3.5],
#       [5. , 5.5]])

array([[1. , 1.5],
       [3. , 3.5],
       [5. , 5.5]])

In [35]:
#Чтобы получить самую последнюю ось (в данном случае все столбцы), двоеточие писать необязательно. 
# Строки будут получены целиком по умолчанию:

nd_array[:2]
# array([[0. , 0.5, 1. , 1.5],
#       [2. , 2.5, 3. , 3.5]])

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5]])

СОРТИРОВКА ОДНОМЕРНЫХ МАССИВОВ

In [37]:
#Способ 1. Функция np.sort(<массив>) возвращает новый отсортированный массив:

arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print(arr)
# [23 12 45 12 23  4 15  3]
print(arr_new)
# [ 3  4 12 12 15 23 23 45]

[23 12 45 12 23  4 15  3]
[ 3  4 12 12 15 23 23 45]


In [38]:
#Способ 2. Функция <массив>.sort() сортирует исходный массив и возвращает None:

arr = np.array([23,12,45,12,23,4,15,3])
print(arr.sort())
# None
print(arr)
# [ 3  4 12 12 15 23 23 45]

None
[ 3  4 12 12 15 23 23 45]


РАБОТА С ПРОПУЩЕННЫМИ ДАННЫМИ

In [39]:
#создадим массив:

data = np.array([4, 9, -4, 3])

In [40]:
#Воспользуемся встроенной в NumPy функцией sqrt, чтобы посчитать квадратные корни из элементов.

roots = np.sqrt(data)
roots

  roots = np.sqrt(data)


array([2.        , 3.        ,        nan, 1.73205081])

NumPy выдал предупреждение о том, что в функцию sqrt попало некорректное значение. Это было число -4, а как вы помните, корень из отрицательного числа в действительных числах не берётся. Однако программа не сломалась окончательно, а продолжила работу. На том месте, где должен был оказаться корень из -4, теперь присутствует объект nan. Он расшифровывается как Not a number (не число). Этот объект аналогичен встроенному типу None, но имеет несколько отличий:

In [44]:
#Отличие 1. None является отдельным объектом типа NoneType. np.nan — это отдельный представитель класса float:

print(type(None))
# <class 'NoneType'>
print(type(np.nan))
# <class 'float'>
type(np.nan)

<class 'NoneType'>
<class 'float'>


float

In [45]:
#Отличие 2. None могут быть равны друг другу, а np.nan — нет:

print(None == None)
# True
print(np.nan == np.nan)
# False

True
False


Как вы помните, чтобы грамотно сравнить что-либо с None, необходимо использовать оператор is. Это ещё более актуально для np.nan. Однако None даже через is не является эквивалентным np.nan:

In [43]:
print(None is None)
# True
print(np.nan is np.nan)
# True
print(np.nan is None)
# False

True
True
False


Иногда работать с отсутствующими данными всё же нужно. Они могут возникнуть не только потому, что мы применили функцию к некорректному аргументу. Например, при анализе вакансий на сайте для некоторых из них может быть не указана зарплата, но при этом нам необходимо проанализировать статистику по зарплатам на сайте.

In [46]:
#Если попробовать посчитать сумму массива, который содержит np.nan, в итоге получится nan:

sum(roots)

nan

Что же делать?

In [47]:
#Можно заполнить пропущенные значения, например, нулями. Для этого с помощью функции np.isnan(<массив>) узнаем, на каких местах в массиве находятся «не числа»:

np.isnan(roots)
# array([False, False,  True, False])

array([False, False,  True, False])

In [48]:
#Можно использовать полученный массив из True и False для извлечения элементов из массива roots, 
# на месте которых в булевом массиве указано True. Таким способом можно узнать сами элементы, которые удовлетворяют условию np.isnan:

roots[np.isnan(roots)]
# array([nan])

array([nan])

In [49]:
#Этим элементам можно присвоить новые значения, например 0:

roots[np.isnan(roots)] = 0
roots
# array([2.        , 3.        , 0.        , 1.73205081])

array([2.        , 3.        , 0.        , 1.73205081])

In [51]:
#После этого, если пропущенных значений больше нет, можем подсчитать сумму элементов массива:

sum(roots)
# 6.732050807568877

6.732050807568877

Ранее проблема при подсчёте суммы элементов в массиве roots возникала из-за того, что отсутствовало значение для квадратного корня из -4 — вместо него было указано np.nan. Сумма элементов массива, содержащего nan, также является nan. Поэтому приходится заменить nan, например, на 0, чтобы подсчитать сумму элементов массива.