In [1]:
import numpy as np

## Массивы

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Массив в программировании — это ещё одна структура данных. Она позволяет хранить элементы в заданном порядке точно так же, как это делают списки.</div> 

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Однако массивы обладают особым свойством: элемент по любому номеру из массива можно получить за одно и то же время. Другими словами, неважно, находится элемент в начале, в середине или в конце списка — на времени получения элемента из массива по индексу (номеру) это никак не скажется.

Обычно такое быстродействие массивов достигается за счёт того, что все элементы в массиве приведены к одному и тому же типу данных. Как именно это позволяет ускорить работу с данными, будет показано немного позднее.

Наконец, традиционные массивы обладают заданной программистом длиной (числом элементов), на которую компьютер выделяет память. Для сравнения — в списке длина изначально ничем не ограничена.



<div style="border: 5px solid green;padding: 20px;width:80%;">Итак, массив — это структура данных, в которой:

1. Элементы хранятся в указанном порядке.

2. Каждый элемент можно получить по индексу за одинаковое время.

3. Все элементы приведены к одному и тому же типу данных.

4. Максимальное число элементов и объём выделенной памяти заданы заранее.


Чем же всё это отличается от списка?



<div style="border: 5px solid green;padding: 20px;width:80%;">В списке не гарантируется получение любого элемента по индексу за одинаковое время (обычно чем больше индекс, тем дольше занимает время получения элемента).
Также с совокупностью элементов списка работать дольше, чем с элементами массива. На самом деле Python list является чем-то средним между классическим списком из теории структур данных и массивом, но по скорости он тоже проигрывает массивам.

Зато к преимуществам списка можно отнести легко изменяющуюся длину, а также возможность хранения данных разных типов в одной структуре данных. С другой стороны, последнее может быть и недостатком: при работе с массивами одинаковых данных можно быть уверенным, что там не окажется «сюрпризов» в виде данных неподходящего типа.

## Массивы в Numpy



В большинстве языков программирования, таких как Java или Pascal, массивы реализуются «из коробки», а вот для списков требуется подключение дополнительных библиотек. В Python всё наоборот, поэтому мы будем пользоваться массивами из модуля NumPy.

### Создание массива из списка

Создать массив из списка можно с помощью функции np.array(<объект>):

In [2]:
import numpy as np
arr = np.array([1,5,2,9,10])
arr
# array([ 1,  5,  2,  9, 10])

array([ 1,  5,  2,  9, 10])



Функция np.array возвращает объекты типа numpy.ndarray:

In [3]:
print(type(arr))
# <class 'numpy.ndarray'>

<class 'numpy.ndarray'>




Название ndarray — это сокращение от n-dimensional array, -мерный массив.

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Таким образом, массивы в NumPy, даже одномерные, на самом деле хранятся в объекте, который позволяет работать с многомерными массивами.</div>

Давайте теперь создадим двумерный массив из списка списков. Его также можно назвать таблицей чисел или матрицей. Сделаем это с помощью той же функции np.array():

In [4]:
# Перечислить список из списков можно
# было и в одну строку, но на нескольких
# строках получается нагляднее
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ])
nd_arr
# array([[12, 45, 78],
#        [34, 56, 13],
#        [12, 98, 76]])

array([[12, 45, 78],
       [34, 56, 13],
       [12, 98, 76]])

# Типы данных в массиве

Мы только что узнали, что массив — это набор однотипных данных, но не указали никакой тип. Какого типа данные хранятся теперь в массиве arr? Узнать это можно, напечатав свойство dtype:

In [5]:
nd_arr.dtype

dtype('int64')

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Примечание__ : данный код выполнялся в Google Colab, где по умолчанию используется NumPy 1.19.5. В более новых версиях int-типом по умолчанию является int32. Не удивляйтесь, если в последней версии NumPy вы увидите отличающийся результат выполнения ячейки.</div>

NumPy автоматически определил наш набор чисел как числа типа int64. Если мы, например, не планируем хранить в этом массиве целые числа более 127, можно было сразу при создании массива задать тип данных int8.

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Также тип данных можно будет указать или изменить позднее, если окажется, что текущий тип избыточен или, наоборот, недостаточен для хранения чисел с требуемой точностью. Однако числа в массиве всё равно будут одного и того же типа данных, даже если разработчик этого явно не указал.

Задать тип данных сразу при создании массива можно с помощью параметра dtype:

In [None]:
arr = np.array([1,5,2,9,10], dtype=np.int8)
arr


array([ 1,  5,  2,  9, 10], dtype=int8)

При этом тип данных теперь выводится на экран при отображении массива средствами Jupyter Notebook. 

Теперь, если добавить в arr число больше 127 или меньше -128, оно потеряет исходное значение, как и при преобразовании к меньшему типу:

In [None]:
arr[2] = 2000
arr
# array([  1,   5, -48,   9,  10], dtype=int8)

For the old behavior, usually:
    np.array(value).astype(dtype)
will give the desired result (the cast overflows).
  arr[2] = 2000


array([  1,   5, -48,   9,  10], dtype=int8)

Если добавить float в массив int, пропадёт десятичная часть:

In [None]:
arr[2] = 125.5
arr
# array([  1,   5, 125,   9,  10], dtype=int8)

array([  1,   5, 125,   9,  10], dtype=int8)

Строку, которую можно преобразовать в число, можно сразу положить в массив. Она будет приведена к нужному типу автоматически:

In [None]:
arr[2] = '12'
arr
# array([ 1,  5, 12,  9, 10], dtype=int8)

А вот при попытке положить в массив строку, которую нельзя преобразовать в число, возникнет ошибка:

In [None]:
arr[2] = 'test'
# ValueError: invalid literal for int() with base 10: 'test

ValueError: invalid literal for int() with base 10: 'test'

Поменять тип данных во всём массиве можно с помощью тех же функций, которыми мы пользовались для преобразования типов отдельных переменных в предыдущем юните (например, np.int32 или np.float128):

In [None]:
arr = np.float128(arr)
arr
# array([ 1.,  5., 12.,  9., 10.], dtype=float128)

array([  1.,   5., 125.,   9.,  10.], dtype=float128)

При преобразовании типов данных в массиве не забывайте о том, что часть чисел может потерять смысл, если менять тип данных с более ёмкого на менее ёмкий:

In [None]:
arr = np.array([12321, -1234, 3435, -214, 100], dtype=np.int32)
arr
# array([12321, -1234,  3435,  -214,   100], dtype=int32)
 
arr = np.uint8(arr)
arr
# array([ 33,  46, 107,  42, 100], dtype=uint8)

array([ 33,  46, 107,  42, 100], dtype=uint8)

In [None]:
np.finfo(np.float32)

finfo(resolution=1e-06, min=-3.4028235e+38, max=3.4028235e+38, dtype=float32)

# Свойства NumPy-массивов

Вы уже узнали, как получить тип данных, который хранится в массиве. Сделать это можно с помощью атрибута dtype. Есть и другие свойства массивов, которые будет полезно узнать.

Будем тренироваться на массивах arr и nd_arr:

In [None]:


arr = np.array([1,5,2,9,10], dtype=np.int8)
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ], dtype=np.int16)



### Узнать размерность массива можно с помощью .ndim:

In [None]:
arr.ndim
# 1


1

In [None]:
nd_arr.ndim
# 2

2

### Узнать общее число элементов в массиве можно с помощью .size:

In [None]:
arr.size
# 5

5

In [None]:
nd_arr.size
# 9

9

### Форма или структура массива хранится в атрибуте .shape:

In [None]:
arr.shape
# (5,)

(5,)

In [None]:
nd_arr.shape
# (3, 3)

(3, 3)

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Форма массива хранится в виде кортежа с числом элементов, равным размерности массива. Соответственно, для одномерного массива напечатан кортеж длины 1. Обратите внимание, что для двумерного массива вначале было напечатано число «строк», а затем число «столбцов». Это так только отчасти. На самом деле массив как бы состоит из внешних и внутренних массивов: вспомните, что мы передавали список, состоящий из трёх списков, длина каждого из которых равнялась трём. Форма массива определяется от длины внешнего массива (3) к внутреннему (3).

### Наконец, узнать, сколько «весит» каждый элемент массива в байтах позволяет .itemsize:

In [None]:
arr.itemsize
# 1

1

In [None]:
nd_arr.itemsize
# 2

2

# Заполнение новых массивов

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">→ Не всегда значения, которые будут храниться в массиве, уже доступны, а иметь для них массив уже хочется.</div>

Можно заранее подготовить массив заданной размерности, заполненный нулями, а потом загружать в него реальные данные по мере необходимости.

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Массив из нулей создаётся функцией <b style="background-color: #f3f3f3;">np.zeros</b>. Она принимает аргументы shape (обязательный) — форма массива (одно число или кортеж) и dtype (необязательный) — тип данных, который будет храниться в массиве.

In [None]:
zeros_1d = np.zeros(5)
zeros_1d
## array([0., 0., 0., 0., 0.])

array([0., 0., 0., 0., 0.])

In [None]:
#Создадим трёхмерный массив с формой 5x4x3 и типом float32:

zeros_3d = np.zeros((5,4,3), dtype=np.float32)
print(zeros_3d.shape)
# (5, 4, 3)



(5, 4, 3)


Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура:<br>
<b style="background-color: #f3f3f3;color: black;">arange([start,] stop, [step,], dtype=None).</b><br>
Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:

- start (входит в диапазон возвращаемых значений) задаёт начальное число;
- stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
- step задаёт шаг, с которым в массив добавляются новые значения.

В отличие от range, в функции arange все перечисленные параметры могут иметь тип float.

Поэкспериментируем. Создадим массив из пяти чисел от 0 до 4:

In [None]:
np.arange(5)
# array([0, 1, 2, 3, 4])

array([0, 1, 2, 3, 4])

In [None]:
#Создадим массив от 2.5 до 5:
np.arange(2.5, 5)
# array([2.5, 3.5, 4.5])

array([2.5, 3.5, 4.5])

In [None]:
#Создадим массив от 2.5 до 5 с шагом 0.5:
np.arange(2.5, 5, 0.5)
# array([2.5, 3. , 3.5, 4. , 4.5])

array([2.5, 3. , 3.5, 4. , 4.5])

In [None]:
#Создадим массив от 2.5 до 5 с шагом 0.5 и с типом float16:
np.arange(2.5, 5, 0.5, dtype=np.float16)
# array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step лучше использовать функцию linspace (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:

<b style="background-color: #f3f3f3;color: black;">np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
</b><br>
- start и stop являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
- num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
- endpoint — включён или исключён конец диапазона (по умолчанию включён);
- retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
- dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).

Давайте потренируемся. Создадим массив из десяти чисел между 1 и 2:

In [6]:
arr = np.linspace(1, 2, 10)
arr
# array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
##        1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
       1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

In [8]:
#Создадим массив из десяти чисел между 1 и 2, не включая 2:

arr = np.linspace(1, 2, 10, endpoint=False)
arr
# array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])



array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

In [9]:
#Узнаем, какой шаг был использован для создания массива из десяти чисел между 1 и 2, где 2 включалось и не включалось:

arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)
# 0.1111111111111111

arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)
# 0.1



0.1111111111111111
0.1


<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Функцию linspace очень удобно использовать при построении графиков различных функций, поскольку она позволяет получить равномерный массив чисел, к которому можно применить исследуемую функцию и показать результат на графике. Вы научитесь это делать в модуле, посвящённом визуализации.