#Массивы в Numpy

В большинстве языков программирования, таких как Java или Pascal, массивы реализуются «из коробки», а вот для списков требуется подключение дополнительных библиотек. В Python всё наоборот, поэтому мы будем пользоваться массивами из модуля NumPy.

Создание массива из списка



In [None]:
# Создать массив из списка можно с помощью функции np.array(<объект>):

import numpy as np
arr = np.array([1,5,2,9,10])
arr
# array([ 1,  5,  2,  9, 10])

# Функция np.array возвращает объекты типа numpy.ndarray:

print(type(arr))
# <class 'numpy.ndarray'>

# Название ndarray — это сокращение от n-dimensional array, \(n\)-мерный массив.

# Таким образом, массивы в NumPy, даже одномерные, на самом деле хранятся в 
# объекте, который позволяет работать с многомерными массивами.

<class 'numpy.ndarray'>


In [None]:
# Давайте теперь создадим двумерный массив из списка списков. 
# Его также можно назвать таблицей чисел или матрицей. 
# Сделаем это с помощью той же функции np.array():

# Перечислить список из списков можно
# было и в одну строку, но на нескольких
# строках получается нагляднее
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ])
nd_arr
# array([[12, 45, 78],
#        [34, 56, 13],
#        [12, 98, 76]])

array([[12, 45, 78],
       [34, 56, 13],
       [12, 98, 76]])

# Типы данных в массиве

Мы только что узнали, что массив — это набор однотипных данных, но не указали никакой тип. Какого типа данные хранятся теперь в массиве arr? Узнать это можно, напечатав свойство dtype:

In [None]:
arr = np.array([1,5,2,9,10])
arr.dtype
# dtype('int64')

dtype('int64')

Примечание: данный код выполнялся в Google Colab, где по умолчанию используется NumPy 1.19.5. В более новых версиях int-типом по умолчанию является int32. Не удивляйтесь, если в последней версии NumPy вы увидите отличающийся результат выполнения ячейки.

NumPy автоматически определил наш набор чисел как числа типа int64. Если мы, например, не планируем хранить в этом массиве целые числа более 127, можно было сразу при создании массива задать тип данных int8.

Также тип данных можно будет указать или изменить позднее, если окажется, что текущий тип избыточен или, наоборот, недостаточен для хранения чисел с требуемой точностью. Однако числа в массиве всё равно будут одного и того же типа данных, даже если разработчик этого явно не указал.

In [None]:
#  Задать тип данных сразу при создании массива можно с помощью параметра dtype:
arr = np.array([1,5,2,9,10], dtype=np.int8)
arr
# array([ 1,  5,  2,  9, 10], dtype=int8)

# При этом тип данных теперь выводится на экран при отображении 
# массива средствами Jupyter Notebook. 
# Теперь, если добавить в arr число больше 127 или меньше -128,
# оно потеряет исходное значение, как и при преобразовании к меньшему типу:


arr[1] = 2000
arr
# array([  1,   5, -48,   9,  10], dtype=int8)

# Если добавить float в массив int, пропадёт десятичная часть:

arr[2] = 125.5
arr
# array([  1,   5, 125,   9,  10], dtype=int8)

# Строку, которую можно преобразовать в число, можно сразу положить в массив. Она будет приведена к нужному типу автоматически:

arr[3] = '12'
arr
# array([ 1,  5, 12,  9, 10], dtype=int8)

# А вот при попытке положить в массив строку, которую нельзя преобразовать в число, возникнет ошибка:

#arr[4] = 'test'
# ValueError: invalid literal for int() with base 10: 'test'

print(arr)



[  1 -48 125  12  10]


In [None]:
# Поменять тип данных во всём массиве можно с помощью тех же функций,
# которыми мы пользовались для преобразования типов отдельных переменных
# в предыдущем юните (например, np.int32 или np.float128):
arr = np.float128(arr)
arr
# array([ 1.,  5., 12.,  9., 10.], dtype=float128)

# При преобразовании типов данных в массиве не забывайте о том,
# что часть чисел может потерять смысл, если менять тип данных
# с более ёмкого на менее ёмкий:
arr = np.array([12321, -1234, 3435, -214, 100], dtype=np.int32)
arr
# array([12321, -1234,  3435,  -214,   100], dtype=int32)
 
arr = np.uint8(arr)
arr
# array([ 33,  46, 107,  42, 100], dtype=uint8)

# Все числа, кроме 100, не могли быть корректно представлены
# в формате uint8, поэтому они отличаются от того, что ожидалось.

array([ 33,  46, 107,  42, 100], dtype=uint8)

## Задание 6.3
1 point possible (graded)
Выберите все типы данных, которые подходят для хранения в одном массиве без потери точности всех следующих чисел: 345234, 876362.12, 0, -1000, 99999999.

Создайте массив из этих чисел с предложенными типами данных и посмотрите на результаты.


In [None]:
arr = np.array([345234, 876362.12, 0, -1000, 99999999], dtype=np.float64)
arr.dtype
print(arr)
# [ 3.4523400e+05  8.7636212e+05  0.0000000e+00 -1.0000000e+03  9.9999999e+07]

[ 3.4523400e+05  8.7636212e+05  0.0000000e+00 -1.0000000e+03
  9.9999999e+07]


# Свойства NumPy-массивов

Вы уже узнали, как получить тип данных, который хранится в массиве. Сделать это можно с помощью атрибута dtype. Есть и другие свойства массивов, которые будет полезно узнать.

Будем тренироваться на массивах arr и nd_arr:

In [None]:
arr = np.array([1,5,2,9,10], dtype=np.int8)
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ], dtype=np.int16)

Узнать размерность массива можно с помощью .ndim:

In [None]:
arr.ndim
# 1

1

In [None]:
nd_arr.ndim
# 2

2

В самом деле, мы создали arr одномерным, а nd_arr — двумерным.


Узнать общее число элементов в массиве можно с помощью .size:

In [None]:
arr.size
# 5

5

In [None]:
nd_arr.size
# 9

9

Форма или структура массива хранится в атрибуте .shape:

In [None]:
arr.shape
# (5,)

(5,)

In [None]:
nd_arr.shape
# (3, 3)

(3, 3)

Наконец, узнать, сколько «весит» каждый элемент массива в байтах позволяет .itemsize:

In [None]:
arr.itemsize
# 1


1

In [None]:
nd_arr.itemsize
# 2

2

Действительно, в arr хранятся числа в виде int8 (8 бит => 1 байт), а в nd_arr — в виде int16 (16 бит => 2 байта).

#Заполнение новых массивов

→ Не всегда значения, которые будут храниться в массиве, уже доступны, а иметь для них массив уже хочется.

Можно заранее подготовить массив заданной размерности, заполненный нулями, а потом загружать в него реальные данные по мере необходимости.

Массив из нулей создаётся функцией np.zeros. Она принимает аргументы shape (обязательный) — форма массива (одно число или кортеж) и dtype (необязательный) — тип данных, который будет храниться в массиве.

In [None]:
# Создадим одномерный массив из пяти элементов:
zeros_1d = np.zeros(5)
zeros_1d
# array([0., 0., 0., 0., 0.])

array([0., 0., 0., 0., 0.])

In [None]:
# Создадим трёхмерный массив с формой 5x4x3 и типом float32:
zeros_3d = np.zeros((5,4,3), dtype=np.float32)
zeros_3d
#print(zeros_3d.shape)
# (5, 4, 3)

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]], dtype=float32)

Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура: arange([start,] stop, [step,], dtype=None).

Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:

        start (входит в диапазон возвращаемых значений) задаёт начальное число;
        stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
        step задаёт шаг, с которым в массив добавляются новые значения.

В отличие от range, в функции arange все перечисленные параметры могут иметь тип float.

In [None]:
# Поэкспериментируем. Создадим массив из пяти чисел от 0 до 4:
np.arange(5)
# array([0, 1, 2, 3, 4])

array([2.5, 3.5, 4.5])

In [None]:
# Создадим массив от 2.5 до 5:
np.arange(2.5, 5)
# array([2.5, 3.5, 4.5])

array([2.5, 3.5, 4.5])

In [None]:
# Создадим массив от 2.5 до 5 с шагом 0.5:
np.arange(2.5, 5, 0.5)
# array([2.5, 3. , 3.5, 4. , 4.5])

In [None]:
# Создадим массив от 2.5 до 5 с шагом 0.5 и с типом float16:
np.arange(2.5, 5, 0.5, dtype=np.float16)
# array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step лучше использовать функцию linspace (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

        start и stop являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
        num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
        endpoint — включён или исключён конец диапазона (по умолчанию включён);
        retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
        dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).


In [None]:
# Давайте потренируемся. Создадим массив из десяти чисел между 1 и 2:
arr = np.linspace(1, 2, 10)
arr
# array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
#        1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
       1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

In [None]:
# Создадим массив из десяти чисел между 1 и 2, не включая 2:
arr = np.linspace(1, 2, 10, endpoint=False)
arr
# array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

In [None]:
# Узнаем, какой шаг был использован для создания массива 
# из десяти чисел между 1 и 2, где 2 включалось и не включалось:
arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)
# 0.1111111111111111

arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)
# 0.1

0.1111111111111111
0.1


→ Функцию linspace очень удобно использовать при построении графиков различных функций, поскольку она позволяет получить равномерный массив чисел, к которому можно применить исследуемую функцию и показать результат на графике. Вы научитесь это делать в модуле, посвящённом визуализации.

In [None]:
#  Задание 6.6
# С каким шагом сгенерируется массив из 60 чисел от -6 до 21 включительно? 
# Ответ округлите до двух знаков после точки.
arr, step = np.linspace(-6, 21, 60, retstep=True)
arr
print(step)

0.4576271186440678


In [None]:
#  Задание 6.7
# С каким шагом сгенерируется массив из 60 чисел от -6 
# (включительно) до 21 (не включительно)? Ответ округлите до 2 знаков после точки.
arr, step = np.linspace(-6, 21, 60, retstep=True, endpoint=False)
arr
print(step)

0.45
