# NumPy (массивы)

In [None]:
# Создать массив из списка можно с помощью функции np.array(<объект>):
import numpy as np
arr = np.array([1,5,2,9,10])
arr

array([ 1,  5,  2,  9, 10])

In [3]:
# Функция np.array возвращает объекты типа numpy.ndarray:
print(type(arr))
# Название ndarray — это сокращение от n-dimensional array, -мерный массив.

<class 'numpy.ndarray'>


In [42]:
# Давайте теперь создадим двумерный массив из списка списков. Его также можно назвать таблицей чисел или матрицей. Сделаем это с помощью той же функции np.array():
# Перечислить список из списков можно
# было и в одну строку, но на нескольких
# строках получается нагляднее
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ])
nd_arr

array([[12, 45, 78],
       [34, 56, 13],
       [12, 98, 76]])

In [43]:
# Мы только что узнали, что массив — это набор однотипных данных, но не указали никакой тип. Какого типа данные хранятся теперь в массиве arr? Узнать это можно, напечатав свойство dtype:
arr = np.array([1,5,2,9,10])
arr.dtype

dtype('int64')

In [44]:
arr = np.array([1,5,2,9,10], dtype=np.int8)
arr

array([ 1,  5,  2,  9, 10], dtype=int8)

In [45]:
# Если добавить в arr число больше 127 или меньше -128, оно потеряет исходное значение, как и при преобразовании к меньшему типу:
arr[2] = 2000
arr

OverflowError: Python integer 2000 out of bounds for int8

In [None]:
# Если добавить float в массив int, пропадёт десятичная часть:
arr[2] = 125.5
arr

array([  1,   5, 125,   9,  10], dtype=int8)

In [29]:
# Строку, которую можно преобразовать в число, можно сразу положить в массив. Она будет приведена к нужному типу автоматически:
arr[2] = '12'
arr

array([ 1,  5, 12,  9, 10], dtype=int8)

In [26]:
# А вот при попытке положить в массив строку, которую нельзя преобразовать в число, возникнет ошибка:
arr[2] = 'test'

ValueError: invalid literal for int() with base 10: 'test'

In [35]:
# Поменять тип данных во всём массиве можно с помощью тех же функций, которыми мы пользовались для преобразования типов отдельных переменных в предыдущем юните (например, np.int32 или np.float128):
arr = np.float64(arr)
arr

array([ 1.,  5., 12.,  9., 10.])

In [38]:
# При преобразовании типов данных в массиве не забывайте о том, что часть чисел может потерять смысл, если менять тип данных с более ёмкого на менее ёмкий:
arr = np.array([12321, -1234, 3435, -214, 100], dtype=np.int32)
arr

array([12321, -1234,  3435,  -214,   100], dtype=int32)

In [39]:
arr = np.uint8(arr)
arr

array([ 33,  46, 107,  42, 100], dtype=uint8)

# Свойства NumPy-массивов

In [49]:
# Будем тренироваться на массивах arr и nd_arr:
arr = np.array([1,5,2,9,10], dtype=np.int8)
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ], dtype=np.int16)

In [66]:
# 1 Узнать размерность массива можно с помощью .ndim:

arr.ndim
nd_arr.ndim
print(arr.ndim, nd_arr.ndim,  sep= '\n')

1
2


In [69]:
# 2 Узнать общее число элементов в массиве можно с помощью .size:
arr.size
nd_arr.size
print(arr.size, nd_arr.size, sep= '\n')

5
9


In [71]:
# 3 Форма или структура массива хранится в атрибуте .shape:
arr.shape
nd_arr.shape
print(arr.shape, nd_arr.shape, sep= '\n')

(5,)
(3, 3)


In [72]:
# 4 Наконец, узнать, сколько «весит» каждый элемент массива в байтах позволяет .itemsize:
arr.itemsize
nd_arr.itemsize
print(arr.itemsize, nd_arr.itemsize, sep= '\n')

1
2


# Заполнение новых массивов

In [None]:
'''→ Не всегда значения, которые будут храниться в массиве, уже доступны, а иметь для них массив уже хочется. Можно заранее подготовить массив заданной размерности, заполненный нулями, а потом загружать в него реальные данные по мере необходимости. Массив из нулей создаётся функцией np.zeros. Она принимает аргументы shape (обязательный) — форма массива (одно число или кортеж) и dtype (необязательный) — тип данных, который будет храниться в массиве.'''

# Создадим одномерный массив из пяти элементов:
zeros_1d = np.zeros(5)
zeros_1d

array([0., 0., 0., 0., 0.])

In [75]:
# Создадим трёхмерный массив с формой 5x4x3 и типом float32:
zeros_3d = np.zeros((5,4,3), dtype=np.float32)
print(zeros_3d.shape)

(5, 4, 3)


In [76]:
'''Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура: arange([start,] stop, [step,], dtype=None).

Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:

- start (входит в диапазон возвращаемых значений) задаёт начальное число;
- stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
- step задаёт шаг, с которым в массив добавляются новые значения.
В отличие от range, в функции arange все перечисленные параметры могут иметь тип float.'''

# Поэкспериментируем. Создадим массив из пяти чисел от 0 до 4:
np.arange(5)

array([0, 1, 2, 3, 4])

In [77]:
# Создадим массив от 2.5 до 5:

np.arange(2.5, 5)

array([2.5, 3.5, 4.5])

In [79]:
# Создадим массив от 2.5 до 5 с шагом 0.5:

np.arange(2.5, 5, 0.5)

array([2.5, 3. , 3.5, 4. , 4.5])

In [81]:
# Создадим массив от 2.5 до 5 с шагом 0.5 и с типом float16:

np.arange(2.5, 5, 0.5, dtype=np.float16)

array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

In [82]:
'''На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step лучше использовать функцию linspace (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

- start и stop являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
- num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
- endpoint — включён или исключён конец диапазона (по умолчанию включён);
- retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
- dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).'''

# Давайте потренируемся. Создадим массив из десяти чисел между 1 и 2:

arr = np.linspace(1, 2, 10)
arr

array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
       1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

In [83]:
# Создадим массив из десяти чисел между 1 и 2, не включая 2:

arr = np.linspace(1, 2, 10, endpoint=False)
arr

array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

In [87]:
# Узнаем, какой шаг был использован для создания массива из десяти чисел между 1 и 2, где 2 включалось и не включалось:

arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)

arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)

0.1111111111111111
0.1


# Действия с массивами

## *Изменение формы массива*

In [100]:
# Создадим массив из восьми чисел:

import numpy as np
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [101]:
# Поменять форму массива arr можно с помощью присвоения атрибуту shape кортежа с желаемой формой:

arr.shape = (2, 4)
arr

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [102]:
# Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, нужно использовать функцию reshape. Она также принимает в качестве аргумента кортеж из чисел для формы, но возвращает новый массив, а не изменяет исходный:

arr = np.arange(8)
arr_new = arr.reshape((2, 4))
arr_new

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [104]:
# У функции reshape есть дополнительный именованный аргумент order. Он задаёт принцип, по которому элементы заполняют массив новой формы. Если order='C' (по умолчанию), массив заполняется по строкам, как в примере выше. Если order='F', массив заполняется числами по столбцам:

arr = np.arange(8)
arr_new = arr.reshape((2, 4), order='F')
arr_new

array([[0, 2, 4, 6],
       [1, 3, 5, 7]])

In [106]:
# Ещё одной часто используемой операцией с формой массива (особенно двумерного) является транспонирование. Эта операция меняет строки и столбцы массива местами. В NumPy эту операцию совершает функция transpose.

# Будем работать с двумерным массивом:

arr = np.arange(8)
arr.shape = (2, 4)
arr

# Транспонируем его:

arr_trans = arr.transpose()
arr_trans

array([[0, 4],
       [1, 5],
       [2, 6],
       [3, 7]])

In [108]:
# При транспонировании одномерного массива его форма не меняется:

arr = np.arange(3)
print(arr.shape)

arr_trans = arr.transpose()
print(arr_trans.shape)

(3,)
(3,)


## Индексы и срезы в массивах

In [109]:
# В определении массива указано, что он позволяет быстро получать элементы по индексу. Как же это происходит?

# Создадим массив из шести чисел:

arr = np.linspace(1, 2, 6)
arr

array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])

In [117]:
# Обратиться к его элементу по индексу можно так же, как и к списку:

print(arr[2])

# Привычная запись для срезов работает и для одномерных массивов:

print(arr[2:4])

# Наконец, напечатать массив в обратном порядке можно с помощью привычной конструкции [::-1]:

print(arr[::-1])

1.4
[1.4 1.6]
[2.  1.8 1.6 1.4 1.2 1. ]


In [118]:
# С многомерными массивами работать немного интереснее. Создадим двумерный массив из одномерного:

nd_array =  np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
nd_array

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5],
       [4. , 4.5, 5. , 5.5]])

In [None]:
# Можно воспользоваться привычной записью нескольких индексов в нескольких квадратных скобках:

nd_array[1][2]

# Мы бы так и делали, если бы приходилось работать со списком из списков. Однако проводить индексацию по массиву в NumPy можно проще: достаточно в одних и тех же квадратных скобках перечислить индексы через запятую. Вот так:

nd_array[1, 2]

# Как видите, получилось то же самое число.

np.float64(3.0)

In [123]:
# Также через запятую можно передавать срезы или даже их комбинации с индексами. Например, получим все элементы из колонки 3 для первых двух строк:

nd_array[:2, 2]

array([1., 3.])

In [124]:
# Несмотря на то что в массиве этот срез является столбцом, вместо него мы получили одномерный массив в виде строки.

# Можно применять срезы сразу и к строкам, и к столбцам:

nd_array[1:, 2:4]

array([[3. , 3.5],
       [5. , 5.5]])

In [126]:
# Чтобы получить все значения из какой-то оси, можно оставить на её месте двоеточие. Например, из всех строк получим срез с третьего по четвёртый столбцы:

nd_array[:, 2:4]

array([[1. , 1.5],
       [3. , 3.5],
       [5. , 5.5]])

In [127]:
# Чтобы получить самую последнюю ось (в данном случае все столбцы), двоеточие писать необязательно. Строки будут получены целиком по умолчанию:

nd_array[:2]

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5]])