# Модуль NumPy. Действия с массивами

In [1]:
import numpy as np

## ДЕЙСТВИЯ С МАССИВАМИ

### ИЗМЕНЕНИЕ ФОРМЫ МАССИВА

Создадим массив из восьми чисел

In [2]:
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

Поменять форму массива arr можно с помощью присвоения атрибуту shape кортежа с желаемой формой

In [3]:
arr.shape = (2, 4)
arr

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

Как и принято в NumPy, первое число задало число строк, а второе — число столбцов

Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, нужно использовать функцию reshape. Она также принимает в качестве аргумента кортеж из чисел для формы, но возвращает новый массив, а не изменяет исходный

In [4]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4))
arr_new

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

У функции reshape есть дополнительный именованный аргумент order. Он задаёт принцип, по которому элементы заполняют массив новой формы. Если order='C' (по умолчанию), массив заполняется по строкам, как в примере выше. Если order='F', массив заполняется числами по столбцам

In [5]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4), order='F')
arr_new

array([[0, 2, 4, 6],
       [1, 3, 5, 7]])

Ещё одной часто используемой операцией с формой массива (особенно двумерного) является транспонирование. Эта операция меняет строки и столбцы массива местами. В NumPy эту операцию совершает функция transpose

In [6]:
arr = np.arange(8)
arr.shape = (2, 4)
print(arr)
arr_trans = arr.transpose()
print(arr_trans)

[[0 1 2 3]
 [4 5 6 7]]
[[0 4]
 [1 5]
 [2 6]
 [3 7]]


При транспонировании одномерного массива его форма не меняется

In [7]:
arr = np.arange(3)
print(arr.shape)
# (3,)
arr_trans = arr.transpose()
arr_trans

(3,)


array([0, 1, 2])

### ИНДЕКСЫ И СРЕЗЫ В МАССИВАХ

В определении массива указано, что он позволяет быстро получать элементы по индексу. Как же это происходит?

Создадим массив из шести чисел

In [8]:
arr = np.linspace(1, 2, 6)
arr

array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])

Обратиться к его элементу по индексу можно так же, как и к списку

In [9]:
print(arr[2])

1.4


Привычная запись для срезов работает и для одномерных массивов

In [10]:
print(arr[2:4])

[1.4 1.6]


Наконец, напечатать массив в обратном порядке можно с помощью привычной конструкции [::-1]:

In [11]:
print(arr[::-1])

[2.  1.8 1.6 1.4 1.2 1. ]


С многомерными массивами работать немного интереснее. Создадим двумерный массив из одномерного:

In [12]:
nd_array =  np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
nd_array

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5],
       [4. , 4.5, 5. , 5.5]])

Можно воспользоваться привычной записью нескольких индексов в нескольких квадратных скобках

In [13]:
nd_array[1][2]

3.0

Мы бы так и делали, если бы приходилось работать со списком из списков. Однако проводить индексацию по массиву в NumPy можно проще: достаточно в одних и тех же квадратных скобках перечислить индексы через запятую. Вот так

In [14]:
nd_array[1, 2]

3.0

Как видите, получилось то же самое число. Также через запятую можно передавать срезы или даже их комбинации с индексами. Например, получим все элементы из колонки 3 для первых двух строк

In [15]:
nd_array[:2, 2]

array([1., 3.])

Несмотря на то что в массиве этот срез является столбцом, вместо него мы получили одномерный массив в виде строки

Можно применять срезы сразу и к строкам, и к столбцам

In [16]:
nd_array[1:, 2:4]

array([[3. , 3.5],
       [5. , 5.5]])

Чтобы получить все значения из какой-то оси, можно оставить на её месте двоеточие. Например, из всех строк получим срез с третьего по четвёртый столбцы:

In [17]:
nd_array[:, 2:4]

array([[1. , 1.5],
       [3. , 3.5],
       [5. , 5.5]])

Чтобы получить самую последнюю ось (в данном случае все столбцы), двоеточие писать необязательно. Строки будут получены целиком по умолчанию:

In [18]:
nd_array[:2]

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5]])

### СОРТИРОВКА ОДНОМЕРНЫХ МАССИВОВ

Способ 1. Функция np.sort(<массив>) возвращает новый отсортированный массив

In [19]:
arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print(arr)
# [23 12 45 12 23  4 15  3]
print(arr_new)
# [ 3  4 12 12 15 23 23 45]

[23 12 45 12 23  4 15  3]
[ 3  4 12 12 15 23 23 45]


Способ 2. Функция <массив>.sort() сортирует исходный массив и возвращает None:

In [20]:
arr = np.array([23,12,45,12,23,4,15,3])
print(arr.sort())
# None
print(arr)
# [ 3  4 12 12 15 23 23 45]

None
[ 3  4 12 12 15 23 23 45]


### РАБОТА С ПРОПУЩЕННЫМИ ДАННЫМИ

In [21]:
data = np.array([4,-5, 9, -4, 3])

Воспользуемся встроенной в NumPy функцией sqrt, чтобы посчитать квадратные корни из элементов

In [22]:
roots = np.sqrt(data)
roots

  roots = np.sqrt(data)


array([2.        ,        nan, 3.        ,        nan, 1.73205081])

NumPy выдал предупреждение о том, что в функцию sqrt попало некорректное значение. Это было число -4, а как вы помните, корень из отрицательного числа в действительных числах не берётся. Однако программа не сломалась окончательно, а продолжила работу. На том месте, где должен был оказаться корень из -4, теперь присутствует объект nan. Он расшифровывается как Not a number (не число). Этот объект аналогичен встроенному типу None, но имеет несколько отличий:

Отличие 1. None является отдельным объектом типа NoneType. np.nan — это отдельный представитель класса float:

In [23]:
print(type(None))
# <class 'NoneType'>
print(type(np.nan))
# <class 'float'>
type(np.nan)

<class 'NoneType'>
<class 'float'>


float

Отличие 2. None могут быть равны друг другу, а np.nan — нет:

In [24]:
print(None == None)
# True
print(np.nan == np.nan)
# False

True
False


Как  вы помните, чтобы грамотно сравнить что-либо с None, необходимо использовать оператор is. Это ещё более актуально для np.nan. Однако None даже через is не является эквивалентным np.nan:

In [25]:
print(None is None)
# True
print(np.nan is np.nan)
# True
print(np.nan is None)
# False

True
True
False


Иногда работать с отсутствующими данными всё же нужно. Они могут возникнуть не только потому, что мы применили функцию к некорректному аргументу. Например, при анализе вакансий на сайте для некоторых из них может быть не указана зарплата, но при этом нам необходимо проанализировать статистику по зарплатам на сайте. Если попробовать посчитать сумму массива, который содержит np.nan, в итоге получится nan:

In [26]:
sum(roots)
# nan

nan

Можно заполнить пропущенные значения, например, нулями. Для этого с помощью функции np.isnan(<массив>) узнаем, на каких местах в массиве находятся «не числа»:

In [27]:
np.isnan(roots)

array([False,  True, False,  True, False])

Можно использовать полученный массив из True и False для извлечения элементов из массива roots, на месте которых в булевом массиве указано True. Таким способом можно узнать сами элементы, которые удовлетворяют условию np.isnan:

In [28]:
roots[np.isnan(roots)]

array([nan, nan])

Этим элементам можно присвоить новые значения, например 0:

In [29]:
roots[np.isnan(roots)] = 0
roots

array([2.        , 0.        , 3.        , 0.        , 1.73205081])

После этого, если пропущенных значений больше нет, можем подсчитать сумму элементов массива

In [30]:
sum(roots)

6.732050807568877