# Действия с массивами

## Изменение формы массива

В предыдущем юните вы научились получать одномерные массивы из чисел с помощью функции arange. В NumPy существуют функции, которые позволяют менять форму массива.

Создадим массив из восьми чисел:

<code>import numpy as np
arr = np.arange(8)
arr
\#array([0, 1, 2, 3, 4, 5, 6, 7])</code>

Поменять форму массива arr можно с помощью присвоения атрибуту shape кортежа с желаемой формой:

<code>arr.shape = (2, 4)
arr
\#array([[0, 1, 2, 3],
        [4, 5, 6, 7]])</code>

Как и принято в NumPy, первое число задало число строк, а второе — число столбцов.

Присвоение нового значения атрибуту shape изменяет тот массив, с которым производится действие.

Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, нужно использовать функцию reshape. Она также принимает в качестве аргумента кортеж из чисел для формы, но возвращает новый массив, а не изменяет исходный:

<code>arr = np.arange(8)
arr_new = arr.reshape((2, 4))
arr_new
\#array([[0, 1, 2, 3],
      [4, 5, 6, 7]])</code>

У функции reshape есть дополнительный именованный аргумент order. Он задаёт принцип, по которому элементы заполняют массив новой формы. Если order='C' (по умолчанию), массив заполняется по строкам, как в примере выше. Если order='F', массив заполняется числами по столбцам:

<code>arr = np.arange(8)
arr_new = arr.reshape((2, 4), order='F')
arr_new
\#array([[0, 2, 4, 6],
       [1, 3, 5, 7]])<\code>

Ещё одной часто используемой операцией с формой массива (особенно двумерного) является транспонирование. Эта операция меняет строки и столбцы массива местами. В NumPy эту операцию совершает функция transpose.

Будем работать с двумерным массивом:

<code>arr = np.arange(8)
arr.shape = (2, 4)
arr
\#array([[0, 1, 2, 3],
       [4, 5, 6, 7]])</code>

Транспонируем его:

<code>arr_trans = arr.transpose()
arr_trans
\#array([[0, 4],
        [1, 5],
        [2, 6],
        [3, 7]])</code>

При транспонировании одномерного массива его форма не меняется:

<code>arr = np.arange(3)
print(arr.shape)
\#(3,)
arr_trans = arr.transpose()
print(arr_trans.shape)
\#(3,)<code>



## Индексы и срезы в массивах

В определении массива указано, что он позволяет быстро получать элементы по индексу. Как же это происходит?

Создадим массив из шести чисел:

In [2]:
import numpy as np
arr = np.linspace(1, 2, 6)
arr
# array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])

array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])

Обратиться к его элементу по индексу можно так же, как и к списку:

In [3]:
print(arr[2])
# 1.4

1.4


Привычная запись для срезов работает и для одномерных массивов:

In [7]:
print(arr[2:4])
# [1.4 1.6]

[1.4 1.6]


Наконец, напечатать массив в обратном порядке можно с помощью привычной конструкции [::-1]:

In [8]:
print(arr[::-1])
# [2.  1.8 1.6 1.4 1.2 1. ]

[2.  1.8 1.6 1.4 1.2 1. ]


С многомерными массивами работать немного интереснее. Создадим двумерный массив из одномерного:

In [9]:
nd_array =  np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
nd_array
# array([[0. , 0.5, 1. , 1.5],
#        [2. , 2.5, 3. , 3.5],
#        [4. , 4.5, 5. , 5.5]])

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5],
       [4. , 4.5, 5. , 5.5]])

Можно воспользоваться привычной записью нескольких индексов в нескольких квадратных скобках:

In [10]:
nd_array[1][2]
# 3.0

3.0

Мы получили число из второй строки и третьего столбца массива.

Мы бы так и делали, если бы приходилось работать со списком из списков. Однако проводить индексацию по массиву в NumPy можно проще: достаточно в одних и тех же квадратных скобках перечислить индексы через запятую. Вот так:

In [11]:
nd_array[1, 2]
# 3.0

3.0

Как видите, получилось то же самое число. Также через запятую можно передавать срезы или даже их комбинации с индексами. Например, получим все элементы из колонки 3 для первых двух строк:

In [12]:
nd_array[:2, 2]
# array([1., 3.])

array([1., 3.])

Несмотря на то что в массиве этот срез является столбцом, вместо него мы получили одномерный массив в виде строки.

Можно применять срезы сразу и к строкам, и к столбцам:

In [13]:
nd_array[1:, 2:4]
# array([[3. , 3.5],
#       [5. , 5.5]])

array([[3. , 3.5],
       [5. , 5.5]])

Чтобы получить все значения из какой-то оси, можно оставить на её месте двоеточие. Например, из всех строк получим срез с третьего по четвёртый столбцы:

In [14]:
nd_array[:, 2:4]
# array([[1. , 1.5],
#       [3. , 3.5],
#       [5. , 5.5]])

array([[1. , 1.5],
       [3. , 3.5],
       [5. , 5.5]])

Чтобы получить самую последнюю ось (в данном случае все столбцы), двоеточие писать необязательно. Строки будут получены целиком по умолчанию:

In [21]:
nd_array[:2]
# array([[0. , 0.5, 1. , 1.5],
#       [2. , 2.5, 3. , 3.5]])

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5]])

## Сортировка одномерных массивов

Иногда возникает задача по сортировке значений в массиве. Для её решения существуют встроенная в NumPy функция sort. Она обладает дополнительными параметрами, в том числе возможностью сортировки многомерных массивов, однако пока что это нам не потребуется. Применять функцию можно двумя способами.

Способ 1. Функция np.sort(<массив>) возвращает новый отсортированный массив:

In [22]:
arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print(arr)
# [23 12 45 12 23  4 15  3]
print(arr_new)
# [ 3  4 12 12 15 23 23 45]

[23 12 45 12 23  4 15  3]
[ 3  4 12 12 15 23 23 45]


Способ 2. Функция <массив>.sort() сортирует исходный массив и возвращает None:

In [23]:
arr = np.array([23,12,45,12,23,4,15,3])
print(arr.sort())
# None
print(arr)
# [ 3  4 12 12 15 23 23 45]

None
[ 3  4 12 12 15 23 23 45]


## Работа с пропущенными данными

Начнём с примера — создадим массив:

In [24]:
data = np.array([4, 9, -4, 3])

Воспользуемся встроенной в NumPy функцией sqrt, чтобы посчитать квадратные корни из элементов.

In [25]:
roots = np.sqrt(data)
roots
# RuntimeWarning: invalid value encountered in sqrt
# array([2.        , 3.        ,        nan, 1.73205081])

  """Entry point for launching an IPython kernel.


array([2.        , 3.        ,        nan, 1.73205081])

NumPy выдал предупреждение о том, что в функцию sqrt попало некорректное значение. Это было число -4, а как вы помните, корень из отрицательного числа в действительных числах не берётся. Однако программа не сломалась окончательно, а продолжила работу. На том месте, где должен был оказаться корень из -4, теперь присутствует объект nan. Он расшифровывается как Not a number (не число). Этот объект аналогичен встроенному типу None, но имеет несколько отличий:

Отличие 1. None является отдельным объектом типа NoneType. np.nan — это отдельный представитель класса float:

In [26]:
print(type(None))
# <class 'NoneType'>
print(type(np.nan))
# <class 'float'>
type(np.nan)

<class 'NoneType'>
<class 'float'>


float

Отличие 2. None могут быть равны друг другу, а np.nan — нет:

In [27]:
print(None == None)
# True
print(np.nan == np.nan)
# False

True
False


Как вы помните, чтобы грамотно сравнить что-либо с None, необходимо использовать оператор is. Это ещё более актуально для np.nan. Однако None даже через is не является эквивалентным np.nan:

In [28]:
print(None is None)
# True
print(np.nan is np.nan)
# True
print(np.nan is None)
# False

True
True
False


Иногда работать с отсутствующими данными всё же нужно. Они могут возникнуть не только потому, что мы применили функцию к некорректному аргументу. Например, при анализе вакансий на сайте для некоторых из них может быть не указана зарплата, но при этом нам необходимо проанализировать статистику по зарплатам на сайте. Если попробовать посчитать сумму массива, который содержит np.nan, в итоге получится nan:

In [None]:
sum(roots)
# nan

Что же делать?

Можно заполнить пропущенные значения, например, нулями. Для этого с помощью функции np.isnan(<массив>) узнаем, на каких местах в массиве находятся «не числа»:

In [29]:
np.isnan(roots)
# array([False, False,  True, False])

array([False, False,  True, False])

Можно использовать полученный массив из True и False для извлечения элементов из массива roots, на месте которых в булевом массиве указано True. Таким способом можно узнать сами элементы, которые удовлетворяют условию np.isnan:

In [30]:
roots[np.isnan(roots)]
# array([nan])

array([nan])

Этим элементам можно присвоить новые значения, например 0:

In [31]:
roots[np.isnan(roots)] = 0
roots
# array([2.        , 3.        , 0.        , 1.73205081])

array([2.        , 3.        , 0.        , 1.73205081])

После этого, если пропущенных значений больше нет, можем подсчитать сумму элементов массива:

In [32]:
sum(roots)
# 6.732050807568877

6.732050807568877

Ранее проблема при подсчёте суммы элементов в массиве roots возникала из-за того, что отсутствовало значение для квадратного корня из -4 — вместо него было указано np.nan. Сумма элементов массива, содержащего nan, также является nan. Поэтому приходится заменить nan, например, на 0, чтобы подсчитать сумму элементов массива.

In [33]:
# Данная функция возвращает True.
np.isnan(np.nan)

True