# Действия с массивами

### Изменение формы массива

В предыдущем юните вы научились получать одномерные массивы из чисел с помощью функции arange. В NumPy существуют функции, которые позволяют менять форму массива.

Создадим массив из восьми чисел:

In [1]:
import numpy as np
arr = np.arange(8)
arr
# array([0, 1, 2, 3, 4, 5, 6, 7])

array([0, 1, 2, 3, 4, 5, 6, 7])

Поменять форму массива arr можно с помощью присвоения атрибуту **shape** кортежа с желаемой формой:

In [2]:
arr.shape = (2, 4)
arr
# array([[0, 1, 2, 3],
#        [4, 5, 6, 7]])

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

Как и принято в NumPy, первое число задало число строк, а второе — число столбцов.

Присвоение нового значения атрибуту shape изменяет тот массив, с которым производится действие.

Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, нужно использовать функцию **reshape**. Она также принимает в качестве аргумента кортеж из чисел для формы, но возвращает новый массив, а не изменяет исходный:



In [3]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4))
arr_new
# array([[0, 1, 2, 3],
#       [4, 5, 6, 7]])

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

У функции **reshape** есть дополнительный именованный аргумент **order**. Он задаёт принцип, по которому элементы заполняют массив новой формы. Если order='C' (по умолчанию), массив заполняется по строкам, как в примере выше. Если **order='F'**, массив заполняется числами по столбцам:

In [4]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4), order='F')
arr_new
# array([[0, 2, 4, 6],
#       [1, 3, 5, 7]])

array([[0, 2, 4, 6],
       [1, 3, 5, 7]])

Ещё одной часто используемой операцией с формой массива (особенно двумерного) является транспонирование. Эта операция меняет строки и столбцы массива местами. В NumPy эту операцию совершает функция **transpose**.

Будем работать с двумерным массивом:

In [5]:
arr = np.arange(8)
arr.shape = (2, 4)
arr
# array([[0, 1, 2, 3],
#        [4, 5, 6, 7]])

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

Транспонируем его:

In [7]:
arr_trans = arr.transpose()
arr_trans
# array([[0, 4],
#        [1, 5],
#        [2, 6],
#        [3, 7]])



array([[0, 4],
       [1, 5],
       [2, 6],
       [3, 7]])

При транспонировании одномерного массива его форма не меняется:

In [8]:
arr = np.arange(3)
print(arr.shape)
# (3,)
arr_trans = arr.transpose()
print(arr_trans.shape)
# (3,)

(3,)
(3,)


## Индексы и срезы в массивах

В определении массива указано, что он позволяет быстро получать элементы по индексу. Как же это происходит?

Создадим массив из шести чисел:

In [9]:
arr = np.linspace(1, 2, 6)
arr
# array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])m

array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])

Обратиться к его элементу по индексу можно так же, как и к списку:

In [10]:
print(arr[2])
# 1.4

1.4


Привычная запись для срезов работает и для одномерных массивов:

In [11]:
print(arr[2:4])
# [1.4 1.6]

[1.4 1.6]


Наконец, напечатать массив в обратном порядке можно с помощью привычной конструкции [::-1]:

In [12]:
print(arr[::-1])
# [2.  1.8 1.6 1.4 1.2 1. ]

[2.  1.8 1.6 1.4 1.2 1. ]


С многомерными массивами работать немного интереснее. Создадим двумерный массив из одномерного:

In [13]:
nd_array =  np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
nd_array
# array([[0. , 0.5, 1. , 1.5],
#        [2. , 2.5, 3. , 3.5],
#        [4. , 4.5, 5. , 5.5]])

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5],
       [4. , 4.5, 5. , 5.5]])

Можно воспользоваться привычной записью нескольких индексов в нескольких квадратных скобках:

In [14]:
nd_array[1][2]
# 3.0

3.0



Мы получили число из второй строки и третьего столбца массива.

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Мы бы так и делали, если бы приходилось работать со списком из списков. Однако проводить индексацию по массиву в NumPy можно проще: достаточно в одних и тех же квадратных скобках перечислить индексы через запятую. Вот так:
</div>

``nd_array[1, 2]
#3.0``

Как видите, получилось то же самое число. Также через запятую можно передавать срезы или даже их комбинации с индексами. Например, получим все элементы из колонки 3 для первых двух строк:

In [15]:
nd_array[:2, 2]
# array([1., 3.])

array([1., 3.])

Несмотря на то что в массиве этот срез является столбцом, вместо него мы получили одномерный массив в виде строки.

Можно применять срезы сразу и к строкам, и к столбцам:

In [16]:
nd_array[1:, 2:4]
# array([[3. , 3.5],
#       [5. , 5.5]])

array([[3. , 3.5],
       [5. , 5.5]])



Чтобы получить все значения из какой-то оси, можно оставить на её месте двоеточие. Например, из всех строк получим срез с третьего по четвёртый столбцы:

In [17]:
nd_array[:, 2:4]
# array([[1. , 1.5],
#       [3. , 3.5],
#       [5. , 5.5]])

array([[1. , 1.5],
       [3. , 3.5],
       [5. , 5.5]])

Чтобы получить самую последнюю ось (в данном случае все столбцы), двоеточие писать необязательно. Строки будут получены целиком по умолчанию:

In [18]:
nd_array[:2]
# array([[0. , 0.5, 1. , 1.5],
#       [2. , 2.5, 3. , 3.5]])



array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5]])

### Задание 7.2

Вам дан массив mystery

     mystery = np.array([[-13586,  15203,  28445, -27117,  -1781, -17182, -18049],
       [ 25936, -30968,  -1297,  -4593,   6451,  15790,   7181],
       [ 13348,  28049,  28655,  -6012,  21762,  25397,   8225],
       [ 13240,   7994,  32592,  20149,  13754,  11795,   -564],
       [-21725,  -8681,  30305,  22260, -17918,  12578,  29943],
       [-16841, -25392, -17278,  11740,   5916,    -47, -32037]],
      dtype=np.int16)

Выполните все пукты задания по порядку.

Пожалуйста, не меняйте названия переменных, в которых должны появиться ответы.

    В переменную elem_5_3 сохраните элемент из 5 строки и 3 столбца

    В переменную last сохраните элемент из последней строки последнего столбца

    В переменную line_4 сохраните строку 4

    В переменную col_2 сохраните предпоследний столбец

    Из строк 2-4 (включительно) получите столбцы 3-5 (включительно). Результат сохраните в переменную part

    Сохраните в переменную rev последний столбец в обратном порядке

    Сохраните в переменную trans транспонированный массив



In [19]:
mystery = np.array([[-13586,  15203,  28445, -27117,  -1781, -17182, -18049],
       [ 25936, -30968,  -1297,  -4593,   6451,  15790,   7181],
       [ 13348,  28049,  28655,  -6012,  21762,  25397,   8225],
       [ 13240,   7994,  32592,  20149,  13754,  11795,   -564],
       [-21725,  -8681,  30305,  22260, -17918,  12578,  29943],
       [-16841, -25392, -17278,  11740,   5916,    -47, -32037]],
      dtype=np.int16)

In [20]:
elem_5_3 = mystery[4,2]
elem_5_3

30305

In [21]:
last = mystery[len(mystery)-1, len(mystery[0])-1]
last

-32037

In [23]:
line_4  = mystery[3]
line_4

array([13240,  7994, 32592, 20149, 13754, 11795,  -564], dtype=int16)

In [24]:
col_2 = mystery [:, len(mystery[0]) -2]
col_2

array([-17182,  15790,  25397,  11795,  12578,    -47], dtype=int16)

In [25]:
part = mystery[1:4, 2:5]
part

array([[-1297, -4593,  6451],
       [28655, -6012, 21762],
       [32592, 20149, 13754]], dtype=int16)

In [27]:
rev = mystery[:, len(mystery[0])-1][::-1]
rev

array([-32037,  29943,   -564,   8225,   7181, -18049], dtype=int16)

In [28]:
trans = mystery.transpose()
trans

array([[-13586,  25936,  13348,  13240, -21725, -16841],
       [ 15203, -30968,  28049,   7994,  -8681, -25392],
       [ 28445,  -1297,  28655,  32592,  30305, -17278],
       [-27117,  -4593,  -6012,  20149,  22260,  11740],
       [ -1781,   6451,  21762,  13754, -17918,   5916],
       [-17182,  15790,  25397,  11795,  12578,    -47],
       [-18049,   7181,   8225,   -564,  29943, -32037]], dtype=int16)

## Сортировка одномерных массивов

Иногда возникает задача по сортировке значений в массиве. Для её решения существуют встроенная в NumPy функция sort. Она обладает дополнительными параметрами, в том числе возможностью сортировки многомерных массивов, однако пока что это нам не потребуется. Применять функцию можно двумя способами.

### Способ 1. Функция np.sort(<массив>) возвращает новый отсортированный массив:

In [29]:
arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print(arr)
# [23 12 45 12 23  4 15  3]
print(arr_new)
# [ 3  4 12 12 15 23 23 45]

[23 12 45 12 23  4 15  3]
[ 3  4 12 12 15 23 23 45]


### Способ 2. Функция <массив>.sort() сортирует исходный массив и возвращает None:

In [30]:
arr = np.array([23,12,45,12,23,4,15,3])
print(arr.sort())
# None
print(arr)
# [ 3  4 12 12 15 23 23 45]

None
[ 3  4 12 12 15 23 23 45]


## Работа с пропущенными данными

Начнём с примера — создадим массив:

In [31]:
data = np.array([4, 9, -4, 3])

Воспользуемся встроенной в NumPy функцией *sqrt*, чтобы посчитать квадратные корни из элементов.

In [32]:
roots = np.sqrt(data)
roots
# RuntimeWarning: invalid value encountered in sqrt
# array([2.        , 3.        ,        nan, 1.73205081])

  roots = np.sqrt(data)


array([2.        , 3.        ,        nan, 1.73205081])

NumPy выдал предупреждение о том, что в функцию sqrt попало некорректное значение. Это было число -4, а как вы помните, корень из отрицательного числа в действительных числах не берётся. Однако программа не сломалась окончательно, а продолжила работу. На том месте, где должен был оказаться корень из -4, теперь присутствует объект nan. Он расшифровывается как Not a number (не число). Этот объект аналогичен встроенному типу None, но имеет несколько отличий:

#### Отличие 1 
. None является отдельным объектом типа NoneType. np.nan — это отдельный представитель класса float:

In [33]:
print(type(None))
# <class 'NoneType'>
print(type(np.nan))
# <class 'float'>
type(np.nan)

<class 'NoneType'>
<class 'float'>


float

#### Отличие 2. 
None могут быть равны друг другу, а np.nan — нет:

In [34]:
print(None == None)
# True
print(np.nan == np.nan)
# False

True
False


Как вы помните, чтобы грамотно сравнить что-либо с None, необходимо использовать оператор is. Это ещё более актуально для np.nan. Однако None даже через is не является эквивалентным np.nan:

In [35]:
print(None is None)
# True
print(np.nan is np.nan)
# True
print(np.nan is None)
# False

True
True
False


Иногда работать с отсутствующими данными всё же нужно. Они могут возникнуть не только потому, что мы применили функцию к некорректному аргументу. Например, при анализе вакансий на сайте для некоторых из них может быть не указана зарплата, но при этом нам необходимо проанализировать статистику по зарплатам на сайте. Если попробовать посчитать сумму массива, который содержит np.nan, в итоге получится nan:

In [36]:
sum(roots)
# nan

nan

Можно заполнить пропущенные значения, например, нулями. Для этого с помощью функции np.isnan(<массив>) узнаем, на каких местах в массиве находятся «не числа»:

In [37]:
np.isnan(roots)
# array([False, False,  True, False])

array([False, False,  True, False])

Можно использовать полученный массив из True и False для извлечения элементов из массива roots, на месте которых в булевом массиве указано True. Таким способом можно узнать сами элементы, которые удовлетворяют условию np.isnan:

In [38]:
roots[np.isnan(roots)]
# array([nan])

array([nan])



Этим элементам можно присвоить новые значения, например 0:

In [39]:
roots[np.isnan(roots)] = 0
roots
# array([2.        , 3.        , 0.        , 1.73205081])

array([2.        , 3.        , 0.        , 1.73205081])

### Задание 7.4

Вам дан массив mystery:

``mystery = np.array([ 12279., -26024.,  28745.,  np.nan,  31244.,  -2365.,  -6974.,
        -9212., np.nan, -17722.,  16132.,  25933.,  np.nan, -16431.,
        29810.], dtype=np.float32)``

    Получите булевый массив nans_index с информацией о np.nan в массиве mystery: True - значение пропущено, False - значение не пропущено

    В переменную n_nan сохраните число пропущенных значений

    Скопируйте массив mystery в массив mystery_new. Заполните пропущенные значения в массиве mystery_new нулями

    Поменяйте тип данных в массиве mystery на int32 и сохраните в переменную mystery_int

    Отсортируйте значения в массиве по возрастанию и сохраните результат в переменную array

    Сохраните в массив table двухмерный массив, полученный из массива array. В нём должно быть 5 строк и 3 столбца. Причём порядок заполнения должен быть по столбцам!

Например,

 1, 2, 3, 4 -> 1    3
               2    4

    Сохраните в переменную col средний столбец из table

Примечание. Не меняйте названия переменных.

In [56]:
mystery = np.array([ 12279., -26024.,  28745.,  np.nan,  31244.,  -2365.,  -6974.,
        -9212., np.nan, -17722.,  16132.,  25933.,  np.nan, -16431.,
        29810.], dtype=np.float32)

In [43]:
nans_index = np.isnan(mystery)
nans_index

array([False, False, False,  True, False, False, False, False,  True,
       False, False, False,  True, False, False])

In [46]:
n_nan = sum(nans_index)
n_nan

3

In [61]:
mystery_new = mystery.copy()
mystery_new[nans_index] = 0
mystery_new

array([ 12279., -26024.,  28745.,      0.,  31244.,  -2365.,  -6974.,
        -9212.,      0., -17722.,  16132.,  25933.,      0., -16431.,
        29810.], dtype=float32)

In [67]:
mystery_int = np.int32(mystery)
mystery_int

  mystery_int = np.int32(mystery)


array([      12279,      -26024,       28745, -2147483648,       31244,
             -2365,       -6974,       -9212, -2147483648,      -17722,
             16132,       25933, -2147483648,      -16431,       29810],
      dtype=int32)

In [69]:
array = np.sort(mystery)
array

array([-26024., -17722., -16431.,  -9212.,  -6974.,  -2365.,  12279.,
        16132.,  25933.,  28745.,  29810.,  31244.,     nan,     nan,
           nan], dtype=float32)

In [71]:
table = array.reshape(5,3, order='F')
table

array([[-26024.,  -2365.,  29810.],
       [-17722.,  12279.,  31244.],
       [-16431.,  16132.,     nan],
       [ -9212.,  25933.,     nan],
       [ -6974.,  28745.,     nan]], dtype=float32)

In [72]:
col = table[:,1]
col

array([-2365., 12279., 16132., 25933., 28745.], dtype=float32)