# **NumPy ndarray: объект многомерного массива**

Одна из ключевых особенностей NumPy — объект `ndarray` для предствалвения N-мерного массива. Это быстрый и гибкий контейнер для хранения больших наборов данных в Python. Массивы позволяют выполнять математические операции над целыми блоками данных, применяя такой же синтаксис, как для соответствующих операций над скалярами.

Сгенерируем небольшой массив случайных данных:

In [2]:
import numpy as np #лучше называть NumPy как np, так удобнее и привычнее

In [4]:
data = np.random.randn(2,3) #создаем массив из двух строк и трех столбцов (два по три) со случайными числами
data

array([[ 0.90644754, -0.96777877, -0.51500042],
       [-0.1240635 , -0.41918552,  0.31516249]])

Затем произведем математические операции над `data`:

In [None]:
data*10

array([[-7.73032184,  7.26176587,  5.4418631 ],
       [-2.41239401, 18.65593457, 10.59738647]])

In [None]:
data+data

array([[-1.54606437,  1.45235317,  1.08837262],
       [-0.4824788 ,  3.73118691,  2.11947729]])

`ndarray` — это обобщенный многомерный контейнер для однородных данных, то есть в нем могут храниться только элементы *одного* типа. У любого массива есть атрибут `shape` — кортеж, описывающий *размер* по каждому измерению, и атрибут `dtype` — объект, описывающий *тип данных* в массиве:

In [None]:
data.shape #кортеж, описывающий форму массива

(2, 3)

In [None]:
data.dtype #тип данных, содержащихся в массиве

dtype('float64')

# **Создание ndarray**

Проще всего создать массив с помощью функции `array`. Она принимает любой объект, похожий на последовательность (в том числе другой массив) и порождает новый массив NumPy, содержащий переданные данные. Например, такое преобразование можно проделать со списком:

In [None]:
data1 = [6,5.5,33,490,0,1]
arr1 = np.array(data1) #создает массив из указанного выше списка
arr1

array([  6. ,   5.5,  33. , 490. ,   0. ,   1. ])

Вложенные последовательности, например список списков одинаковой длины, можно преобразовать в *многомерный массив*:

In [None]:
data2 = [[1,2,3],[4,5,6],[7,8,9]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Если явно не задано противное, то функция `np.array` пытается самостоятельно определить подходящий тип данных для создаваемого массива. Этот тип данных хранится в специальном объекте `dtype`. Например, для созданных выше массивов:

In [None]:
arr1.dtype

dtype('float64')

In [None]:
arr2.dtype

dtype('int64')

Помимо `np.array` существует еще ряд функций для создания массивов. Например, `zeros` и `ones` создают массивы заданной длины, состоящие из нулей и единиц соответственно, а `shape.empty` создает массив, не инициализируя его элементы. Для создания многомерных массивов, нужно передать *кортеж*, описывающий форму:

In [None]:
np.zeros(10) #создает массив из 10 (в данном случае) нулей

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [None]:
np.zeros((3,5)) #создает массив 3 по 5 элементов, на вход подается КОРТЕЖ!

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [None]:
np.empty((2,3,2)) #создает массив 2 по 3 по 2, содержащий пустые элементы

array([[[4.66603277e-310, 2.47032823e-322],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 8.60952352e-072]],

       [[4.75702282e-090, 2.57492268e-056],
        [6.55037313e-043, 1.03056816e-071],
        [3.99910963e+252, 1.46030983e-319]]])

Полагать, что `np.empty` возвращает массив из одних нулей, небезопасно. Часто возвращается массив, содержащий неинициализированный мусор, как приведено в примере выше.

Функция `arange` — вариант встроенной в Python функции `range`, только возвращаемым значением является массив:

In [None]:
np.arange(10) #создает массив из элементов от 0 до 9 

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Краткий список стандартных функций создания массива:

In [None]:
array #преобразует входные данные (список, кортеж, массив или другую последовательность) в ndarray
asarray #преобразует входные данные в ndarray, но не копирует, если на вход уже дан ndarray
arange #аналогична функции range, но возвращается массив, а не список
ones, ones_like #порождает массив из единиц, функция ones_like принимает другой массив и порождает массив единиц с такими же параметрами
zeros, zeros_like #порождает массив из нулей, функция zeros_like принимает другой массив и порождает массив нулей с такими же параметрами
empty, empty_like #порождает пустой массив, функция empty_like принимает другой массив и порождает пустой массив с такими же параметрами
full, full_like #порождает массив с заданными атрибутами, в которых все элементы равны заданному символу-заполнителю, функция full_like принимает другой массив и порождает заполненный указанный символом массив с такими же параметрами
eye, identity #создают единичную квадратную матрицу NxN, на главной диагонали равны 1, все остальные — 0

# **Тип данных для ndarray**

*Тип данных*, или `dtype`, — это специальный объект, который содержит информацию (*метаданные*), необходимую `ndarray` для интерпретации содержимого блока памяти:

In [None]:
arr1 = np.array([1,2,3], dtype = np.float64)
arr1.dtype

dtype('float64')

In [None]:
arr2 = np.array([1,2,3], dtype = np.int32)
arr2.dtype

dtype('int32')

Можно явно преобразовать, или *привести*, массив одного типа к другому, воспользовавшись методом `astype`:

In [None]:
arr = np.array([1,2,3,4,5]) #массив целых чисел
arr.dtype

dtype('int64')

In [None]:
float_atrr = arr.astype(np.float64) #приводим массив целых чисел к массиву чисел с плавающей точкой
float_atrr.dtype

dtype('float64')

При преобразовании массивов чисел с плавающей точкой к массиву целых чисел дробная часть отбрасывается:

In [None]:
arr = np.array([1.5,2.3,4.9,-5.6]) #массив чисел с плавающей точкой
arr.dtype

dtype('float64')

In [None]:
int_arr = arr.astype(np.int32) #приводим массив чисел с плавающей точкой к массиву целых чисел, дробные части отбрасываются
int_arr.dtype

dtype('int32')

Если по какой-то причине выполнить приведение не удастся (например, если строку нельзя преобразовать в тип `float64`), то будет возбуждено исключение TypeError.
Можно также использовать атрибут `dtype` другого массива:

In [None]:
int_array = np.arange(16)

In [None]:
calibers = np.array([.22,.270,.357,.380,.44,.50], dtype = np.float64)

In [None]:
int_array.astype(calibers.dtype) #применяем к массиву целых чисел тип из массива чисел с плавающей точкой

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14., 15.])

При вызове `astype` *всегда* создается новый массив (данные копируются), даже если новый `dtype` не отличается от старого.

# **Арифметические операции с массивами NumPy**

Массивы важны, потому что позволяют выразить операции над совокупностями данных без выписывания циклов `for`. Обычно это называется *векторизацией*. Любая арифметическая операция над массивами одинакового размера применяется к соответственным элементам:

In [None]:
arr = np.array([[1,2,3],[4,5,6]], dtype = np.float64)

array([[1., 2., 3.],
       [4., 5., 6.]])

In [None]:
arr+arr

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [None]:
arr-arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [None]:
arr*arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [None]:
1/arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [None]:
arr*2

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

Сравнение массивов одинакового размера дает булев массив:

In [None]:
arr2 = np.array([[7,8,2],[4,6,0]], dtype = np.float64)

In [None]:
arr2 > arr1

array([[ True,  True, False],
       [ True,  True, False]])

# **Индексирование и вырезание**

Индексирование массивов NumPy для одномерных массивов выглядит как работами со списками:

In [None]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
arr[5]

5

In [None]:
arr[5:8]

array([5, 6, 7])

In [None]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

Если присвоить скалярное значение срезу, как в `arr[5:8] = 12`, то оно распространяется (или *укладывается*) на весь срез. Важнейшее отличие от списков состоит в том, что срез массива является *представлением* исходного массива. Это означает, что данные на самом деле НЕ копируются, а любые изменения, внесенные в представление, попадают и в исходный массив. Продемонстрируем это:

In [None]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

Если теперь изменить значения в `arr_slice`, то изменения отрпзятся и на исходном массиве `arr`:

In [None]:
arr_slice[1] = 12345
arr_slice

array([   12, 12345,    12])

In [None]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

Присваивание неуточненному срезу `[ : ]` приводит к записи значения во все элементы массива:

In [None]:
arr_slice[:] = 64
arr_slice

array([64, 64, 64])

In [None]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

Чтобы получить копию, а не представление среза массива, нужно выполнить операцию копирования явно, например `arr[5:8].copy()`

Для массивов большей размерности и вариантов больше. В случае двумерного массива результатом индексирования с одним индексом является не скаляр, а одномерный массив:

In [None]:
import numpy as np

In [None]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d[2]

array([7, 8, 9])

К отдельным элементам можно обращаться рекурсивно. Но это слишком громоздко, поэтому для выбора одного элемента можно указать список индексов через запятую. Таким образом, следующие две конструкции эквивалентны:

In [None]:
arr2d[0][2]

3

In [None]:
arr2d[0,2]

3

Если при работе с многомерным массивом опустить несколько последних индексов, то будет возвращен объект `ndarray` меньшей размерности, содержащий данные по указанным при индексировании осям. Так, пусть имеется массив `arr3d` размерности 2x3x3:

In [None]:
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

Тогда `arr3d[0]` — массив размерности 2x3:

In [None]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
arr3d[0,1,1]

5

Выражению `arr3d[0]` можно присвоить как скалярное значение, так и массив:

In [None]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [None]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

**Индексирование срезами**

Как и для одномерных объектов наподобие списков, для объектов `ndarray` можно формировать срезы. Рассмотрим двумерный массив `arr2d`. Применение к нему вырезания дает несколько иной результат:

In [None]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

Вырезание производится вдоль оси 0, первой оси. Поэтому срез содержит диапазон элементов вдоль этой оси. Выражение `arr2d[:2]` полезно читать так: "Выбрать первые две строки `arr2d`".
Можно указать несколько срезов — как несколько индексов:

In [None]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

При таком вырезании мы всегда получаем представления массивов с таким же числом измерений, как у исходного. Сочетая срезы и целочисленные индексы, можно получить массивы меньшей размерности. Например, можно выбрать вторую строку, а в ней только первые два столбца:

In [None]:
arr2d[1,:2]

array([4, 5])

Аналогично можно выбрать третий столбец, а в нем только первые две строки:

In [None]:
arr2d[:2,2]

array([3, 6])

Двоеточие без указания числа означает, что нужно взять всю ось целиком, поэтому для получения осей только высших размерностей можно поступить следующим образом:

In [None]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

Присваивание выражению-срезу означает присваивание всем элементам среза:

In [None]:
arr2d[:,0] = 2
arr2d

array([[2, 2, 3],
       [2, 5, 6],
       [2, 8, 9]])

# **Булево индексирование**

Пусть имеется некоторый массив с данными и массив имен, содержащий дубликаты. Воспользуемся функцией `randn` из модуля `nupmpy.random`, чтобы сгенерировать случайные с нормальным распределением:

In [None]:
names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])
data = np.random.randn(7,4) #массив 7x4 (7 строк и 4 столбца)

In [None]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [None]:
data

array([[ 0.71326048, -0.8039749 ,  1.90679405, -0.41555358],
       [ 0.16108191, -1.33889656, -0.48741991, -0.07894189],
       [-1.24979864,  1.12976922, -0.35257518,  0.38986207],
       [ 0.24994173, -0.26182153,  0.54479364, -0.02486733],
       [ 0.00680334,  0.43147307, -0.42916062, -0.23888138],
       [ 0.08702321,  0.25888886,  0.03825027,  0.2946027 ],
       [ 0.47864453,  0.30008687, -0.5351332 ,  2.00968075]])

Допустим, что каждое имя соответствует строке в массиве `data`, и мы хотим выбрать все строки, которым соответствует имя `'Bob'`. Операции сравнения массивов (например, `==`), как и арифметические, также векторизированы, поэтому сравнение `names` со строкой `'Bob'` дает массив булевых величин:

In [None]:
names == 'Bob'


array([ True, False, False,  True, False, False, False])

Этот булев массив можно использовать для индексирования другого массива:

In [None]:
data[names == 'Bob']

array([[ 0.24227079,  0.07099189, -0.52316092, -0.56910029],
       [ 0.09366753, -1.1465904 ,  0.24240031,  1.37788162]])

Длина булева массива должна совпадать с длиной индексируемой им оси. Можно даже сочетать булевы массивы со срезами и целыми числами (или последовательности целых чисел).
Далее выберем строки, в которых `names == 'Bob'`, и одновременно зададим индекс столбцов:

In [None]:
data[names == 'Bob',2:]

array([[-0.52316092, -0.56910029],
       [ 0.24240031,  1.37788162]])

Чтобы выбрать все, кроме `'Bob'`, можно либо воспользоваться оператором сравнения `!=`, либо применить отрицание условия, обозначаемого знаком `~`:

In [None]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [None]:
data[~(names == 'Bob')]

array([[ 0.65024313, -0.46749802, -3.10595977, -0.72239311],
       [-1.70633307,  1.43409247, -0.9539643 ,  1.27167322],
       [-0.18296507, -1.43385179,  0.78949491,  0.56733869],
       [-0.32181386,  0.29830929, -0.47049757,  2.22600037],
       [-2.15179131, -0.8837749 , -0.89172346,  0.89452507]])

Если требуется инвертировать условие общего вида, то пригодится оператор отрицания `~`:

In [None]:
cond = names == 'Bob'
data[~cond]

array([[ 0.65024313, -0.46749802, -3.10595977, -0.72239311],
       [-1.70633307,  1.43409247, -0.9539643 ,  1.27167322],
       [-0.18296507, -1.43385179,  0.78949491,  0.56733869],
       [-0.32181386,  0.29830929, -0.47049757,  2.22600037],
       [-2.15179131, -0.8837749 , -0.89172346,  0.89452507]])

Чтобы сформировать составное булево условие, включающее два из трех имен, воспользуемся булевыми операторами `&` (И) и `|` (ИЛИ):

In [None]:
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [None]:
data[mask]

array([[ 0.24227079,  0.07099189, -0.52316092, -0.56910029],
       [-1.70633307,  1.43409247, -0.9539643 ,  1.27167322],
       [ 0.09366753, -1.1465904 ,  0.24240031,  1.37788162],
       [-0.18296507, -1.43385179,  0.78949491,  0.56733869]])

При выборке данных из массива путем булева индексирования *всегда* создается копия данных, даже если возвращенный массив совпадает с исходным.

Ключевые слова `and` и `or` с булевыми массивами НЕ работают. Следует использовать вместо них `&` (И) и `|` (ИЛИ).

Задание значений с помощью булевых массивов работает в соответствии с ожиданиями. Чтобы заменить все отрицательные значения в массиве `data` нулем, нужно всего лишь написать:

In [None]:
data = np.random.randn(7,4) #массив 7x4 (7 строк и 4 столбца)
data[data < 0] = 0
data

array([[0.30537299, 0.        , 0.        , 0.        ],
       [0.        , 0.        , 1.19138131, 0.97060613],
       [0.18382704, 0.48221523, 0.48437872, 0.        ],
       [0.        , 0.        , 0.87006106, 0.        ],
       [1.49062293, 0.        , 0.55405338, 0.20888277],
       [0.        , 0.        , 0.08647455, 0.5421711 ],
       [0.        , 0.        , 0.        , 1.08769217]])

Задать целые строки или столбцы с помощью одномерного булева массива тоже просто:

In [None]:
data = np.random.randn(7,4) #массив 7x4 (7 строк и 4 столбца)
data[names != 'Joe'] = 7
data

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [-0.04897217, -0.76527705,  0.27296157,  0.36334102],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.88764042,  1.12306806, -0.6473123 , -0.35592014],
       [ 1.464996  , -1.02405859,  0.46495244, -0.36622011]])

# **Прихотливое индексирование**

Термином *прихотливое индексирование* (fancy indexing) в NumPy обозначается индексирование с помощью целочисленных массивов. Например, имеется массив 8x4:

In [3]:
arr = np.empty((8,4))

In [6]:
for i in range(8):
  arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

Чтобы выбрать подмножество строк в определенном порядке, можно просто передать список или массив целых чисел, описывающих желаемый порядок:

In [8]:
arr[[4,3,0,6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

Если указать отрицательный индекс, то номер соответствующей строки будет отсчитываться с конца:

In [9]:
arr[[-5,-3,-1]]

array([[3., 3., 3., 3.],
       [5., 5., 5., 5.],
       [7., 7., 7., 7.]])

При передаче нескольких массивов индексов делается несколько иное: выбирается одномерный массив элементов, соответствующий каждому кортежу индексов:

In [17]:
arr = np.arange(32).reshape((8,4)) #создаем одномерный массив от 0 до 31 и придаем ему форму 8x4
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [12]:
arr[[1,5,7,2],[0,3,1,2]] #выбираем числа, которые стоят в 1 строке 0 позиции, 5 строке 3 позиции, 7 строке 1 позиции и 2 строке 2 позиции

array([ 4, 23, 29, 10])

В данном случае отбираются элементы в позициях `[1,0]`, `[5,3]`, `[7,1]`, `[2,2]`. Вне зависимости от количества измерений массива (в данном случае двух) результат прихотливого индексирования ВСЕГДА одномерный.

В данном случае поведение прихотливого индексирования отличается от того, что принято ожидать: получить прямоугольный регион, образованный подмножеством строк и столбцов матрицы. Добиться такого результата можно следующим образом:

In [14]:
arr[[1,5,7,2]][:,[0,3,1,2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

Прихотливое индексирование, в отличие от вырезания, всегда порождает новый массив, в который копируются данные.

# **Транспонирование массивов и перестановка осей**

*Транспонирование* — частный случай изменения формы, при этом также возвращается представление исходных данных без какого-либо копирования. У массивов есть метод `transpose` и специальный атрибут `T`:

In [18]:
arr = np.arange(15).reshape((3,5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [19]:
arr.T #переворот матрицы

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

При вычислениях с матрицами эта операция применяется очень часто. Вот, например, как вычисляется матрица XTX с помощью метода `np.dot`:

In [21]:
arr = np.random.randn(6, 3)
arr

array([[ 0.59207973, -0.41038751,  0.20859672],
       [ 0.14579386, -1.43170988, -1.25429681],
       [-0.9606003 ,  0.50098391, -0.08616824],
       [-1.66029495,  0.63128429, -0.67083275],
       [ 2.25401759,  0.52971933, -0.84417609],
       [ 1.18271661, -1.35686217, -0.11292066]])

In [22]:
np.dot(arr.T, arr) #скалярное умножение транспонированной матрицы на исходную

array([[10.53056039, -2.39186679, -0.89915033],
       [-2.39186679,  4.98939334,  0.94956995],
       [-0.89915033,  0.94956995,  2.79959898]])

Для массивов большей размерности метод `transpose` принимает кортеж номеров осей, описывающий их перестановку:

In [45]:
arr = np.arange(16).reshape((2,2,4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [46]:
arr.transpose((1,0,2))

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

Здесь порядок осей изменен: вторая ось стала первой, первая — второй, третья осталась неизменной.

Обычное транспонирование с помощью `.T` — частный случай перестановки осей. У объекта `ndarray` имеется метод `swapaxes`, который принимает пару номеров осей и меняет их местами, в результате чего данные реорганизуются:

In [47]:
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [48]:
arr.swapaxes(1,2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

Метод `swapaxes` также возвращает представление без копирования данных.