[Оригинал © Семён Лукашевский](https://pyprog.pro/broadcasting.html)

### Транслирование массивов

Иногда бывает необходимо выполнять арифметические операции c массивами разной формы. Допустим, мы хотим умножить один массив на другой, причем размерность у массивов будет разной:

In [2]:
import numpy as np

a = np.arange(9).reshape(3, 3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [3]:
b = np.array([3, 5, 7])
b

array([3, 5, 7])

In [4]:
a * b

array([[ 0,  5, 14],
       [ 9, 20, 35],
       [18, 35, 56]])

С точки зрения линейной алгебры - это бред. Но на самом деле в таком умножении есть довольно много логики: каждый столбец из первого массива был умножен на соответствующий элемент из второго массива. Если бы подобный механизм в NumPy отсутствовал, нам пришлось бы делать подобные операции вручную.

Транслирование для двух (и более) массивов выполняется по двум правилам:

- если массивы имеют различное количество осей (измерений), то к размерностям массивов с недостающими осями будет добавляться единица, до тех пор пока размерности (количество осей) двух массивов не совпадут;

- если по какой-то из осей находится всего один элемент, то эта ось будет вести себя так, как если бы в ней был не один элемент, а ровно столько, сколько элементов в соответствующей оси другого массива.

Но прежде чем говорить о применении этих правил в транслировании давайте сначала разберем несколько простых примеров. Умножим одномерный массив на число (скаляр).

In [5]:
a = np.arange(1, 11)
a

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [6]:
a * 2

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

Каждый элемент массива a умножился на число b - ничего сложного. Но давайте перепишем этот пример немного иначе.

In [7]:
a = np.arange(1, 11)
a

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [8]:
b = np.array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2])
b

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [9]:
a * b

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

Результат не изменился. Но во втором случае мы использовали гораздо больше памяти, что не очень-то эффективно. Теперь давайте попробуем что-нибудь посложнее - умножим каждый столбец двумерного массива на соответствующий элемент из другого, одномерного массива.

In [10]:
a = np.arange(9).reshape(3, 3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [11]:
b = np.array([3, 5, 7])
b

array([3, 5, 7])

In [12]:
a * b

array([[ 0,  5, 14],
       [ 9, 20, 35],
       [18, 35, 56]])

А теперь представьте, что у нас есть трехмерный массив a

In [13]:
a = np.arange(12).reshape(2, 2, 3)
a

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

И к каждому его элементу нам нужно прибавить единицу. Я думаю, что теперь понятно насколько это просто сделать в NumPy:

In [14]:
a + 1

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

В NumPy существует понятие - совместимость размеров массивов. Два размера считаются совместимыми, если они равны или один из размеров равен 1. Например:

In [15]:
a = np.arange(4).reshape(2, 2)
a

array([[0, 1],
       [2, 3]])

In [16]:
b = np.array([10])
b

array([10])

In [17]:
a + b

array([[10, 11],
       [12, 13]])

Но давайте разберем пример посложнее.

In [18]:
a = np.ones(4).reshape(2, 2)
a

array([[1., 1.],
       [1., 1.]])

In [19]:
b = np.arange(6).reshape(3, 1, 2)
b

array([[[0, 1]],

       [[2, 3]],

       [[4, 5]]])

In [20]:
a + b

array([[[1., 2.],
        [1., 2.]],

       [[3., 4.],
        [3., 4.]],

       [[5., 6.],
        [5., 6.]]])

[Типы данных в NumPy](https://pyprog.pro/data_types.html)

In [29]:
np.sctypeDict

{'?': numpy.bool_,
 0: numpy.bool_,
 'byte': numpy.int8,
 'b': numpy.int8,
 1: numpy.int8,
 'ubyte': numpy.uint8,
 'B': numpy.uint8,
 2: numpy.uint8,
 'short': numpy.int16,
 'h': numpy.int16,
 3: numpy.int16,
 'ushort': numpy.uint16,
 'H': numpy.uint16,
 4: numpy.uint16,
 'i': numpy.int32,
 5: numpy.int32,
 'uint': numpy.uint64,
 'I': numpy.uint32,
 6: numpy.uint32,
 'intp': numpy.int64,
 'p': numpy.int64,
 7: numpy.int64,
 'uintp': numpy.uint64,
 'P': numpy.uint64,
 8: numpy.uint64,
 'long': numpy.int64,
 'l': numpy.int64,
 'L': numpy.uint64,
 'longlong': numpy.int64,
 'q': numpy.int64,
 9: numpy.int64,
 'ulonglong': numpy.uint64,
 'Q': numpy.uint64,
 10: numpy.uint64,
 'half': numpy.float16,
 'e': numpy.float16,
 23: numpy.float16,
 'f': numpy.float32,
 11: numpy.float32,
 'double': numpy.float64,
 'd': numpy.float64,
 12: numpy.float64,
 'longdouble': numpy.float128,
 'g': numpy.float128,
 13: numpy.float128,
 'cfloat': numpy.complex128,
 'F': numpy.complex64,
 14: numpy.complex64,


In [30]:
np.int64(True)

1

Если нужна информация о каком-то конкретном типе чисел с плавающей запятой, то ее можно запросить с помощью функции finfo():

In [31]:
np.finfo(np.float64)

finfo(resolution=1e-15, min=-1.7976931348623157e+308, max=1.7976931348623157e+308, dtype=float64)

In [33]:
np.arange(5, dtype=np.int8)    #  Cоздали массив из чисел типа int64

array([0, 1, 2, 3, 4], dtype=int8)

### Структурированные массивы

Все массивы в NumPy должны быть однородными т.е. состоять из элементов одинакового типа. Как правило, большинство данных могут быть очень легко представлены в виде таких массивов, но это не всегда так. Данные могут иметь сложную структуру. Для работы с такими данными NumPy предоставляет возможность создавать структурированные массивы. Структурированный массив - это массив, который организован как последовательность именованных полей (столбцов), причем каждое поле может содержать данные любого типа.


In [1]:
import numpy as np

cars = np.array([('mazda', 4, 3573.5),
                 ('tesla', 2, 4226.81),
                 ('bmv', 8, 3489.21)],
                  dtype = [('model', 'U10'), 
                           ('quantity', 'i4'), 
                           ('value', 'f4')])

In [2]:
cars

array([('mazda', 4, 3573.5 ), ('tesla', 2, 4226.81), ('bmv', 8, 3489.21)],
      dtype=[('model', '<U10'), ('quantity', '<i4'), ('value', '<f4')])

В данном примере, cars - это одномерный массив, который состоит из трех элементов: ('mazda', 4, 3573.5), ('tesla', 2, 4226.81) и ('bmv', 8, 3489.21). С первого взгляда это не совсем очевидно, но в этом легко убедиться:

In [3]:
cars.shape

(3,)

Такой массив проще всего представить в виде таблицы, где каждая строка является элементом массива cars. Каждый элемент представляет собой структуру, которая состоит из трех полей (столбцов). В каждом поле хранятся данные определенного типа, которые перечислены в dtype: первое поле, 'model' - это модель автомобиля, представленная в виде строки из символов юникода длинной не более 10 символов; второе поле, 'quantity' - это количество имеющихся автомобилей, представленное в виде 32-х битного целого числа; третье поле, 'value' - это стоимость автомобиля, представленная в виде 32-х битного числа с плавающей точкой.

Первое, что настораживает, так это использование символьных кодов для определения типа данных каждого поля. Конечно, мы можем воспользоваться объектами dtype вместо символьных кодов:

In [6]:
cars = np.array([('mazda', 4, 3573.5),
                     ('tesla', 2, 4226.81),
                     ('bmv', 8, 3489.21)],
             dtype = [('model', np.dtype('unicode')),
                      ('quantity', np.dtype('int32')),
                      ('value', np.dtype('float32'))])

Однако, в выводе массива мы все равно увидим символьные коды типов данных (!) и не увидим марок автомобилей:

In [7]:
cars

array([('', 4, 3573.5 ), ('', 2, 4226.81), ('', 8, 3489.21)],
      dtype=[('model', '<U'), ('quantity', '<i4'), ('value', '<f4')])

Даже несмотря на то, что использование символьных кодов не рекомендуется в самой официальной документации, тем не менее, они все равно активно используются самим NumPy.

Второе, что кажется немного странным - это отсутствие очевидных способов определять длину строк с помощью np.dtype('unicode'), которая по умолчанию равна 0. Ну и третья странность которая бросается в глаза это наличие символов '<' и '> в выводе: dtype=[('model', '<U'), ('quantity', '<i4'), ('value', '<f4')]. Данные символы используются для указания порядка байтов, т.е. способу представления данных в памяти машины. Если число или данные не могут быть представлены одним байтом, то всегда необходимо указывать в каком порядке байты записываются в памяти компьютера. Если самый старший байт сохраняется первым, то это обозначается символом '>', если первым сохраняется самый младший байт, то символом '<'. Чаще всего выбор порядка байтов произволен и определяется простыми соглашениями.

В общем без символьных кодов при создании структурированных массивов обойтись невозможно, а если и возможно, то сделать это очевидными методами вряд ли получится. Можно подумать, что это серьезный недостаток NumPy, но скорее всего это связано с пережитками прошлого предшественника Numeric. В самых разных источниках этот момент вообще никак не освещается. Тем не менее, структурированные массивы NumPy прекрасно работают, очень гибкие и активно используются в самых разных направлениях.

И так, без символьных кодов типов данных при работе с структурированными массивами не обойтись. Чтож, ничего сверхсложного в этом нет:

In [8]:
cars = np.array([('mazda', 4, 3573.5),
                     ('tesla', 2, 4226.81),
                     ('bmv', 8, 3489.21)],
                     dtype = [('model', 'U10'), ('quantity', 'i4'), ('value', 'f4')])

In [9]:
cars

array([('mazda', 4, 3573.5 ), ('tesla', 2, 4226.81), ('bmv', 8, 3489.21)],
      dtype=[('model', '<U10'), ('quantity', '<i4'), ('value', '<f4')])

Обращаться к элементам структурированного массива можно по индексу:

In [10]:
cars[1]

('tesla', 2, 4226.81)

In [11]:
cars[1][0]

'tesla'

Для получения доступа к отдельному полю достаточно указать его в индексе:

In [13]:
cars['model']

array(['mazda', 'tesla', 'bmv'], dtype='<U10')

In [14]:
cars['quantity']

array([4, 2, 8], dtype=int32)

In [15]:
cars['quantity'][1] = 5    #  Можем изменить значение поля.

In [16]:
cars

array([('mazda', 4, 3573.5 ), ('tesla', 5, 4226.81), ('bmv', 8, 3489.21)],
      dtype=[('model', '<U10'), ('quantity', '<i4'), ('value', '<f4')])

[Подробнее](https://pyprog.pro/structured_arrays.html)