# Массивы в NumPy
В этом лонгриде рассмотрим, что такое numpy-массивы. Как их создавать и применять в работе

In [1]:
# np - популярное сокращение numpy
import numpy as np

## Создание массива
Основная сущности при работе с numpy - массивы **ndarray** (n-dimensional arrays).

При создании массива необходимо указать его размер и тип его элементов (иначе будет выбран тип по умолчанию).

Наиболее популярные методы для создания массивов:
- `np.zeros()` - массив, заполненный нулями
- `np.ones()` - массив, заполненный единицами
- `np.arange()` - массив из чисел "от ... до ..." - аналогично функции `range`
- `np.random.rand()` - массив, заполненный равномерно распределёнными случайными значениями
- `np.empty()` - массив, заполненный случайными данными из оперативной памяти
- `np.array()` - массив, преобразованный из другой структуры данных (списка, словаря и т.д.)

Подробнее о типах элементов в numpy можно прочитать, например, [по этой ссылке](https://numpy.org/doc/stable/user/basics.types.html).
Заметьте, что типы данных в numpy больше напоминают типы из языка С

![title](imgs/array_anatomy.png)

[Источник](http://koldunov.net/?p=381) картинки

In [2]:
# создадим массив размера 2 строки на 3 столбца из нулей
# второй аргумент функции - тип элементов массива. 
# но можно использовать и имя аргумента - dtype
np.zeros((2,3), int)

array([[0, 0, 0],
       [0, 0, 0]])

In [3]:
# проверим, что тип элеметов - это int64
np.info(np.zeros((2,3), dtype=int))
# см. последнюю строку в результате ниже

class:  ndarray
shape:  (2, 3)
strides:  (12, 4)
itemsize:  4
aligned:  True
contiguous:  True
fortran:  False
data pointer: 0x29d175b4700
byteorder:  little
byteswap:  False
type: int32


In [4]:
# то же самое, но массив из единиц
np.ones((2,3), dtype=int)

array([[1, 1, 1],
       [1, 1, 1]])

In [5]:
# если не указать тип, то по умолчанию будет выбран float64
a = np.ones((2,3))

# информация о массиве
# см. последнюю строку в результате ниже
np.info(a)

class:  ndarray
shape:  (2, 3)
strides:  (24, 8)
itemsize:  8
aligned:  True
contiguous:  True
fortran:  False
data pointer: 0x29d1755e110
byteorder:  little
byteswap:  False
type: float64


Массив может быть и трёхмерным, и n-мерным. 

Отображаться он будет уже не очень понятно. Ниже тяжело распознать много матриц (2x3) из примера выше, 6 раз наложенных друг на друга по оси z

In [6]:
# обычно это используется для создания n-мерных тензоров
# например, в линейной алгебре, физике или машинном обучении
a = np.ones((2,3,6))
print(a)

[[[1. 1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1. 1.]]

 [[1. 1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1. 1.]]]


In [7]:
# хотя можно взять конкретное значение z (например, z=0), и увидеть, что получится матрица 2x3, как в примерах выше
# как работают срезы, рассмотрим ниже
a[:, :, 0]

array([[1., 1., 1.],
       [1., 1., 1.]])

In [8]:
# arange работает аналогично функции range, только с numpy-массивами
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

В numpy реализованы быстрые методы для работы со случайными значениями. Блок ниже возвращает новые случайные значения каждый раз, когда вы его запускаете

In [9]:
np.random.rand(2,3)

array([[0.27175962, 0.81621096, 0.92519468],
       [0.28616582, 0.37833345, 0.82056816]])

In [10]:
# в модуле random есть много полезных методов для работы как с массивами, 
# так и со скалярами
# например, с помощью randint() можно получить случайное число "от .. до .."
np.random.randint(0,100)

66

Наиболее быстрый способ создать массив - "вырезать" кусок оперативной памяти со всем имеющимся там на данный момент "мусором"

In [11]:
# если не указать тип элементов, то по умолчанию будет так же выбран float64
np.empty((2,3), dtype=int)

array([[   0,    1,    0],
       [ 669, 1452,    0]])

### Массивы из других структур данных
numpy умеет преобразовывать в массивы большинство структур данных с помощью функции `np.array()`

In [12]:
# например, списки - создастся одномерный массив
l = [1,2,3,4,5,6]
np.array(l)

array([1, 2, 3, 4, 5, 6])

In [13]:
# или списки списков - создастся двумерный массив
l = [[1,2,3],[4,5,6]]
np.array(l)

array([[1, 2, 3],
       [4, 5, 6]])

In [14]:
# метод tolist() преобразовывает массив обратно в список
np.array(l).tolist()


[[1, 2, 3], [4, 5, 6]]

## Срезы
Массивы позволяют использовать синтаксис срезов, аналогичный спискам и другим коллекциям

In [15]:
# снова создадим 2D-массив (матрицу/таблицу) из списка 
l = [[1,2,3],[4,5,6]]
a = np.array(l)

In [16]:
a[0]

array([1, 2, 3])

Для многомерных массивов синтаксис даже проще: требуется один раз написать квадратные скобки.

Т.е. вместо `l[i][j]` для двумерного списка достаточно написать `a[i,j]` для ndarray

In [17]:
a[1, 1]

5

Если требуется вывести все элементы по одной из осей, достаточно поставить на её место символ `:`

In [18]:
# например, строка ниже вернёт просто  массив a
a[:, :]

array([[1, 2, 3],
       [4, 5, 6]])

In [19]:
# а так можно получить первую строку
a[0, :]

array([1, 2, 3])

In [20]:
# или так
a[0]

array([1, 2, 3])

In [21]:
# а так - первый столбец
a[:, 0]

array([1, 4])

аналогично другим коллекциям, можно использовать полноценные срезы "от... до..."

In [22]:
a[0:2, 1:3]

array([[2, 3],
       [5, 6]])

### Одномерные массивы
Не путайте одномерные массивы (векторы) и n-мерные массивы с длиной остальных осей, равной 1

In [23]:
a_vect = np.zeros(5)
a_arr = np.zeros((5,1))

In [24]:
a_vect

array([0., 0., 0., 0., 0.])

чтобы проверить размер массива или вектора, можно посмотреть значение атрибута shape - вы часто будете его проверять

In [25]:
# у 1-мерного массива (вектора) нет второй "оси"
a_vect.shape

(5,)

In [26]:
a_arr

array([[0.],
       [0.],
       [0.],
       [0.],
       [0.]])

In [27]:
# у 2D-массива вторая ось есть
# хотя у этого её размер - единица
a_arr.shape

(5, 1)

In [28]:
# поэтому доступ к их элементам отличается
# для вектора достаточно одного индекса
a_vect[1]

0.0

В numpy многие методы по-разному будут применяться для таких массивов.

Например, 2D-массивы можно "склеить" друг с другом по любой из осей

In [29]:
# например, по оси X (по нулевой - т.е. вдоль строк - в длину)
np.concatenate((a_arr, a_arr), 0)

array([[0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.]])

In [30]:
# или по оси Y (по нулевой - т.е. вдоль столбцов - в ширину)
np.concatenate((a_arr, a_arr), 1)

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [31]:
# векторы же можно склеить только вдоль их единственной оси
np.concatenate((a_vect, a_vect))

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

Массивам можно добавлять новые оси с помощью срезов: новая ось должна обозначаться, как `[..., None, ...]`. Таким образом можно сделать, например, из вектора 2D-массив

In [32]:
a_vect[:, None]

array([[0.],
       [0.],
       [0.],
       [0.],
       [0.]])

In [33]:
a_vect[None, :]

array([[0., 0., 0., 0., 0.]])

## Операции над массивами

numpy позволяет удобным образом изменять элементы массива или их порядок. Например, работают все стандарнтые операции для работы с таблицами (матрицами)

In [34]:
# создадим такой же массив, как было на пару блоков выше
a = np.concatenate((a_arr, a_arr), 1)
a

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [35]:
# можно его транспонировать (поменять местами оси)
np.transpose(a)

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

Будьте аккуратны, транспонируя вектор - он преобразуется в такой же вектор, т.к. у него только 1 ось

In [36]:
# можно прибавить к нему скаляр или массив такого же размера
a + 1

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

In [37]:
# можно умножить на скаляр - например, на число Пи
np.pi*(a + 1)

array([[3.14159265, 3.14159265],
       [3.14159265, 3.14159265],
       [3.14159265, 3.14159265],
       [3.14159265, 3.14159265],
       [3.14159265, 3.14159265]])

In [38]:
# можно и поэлементно умножить два массива одинакового размера
b = np.pi*(a + 1)
b*b

array([[9.8696044, 9.8696044],
       [9.8696044, 9.8696044],
       [9.8696044, 9.8696044],
       [9.8696044, 9.8696044],
       [9.8696044, 9.8696044]])

Реализованы и операции из линейной алгебры.

Ниже произведение единичной матрицы на вторую матрицу должно быть равно второй матрице, т.е. матрице b

In [39]:
# метод matmul позволяет вычислить векторное произведение матриц/векторов
a = np.array([[1, 0, 0], [0, 1, 0], [0, 0, 1]])
b = np.array([[1, 2], [3, 4], [5, 6]])

# проверим, получится ли ответ равным b
np.matmul(a, b)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [40]:
# единичную матрицу можно получить методом eye() вместо того, чтобы вводить её "руками"
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [41]:
# numpy позволяет быстро фильтровать элементы массива, получая вектор с подходящими под условие элементами
c = np.array([[1 , 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
d = c[(c > 2) & (c) < 11]
d

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [42]:
# размер массива можно изменить методом reshape
# не забудьте, чтобы произведения длин по каждой из осей у исходного массива и преобразованного были равны
d.reshape(3,4)

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

# Векторизация
Кроме простых функций, вроде умножения на скаляр, numpy позволяет быстро применять к каждому элементу массива и более сложные

In [43]:
# например, применим синус к массиву "c" выше
np.sin(c)

array([[ 0.84147098,  0.90929743,  0.14112001, -0.7568025 ],
       [-0.95892427, -0.2794155 ,  0.6569866 ,  0.98935825],
       [ 0.41211849, -0.54402111, -0.99999021, -0.53657292]])

Однако может так случиться, что вы хотите применить к элементам массива собственную функцию. Например, возводящую в степень `a` все элементы массива `x`, большие 100

In [44]:
def power(x, a):
    if x > 100:
        return x**a
    else:
        return x  

ниже попытаемся возвести все элементы массива, большие 100, в степень 5

In [45]:
# применить "в лоб" функцию к массиву не получится
power(c, 5)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

При работе с обычными коллекциями для этого использовалась функция `map`.

Однако map реализован так, что все аргументы должны быть итерируемыми объектами одного размера. Т.е. из аргумента `a` (пятёрки) придётся создать итератор. 

Это несложно, но всё равно требует вызова лишних методов и импорта дополнительных библиотек

In [49]:
l = [0,1,2,3]


from itertools import repeat

list(map(power, l, repeat(5)))

[0, 1, 2, 3]

Чтобы пользовательскую функцию можно было применять к элементам ndarray, используется метод `np.vectorize()`

In [50]:
# он преобразует функцию, позволяя применять её ко всем элементам массивов
vect_power = np.vectorize(power)

In [51]:
x = np.arange(4)
x

array([0, 1, 2, 3])

In [52]:
vect_power(x, 5)

array([0, 1, 2, 3])

Чтобы не придумывать для каждой функции новое "векторизованное" название, можно воспользоваться т.н. декораторами.

Декораторы позволяют "расширять" возможности функций, которые вы определяете в коде. 

Декоратор применяется на одну строку выше ключевого слова `def` с помощью симпола `@` и имени декоратора.

`np.vectorize` можно применить как декоратор - тогда исходная функция `power` будет сразу применима к массивам

In [53]:
@np.vectorize
def power(x, a):
    if x > 100:
        return x**a
    else:
        return x  

x = np.arange(4)
power(x,5)

array([0, 1, 2, 3])

# Broadcasting массивов
Numpy позволяет совершать некоторые операции с массивами, даже если их размерности не совпадают.

Например, если вы подставите в методы numpy массив или вектор с "недостающими" осями, numpy автоматически "размножит" такой массив по недостающей оси его же копиями.

Это легче понять на примере: попробуем поэлементно умножить массив из пятёрок на вектор из двоек

In [54]:
a = 5*np.ones((5,5))
a

array([[5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5.]])

In [55]:
b = 2*np.ones(5)
b

array([2., 2., 2., 2., 2.])

Интуиция подсказывает, что при попытке умножить их друг на друга или сложить, появится исключение. Однако numpy просто "размножит" вектор `b` по второй оси (которой у него нет) и использует получившуюся матрицу вместо вектора `b` в этих операциях

In [56]:
a+b

array([[7., 7., 7., 7., 7.],
       [7., 7., 7., 7., 7.],
       [7., 7., 7., 7., 7.],
       [7., 7., 7., 7., 7.],
       [7., 7., 7., 7., 7.]])

In [57]:
a*b

array([[10., 10., 10., 10., 10.],
       [10., 10., 10., 10., 10.],
       [10., 10., 10., 10., 10.],
       [10., 10., 10., 10., 10.],
       [10., 10., 10., 10., 10.]])

**Broadcasting** - неочевидная, но полезная операция при работе с линейной алгеброй или машинным обучением. 

Подробнее о ней можно почитать, например, в главе [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/02.05-computation-on-arrays-broadcasting.html) или [в хорошей статье на towardsdatascience](https://towardsdatascience.com/broadcasting-in-numpy-58856f926d73)