## NumPy

**NumPy** — библиотека языка Python, позволяющая (удобно) работать с многомерными массивами и матрицами. Кроме того, NumPy позволяет векторизовать многие вычисления, имеющие место в машинном обучении.

 - [numpy](http://www.numpy.org)
 - [numpy tutorial](http://cs231n.github.io/python-numpy-tutorial/)
 - [100 numpy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100/)

Кстати, про NumPy недавно вышла [публикация](https://www.nature.com/articles/s41586-020-2649-2) в Nature.

In [1]:
import numpy as np
import warnings
warnings.filterwarnings('ignore')

Основным типом данных NumPy является многомерный массив элементов одного типа — [numpy.ndarray](http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.array.html). Каждый подобный массив имеет несколько *измерений* или *осей* — в частности, вектор (в классическом понимании) является одномерным массивом и имеет 1 ось, матрица является двумерным массивом и имеет 2 оси и т.д.

In [2]:
vec = np.array([1, 2, 3])
vec.ndim # количество осей

1

In [4]:
mat = np.array([[1, 2, 3], [4, 5, 6]])
mat.ndim

2

Чтобы узнать длину массива по каждой из осей, можно воспользоваться атрибутом shape:

In [8]:
print(vec)
vec.shape

[1 2 3]


(3,)

In [11]:
print(mat)
mat.shape

[[1 2 3]
 [4 5 6]]


(2, 3)

Чтобы узнать тип элементов и их размер в байтах:

In [14]:
mat.dtype.name

'int64'

In [15]:
mat.itemsize

8

#### Создание массивов

Есть несколько способов сформировать массив в NumPy:

* Передать итерируемый объект в качестве параметра функции array (можно также явно указать тип элементов):

In [16]:
A = np.array([1, 2, 3])
A, A.dtype

(array([1, 2, 3]), dtype('int64'))

In [None]:
A = np.array([1, 2, 3], dtype=float)
A, A.dtype

(array([1., 2., 3.]), dtype('float64'))

In [17]:
A = np.array([1., 2., 3.])
A, A.dtype

(array([1., 2., 3.]), dtype('float64'))

* Воспользоваться функциями zeros, ones, empty, identity, если вам нужен объект специального вида:

In [21]:
np.zeros((3,))

array([0., 0., 0.])

In [24]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [25]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [28]:
np.eye(5, k=1)

array([[0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0.]])

* Воспользоваться функциями arange (в качестве параметров принимает левую и правую границы последовательности и **шаг**) и linspace (принимает левую и правую границы и **количество элементов**) для формирования последовательностей:

In [32]:
np.arange(2, 20, 3) # аналогично стандартной функции range python, правая граница не включается

array([ 2,  5,  8, 11, 14, 17])

In [33]:
np.arange(2.5, 8.7, 0.9) # но может работать и с вещественными числами

array([2.5, 3.4, 4.3, 5.2, 6.1, 7. , 7.9])

In [34]:
np.linspace(2, 18, 14) # правая граница включается (по умолчанию)

array([ 2.        ,  3.23076923,  4.46153846,  5.69230769,  6.92307692,
        8.15384615,  9.38461538, 10.61538462, 11.84615385, 13.07692308,
       14.30769231, 15.53846154, 16.76923077, 18.        ])

In [36]:
np.linspace(2, 5, 4)

array([2., 3., 4., 5.])

* Изменить размеры существующего массива с помощью reshape (при этом количество элементов должно оставаться неизменным):

In [37]:
np.arange(9)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [38]:
np.arange(9).reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Вместо значения длины массива по одному из измерений можно указать -1 — в этом случае значение будет рассчитано автоматически:

In [40]:
np.arange(8)

array([0, 1, 2, 3, 4, 5, 6, 7])

In [39]:
np.arange(8).reshape(2, -1)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

* Транспонировать существующий массив:

In [42]:
C = np.arange(6).reshape(2, -1)
C

array([[0, 1, 2],
       [3, 4, 5]])

In [43]:
C.shape

(2, 3)

In [None]:
C.T

array([[0, 3],
       [1, 4],
       [2, 5]])

In [44]:
C.T.shape

(3, 2)

* Повторить существующий массив:

In [45]:
a = np.arange(3)
np.tile(a, (2, 2))

array([[0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2]])

In [46]:
np.tile(a, (4, 1))

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

#### Базовые операции

* Базовые арифметические операции над массивами выполняются поэлементно:

In [47]:
A = np.arange(9).reshape(3, 3)
B = np.arange(1, 10).reshape(3, 3)

In [49]:
print(A)
print()
print(B)

[[0 1 2]
 [3 4 5]
 [6 7 8]]

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [50]:
A + B

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [52]:
A * B

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

In [53]:
A * 1.0 / B

array([[0.        , 0.5       , 0.66666667],
       [0.75      , 0.8       , 0.83333333],
       [0.85714286, 0.875     , 0.88888889]])

In [54]:
A + 1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [55]:
3 * A

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

In [56]:
A ** 2

array([[ 0,  1,  4],
       [ 9, 16, 25],
       [36, 49, 64]])

In [58]:
A

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [69]:
(np.eye(3) * A) ** 2 + (A - np.eye(3) * A)

array([[ 0.,  1.,  2.],
       [ 3., 16.,  5.],
       [ 6.,  7., 64.]])

In [68]:
A - np.eye(3) * A

array([[0., 1., 2.],
       [3., 0., 5.],
       [6., 7., 0.]])

Отдельно обратим внимание на то, что умножение массивов также является **поэлементным**, а не матричным:

In [70]:
A * B

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

Для выполнения матричного умножения необходимо использовать функцию dot:

In [71]:
A.dot(B)

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

Для умножения векторов или матриц можно также использовать оператор `@`:

In [72]:
A @ B

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

In [73]:
np.array([1, 2, 3, 4]) @ np.array([1, 1, 1, 1])

10

Поскольку операции выполняются поэлементно, операнды бинарных операций должны иметь одинаковый размер. Тем не менее, операция может быть корректно выполнена, если размеры операндов таковы, что они могут быть расширены до одинаковых размеров. Данная возможность называется [broadcasting](http://www.scipy-lectures.org/intro/numpy/operations.html#broadcasting):
![](https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png)

In [74]:
np.tile(np.arange(0, 40, 10), (3, 1)).T + np.array([0, 1, 2])

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

* Некоторые операции над массивами (например, вычисления минимума, максимума, суммы элементов) выполняются над всеми элементами вне зависимости от формы массива, однако при указании оси выполняются вдоль нее (например, для нахождения максимума каждой строки или каждого столбца):

In [75]:
A

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [76]:
A.min()

0

In [78]:
A.max()

8

In [83]:
A.max(axis=1)

array([2, 5, 8])

In [85]:
A.sum(axis=0)

array([ 9, 12, 15])

#### Индексация

Для доступа к элементам может использоваться [много различных способов](http://docs.scipy.org/doc/numpy/reference/arrays.indexing.html), рассмотрим основные.

* Для индексации могут использоваться конкретные значения индексов и срезы (slice), как и в стандартных типах Python. Для многомерных массивов индексы для различных осей разделяются запятой. Если для многомерного массива указаны индексы не для всех измерений, недостающие заполняются полным срезом (:).

In [86]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [87]:
a[2:5]

array([2, 3, 4])

In [88]:
a[3:8:2]

array([3, 5, 7])

In [89]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [90]:
A[2:4]

array([[18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

In [91]:
A[:, 2:4]

array([[ 2,  3],
       [11, 12],
       [20, 21],
       [29, 30],
       [38, 39],
       [47, 48],
       [56, 57],
       [65, 66],
       [74, 75]])

In [92]:
A[2:4, 2:4]

array([[20, 21],
       [29, 30]])

In [93]:
A[-1]

array([72, 73, 74, 75, 76, 77, 78, 79, 80])

* Также может использоваться индексация при помощи списков индексов (по каждой из осей):

In [94]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [95]:
A[[2, 4, 5]]

array([[18, 19, 20, 21, 22, 23, 24, 25, 26],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53]])

In [96]:
A[[2, 4, 5], [0, 1, 3]]

array([18, 37, 48])

* Может применяться логическая индексация (при помощи логических массивов):

In [97]:
A = np.arange(11)
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [102]:
A % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False,  True])

In [103]:
A[A % 2 == 0]

array([ 0,  2,  4,  6,  8, 10])

In [104]:
A[A % 5 != 3]

array([ 0,  1,  2,  4,  5,  6,  7,  9, 10])

In [108]:
A[np.logical_and(A != 9, A % 5 != 3)] # также можно использовать логические операции

array([ 0,  1,  2,  4,  5,  6,  7, 10])

#### Зачем?

Зачем необходимо использовать NumPy, если существуют стандартные списки/кортежи и циклы?

Причина заключается в скорости работы. Попробуем посчитать скалярное произведение 2 больших векторов:

In [109]:
SIZE = 10000000

A_quick_arr = np.random.normal(size = (SIZE,))
B_quick_arr = np.random.normal(size = (SIZE,))

A_slow_list, B_slow_list = list(A_quick_arr), list(B_quick_arr)

In [110]:
%%time
ans = 0
for i in range(len(A_slow_list)):
    ans += A_slow_list[i] * B_slow_list[i]

CPU times: user 3.02 s, sys: 980 µs, total: 3.03 s
Wall time: 3.03 s


In [111]:
%%time
ans = sum([A_slow_list[i] * B_slow_list[i] for i in range(SIZE)])

CPU times: user 2.34 s, sys: 525 ms, total: 2.87 s
Wall time: 2.88 s


In [112]:
%%time
ans = np.sum(A_quick_arr * B_quick_arr)

CPU times: user 29.4 ms, sys: 35.8 ms, total: 65.2 ms
Wall time: 63.6 ms


In [113]:
%%time
ans = A_quick_arr.dot(B_quick_arr)

CPU times: user 30.8 ms, sys: 1.56 ms, total: 32.4 ms
Wall time: 25.3 ms


NumPy работает быстро по нескольким причинам:
* Массивы хранятся в непрерывном участке памяти, а все элементы имеют один и тот же тип
* Для вычислений по возможности используются библиотеки линейной алгебры вроде BLAS

Посмотреть, какая библиотека используется у вас, можно в конфигурации NumPy:

In [114]:
print(np.show_config())

Build Dependencies:
  blas:
    detection method: pkgconfig
    found: true
    include directory: /usr/local/include
    lib directory: /usr/local/lib
    name: openblas64
    openblas configuration: USE_64BITINT=1 DYNAMIC_ARCH=1 DYNAMIC_OLDER= NO_CBLAS=
      NO_LAPACK= NO_LAPACKE= NO_AFFINITY=1 USE_OPENMP= HASWELL MAX_THREADS=2
    pc file directory: /usr/local/lib/pkgconfig
    version: 0.3.23.dev
  lapack:
    detection method: internal
    found: true
    include directory: unknown
    lib directory: unknown
    name: dep139863411681952
    openblas configuration: unknown
    pc file directory: unknown
    version: 1.26.4
Compilers:
  c:
    args: -fno-strict-aliasing
    commands: cc
    linker: ld.bfd
    linker args: -Wl,--strip-debug, -fno-strict-aliasing
    name: gcc
    version: 10.2.1
  c++:
    commands: c++
    linker: ld.bfd
    linker args: -Wl,--strip-debug
    name: gcc
    version: 10.2.1
  cython:
    commands: cython
    linker: cython
    name: cython
    versio

### Примеры векторизации вычислений на NumPy


Разберём несколько задач (из [100 numpy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100/)), где NumPy может существенно ускорить вычисления и упростить код.

Дан четырёхмерный массив. Как получить двумерный массив, в котором элемент с индексами $(i, j)$ содержит сумму всех элементов исходного массива, у которых первые два индекса — это $(i, j)$?

In [115]:
# (i, j) = sum_k,l_((i, j, k, l))

In [116]:
A = np.random.randint(0,1000,(2,5,20,25))
res = A.reshape(A.shape[:-2] + (-1,)).sum(axis=-1)
print(res)

[[248113 263969 238296 245965 257017]
 [242792 242816 241979 245733 249144]]


In [123]:
A.shape[:-2] + (-1,)

A.reshape(A.shape[:-2] + (-1,)).shape

(2, 5, 500)

Даны одномерные массивы A и B. Элементы массива B принимают значения от 0 до `len(A) - 1`. Требуется прибавить единицу ко всем элементам A, чьи индексы записаны в B. Если индекс встречается в B несколько раз, то надо прибавить единицу для каждого такого вхождения.

In [None]:
A = np.ones(10)
B = np.random.randint(0,len(A),20)
print(A)
print(B)
A += np.bincount(B, minlength=len(A))
print(A)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[3 1 8 5 8 7 5 0 9 7 2 9 9 2 2 0 7 9 7 2]
[3. 2. 5. 2. 1. 3. 1. 5. 3. 5.]


Даны одномерный массив A и число n. Вычислите массив B, в котором i-й элемент равен среднему значению элементов с i-го по (i+n-1)-й в массиве A.

In [None]:
def moving_average(Z, n=3) :
    ret = np.cumsum(Z, dtype=float)
    ret[n:] = ret[n:] - ret[:-n]
    return ret[n - 1:] / n
A = np.random.randint(0, 10, 20)
print(A)
print(moving_average(A, n=3))

[6 5 7 6 6 1 7 8 1 1 8 7 8 8 1 5 2 9 2 4]
[6.         6.         6.33333333 4.33333333 4.66666667 5.33333333
 5.33333333 3.33333333 3.33333333 5.33333333 7.66666667 7.66666667
 5.66666667 4.66666667 2.66666667 5.33333333 4.33333333 5.        ]
