# NumPy

https://habr.com/ru/post/469355/

NumPy — библиотека языка Python, позволяющая (удобно) работать с многомерными массивами и матрицами. Кроме того, NumPy позволяет векторизовать многие вычисления, имеющие место в машинном обучении.

In [1]:
import numpy as np
import warnings
warnings.filterwarnings('ignore')

Основным типом данных NumPy является многомерный массив элементов одного типа — numpy.ndarray. Каждый подобный массив имеет несколько измерений или осей — в частности, вектор (в классическом понимании) является одномерным массивом и имеет 1 ось, матрица является двумерным массивом и имеет 2 оси и т.д.

In [2]:
vec = np.array([1, 2, 3])
vec.ndim # количество осей

1

In [3]:
mat = np.array([[1, 2, 3], [4, 5, 6]])
mat.ndim

2

Чтобы узнать длину массива по каждой из осей, можно воспользоваться атрибутом shape:

In [4]:
vec.shape

(3,)

Чтобы узнать тип элементов и их размер в байтах:

In [5]:
mat.dtype.name

'int64'

In [6]:
mat.itemsize

8

### Создание массивов
Есть несколько способов сформировать массив в NumPy:

Передать итерируемый объект в качестве параметра функции array (можно также явно указать тип элементов):

In [8]:
A = np.array([1, 2, 3])
A, A.dtype

(array([1, 2, 3]), dtype('int64'))

In [9]:
A = np.array([1, 2, 3], dtype=float)
A, A.dtype

(array([1., 2., 3.]), dtype('float64'))

Воспользоваться функциями zeros, ones, empty, identity, если вам нужен объект специального вида:

In [10]:
np.zeros((3,))

array([0., 0., 0.])

In [11]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [12]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [13]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

Воспользоваться функциями arange (в качестве параметров принимает левую и правую границы последовательности и шаг) и linspace (принимает левую и правую границы и количество элементов) для формирования последовательностей:

In [14]:
np.arange(2, 20, 3) # аналогично стандартной функции range python, правая граница не включается

array([ 2,  5,  8, 11, 14, 17])

In [15]:
np.arange(2.5, 8.7, 0.9) # но может работать и с вещественными числами

array([2.5, 3.4, 4.3, 5.2, 6.1, 7. , 7.9])

In [16]:
np.linspace(2, 18, 14) # правая граница включается (по умолчанию)

array([ 2.        ,  3.23076923,  4.46153846,  5.69230769,  6.92307692,
        8.15384615,  9.38461538, 10.61538462, 11.84615385, 13.07692308,
       14.30769231, 15.53846154, 16.76923077, 18.        ])

Изменить размеры существующего массива с помощью reshape (при этом количество элементов должно оставаться неизменным):


In [17]:
np.arange(9).reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Вместо значения длины массива по одному из измерений можно указать -1 — в этом случае значение будет рассчитано автоматически:



In [18]:
np.arange(8).reshape(2, -1)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

Транспонировать существующий массив:

In [19]:
C = np.arange(6).reshape(2, -1)
C

array([[0, 1, 2],
       [3, 4, 5]])

In [20]:
C.T

array([[0, 3],
       [1, 4],
       [2, 5]])

Повторить существующий массив:

In [22]:
a = np.arange(3)
np.tile(a, (2, 2))


array([[0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2]])

In [24]:
np.tile(a, (4, 1))

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

### Базовые операции
Базовые арифметические операции над массивами выполняются поэлементно:

In [25]:
A = np.arange(9).reshape(3, 3)
B = np.arange(1, 10).reshape(3, 3)

In [26]:
print(A)
print(B)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [27]:
A + B

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [28]:
A * 1.0 / B

array([[0.        , 0.5       , 0.66666667],
       [0.75      , 0.8       , 0.83333333],
       [0.85714286, 0.875     , 0.88888889]])

In [29]:
A + 1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [30]:
3 * A

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

In [31]:
A ** 2

array([[ 0,  1,  4],
       [ 9, 16, 25],
       [36, 49, 64]])

Отдельно обратим внимание на то, что умножение массивов также является поэлементным, а не матричным:

In [32]:
A * B

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

In [55]:
A = np.array([[1., 2., 3.], [4., 5., 6.], [7., 8., 9.]])
B = np.array([-1.1, -1.2, -1.3])

C = (A.T + B).T
D = (A.T - B).T
E = (A.T * B).T
F = (A.T / B).T
G = (A.T ** B).T

print('+\n', C, '\n')
print('-\n', D, '\n')
print('*\n', E, '\n')
print('/\n', F, '\n')
print('**\n', G, '\n')

+
 [[-0.1  0.9  1.9]
 [ 2.8  3.8  4.8]
 [ 5.7  6.7  7.7]] 

-
 [[ 2.1  3.1  4.1]
 [ 5.2  6.2  7.2]
 [ 8.3  9.3 10.3]] 

*
 [[ -1.1  -2.2  -3.3]
 [ -4.8  -6.   -7.2]
 [ -9.1 -10.4 -11.7]] 

/
 [[-0.90909091 -1.81818182 -2.72727273]
 [-3.33333333 -4.16666667 -5.        ]
 [-5.38461538 -6.15384615 -6.92307692]] 

**
 [[1.         0.4665165  0.29865282]
 [0.18946457 0.14495593 0.11647119]
 [0.07968426 0.06698584 0.05747576]] 



Для выполнения матричного умножения необходимо использовать функцию dot:

In [33]:
A @ B

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

Некоторые операции над массивами (например, вычисления минимума, максимума, суммы элементов) выполняются над всеми элементами вне зависимости от формы массива, однако при указании оси выполняются вдоль нее (например, для нахождения максимума каждой строки или каждого столбца):

In [34]:
A

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [35]:
A.min()

0

In [36]:
A.max(axis=1)

array([2, 5, 8])

In [37]:
A.sum(axis=1)

array([ 3, 12, 21])

In [57]:

print('A\n', A, '\n')

print('min\n', np.min(A, 0), '\n')
print('max\n', np.max(A, 0), '\n')
print('mean\n', np.mean(A, 0), '\n')
print('average\n', np.average(A, 0), '\n')

A
 [[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]] 

min
 [1. 2. 3.] 

max
 [7. 8. 9.] 

mean
 [4. 5. 6.] 

average
 [4. 5. 6.] 



In [58]:
A = np.array([[1., 2., 3.], [4., 5., 6.], [7., 8., 9.]])
B = np.exp(A)
C = np.log(B)

print('A', A, '\n')
print('B', B, '\n')
print('C', C, '\n')

A [[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]] 

B [[2.71828183e+00 7.38905610e+00 2.00855369e+01]
 [5.45981500e+01 1.48413159e+02 4.03428793e+02]
 [1.09663316e+03 2.98095799e+03 8.10308393e+03]] 

C [[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]] 



### Индексация
Для доступа к элементам может использоваться много различных способов, рассмотрим основные.

Для индексации могут использоваться конкретные значения индексов и срезы (slice), как и в стандартных типах Python. Для многомерных массивов индексы для различных осей разделяются запятой. Если для многомерного массива указаны индексы не для всех измерений, недостающие заполняются полным срезом (:).

In [38]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [39]:
a[2:5]

array([2, 3, 4])

In [40]:
a[3:8:2]

array([3, 5, 7])

In [41]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [42]:
A[2:4]

array([[18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

In [43]:
A[:, 2:4]

array([[ 2,  3],
       [11, 12],
       [20, 21],
       [29, 30],
       [38, 39],
       [47, 48],
       [56, 57],
       [65, 66],
       [74, 75]])

In [44]:
A[2:4, 2:4]

array([[20, 21],
       [29, 30]])

In [45]:
A[-1]

array([72, 73, 74, 75, 76, 77, 78, 79, 80])

Также может использоваться индексация при помощи списков индексов (по каждой из ос

In [46]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [47]:
A[[2, 4, 5], [0, 1, 3]]

array([18, 37, 48])

Может применяться логическая индексация (при помощи логических массивов)

In [48]:
A = np.arange(11)
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [49]:
A[A % 5 != 3]

array([ 0,  1,  2,  4,  5,  6,  7,  9, 10])

In [90]:
A = np.ones((2, 2))
B = np.zeros((2, 2))

C = np.concatenate((A, B), 1)
print(C.shape)
C

(2, 4)


array([[1., 1., 0., 0.],
       [1., 1., 0., 0.]])

In [91]:
A = np.ones((2, 2))
B = np.zeros((2, 2))

C = np.concatenate((A, B), 0)
print(C.shape)
C

(4, 2)


array([[1., 1.],
       [1., 1.],
       [0., 0.],
       [0., 0.]])

### Sort

In [68]:
a = np.array([3, 2, 0, 1])

print(np.sort(a))

[0 1 2 3]


In [69]:
print(np.sort(a)[::-1])

[3 2 1 0]


In [72]:
a = np.random.randint(100, size=(5, 4))

In [73]:
a

array([[57,  1,  9, 22],
       [29, 74, 82, 61],
       [81, 76, 92, 88],
       [12, 24, 80,  3],
       [94, 63, 11,  4]])

In [74]:
a[:, 0]

array([57, 29, 81, 12, 94])

argsort

In [75]:
a[:, 0].argsort()

array([3, 1, 0, 2, 4])

argmax

In [76]:
np.argmax(a, axis=0)

array([4, 2, 2, 2])

In [78]:
np.argmax(a, axis=1)

array([0, 2, 2, 2, 0])

### Зачем?

Зачем необходимо использовать NumPy, если существуют стандартные списки/кортежи и циклы?

Причина заключается в скорости работы. Попробуем посчитать скалярное произведение 2 больших векторов:

In [50]:
SIZE = 10000000

A_quick_arr = np.random.normal(size = (SIZE,))
B_quick_arr = np.random.normal(size = (SIZE,))

A_slow_list, B_slow_list = list(A_quick_arr), list(B_quick_arr)

In [51]:
%%time
ans = 0
for i in range(len(A_slow_list)):
    ans += A_slow_list[i] * B_slow_list[i]

CPU times: user 1.2 s, sys: 151 ms, total: 1.35 s
Wall time: 1.42 s


In [52]:
%%time
ans = sum([A_slow_list[i] * B_slow_list[i] for i in range(SIZE)])

CPU times: user 889 ms, sys: 306 ms, total: 1.19 s
Wall time: 1.51 s


In [53]:
%%time
ans = np.sum(A_quick_arr * B_quick_arr)

CPU times: user 11.2 ms, sys: 42 ms, total: 53.2 ms
Wall time: 64 ms


In [54]:
%%time
ans = A_quick_arr.dot(B_quick_arr)

CPU times: user 8.3 ms, sys: 1.27 ms, total: 9.56 ms
Wall time: 7.81 ms
