# NumPy

NumPy — библиотека языка Python, позволяющая (удобно) работать с многомерными массивами и матрицами. Кроме того, NumPy позволяет векторизовать многие вычисления, имеющие место в машинном обучении.

In [None]:
import numpy as np

Основным типом данных NumPy является многомерный массив элементов одного типа — numpy.ndarray. Каждый подобный массив имеет несколько измерений или осей — в частности, вектор (в классическом понимании) является одномерным массивом и имеет 1 ось, матрица является двумерным массивом и имеет 2 оси и т.д.

https://habr.com/ru/post/469355/

In [119]:
vec = np.array([1])
# количество осей
# vec.ndim

In [120]:
vec

array([1])

In [121]:
mat = np.array([[1, 2, 3], [4, 5, 6]])
mat.ndim

2

In [122]:
mat

array([[1, 2, 3],
       [4, 5, 6]])

Чтобы узнать длину массива по каждой из осей, можно воспользоваться атрибутом shape:

In [123]:
vec.shape

(1,)

In [124]:
mat.shape

(2, 3)

Чтобы узнать тип элементов и их размер в байтах:

In [125]:
mat.dtype.name

'int64'

In [126]:
mat.itemsize

8

### Создание массивов
Есть несколько способов сформировать массив в NumPy:

Передать итерируемый объект в качестве параметра функции array (можно также явно указать тип элементов):

In [127]:
A = np.array([1, 2, 3])
A, A.dtype

(array([1, 2, 3]), dtype('int64'))

In [128]:
A = np.array([1, 2, 3], dtype=float)
A, A.dtype

(array([1., 2., 3.]), dtype('float64'))

In [129]:
A = np.array([1, 2, 3], dtype=str)
A, A.dtype

(array(['1', '2', '3'], dtype='<U1'), dtype('<U1'))

Воспользоваться функциями zeros, ones, empty, identity, если вам нужен объект специального вида:

In [130]:
np.zeros((3,1))

array([[0.],
       [0.],
       [0.]])

In [131]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [212]:
np.ones(3, 4)

TypeError: Cannot interpret '4' as a data type

In [132]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [133]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

Воспользоваться функциями arange (в качестве параметров принимает левую и правую границы последовательности и шаг) и linspace (принимает левую и правую границы и количество элементов) для формирования последовательностей:

In [134]:
np.arange(2, 20, 3) # аналогично стандартной функции range python, правая граница не включается

array([ 2,  5,  8, 11, 14, 17])

In [135]:
np.arange(2.5, 8.7, 0.9) # но может работать и с вещественными числами

array([2.5, 3.4, 4.3, 5.2, 6.1, 7. , 7.9])

In [136]:
np.linspace(2, 18, 14) # правая граница включается (по умолчанию)

array([ 2.        ,  3.23076923,  4.46153846,  5.69230769,  6.92307692,
        8.15384615,  9.38461538, 10.61538462, 11.84615385, 13.07692308,
       14.30769231, 15.53846154, 16.76923077, 18.        ])

Изменить размеры существующего массива с помощью reshape (при этом количество элементов должно оставаться неизменным):


In [137]:
np.arange(9).reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Вместо значения длины массива по одному из измерений можно указать -1 — в этом случае значение будет рассчитано автоматически:



In [138]:
np.arange(8).reshape(2, -1)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [139]:
np.arange(8).reshape(2, 4)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [140]:
np.arange(8).reshape(-1, 4)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [141]:
np.array([1,2,3,4])*10

array([10, 20, 30, 40])

In [142]:
for i in np.arange(8):
    print(i)

0
1
2
3
4
5
6
7


In [143]:
np.arange(8).reshape(3, 4)

ValueError: cannot reshape array of size 8 into shape (3,4)

In [144]:
np.arange(8).reshape(2, -1)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

Транспонировать существующий массив:

In [145]:
C = np.arange(6).reshape(2, -1)
C

array([[0, 1, 2],
       [3, 4, 5]])

In [146]:
C.T

array([[0, 3],
       [1, 4],
       [2, 5]])

In [147]:
np.transpose(C)

array([[0, 3],
       [1, 4],
       [2, 5]])

In [148]:
matx = np.array([1,2,3])

In [149]:
matx

array([1, 2, 3])

Повторить существующий массив:

In [150]:
a = np.arange(3)

In [151]:
a

array([0, 1, 2])

In [152]:
np.tile(a, (2, 2))


array([[0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2]])

In [153]:
np.tile(a, (4, 1))

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

### Базовые операции
Базовые арифметические операции над массивами выполняются поэлементно:

In [154]:
A = np.arange(9).reshape(3, 3)
B = np.arange(1, 10).reshape(3, 3)

In [155]:
print(A)
print(B)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [156]:
A + B

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [157]:
A * 1.0 / B

array([[0.        , 0.5       , 0.66666667],
       [0.75      , 0.8       , 0.83333333],
       [0.85714286, 0.875     , 0.88888889]])

In [158]:
A + 1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [159]:
3 * A

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

In [160]:
A ** 2

array([[ 0,  1,  4],
       [ 9, 16, 25],
       [36, 49, 64]])

Отдельно обратим внимание на то, что умножение массивов также является поэлементным, а не матричным:

In [161]:
A * B

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

Для выполнения матричного умножения необходимо использовать функцию dot:

In [162]:
A @ B

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

In [163]:
A.dot(B)

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

Некоторые операции над массивами (например, вычисления минимума, максимума, суммы элементов) выполняются над всеми элементами вне зависимости от формы массива, однако при указании оси выполняются вдоль нее (например, для нахождения максимума каждой строки или каждого столбца):

In [None]:
np.array([1,2,3,4])+np.array([1,2])

In [164]:
A

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [165]:
A.min()

0

In [166]:
A.max(axis=1)

array([2, 5, 8])

In [167]:
A.max(axis=0)

array([6, 7, 8])

In [168]:
A.sum(axis=1)

array([ 3, 12, 21])

In [169]:
A.sum(axis=0)

array([ 9, 12, 15])

In [None]:

print('A\n', A, '\n')

print('min\n', np.min(A, 0), '\n')
print('max\n', np.max(A, 0), '\n')
print('mean\n', np.mean(A, 0), '\n')
print('average\n', np.average(A, 0), '\n')

In [170]:
A = np.array([[1., 2., 3.], [4., 5., 6.], [7., 8., 9.]])
B = np.exp(A)
C = np.log(B)

print('A', A, '\n')
print('B', B, '\n')
print('C', C, '\n')

A [[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]] 

B [[2.71828183e+00 7.38905610e+00 2.00855369e+01]
 [5.45981500e+01 1.48413159e+02 4.03428793e+02]
 [1.09663316e+03 2.98095799e+03 8.10308393e+03]] 

C [[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]] 



### Индексация
Для доступа к элементам может использоваться много различных способов, рассмотрим основные.

Для индексации могут использоваться конкретные значения индексов и срезы (slice), как и в стандартных типах Python. Для многомерных массивов индексы для различных осей разделяются запятой. Если для многомерного массива указаны индексы не для всех измерений, недостающие заполняются полным срезом (:).

In [172]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [173]:
a[1]

1

In [174]:
a[2:5]

array([2, 3, 4])

In [184]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [185]:
A.shape

(9, 9)

In [186]:
B = A[2:4].copy()

In [187]:
id(A)

140274018185936

In [188]:
id(B)

140274018185744

In [189]:
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [190]:
B[1, 1] = 1000

In [191]:
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [192]:
A[:, 2:4]

array([[ 2,  3],
       [11, 12],
       [20, 21],
       [29, 30],
       [38, 39],
       [47, 48],
       [56, 57],
       [65, 66],
       [74, 75]])

In [193]:
A[2:4, 2:4]

array([[20, 21],
       [29, 30]])

In [194]:
A[-1]

array([72, 73, 74, 75, 76, 77, 78, 79, 80])

In [196]:
A[:, -1]

array([ 8, 17, 26, 35, 44, 53, 62, 71, 80])

In [197]:
A[8, :]

array([72, 73, 74, 75, 76, 77, 78, 79, 80])

Также может использоваться индексация при помощи списков индексов (по каждой из ос

In [198]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [199]:
A[[2, 4, 5], [0, 1, 3]]

array([18, 37, 48])

Может применяться логическая индексация (при помощи логических массивов)

In [200]:
A = np.arange(5)
A

array([0, 1, 2, 3, 4])

In [201]:
A = np.ones([5,10])

In [202]:
A

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

In [203]:
len(A)

5

In [204]:
A.shape[1]

10

In [205]:
A

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

In [None]:
bool_ind = [True, False, True, False, True]

In [206]:
A[bool_ind]

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

In [207]:
A>1

array([[False, False, False, False, False, False, False, False, False,
        False],
       [False, False, False, False, False, False, False, False, False,
        False],
       [False, False, False, False, False, False, False, False, False,
        False],
       [False, False, False, False, False, False, False, False, False,
        False],
       [False, False, False, False, False, False, False, False, False,
        False]])

In [208]:
A[A>1]

array([], dtype=float64)

In [209]:
a = [1,2,3,4,5]
max(a)

5

In [210]:
a

[1, 2, 3, 4, 5]

In [211]:
A[A % 5 != 3]

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [213]:
A = np.ones((2, 2))
B = np.zeros((2, 2))
print(A)
print(B)

C = np.concatenate((A, B), 1)
print(C.shape)
C

[[1. 1.]
 [1. 1.]]
[[0. 0.]
 [0. 0.]]
(2, 4)


array([[1., 1., 0., 0.],
       [1., 1., 0., 0.]])

In [214]:
A = np.ones((2, 2))
B = np.zeros((2, 2))

C = np.concatenate((A, B), 0)
print(C.shape)
C

(4, 2)


array([[1., 1.],
       [1., 1.],
       [0., 0.],
       [0., 0.]])

### Sort

In [215]:
a = np.array([3, 2, 0, 1])

print(np.sort(a))

[0 1 2 3]


In [216]:
print(np.sort(a)[::-1])

[3 2 1 0]


In [217]:
a = np.random.randint(100, size=(5, 4))

In [218]:
a

array([[82, 35, 91, 56],
       [21, 79,  7, 10],
       [27, 49,  2, 19],
       [92, 61,  5, 17],
       [60, 40, 45, 99]])

In [219]:
a[:, 0]

array([82, 21, 27, 92, 60])

argsort

In [220]:
a[:, 0].argsort()

array([1, 2, 4, 0, 3])

In [221]:
a[:, 0][a[:, 0].argsort()]

array([21, 27, 60, 82, 92])

In [None]:
print(np.sort(a[:, 0]))

argmax

In [None]:
a

In [222]:
np.argmax(a, axis=1)

array([2, 1, 1, 0, 3])

In [224]:
np.argmax(a[1, :])

1

In [225]:
np.argmax(a)

19

In [226]:
np.argmax(a, axis=1)

array([2, 1, 1, 0, 3])

### Зачем?

Зачем необходимо использовать NumPy, если существуют стандартные списки/кортежи и циклы?

Причина заключается в скорости работы. Попробуем посчитать скалярное произведение 2 больших векторов:

In [229]:
SIZE = 100000000

A_quick_arr = np.random.normal(size = (SIZE,))
B_quick_arr = np.random.normal(size = (SIZE,))

A_slow_list, B_slow_list = list(A_quick_arr), list(B_quick_arr)

In [230]:
%%time
ans = 0
for i in range(len(A_slow_list)):
    ans += A_slow_list[i] * B_slow_list[i]

CPU times: user 21.8 s, sys: 3.22 s, total: 25 s
Wall time: 36.6 s


In [231]:
%%time
ans = sum([A_slow_list[i] * B_slow_list[i] for i in range(SIZE)])

CPU times: user 18.7 s, sys: 5.92 s, total: 24.6 s
Wall time: 36.6 s


In [232]:
%%time
ans = np.sum(A_quick_arr * B_quick_arr)

CPU times: user 272 ms, sys: 1.23 s, total: 1.5 s
Wall time: 6.57 s


In [None]:
%%time
ans = A_quick_arr.dot(B_quick_arr)

In [None]:
Z = np.ones((10,10))
Z

In [None]:
logits = [1.3, 5.1, 2.2, 0.7, 1.1]

In [None]:
def softmax(x):
    f_x = np.exp(x) / np.sum(np.exp(x))
    return f_x

In [None]:
sum(softmax(logits))

In [None]:
softmax(logits)

In [None]:
logits = [1.3, 5.1, 2.2, 0.7, 1.1]
np.exp(logits)

In [None]:
np.sum(np.exp(logits))