# NumPy

NumPy — библиотека языка Python, позволяющая (удобно) работать с многомерными массивами и матрицами. Кроме того, NumPy позволяет векторизовать многие вычисления, имеющие место в машинном обучении.

In [5]:
import numpy as np

Основным типом данных NumPy является многомерный массив элементов одного типа — numpy.ndarray. Каждый подобный массив имеет несколько измерений или осей — в частности, вектор (в классическом понимании) является одномерным массивом и имеет 1 ось, матрица является двумерным массивом и имеет 2 оси и т.д.

https://habr.com/ru/post/469355/

In [None]:
vec = np.array([1])
vec.ndim # количество осей

In [15]:
mat = np.array([[1, 2, 3], [4, 5, 6]])
mat.ndim

2

In [16]:
mat

array([[1, 2, 3],
       [4, 5, 6]])

Чтобы узнать длину массива по каждой из осей, можно воспользоваться атрибутом shape:

In [None]:
vec.shape

Чтобы узнать тип элементов и их размер в байтах:

In [None]:
mat.dtype.name

In [None]:
mat.itemsize

### Создание массивов
Есть несколько способов сформировать массив в NumPy:

Передать итерируемый объект в качестве параметра функции array (можно также явно указать тип элементов):

In [6]:
A = np.array([1, 2, 3])
A, A.dtype

(array([1, 2, 3]), dtype('int64'))

In [7]:
A = np.array([1, 2, 3], dtype=float)
A, A.dtype

(array([1., 2., 3.]), dtype('float64'))

In [8]:
A = np.array([1, 2, 3], dtype=str)
A, A.dtype

(array(['1', '2', '3'], dtype='<U1'), dtype('<U1'))

Воспользоваться функциями zeros, ones, empty, identity, если вам нужен объект специального вида:

In [10]:
np.zeros((3,1))

array([[0.],
       [0.],
       [0.]])

In [11]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [12]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [13]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

Воспользоваться функциями arange (в качестве параметров принимает левую и правую границы последовательности и шаг) и linspace (принимает левую и правую границы и количество элементов) для формирования последовательностей:

In [17]:
np.arange(2, 20, 3) # аналогично стандартной функции range python, правая граница не включается

array([ 2,  5,  8, 11, 14, 17])

In [18]:
np.arange(2.5, 8.7, 0.9) # но может работать и с вещественными числами

array([2.5, 3.4, 4.3, 5.2, 6.1, 7. , 7.9])

In [None]:
np.linspace(2, 18, 14) # правая граница включается (по умолчанию)

Изменить размеры существующего массива с помощью reshape (при этом количество элементов должно оставаться неизменным):


In [19]:
np.arange(9).reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Вместо значения длины массива по одному из измерений можно указать -1 — в этом случае значение будет рассчитано автоматически:



In [20]:
np.arange(8).reshape(2, -1)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [21]:
np.arange(8).reshape(2, 4)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [22]:
np.arange(8).reshape(-1, 4)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [28]:
np.array([1,2,3,4])*10

array([10, 20, 30, 40])

In [25]:
for i in np.arange(8):
    print(i)

0
1
2
3
4
5
6
7


In [23]:
np.arange(8).reshape(3, 4)

ValueError: cannot reshape array of size 8 into shape (3,4)

In [None]:
np.arange(8).reshape(2, -1)

Транспонировать существующий массив:

In [29]:
C = np.arange(6).reshape(2, -1)
C

array([[0, 1, 2],
       [3, 4, 5]])

In [30]:
C.T

array([[0, 3],
       [1, 4],
       [2, 5]])

In [31]:
np.transpose(C)

array([[0, 3],
       [1, 4],
       [2, 5]])

In [37]:
matx = np.array([1,2,3])

In [39]:
matx

array([1, 2, 3])

Повторить существующий массив:

In [33]:
a = np.arange(3)

In [34]:
a

array([0, 1, 2])

In [35]:
np.tile(a, (2, 2))


array([[0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2]])

In [36]:
np.tile(a, (4, 1))

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

### Базовые операции
Базовые арифметические операции над массивами выполняются поэлементно:

In [40]:
A = np.arange(9).reshape(3, 3)
B = np.arange(1, 10).reshape(3, 3)

In [41]:
print(A)
print(B)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [42]:
A + B

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [43]:
A * 1.0 / B

array([[0.        , 0.5       , 0.66666667],
       [0.75      , 0.8       , 0.83333333],
       [0.85714286, 0.875     , 0.88888889]])

In [44]:
A + 1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [45]:
3 * A

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

In [46]:
A ** 2

array([[ 0,  1,  4],
       [ 9, 16, 25],
       [36, 49, 64]])

Отдельно обратим внимание на то, что умножение массивов также является поэлементным, а не матричным:

In [47]:
A * B

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

Для выполнения матричного умножения необходимо использовать функцию dot:

In [49]:
A @ B

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

In [50]:
A.dot(B)

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

Некоторые операции над массивами (например, вычисления минимума, максимума, суммы элементов) выполняются над всеми элементами вне зависимости от формы массива, однако при указании оси выполняются вдоль нее (например, для нахождения максимума каждой строки или каждого столбца):

In [55]:
np.array([1,2,3,4])+np.array([1,2])

ValueError: operands could not be broadcast together with shapes (4,) (2,) 

In [51]:
A

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [52]:
A.min()

0

In [53]:
A.max(axis=1)

array([2, 5, 8])

In [54]:
A.sum(axis=1)

array([ 3, 12, 21])

In [56]:

print('A\n', A, '\n')

print('min\n', np.min(A, 0), '\n')
print('max\n', np.max(A, 0), '\n')
print('mean\n', np.mean(A, 0), '\n')
print('average\n', np.average(A, 0), '\n')

A
 [[0 1 2]
 [3 4 5]
 [6 7 8]] 

min
 [0 1 2] 

max
 [6 7 8] 

mean
 [3. 4. 5.] 

average
 [3. 4. 5.] 



In [57]:
A = np.array([[1., 2., 3.], [4., 5., 6.], [7., 8., 9.]])
B = np.exp(A)
C = np.log(B)

print('A', A, '\n')
print('B', B, '\n')
print('C', C, '\n')

A [[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]] 

B [[2.71828183e+00 7.38905610e+00 2.00855369e+01]
 [5.45981500e+01 1.48413159e+02 4.03428793e+02]
 [1.09663316e+03 2.98095799e+03 8.10308393e+03]] 

C [[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]] 



### Индексация
Для доступа к элементам может использоваться много различных способов, рассмотрим основные.

Для индексации могут использоваться конкретные значения индексов и срезы (slice), как и в стандартных типах Python. Для многомерных массивов индексы для различных осей разделяются запятой. Если для многомерного массива указаны индексы не для всех измерений, недостающие заполняются полным срезом (:).

In [58]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [60]:
a[1]

1

In [61]:
a[2:5]

array([2, 3, 4])

In [62]:
a[3:8:2]

array([3, 5, 7])

In [63]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [64]:
A.shape

(9, 9)

In [67]:
A[2:4]

array([[18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

In [69]:
A[:, 2:4]

array([[ 2,  3],
       [11, 12],
       [20, 21],
       [29, 30],
       [38, 39],
       [47, 48],
       [56, 57],
       [65, 66],
       [74, 75]])

In [71]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [70]:
A[2:4, 2:4]

array([[20, 21],
       [29, 30]])

In [72]:
A[-1]

array([72, 73, 74, 75, 76, 77, 78, 79, 80])

In [78]:
A[:, -1]

array([ 8, 17, 26, 35, 44, 53, 62, 71, 80])

In [77]:
A[8, :]

array([72, 73, 74, 75, 76, 77, 78, 79, 80])

Также может использоваться индексация при помощи списков индексов (по каждой из ос

In [None]:
A = np.arange(81).reshape(9, -1)
A

In [None]:
A[[2, 4, 5], [0, 1, 3]]

Может применяться логическая индексация (при помощи логических массивов)

In [89]:
A = np.arange(5)
A

array([0, 1, 2, 3, 4])

In [91]:
A = np.ones([5,10])

In [94]:
A

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

In [93]:
len(A)

5

In [82]:
bool_ind = [True, False, True, False, True]

In [83]:
A[bool_ind]

array([0, 2, 4])

In [85]:
A>1

array([False, False,  True,  True,  True])

In [84]:
A[A>1]

array([2, 3, 4])

In [95]:
a = [1,2,3,4,5]
max(a)

5

In [86]:
A[A % 5 != 3]

array([0, 1, 2, 4])

In [100]:
A = np.ones((2, 2))
B = np.zeros((2, 2))
print(A)
print(B)

C = np.concatenate((A, B), 1)
print(C.shape)
C

[[1. 1.]
 [1. 1.]]
[[0. 0.]
 [0. 0.]]
(2, 4)


array([[1., 1., 0., 0.],
       [1., 1., 0., 0.]])

In [101]:
A = np.ones((2, 2))
B = np.zeros((2, 2))

C = np.concatenate((A, B), 0)
print(C.shape)
C

(4, 2)


array([[1., 1.],
       [1., 1.],
       [0., 0.],
       [0., 0.]])

### Sort

In [102]:
a = np.array([3, 2, 0, 1])

print(np.sort(a))

[0 1 2 3]


In [103]:
print(np.sort(a)[::-1])

[3 2 1 0]


In [104]:
a = np.random.randint(100, size=(5, 4))

In [105]:
a

array([[81, 80, 26, 90],
       [23, 29, 16, 64],
       [38, 52, 44, 20],
       [63, 59, 78, 67],
       [48, 56, 88,  8]])

In [106]:
a[:, 0]

array([81, 23, 38, 63, 48])

argsort

In [107]:
a[:, 0].argsort()

array([1, 2, 4, 3, 0])

In [111]:
a[:, 0][a[:, 0].argsort()]

array([23, 38, 48, 63, 81])

In [110]:
print(np.sort(a[:, 0]))

[23 38 48 63 81]


argmax

In [114]:
a

array([[23, 80, 26, 90],
       [38, 29, 16, 64],
       [48, 52, 44, 20],
       [63, 59, 78, 67],
       [81, 56, 88,  8]])

In [122]:
np.argmax(a, axis=1)

array([3, 3, 1, 2, 2])

In [118]:
np.argmax(a[1, :])

3

In [120]:
np.argmax(a)

3

In [113]:
np.argmax(a, axis=1)

array([3, 3, 1, 2, 2])

### Зачем?

Зачем необходимо использовать NumPy, если существуют стандартные списки/кортежи и циклы?

Причина заключается в скорости работы. Попробуем посчитать скалярное произведение 2 больших векторов:

In [129]:
SIZE = 100000000

A_quick_arr = np.random.normal(size = (SIZE,))
B_quick_arr = np.random.normal(size = (SIZE,))

A_slow_list, B_slow_list = list(A_quick_arr), list(B_quick_arr)

In [130]:
%%time
ans = 0
for i in range(len(A_slow_list)):
    ans += A_slow_list[i] * B_slow_list[i]

CPU times: user 12.5 s, sys: 1.89 s, total: 14.3 s
Wall time: 17.6 s


In [131]:
%%time
ans = sum([A_slow_list[i] * B_slow_list[i] for i in range(SIZE)])

CPU times: user 8.83 s, sys: 3.93 s, total: 12.8 s
Wall time: 19.5 s


In [133]:
%%time
ans = np.sum(A_quick_arr * B_quick_arr)

CPU times: user 89 ms, sys: 484 ms, total: 573 ms
Wall time: 887 ms


In [None]:
%%time
ans = A_quick_arr.dot(B_quick_arr)

In [135]:
Z = np.ones((10,10))
Z

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

In [138]:
logits = [1.3, 5.1, 2.2, 0.7, 1.1]

In [139]:
def softmax(x):
    f_x = np.exp(x) / np.sum(np.exp(x))
    return f_x

In [141]:
sum(softmax(logits))

1.0

In [145]:
softmax(logits)

array([0.02019046, 0.90253769, 0.04966053, 0.01108076, 0.01653055])

In [143]:
logits = [1.3, 5.1, 2.2, 0.7, 1.1]
np.exp(logits)

array([  3.66929667, 164.0219073 ,   9.0250135 ,   2.01375271,
         3.00416602])

In [144]:
np.sum(np.exp(logits))

181.73413619837197