<h3>Поговорим про numpy</h3>

NumPy — библиотека языка Python, позволяющая работать с многомерными массивами и матрицами, таким образом применяемая в задачах линейной алгебры, мат.анализа, статистики (и, как следствие, машинного обучения).

Практиковаться: https://github.com/rougier/numpy-100

In [1]:
import numpy as np

### Векторы и матрицы: основы

In [2]:
vec = np.array([1, 2, 3])
vec.ndim # количество осей

1

In [3]:
mat = np.array([[1, 2, 3], [4, 5, 6]])
mat.ndim

2

In [4]:
mat

array([[1, 2, 3],
       [4, 5, 6]])

In [5]:
vec.shape, mat.shape

((3,), (2, 3))

In [6]:
mat.dtype.name

'int64'

In [7]:
type(33)

int

### Создание массивов

In [8]:
A = np.array([1, 2, 3])
A, A.dtype

(array([1, 2, 3]), dtype('int64'))

In [9]:
A = np.array([1, 2, 3], dtype=float)
A, A.dtype

(array([1., 2., 3.]), dtype('float64'))

In [10]:
np.zeros((3,))

array([0., 0., 0.])

In [11]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [12]:
np.identity(3) # E

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [13]:
np.arange(2, 20, 3) # аналогично стандартной функции range python, правая граница не включается

array([ 2,  5,  8, 11, 14, 17])

In [14]:
np.arange(2.5, 8.7, 0.9) # но может работать и с вещественными числами

array([2.5, 3.4, 4.3, 5.2, 6.1, 7. , 7.9])

In [15]:
np.linspace(1, 15, 1000) # правая граница включается (по умолчанию)

array([ 1.        ,  1.01401401,  1.02802803,  1.04204204,  1.05605606,
        1.07007007,  1.08408408,  1.0980981 ,  1.11211211,  1.12612613,
        1.14014014,  1.15415415,  1.16816817,  1.18218218,  1.1961962 ,
        1.21021021,  1.22422422,  1.23823824,  1.25225225,  1.26626627,
        1.28028028,  1.29429429,  1.30830831,  1.32232232,  1.33633634,
        1.35035035,  1.36436436,  1.37837838,  1.39239239,  1.40640641,
        1.42042042,  1.43443443,  1.44844845,  1.46246246,  1.47647648,
        1.49049049,  1.5045045 ,  1.51851852,  1.53253253,  1.54654655,
        1.56056056,  1.57457457,  1.58858859,  1.6026026 ,  1.61661662,
        1.63063063,  1.64464464,  1.65865866,  1.67267267,  1.68668669,
        1.7007007 ,  1.71471471,  1.72872873,  1.74274274,  1.75675676,
        1.77077077,  1.78478478,  1.7987988 ,  1.81281281,  1.82682683,
        1.84084084,  1.85485485,  1.86886887,  1.88288288,  1.8968969 ,
        1.91091091,  1.92492492,  1.93893894,  1.95295295,  1.96

In [18]:
np.arange(9).reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Вместо значения длины массива по одному из измерений можно указать -1 — в этом случае значение будет рассчитано автоматически:

In [19]:
np.arange(8).reshape(2, -1)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [20]:
C = np.arange(6).reshape(2, -1)
C

array([[0, 1, 2],
       [3, 4, 5]])

In [21]:
C.T

array([[0, 3],
       [1, 4],
       [2, 5]])

In [22]:
a = np.arange(3) # np.array([0,1,2])
np.tile(a, (4, 3))

array([[0, 1, 2, 0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2, 0, 1, 2]])

In [23]:
np.tile(a, (4, 1))

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

In [24]:
a = np.array([0,1,2])

np.repeat(a, 2)
#np.tile(a, 2)

array([0, 0, 1, 1, 2, 2])

### Базовые операции

In [25]:
A = np.arange(9).reshape(3, 3)
B = np.arange(1, 10).reshape(3, 3)

In [26]:
print(A)
print(B)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [27]:
A + B

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [28]:
A * 1.0 / B

array([[0.        , 0.5       , 0.66666667],
       [0.75      , 0.8       , 0.83333333],
       [0.85714286, 0.875     , 0.88888889]])

In [29]:
A + 1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [30]:
3 * A

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

In [31]:
A ** 2

array([[ 0,  1,  4],
       [ 9, 16, 25],
       [36, 49, 64]])

In [32]:
A * B

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

In [33]:
A.dot(B)

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

In [34]:
A @ B

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

In [35]:
np.array([1, 2, 3, 4]) @ np.array([1, 1, 1, 1])

10

Поскольку операции выполняются поэлементно, операнды бинарных операций должны иметь одинаковый размер. Тем не менее, операция может быть корректно выполнена, если размеры операндов таковы, что они могут быть расширены до одинаковых размеров. Данная возможность называется [broadcasting](http://www.scipy-lectures.org/intro/numpy/operations.html#broadcasting):
![](https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png)

In [36]:
np.tile(np.arange(0, 40, 10), (3, 1)).T + np.array([0, 1, 2])

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

In [37]:
A

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [38]:
A.min()

0

In [39]:
A.max(axis=1)

array([2, 5, 8])

In [40]:
A.sum(axis=1)

array([ 3, 12, 21])

#### Индексация

In [41]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [42]:
a[0:5]

array([0, 1, 2, 3, 4])

In [43]:
a[3:8:2]

array([3, 5, 7])

In [44]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [45]:
A[2:4]

array([[18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

In [46]:
A[:, 2:4]

array([[ 2,  3],
       [11, 12],
       [20, 21],
       [29, 30],
       [38, 39],
       [47, 48],
       [56, 57],
       [65, 66],
       [74, 75]])

In [47]:
A[2:4, 2:4]

array([[20, 21],
       [29, 30]])

In [48]:
A[-1]

array([72, 73, 74, 75, 76, 77, 78, 79, 80])

In [49]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [50]:
A[[2, 4, 5], [0, 1, 3]]

array([18, 37, 48])

In [51]:
A = np.arange(11)
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [52]:
A[A % 5 != 3]

array([ 0,  1,  2,  4,  5,  6,  7,  9, 10])

In [53]:
A[np.logical_and(A != 7, A % 5 != 3)] # также можно использовать логические операции

array([ 0,  1,  2,  4,  5,  6,  9, 10])

### Numpy: мотивация


In [54]:
SIZE = 10000000

A_quick_arr = np.random.normal(size = (SIZE,))
B_quick_arr = np.random.normal(size = (SIZE,))

A_slow_list, B_slow_list = list(A_quick_arr), list(B_quick_arr)

In [55]:
A_slow_list[:10], B_slow_list[:10]

([-0.8010608543386598,
  -0.6573312818698809,
  1.4002869327647722,
  1.5583670818316055,
  -0.43905094067423045,
  0.8913390793865654,
  -0.2505887294861287,
  1.1888153113229813,
  -0.8593260443847679,
  -0.9861544944844353],
 [-1.5814026689575065,
  -0.22260445324291542,
  -0.11476206372789276,
  -0.8991014553087309,
  -1.0349966243171775,
  0.15978321798884504,
  -1.1484234732107725,
  -0.2778318110540988,
  -0.07548280242098064,
  0.3682665619952917])

In [56]:
A_quick_arr[:10], B_quick_arr[:10]

(array([-0.80106085, -0.65733128,  1.40028693,  1.55836708, -0.43905094,
         0.89133908, -0.25058873,  1.18881531, -0.85932604, -0.98615449]),
 array([-1.58140267, -0.22260445, -0.11476206, -0.89910146, -1.03499662,
         0.15978322, -1.14842347, -0.27783181, -0.0754828 ,  0.36826656]))

In [57]:
%%time
ans = 0
for i in range(len(A_slow_list)):
    ans += A_slow_list[i] * B_slow_list[i]

CPU times: user 2.53 s, sys: 0 ns, total: 2.53 s
Wall time: 2.53 s


In [58]:
%%time
ans = sum([A_slow_list[i] * B_slow_list[i] for i in range(SIZE)])

CPU times: user 1.69 s, sys: 153 ms, total: 1.84 s
Wall time: 1.84 s


In [59]:
%%time
ans = np.sum(A_quick_arr * B_quick_arr)

CPU times: user 30.6 ms, sys: 103 ms, total: 133 ms
Wall time: 138 ms


In [60]:
%%time
ans = A_quick_arr.dot(B_quick_arr)

CPU times: user 69.8 ms, sys: 12.5 ms, total: 82.3 ms
Wall time: 23.2 ms


### Примеры векторизации вычислений на NumPy


Разберём несколько задач (из [100 numpy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100/)), где NumPy может существенно ускорить вычисления и упростить код.

Дан четырёхмерный массив. Как получить двумерный массив, в котором элемент с индексами $(i, j)$ содержит сумму всех элементов исходного массива, у которых первые два индекса — это $(i, j)$?

In [61]:
A = np.random.randint(0,1000,(2,5,20,25))
res = A.reshape(A.shape[:-2] + (-1,)).sum(axis=-1)
print(res)

[[253316 238636 256903 248759 262145]
 [248624 253925 252508 252971 247882]]


In [62]:
A = np.random.randint(0,100,(2,3,4,5))

In [63]:
A

array([[[[48,  6, 14, 46, 29],
         [ 9, 97,  6, 76, 98],
         [62, 95, 10, 33, 79],
         [18, 75,  5, 57,  6]],

        [[ 3, 64, 70, 15, 57],
         [75, 48, 50, 48, 20],
         [80, 42, 37, 92, 12],
         [73, 31, 33, 94, 18]],

        [[66, 42, 11, 91, 52],
         [46, 78, 44, 87, 72],
         [23, 89,  8, 49, 67],
         [49, 96, 93, 11, 64]]],


       [[[70, 93, 53, 39,  7],
         [ 5, 55, 76, 74, 90],
         [84, 91, 30, 32, 89],
         [50, 93, 29, 73,  6]],

        [[41, 64, 36, 58, 26],
         [56, 98, 38, 46, 76],
         [ 7, 52, 64, 99, 84],
         [84,  9, 54, 55, 66]],

        [[16, 28, 95, 88, 46],
         [34, 28, 49, 28, 35],
         [80, 52, 55, 25, 55],
         [22, 30, 91,  0, 60]]]])

In [64]:
A.shape

(2, 3, 4, 5)

In [65]:
A.shape[:-2] + (-1,)

(2, 3, -1)

In [66]:
A.reshape(A.shape[:-2] + (-1,))

array([[[48,  6, 14, 46, 29,  9, 97,  6, 76, 98, 62, 95, 10, 33, 79, 18,
         75,  5, 57,  6],
        [ 3, 64, 70, 15, 57, 75, 48, 50, 48, 20, 80, 42, 37, 92, 12, 73,
         31, 33, 94, 18],
        [66, 42, 11, 91, 52, 46, 78, 44, 87, 72, 23, 89,  8, 49, 67, 49,
         96, 93, 11, 64]],

       [[70, 93, 53, 39,  7,  5, 55, 76, 74, 90, 84, 91, 30, 32, 89, 50,
         93, 29, 73,  6],
        [41, 64, 36, 58, 26, 56, 98, 38, 46, 76,  7, 52, 64, 99, 84, 84,
          9, 54, 55, 66],
        [16, 28, 95, 88, 46, 34, 28, 49, 28, 35, 80, 52, 55, 25, 55, 22,
         30, 91,  0, 60]]])

In [67]:
np.array([73, 18, 34, 86, 26, 72, 32,  6, 37, 97, 32, 83, 11, 85, 75, 99, 6, 92, 48, 58]).sum()

1070

In [68]:
A.reshape(A.shape[:-2] + (-1,)).sum(axis=-1)

array([[ 869,  962, 1138],
       [1139, 1113,  917]])

Даны одномерные массивы A и B. Элементы массива B принимают значения от 0 до `len(A) - 1`. Требуется прибавить единицу ко всем элементам A, чьи индексы записаны в B. Если индекс встречается в B несколько раз, то надо прибавить единицу для каждого такого вхождения.

In [69]:
A = np.ones(10)
B = np.random.randint(0,len(A),20)
print(A)
print(B)
A += np.bincount(B, minlength=len(A))
print(A)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[3 8 2 4 5 2 4 8 2 0 1 6 1 7 8 8 6 5 6 7]
[2. 3. 4. 2. 3. 3. 4. 3. 5. 1.]


In [70]:
x = [1, 1, 2, 2, 2, 3, 3, 7]

print(np.bincount(x))
print(np.bincount(x, minlength=20))

[0 2 3 2 0 0 0 1]
[0 2 3 2 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0]


Даны одномерный массив A и число n. Вычислите массив B, в котором i-й элемент равен среднему значению элементов с i-го по (i+n-1)-й в массиве A.

In [71]:
def moving_average(Z, n=3) :
    ret = np.cumsum(Z, dtype=float)
    ret[n:] = ret[n:] - ret[:-n]
    return ret[n - 1:] / n
A = np.random.randint(0, 10, 20)
print(A)
print(moving_average(A, n=3))

[6 5 9 9 6 2 1 3 9 1 2 5 6 5 4 6 7 2 3 9]
[6.66666667 7.66666667 8.         5.66666667 3.         2.
 4.33333333 4.33333333 4.         2.66666667 4.33333333 5.33333333
 5.         5.         5.66666667 5.         4.         4.66666667]
