# Машинное обучение 1, ПМИ ФКН ВШЭ

## Семинар 3 (`numpy`)

## NumPy

**NumPy** — библиотека языка Python, позволяющая (удобно) работать с многомерными массивами и матрицами. Кроме того, NumPy позволяет векторизовать многие вычисления, имеющие место в машинном обучении.

 - [numpy](http://www.numpy.org)
 - [numpy tutorial](http://cs231n.github.io/python-numpy-tutorial/)
 - [100 numpy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100/)
 
Кстати, про NumPy недавно вышла [публикация](https://www.nature.com/articles/s41586-020-2649-2) в Nature.

In [1]:
import numpy as np
import warnings
warnings.filterwarnings('ignore')

Основным типом данных NumPy является многомерный массив элементов одного типа — [numpy.ndarray](http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.array.html). Каждый подобный массив имеет несколько *измерений* или *осей* — в частности, вектор (в классическом понимании) является одномерным массивом и имеет 1 ось, матрица является двумерным массивом и имеет 2 оси и т.д.

In [2]:
vec = np.array([1, 2, 3])
vec.ndim # количество осей

1

In [3]:
mat = np.array([[1, 2, 3], [4, 5, 6]])
mat.ndim

2

Чтобы узнать длину массива по каждой из осей, можно воспользоваться атрибутом shape:

In [4]:
vec.shape

(3,)

Чтобы узнать тип элементов и их размер в байтах:

In [5]:
mat.dtype.name

'int32'

In [6]:
mat.itemsize

4

#### Создание массивов

Есть несколько способов сформировать массив в NumPy:

* Передать итерируемый объект в качестве параметра функции array (можно также явно указать тип элементов):

In [7]:
A = np.array([1, 2, 3])
A, A.dtype

(array([1, 2, 3]), dtype('int64'))

In [8]:
A = np.array([1, 2, 3], dtype=float)
A, A.dtype

(array([1., 2., 3.]), dtype('float64'))

* Воспользоваться функциями zeros, ones, empty, identity, если вам нужен объект специального вида:

In [9]:
np.zeros((3,))

array([0., 0., 0.])

In [10]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [11]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

* Воспользоваться функциями arange (в качестве параметров принимает левую и правую границы последовательности и **шаг**) и linspace (принимает левую и правую границы и **количество элементов**) для формирования последовательностей:

In [12]:
np.arange(2, 20, 3) # аналогично стандартной функции range python, правая граница не включается

array([ 2,  5,  8, 11, 14, 17])

In [13]:
np.arange(2.5, 8.7, 0.9) # но может работать и с вещественными числами

array([2.5, 3.4, 4.3, 5.2, 6.1, 7. , 7.9])

In [14]:
np.linspace(2, 18, 14) # правая граница включается (по умолчанию)

array([ 2.        ,  3.23076923,  4.46153846,  5.69230769,  6.92307692,
        8.15384615,  9.38461538, 10.61538462, 11.84615385, 13.07692308,
       14.30769231, 15.53846154, 16.76923077, 18.        ])

* Изменить размеры существующего массива с помощью reshape (при этом количество элементов должно оставаться неизменным):

In [15]:
np.arange(9).reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Вместо значения длины массива по одному из измерений можно указать -1 — в этом случае значение будет рассчитано автоматически:

In [16]:
np.arange(8).reshape(2, -1)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

* Транспонировать существующий массив:

In [17]:
C = np.arange(6).reshape(2, -1)
C

array([[0, 1, 2],
       [3, 4, 5]])

In [18]:
C.T

array([[0, 3],
       [1, 4],
       [2, 5]])

* Повторить существующий массив:

In [19]:
a = np.arange(3)
np.tile(a, (2, 2))

array([[0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2]])

In [20]:
np.tile(a, (4, 1))

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

#### Базовые операции

* Базовые арифметические операции над массивами выполняются поэлементно:

In [21]:
A = np.arange(9).reshape(3, 3)
B = np.arange(1, 10).reshape(3, 3)

In [22]:
print(A)
print(B)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [23]:
A + B

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [24]:
A * 1.0 / B

array([[0.        , 0.5       , 0.66666667],
       [0.75      , 0.8       , 0.83333333],
       [0.85714286, 0.875     , 0.88888889]])

In [25]:
A + 1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [26]:
3 * A

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

In [27]:
A ** 2

array([[ 0,  1,  4],
       [ 9, 16, 25],
       [36, 49, 64]])

Отдельно обратим внимание на то, что умножение массивов также является **поэлементным**, а не матричным:

In [28]:
A * B

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

Для выполнения матричного умножения необходимо использовать функцию dot:

In [29]:
A.dot(B)

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

Для умножения векторов или матриц можно также использовать оператор `@`:

In [30]:
A @ B

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

In [31]:
np.array([1, 2, 3, 4]) @ np.array([1, 1, 1, 1])

10

Поскольку операции выполняются поэлементно, операнды бинарных операций должны иметь одинаковый размер. Тем не менее, операция может быть корректно выполнена, если размеры операндов таковы, что они могут быть расширены до одинаковых размеров. Данная возможность называется [broadcasting](http://www.scipy-lectures.org/intro/numpy/operations.html#broadcasting):
![](https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png)

In [32]:
np.tile(np.arange(0, 40, 10), (3, 1)).T + np.array([0, 1, 2])

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

* Некоторые операции над массивами (например, вычисления минимума, максимума, суммы элементов) выполняются над всеми элементами вне зависимости от формы массива, однако при указании оси выполняются вдоль нее (например, для нахождения максимума каждой строки или каждого столбца):

In [33]:
A

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [34]:
A.min()

0

In [35]:
A.max(axis=1)

array([2, 5, 8])

In [36]:
A.sum(axis=1)

array([ 3, 12, 21])

#### Индексация

Для доступа к элементам может использоваться [много различных способов](http://docs.scipy.org/doc/numpy/reference/arrays.indexing.html), рассмотрим основные.

* Для индексации могут использоваться конкретные значения индексов и срезы (slice), как и в стандартных типах Python. Для многомерных массивов индексы для различных осей разделяются запятой. Если для многомерного массива указаны индексы не для всех измерений, недостающие заполняются полным срезом (:).

In [37]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
a[2:5]

array([2, 3, 4])

In [39]:
a[3:8:2]

array([3, 5, 7])

In [40]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [41]:
A[2:4]

array([[18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

In [42]:
A[:, 2:4]

array([[ 2,  3],
       [11, 12],
       [20, 21],
       [29, 30],
       [38, 39],
       [47, 48],
       [56, 57],
       [65, 66],
       [74, 75]])

In [43]:
A[2:4, 2:4]

array([[20, 21],
       [29, 30]])

In [44]:
A[-1]

array([72, 73, 74, 75, 76, 77, 78, 79, 80])

* Также может использоваться индексация при помощи списков индексов (по каждой из осей):

In [45]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [46]:
A[[2, 4, 5], [0, 1, 3]]

array([18, 37, 48])

* Может применяться логическая индексация (при помощи логических массивов):

In [47]:
A = np.arange(11)
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [48]:
A[A % 5 != 3]

array([ 0,  1,  2,  4,  5,  6,  7,  9, 10])

In [49]:
A[np.logical_and(A != 7, A % 5 != 3)] # также можно использовать логические операции

array([ 0,  1,  2,  4,  5,  6,  9, 10])

#### Зачем?

Зачем необходимо использовать NumPy, если существуют стандартные списки/кортежи и циклы?

Причина заключается в скорости работы. Попробуем посчитать скалярное произведение 2 больших векторов:

In [50]:
SIZE = 10000000

A_quick_arr = np.random.normal(size = (SIZE,))
B_quick_arr = np.random.normal(size = (SIZE,))

A_slow_list, B_slow_list = list(A_quick_arr), list(B_quick_arr)

In [51]:
%%time
ans = 0
for i in range(len(A_slow_list)):
    ans += A_slow_list[i] * B_slow_list[i]

CPU times: user 2.81 s, sys: 6.88 ms, total: 2.82 s
Wall time: 2.82 s


In [52]:
%%time
ans = sum([A_slow_list[i] * B_slow_list[i] for i in range(SIZE)])

CPU times: user 2.33 s, sys: 119 ms, total: 2.45 s
Wall time: 2.46 s


In [53]:
%%time
ans = np.sum(A_quick_arr * B_quick_arr)

CPU times: user 16.6 ms, sys: 12.2 ms, total: 28.8 ms
Wall time: 27.6 ms


In [54]:
%%time
ans = A_quick_arr.dot(B_quick_arr)

CPU times: user 18.7 ms, sys: 3.93 ms, total: 22.7 ms
Wall time: 7.65 ms


NumPy работает быстро по нескольким причинам:
* Массивы хранятся в непрерывном участке памяти, а все элементы имеют один и тот же тип
* Для вычислений по возможности используются библиотеки линейной алгебры вроде BLAS

Посмотреть, какая библиотека используется у вас, можно в конфигурации NumPy:

In [55]:
print(np.show_config())

blas_mkl_info:
  NOT AVAILABLE
blis_info:
  NOT AVAILABLE
openblas_info:
    libraries = ['openblas', 'openblas']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None)]
blas_opt_info:
    libraries = ['openblas', 'openblas']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None)]
lapack_mkl_info:
  NOT AVAILABLE
openblas_lapack_info:
    libraries = ['openblas', 'openblas']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None)]
lapack_opt_info:
    libraries = ['openblas', 'openblas']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None)]
None


### Примеры векторизации вычислений на NumPy


Разберём несколько задач (из [100 numpy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100/)), где NumPy может существенно ускорить вычисления и упростить код.

Дан четырёхмерный массив. Как получить двумерный массив, в котором элемент с индексами $(i, j)$ содержит сумму всех элементов исходного массива, у которых первые два индекса — это $(i, j)$?

In [56]:
A = np.random.randint(0,1000,(2,5,20,25))
res = A.reshape(A.shape[:-2] + (-1,)).sum(axis=-1)
print(res)

[[258340 251179 238200 252220 246860]
 [243073 245739 251546 249450 246257]]


Даны одномерные массивы A и B. Элементы массива B принимают значения от 0 до `len(A) - 1`. Требуется прибавить единицу ко всем элементам A, чьи индексы записаны в B. Если индекс встречается в B несколько раз, то надо прибавить единицу для каждого такого вхождения.

In [57]:
A = np.ones(10)
B = np.random.randint(0,len(A),20)
print(A)
print(B)
A += np.bincount(B, minlength=len(A))
print(A)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[3 1 8 5 8 7 5 0 9 7 2 9 9 2 2 0 7 9 7 2]
[3. 2. 5. 2. 1. 3. 1. 5. 3. 5.]


Даны одномерный массив A и число n. Вычислите массив B, в котором i-й элемент равен среднему значению элементов с i-го по (i+n-1)-й в массиве A.

In [58]:
def moving_average(Z, n=3) :
    ret = np.cumsum(Z, dtype=float)
    ret[n:] = ret[n:] - ret[:-n]
    return ret[n - 1:] / n
A = np.random.randint(0, 10, 20)
print(A)
print(moving_average(A, n=3))

[6 5 7 6 6 1 7 8 1 1 8 7 8 8 1 5 2 9 2 4]
[6.         6.         6.33333333 4.33333333 4.66666667 5.33333333
 5.33333333 3.33333333 3.33333333 5.33333333 7.66666667 7.66666667
 5.66666667 4.66666667 2.66666667 5.33333333 4.33333333 5.        ]
