# DL

## Семинар 1 (`numpy`)

## NumPy

**NumPy** — библиотека языка Python, позволяющая (удобно) работать с многомерными массивами и матрицами. Кроме того, NumPy позволяет векторизовать многие вычисления, имеющие место в машинном обучении.

 - [numpy](http://www.numpy.org)
 - [numpy tutorial](http://cs231n.github.io/python-numpy-tutorial/)
 - [100 numpy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100/)
 
Кстати, про NumPy недавно вышла [публикация](https://www.nature.com/articles/s41586-020-2649-2) в Nature.

In [2]:
import numpy as np
import warnings
warnings.filterwarnings('ignore')

Основным типом данных NumPy является многомерный массив элементов одного типа — [numpy.ndarray](http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.array.html). Каждый подобный массив имеет несколько *измерений* или *осей* — в частности, вектор (в классическом понимании) является одномерным массивом и имеет 1 ось, матрица является двумерным массивом и имеет 2 оси и т.д.

np.array - создается от итерируемого обьекта в памяти. Генератор не подходит. Мы можем использовать list, tuple, либо что-то еще по чему мы модем проитерироваться и что уже создано. 

In [4]:
vec = np.array([1, 2, 3]) # вектор в np - одна строчка, а не столбец как в лин.але
vec.ndim # количество осей

NameError: name 'np' is not defined

In [18]:
vec.shape

(3,)

In [None]:
mat = np.array([[1, 2, 3], [4, 5, 6]])

In [9]:
f = np.array([[-0.8, 1],[-1.3199, 0]])
np.linalg.eig(f)

EigResult(eigenvalues=array([-0.4+1.07698654j, -0.4-1.07698654j]), eigenvectors=array([[-0.22858875+0.6154675j, -0.22858875-0.6154675j],
       [-0.75428571+0.j       , -0.75428571-0.j       ]]))

In [19]:
vec.size

3

In [21]:
vec.dtype

dtype('int64')

Самая частая ошибка - создание np.array в кргулых скобках. А перечислять аргументы от чего-то, например от списка

In [6]:
np.array([1, 2, 3])

array([1, 2, 3])

In [5]:
d = np.array({1, 2, 3})
d

array({1, 2, 3}, dtype=object)

In [133]:
np.array(1, 2, 3)# wrong!

TypeError: array() takes from 1 to 2 positional arguments but 3 were given

In [222]:
mat = np.array([[1, 2, 3], [4, 5, 6]])
mat.ndim, mat #  количесво осей

(2,
 array([[1, 2, 3],
        [4, 5, 6]]))

In [223]:
mat = np.array([[1, 2, 3], [4, 5]]) # wrong!
mat.ndim #  количесво осей

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (2,) + inhomogeneous part.

In [224]:
mat_2 = np.array([[1, 2], [4, 5, 6]]) # wrong!
mat.ndim #  количесво осей

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (2,) + inhomogeneous part.

In [225]:
vec_1 = np.array([1.2, "abc"], dtype=float)   # wrong!

ValueError: could not convert string to float: 'abc'

In [23]:
b = np.array([[1.5, 2, 3],[4, 5, 6]])
b.dtype

dtype('float64')

Чтобы узнать длину массива по каждой из осей, можно воспользоваться атрибутом shape:

In [226]:
vec_1 = np.array([1.2, "abc"], dtype=object)
vec_1

array([1.2, 'abc'], dtype=object)

Чтобы узнать тип элементов и их размер в байтах:

In [229]:
mat.dtype.name

'int64'

Чтобы узнать сколько данный тип занимает памяти

In [230]:
mat.itemsize

8

#### Создание массивов

Есть несколько способов сформировать массив в NumPy:

* Передать итерируемый объект в качестве параметра функции array (можно также явно указать тип элементов):

In [231]:
A = np.array([1, 2, 3])
A, A.dtype, type(A)

(array([1, 2, 3]), dtype('int64'), numpy.ndarray)

In [232]:
A = np.array([1, 2, 3], dtype=float)
A, A.dtype

(array([1., 2., 3.]), dtype('float64'))

* Воспользоваться функциями zeros, ones, empty, identity, eye если вам нужен объект специального вида: *

In [3]:
np.empty((3, 3))

NameError: name 'np' is not defined

In [32]:
np.zeros(3)

array([0., 0., 0.])

In [235]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [236]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [237]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [76]:
np.eye(3,3,-2)

array([[0., 0., 0.],
       [0., 0., 0.],
       [1., 0., 0.]])

In [238]:
np.full((2,2),7)

array([[7, 7],
       [7, 7]])

In [144]:
np.random.random((2,2))

array([[0.46750959, 0.60800385],
       [0.61048097, 0.70592183]])

* Воспользоваться функциями arange (в качестве параметров принимает левую и правую границы последовательности и **шаг**) и linspace (принимает левую и правую границы и **количество элементов**) для формирования последовательностей:

arange - создает обьект в памяти и может иметь дробный шаг в отличии от range - создает генератор

In [33]:
np.arange(2, 20, 5) # аналогично стандартной функции range python, правая граница не включается

array([ 2,  7, 12, 17])

In [5]:
np.arange(2.5, 8.7, 0.9) # но может работать и с вещественными числами

array([2.5, 3.4, 4.3, 5.2, 6.1, 7. , 7.9])

In [240]:
np.linspace(2, 18, 14) # правая граница включается (по умолчанию)
# 14 - число наблюдений

array([ 2.        ,  3.77777778,  5.55555556,  7.33333333,  9.11111111,
       10.88888889, 12.66666667, 14.44444444, 16.22222222, 18.        ])

In [241]:
np.logspace(2, 10, 9)

array([1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06, 1.e+07, 1.e+08, 1.e+09,
       1.e+10])

* Изменить размеры существующего массива с помощью reshape (при этом количество элементов должно оставаться неизменным):

In [242]:
np.arange(9).reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [243]:
np.reshape(np.arange(9), (3, 3))

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Вместо значения длины массива по одному из измерений можно указать -1 — в этом случае значение будет рассчитано автоматически:

In [244]:
np.arange(8).reshape(4, -1)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

* Транспонировать существующий массив:

In [43]:
C = np.arange(8).reshape(2, 4)
C

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [44]:
C.shape

(2, 4)

In [45]:
C.T


array([[0, 4],
       [1, 5],
       [2, 6],
       [3, 7]])

* Повторить существующий массив:

In [48]:
a = np.arange(3)
np.tile(a, (2, 2)) # берет массив и дублирует его вдоль требуемой оси

array([[0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2]])

In [49]:
np.tile(a, (4, 1))

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

In [54]:
np.repeat(a, 2)

array([0, 0, 1, 1, 2, 2])

#### Базовые операции

* Базовые арифметические операции над массивами выполняются поэлементно:

In [46]:
A = np.arange(9).reshape(3, 3)
B = np.arange(1, 10).reshape(3, 3)

In [249]:
print(A)
print(B)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [251]:
A + B

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [48]:
np.add(A, B)

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [252]:
A - B

array([[-1, -1, -1],
       [-1, -1, -1],
       [-1, -1, -1]])

In [253]:
np.subtract(A, B)

array([[-1, -1, -1],
       [-1, -1, -1],
       [-1, -1, -1]])

In [254]:
A * B

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

In [255]:
np.multiply(A, B)

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

In [256]:
A / B

array([[0.        , 0.5       , 0.66666667],
       [0.75      , 0.8       , 0.83333333],
       [0.85714286, 0.875     , 0.88888889]])

In [257]:
np.divide(A, B)

array([[0.        , 0.5       , 0.66666667],
       [0.75      , 0.8       , 0.83333333],
       [0.85714286, 0.875     , 0.88888889]])

In [258]:
A + 1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [259]:
3 * A

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

In [260]:
A ** 2

array([[ 0,  1,  4],
       [ 9, 16, 25],
       [36, 49, 64]])

Отдельно обратим внимание на то, что умножение массивов также является **поэлементным**, а не матричным:

![](https://habrastorage.org/r/w1560/webt/ou/_g/wg/ou_gwgmqlsqlzlelu93s1q7vetw.png)

Для выполнения матричного умножения необходимо использовать функцию dot:

In [261]:
A.dot(B)

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

Для умножения векторов или матриц можно также использовать оператор `@`:

In [262]:
A @ B

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

In [263]:
np.dot(A, B)

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

In [49]:
np.array([1, 2, 3, 4]) @ np.array([1, 1, 1, 1])

10

Поскольку операции выполняются поэлементно, операнды бинарных операций должны иметь одинаковый размер. Тем не менее, операция может быть корректно выполнена, если размеры операндов таковы, что они могут быть расширены до одинаковых размеров. Данная возможность называется [broadcasting](http://www.scipy-lectures.org/intro/numpy/operations.html#broadcasting):
![](https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png)

In [51]:
np.tile(np.arange(0, 40, 10), (3, 1)).T

array([[ 0,  0,  0],
       [10, 10, 10],
       [20, 20, 20],
       [30, 30, 30]])

In [60]:
np.tile(np.arange(0, 40, 10), (3, 1)).T + np.array([0, 1, 2])

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

* Некоторые операции над массивами (например, вычисления минимума, максимума, суммы элементов) выполняются над всеми элементами вне зависимости от формы массива, однако при указании оси выполняются вдоль нее (например, для нахождения максимума каждой строки или каждого столбца):

In [52]:
A

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [53]:
A.min()

0

In [66]:
A.max(axis=1)

array([2, 5, 8])

In [67]:
A.sum(axis=1)

array([ 3, 12, 21])

In [269]:
np.median(A)

4.0

In [270]:
np.quantile(A, [0.1, 0.8])

array([0.8, 6.4])

#### Индексация

Для доступа к элементам может использоваться [много различных способов](http://docs.scipy.org/doc/numpy/reference/arrays.indexing.html), рассмотрим основные.

* Для индексации могут использоваться конкретные значения индексов и срезы (slice), как и в стандартных типах Python. Для многомерных массивов индексы для различных осей разделяются запятой. Если для многомерного массива указаны индексы не для всех измерений, недостающие заполняются полным срезом (:).

In [271]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [272]:
a[2:5]

array([2, 3, 4])

In [273]:
a[3:8:2]

array([3, 5, 7])

In [69]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [70]:
A[2:4]

array([[18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

In [72]:
A[[1, 3]][:, [2, 4]]

array([[11, 13],
       [29, 31]])

In [73]:
A[:, -1]

array([ 8, 17, 26, 35, 44, 53, 62, 71, 80])

In [43]:
A[2:4, 2:4]

array([[20, 21],
       [29, 30]])

In [279]:
A[-1]

array([72, 73, 74, 75, 76, 77, 78, 79, 80])

* Также может использоваться индексация при помощи списков индексов (по каждой из осей):

In [77]:
A = np.arange(81).reshape(9, -1)
A

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [280]:
A[[2, 4, 5], [0, 1, 3]]

array([18, 37, 48])

* Может применяться логическая индексация (при помощи логических массивов):

In [281]:
A = np.arange(11)
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [282]:
A[A % 5 != 3]

array([ 0,  1,  2,  4,  5,  6,  7,  9, 10])

In [85]:
A[(A != 7) and (A % 5 != 3)] #wrong!

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [283]:

A[(A != 7) & (A % 5 != 3)]

array([ 0,  1,  2,  4,  5,  6,  9, 10])

In [284]:
A[np.logical_and(A != 7, A % 5 != 3)] # также можно использовать логические операции

array([ 0,  1,  2,  4,  5,  6,  9, 10])

#### Зачем?

Зачем необходимо использовать NumPy, если существуют стандартные списки/кортежи и циклы?

Причина заключается в скорости работы. Попробуем посчитать скалярное произведение 2 больших векторов:

In [7]:
%%time
SIZE = 10_000_000

# C_quick_arr = np.random.normal(size = (SIZE,)).tolist()
A_quick_arr = np.random.normal(size = (SIZE,))
B_quick_arr = np.random.normal(size = (SIZE,))

A_slow_list, B_slow_list = list(A_quick_arr), list(B_quick_arr)

CPU times: user 686 ms, sys: 239 ms, total: 925 ms
Wall time: 1 s


In [4]:
%%time
# magic sell
ans = 0
for i in range(len(A_slow_list)):
    ans += A_slow_list[i] * B_slow_list[i]

CPU times: user 1.11 s, sys: 204 ms, total: 1.32 s
Wall time: 1.48 s


In [8]:

%time ans = sum([A_slow_list[i] * B_slow_list[i] for i in range(SIZE)])

CPU times: user 805 ms, sys: 301 ms, total: 1.11 s
Wall time: 1.34 s


In [9]:
%%time
ans = np.sum(A_quick_arr * B_quick_arr)

CPU times: user 13.4 ms, sys: 50.6 ms, total: 64 ms
Wall time: 77.6 ms


In [6]:
%%time
ans = A_quick_arr.dot(B_quick_arr)

CPU times: user 10.3 ms, sys: 1.32 ms, total: 11.6 ms
Wall time: 11.5 ms


NumPy работает быстро по нескольким причинам:
* Массивы хранятся в непрерывном участке памяти, а все элементы имеют один и тот же тип
* Для вычислений по возможности используются библиотеки линейной алгебры вроде BLAS
* Распараллеливание

Посмотреть, какая библиотека используется у вас, можно в конфигурации NumPy:

In [199]:
B = np.random.randint(1, 10, 20)
B

array([4, 8, 4, 5, 3, 2, 9, 5, 9, 6, 5, 1, 2, 4, 8, 7, 9, 3, 3, 5])

In [200]:
B + 2

array([ 6, 10,  6,  7,  5,  4, 11,  7, 11,  8,  7,  3,  4,  6, 10,  9, 11,
        5,  5,  7])

In [203]:
np.bincount(B, minlength=10)

array([0, 1, 2, 3, 3, 4, 1, 1, 2, 3])

In [116]:
np.cumsum(B)

array([ 1,  3, 11, 19, 23, 29, 33, 34, 35, 40, 49, 55, 64, 68, 73, 76, 85,
       88, 89, 98])

In [198]:
print(np.show_config())

openblas64__info:
    libraries = ['openblas64_', 'openblas64_']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None), ('BLAS_SYMBOL_SUFFIX', '64_'), ('HAVE_BLAS_ILP64', None)]
    runtime_library_dirs = ['/usr/local/lib']
blas_ilp64_opt_info:
    libraries = ['openblas64_', 'openblas64_']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None), ('BLAS_SYMBOL_SUFFIX', '64_'), ('HAVE_BLAS_ILP64', None)]
    runtime_library_dirs = ['/usr/local/lib']
openblas64__lapack_info:
    libraries = ['openblas64_', 'openblas64_']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None), ('BLAS_SYMBOL_SUFFIX', '64_'), ('HAVE_BLAS_ILP64', None), ('HAVE_LAPACKE', None)]
    runtime_library_dirs = ['/usr/local/lib']
lapack_ilp64_opt_info:
    libraries = ['openblas64_', 'openblas64_']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None

### Примеры векторизации вычислений на NumPy


Разберём несколько задач (из [100 numpy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100/)), где NumPy может существенно ускорить вычисления и упростить код.

Дан четырёхмерный массив. Как получить двумерный массив, в котором элемент с индексами $(i, j)$ содержит сумму всех элементов исходного массива, у которых первые два индекса — это $(i, j)$?

In [56]:
A = np.random.randint(0,1000,(2,5,20,25))
res = A.reshape(A.shape[:-2] + (-1,)).sum(axis=-1)
print(res)

[[258340 251179 238200 252220 246860]
 [243073 245739 251546 249450 246257]]


Даны одномерные массивы A и B. Элементы массива B принимают значения от 0 до `len(A) - 1`. Требуется прибавить единицу ко всем элементам A, чьи индексы записаны в B. Если индекс встречается в B несколько раз, то надо прибавить единицу для каждого такого вхождения.

In [57]:
A = np.ones(10)
B = np.random.randint(0,len(A),20)
print(A)
print(B)
A += np.bincount(B, minlength=len(A))
print(A)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[3 1 8 5 8 7 5 0 9 7 2 9 9 2 2 0 7 9 7 2]
[3. 2. 5. 2. 1. 3. 1. 5. 3. 5.]


Даны одномерный массив A и число n. Вычислите массив B, в котором i-й элемент равен среднему значению элементов с i-го по (i+n-1)-й в массиве A.

In [58]:
def moving_average(Z, n=3) :
    ret = np.cumsum(Z, dtype=float)
    ret[n:] = ret[n:] - ret[:-n]
    return ret[n - 1:] / n
A = np.random.randint(0, 10, 20)
print(A)
print(moving_average(A, n=3))

[6 5 7 6 6 1 7 8 1 1 8 7 8 8 1 5 2 9 2 4]
[6.         6.         6.33333333 4.33333333 4.66666667 5.33333333
 5.33333333 3.33333333 3.33333333 5.33333333 7.66666667 7.66666667
 5.66666667 4.66666667 2.66666667 5.33333333 4.33333333 5.        ]


In [208]:
np.random.sample((2, 3))

array([[0.41181642, 0.56238126, 0.3110305 ],
       [0.26420428, 0.66511993, 0.10251926]])