# Семинар 2: Библиотека Numpy
### Практикум кафедры ММП ВМК МГУ

О чём можно узнать из этого ноутбука:

* операции при работе с массивами
* многомерные массивы
* изменение размеров массивов
* broadcasting
* продвинутая индексация
* view и копирование
* свёртка
* разные прикладные задачи

## Введение в Python

Чтобы подробнее ознакомиться с языком Python, просмотрите ноутбук **intro_to_python**. В этом ноутбуке мы напомним основные понятия, которые пригодятся на этом занятии.


<font color='brown'>**Задача 1.** Задайте матрицу `list_matrix` размером 500 на 10, в которой ij-ый элемент будет равен 10 * i + j. Не используйте библиотеку numpy! </font>

In [1]:
list_matrix = [[10 * i + j for j in range(10)] for i in range(500)]

In [2]:
b = [[1, 2, 3]] * 10

In [3]:
b[0][0] = 10
b

[[10, 2, 3],
 [10, 2, 3],
 [10, 2, 3],
 [10, 2, 3],
 [10, 2, 3],
 [10, 2, 3],
 [10, 2, 3],
 [10, 2, 3],
 [10, 2, 3],
 [10, 2, 3]]

Проверьте себя:

In [4]:
assert len(list_matrix) == 500
assert len(list_matrix[0]) == 10
assert list_matrix[10][3] == 103

## Проблемы списков при матричных операциях

Одна из проблем списков — отсутствие поэлементных и матричных операций.

Получим новую матрицу, равную `list_matrix`, умноженной на 2. Измерим время выполнения с помощью магической команды %%timeit:

In [5]:
%%timeit

new_list_matrix = []

for x_vector in list_matrix:
    new_inner = []
    for xy_element in x_vector:
        new_inner.append(xy_element * 2)
    new_list_matrix.append(new_inner)

342 µs ± 3.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


А теперь попробуем воспользоваться массивами из библиотеки numpy для аналогичных операций:

In [7]:
# from numpy import * -- НЕ ДЕЛАЙТЕ ТАК
import numpy as np

Текущая версия:

In [7]:
np.__version__

'1.16.4'

С помощью np.zeros зададим нулевой массив нужного размера. Заполним так же, как и list_matrix.

In [8]:
array_matrix = np.zeros((500, 10))

for i in range(500):
    for j in range(10):
        array_matrix[i][j] = j + 10*i
array_matrix[:5]

array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14., 15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24., 25., 26., 27., 28., 29.],
       [30., 31., 32., 33., 34., 35., 36., 37., 38., 39.],
       [40., 41., 42., 43., 44., 45., 46., 47., 48., 49.]])

Скоро мы научимся легко использовать конструкции типа:

In [9]:
np.arange(10) + np.arange(0, 41, 10)[:, np.newaxis]

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

Все операции с numpy.ndarray по умолчанию поэлементные. Таким образом, умножение на два это всего лишь:

In [10]:
new_array_matrix = 2 * array_matrix

Измерим время выполнения:

In [11]:
%%timeit

new_array_matrix = 2 * array_matrix

2.39 µs ± 20.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Быстрее больше чем в 100 раз...

## Базовые операции

### Создание массивов

Ещё раз обсудим создание массивов. Создание нулевого вектора:

In [12]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

**Внимание**. Если размерность массива > 1, размер подаётся в функцию инициализации через кортеж, а не отдельными аргументами!

Для одномерного массива тоже можно писать кортеж:

In [13]:
np.zeros((5, ))

array([0., 0., 0., 0., 0.])

Так правильно:

In [14]:
np.zeros((5, 7))

array([[0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.]])

Так неправильно:

In [16]:
np.zeros(5, 7)

TypeError: data type not understood

Массив из единиц:

In [17]:
np.ones(3).shape

(3,)

In [18]:
np.ones((1, 3)).shape

(1, 3)

Создание массива последовательных чисел:

In [19]:
# похоже на range, но все числа хранятся в памяти
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Создание массива из Python-объекта:

In [20]:
x = np.array([[1, 2, 3], [4, 5, 6]])
x

array([[1, 2, 3],
       [4, 5, 6]])

In [21]:
np.array(range(10))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [22]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Вывести размер полученного массива можно с помощью метода shape:

In [23]:
x.shape

(2, 3)

<font color='brown'>**Задача 2.** Задайте массив `result` размером 50 на 30, состоящий из троек.</font>

In [24]:
result = np.ones((50, 30)) * 3
result

array([[3., 3., 3., ..., 3., 3., 3.],
       [3., 3., 3., ..., 3., 3., 3.],
       [3., 3., 3., ..., 3., 3., 3.],
       ...,
       [3., 3., 3., ..., 3., 3., 3.],
       [3., 3., 3., ..., 3., 3., 3.],
       [3., 3., 3., ..., 3., 3., 3.]])

Проверьте себя:

In [25]:
assert result.shape == (50, 30)
assert np.all(result == 3)

<font color='brown'>**Задача 3.** Какая размерность будет у массива, полученного с помощью команды `np.array([[1], [2]])`?</font>

In [26]:
[[1], [2]]

[[1], [2]]

(1, 2)

In [27]:
np.array([[1], [2]])

array([[1],
       [2]])

Можно создать массив из 0, 1 или любого числа, который по размеру равен какому-то другому:

In [28]:
template = np.array([[4., 5, 6], [1, 2, 3], [7, 8, 9], [10, 11, 12]])
template.shape

(4, 3)

In [29]:
np.zeros_like(template)

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [30]:
np.ones_like(template)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [31]:
np.full_like(template, 42)

array([[42., 42., 42.],
       [42., 42., 42.],
       [42., 42., 42.],
       [42., 42., 42.]])

In [32]:
np.full((50, 30), 3.)

array([[3., 3., 3., ..., 3., 3., 3.],
       [3., 3., 3., ..., 3., 3., 3.],
       [3., 3., 3., ..., 3., 3., 3.],
       ...,
       [3., 3., 3., ..., 3., 3., 3.],
       [3., 3., 3., ..., 3., 3., 3.],
       [3., 3., 3., ..., 3., 3., 3.]])

### Поэлементные операции

In [33]:
x = np.arange(10)
y = np.arange(5, 15)
x, y

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14]))

Поэлементные арифметическии операции:

In [34]:
x + y

array([ 5,  7,  9, 11, 13, 15, 17, 19, 21, 23])

In [35]:
x * y

array([  0,   6,  14,  24,  36,  50,  66,  84, 104, 126])

In [36]:
np.sin(x)

array([ 0.        ,  0.84147098,  0.90929743,  0.14112001, -0.7568025 ,
       -0.95892427, -0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849])

In [37]:
y / x

  """Entry point for launching an IPython kernel.


array([       inf, 6.        , 3.5       , 2.66666667, 2.25      ,
       2.        , 1.83333333, 1.71428571, 1.625     , 1.55555556])

Поэлементые операции сравнения:

In [38]:
x > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

### Агрегирующие операции

Агрегация булевого массива
* all — все элементы удовлетворяют требованию
* any — хотя бы один элемент удовлетворяет требованию

In [39]:
np.all(x > 5)

False

In [40]:
np.any(x > 5)

True

Нахождение максимума в массиве:

In [41]:
np.max(y)

14

In [42]:
y = np.array([1, 2, 3, 4, 4, 3, 2, 1])
y

array([1, 2, 3, 4, 4, 3, 2, 1])

In [43]:
np.arange(len(y))

array([0, 1, 2, 3, 4, 5, 6, 7])

In [44]:
max(range(len(y)), key=lambda i: y[i])

3

Нахождение позиции максимума:

In [45]:
np.argmax(y)

3

Суммирование всех элементов:

In [46]:
np.sum(x)

45

У многих функций в numpy есть "аналогичный" по принципу работы метод: 

In [47]:
x.sum()

45

In [48]:
y.argmax()

3

### Типы и преобразование типов

Атрибут .dtype хранит информацию о типе массива:

In [49]:
x = np.arange(15)
x.dtype

dtype('int64')

In [50]:
y = np.array([1.5, 2.5])
y.dtype

dtype('float64')

Преобразование типов осуществляется с помощью метода .astype:

In [51]:
x = x.astype(np.float64)
x.dtype

dtype('float64')

Можно сразу указывать желаемый тип при создании массивов при помощи параметра dtype:

In [52]:
np.ones((2, 3), dtype=int)

array([[1, 1, 1],
       [1, 1, 1]])

In [53]:
np.ones((2, 3), dtype=str)

array([['1', '1', '1'],
       ['1', '1', '1']], dtype='<U1')

Подробнее о параметрах и действии функции можно посмотреть при помощи ?:

In [54]:
np.ones?

## Размеры массивов

### Изменение размера массивов

NumPy массивы всегда лежат в памяти последовательно, одним куском. Поэтому у массива можно изменять размер практически бесплатно.

In [55]:
x = np.array([[1, 2, 3], [4, 5, 6]])
x

array([[1, 2, 3],
       [4, 5, 6]])

In [56]:
x.reshape?

In [57]:
x.shape

(2, 3)

"Вытянуть" массив в вектор можно с помощью метода .ravel:

In [58]:
x = x.ravel(order="F")
x

array([1, 4, 2, 5, 3, 6])

In [59]:
x.shape

(6,)

Изменить размер массива можно с помощью метда .reshape:

In [60]:
new_x = x.reshape(3, 2) # или x.reshape((2, 3))
new_x

array([[1, 4],
       [2, 5],
       [3, 6]])

In [61]:
new_x.shape

(3, 2)

In [62]:
x.shape

(6,)

Можно "не заполнять" одну размерность итогового массива, она заполнится автоматически:

In [63]:
x.reshape(-1, 6)

array([[1, 4, 2, 5, 3, 6]])

**Это интересно.** Есть два распространённых способа упорядочить многомерный массив:
* C-order, **по умолчанию в NumPy**. Быстрее всего изменяется последний индекс. Для матриц — сначала идём по столбцам.
* Fortran-order (F-order). Быстрее всего изменяется первый индекс. Для матриц — сначала идём по строкам.

Порядок можно задать с помощью параметра `order` в методе reshape.

In [64]:
x = np.array([[1, 2, 3], [4, 5, 6]])
x

array([[1, 2, 3],
       [4, 5, 6]])

In [65]:
x.reshape(3, 2, order='F')

array([[1, 5],
       [4, 3],
       [2, 6]])

### Фиктивная размерность

Два способа добавить фиктивную размерность в массив:

In [75]:
x = np.arange(6)
x

array([0, 1, 2, 3, 4, 5])

In [76]:
x[:, np.newaxis] # Эквивалентно x[:, None]

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5]])

In [78]:
x[np.newaxis, :].shape

(1, 6)

In [79]:
x.reshape(-1, 1)

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5]])

In [80]:
x[np.newaxis, :].shape

(1, 6)

In [81]:
x[np.newaxis, :, np.newaxis].shape

(1, 6, 1)

Зачем нужно добавлять фиктивную размерность? Например, чтобы проводить различные операции с массивами неравного размера.

### Повторение массивов

Чтобы построить двумерный массив, состоящий из повторений одномерных, можно использовать np.tile:

In [86]:
a = np.array([2, 3, 4])
np.tile(a[np.newaxis, :, np.newaxis], (2, 1, 1))

array([[[2],
        [3],
        [4]],

       [[2],
        [3],
        [4]]])

In [87]:
np.tile(a, (2, 1))

array([[2, 3, 4],
       [2, 3, 4]])

In [88]:
np.tile(a[:, np.newaxis], 2)

array([[2, 2],
       [3, 3],
       [4, 4]])

### Broadcasting

Подробное описание: http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html

Пусть нам дана матрица $X$ размером $10 \times 10$ и вектор $y$ длины 10. Пусть мы хотим прибавить вектор к каждой строке матрицы. 

In [89]:
x = np.arange(100).reshape(10, 10)
y = np.arange(10)
x, y

(array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
        [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
        [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
        [40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
        [50, 51, 52, 53, 54, 55, 56, 57, 58, 59],
        [60, 61, 62, 63, 64, 65, 66, 67, 68, 69],
        [70, 71, 72, 73, 74, 75, 76, 77, 78, 79],
        [80, 81, 82, 83, 84, 85, 86, 87, 88, 89],
        [90, 91, 92, 93, 94, 95, 96, 97, 98, 99]]),
 array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]))

Наивный способ решения проблемы будет работать правильно!

In [90]:
x + y[:, np.newaxis]

array([[  0,   1,   2,   3,   4,   5,   6,   7,   8,   9],
       [ 11,  12,  13,  14,  15,  16,  17,  18,  19,  20],
       [ 22,  23,  24,  25,  26,  27,  28,  29,  30,  31],
       [ 33,  34,  35,  36,  37,  38,  39,  40,  41,  42],
       [ 44,  45,  46,  47,  48,  49,  50,  51,  52,  53],
       [ 55,  56,  57,  58,  59,  60,  61,  62,  63,  64],
       [ 66,  67,  68,  69,  70,  71,  72,  73,  74,  75],
       [ 77,  78,  79,  80,  81,  82,  83,  84,  85,  86],
       [ 88,  89,  90,  91,  92,  93,  94,  95,  96,  97],
       [ 99, 100, 101, 102, 103, 104, 105, 106, 107, 108]])

In [76]:
x + y[np.newaxis, :]

array([[  0,   2,   4,   6,   8,  10,  12,  14,  16,  18],
       [ 10,  12,  14,  16,  18,  20,  22,  24,  26,  28],
       [ 20,  22,  24,  26,  28,  30,  32,  34,  36,  38],
       [ 30,  32,  34,  36,  38,  40,  42,  44,  46,  48],
       [ 40,  42,  44,  46,  48,  50,  52,  54,  56,  58],
       [ 50,  52,  54,  56,  58,  60,  62,  64,  66,  68],
       [ 60,  62,  64,  66,  68,  70,  72,  74,  76,  78],
       [ 70,  72,  74,  76,  78,  80,  82,  84,  86,  88],
       [ 80,  82,  84,  86,  88,  90,  92,  94,  96,  98],
       [ 90,  92,  94,  96,  98, 100, 102, 104, 106, 108]])

**Почему?** Правила broadcasting (приведение размеров).

1. Если два массива имеют размерности (a_1, a_2 .. a_n) и (b_1, b_2 .. b_n) соответственно, то между ними можно проводить поэлементные операции, если для каждого i выполнено одно из трёх условий:
    * a_i = b_i
    * a_i = 1
    * b_i = 1
    
2. Если поэлементная операция выполняется между массивами разного размера, то к массиву меньшего размера добавляются ведущие фиктивные размерности.

**Всегда проверяйте операции с броадкастингом! Легко можно напороться на неприятности**

<font color='brown'>**Задача 4.** Какие из этих команд будут выполняться с ошибкой?</font>

1. `np.ones((2, 3)) + np.ones(3)`

2. `np.ones(2) + np.ones((2, 3))`

3. `np.zeros((4, 3)) + np.ones((4, 1))`

4. `np.zeros((3, 4)) + np.ones((4, 3))`

5. `np.zeros((1, 3, 5)) + np.zeros((1, 3))`

6. `np.zeros((5, 3, 1)) + np.zeros((1, 5))`

In [77]:
np.ones((2, 3)) + np.ones(3)

array([[2., 2., 2.],
       [2., 2., 2.]])

In [78]:
np.ones(3)[np.newaxis, :] + np.ones((2, 3))

array([[2., 2., 2.],
       [2., 2., 2.]])

In [79]:
np.ones(2)[:, np.newaxis] + np.ones((2, 3))

array([[2., 2., 2.],
       [2., 2., 2.]])

In [80]:
np.zeros((4, 3)) + np.ones((4, 1))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [81]:
np.zeros((3, 4)) + np.ones((4, 3)).T

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [82]:
np.ones((2, 3, 4, 5, 6)).T.shape

(6, 5, 4, 3, 2)

In [83]:
np.newaxis is None

True

In [84]:
np.zeros((1, 3, 5)) + np.zeros((1, 3))[:, :, np.newaxis]

array([[[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]]])

In [85]:
np.zeros((1, 3, 5)) + np.zeros((1, 3))[..., np.newaxis]

array([[[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]]])

In [86]:
(np.zeros((5, 3, 1)) + np.zeros((5))).shape

(5, 3, 5)

<font color='brown'>**Задача 5.** Пусть нам дана матрица $X$ размером $10 \times 10$ и вектор-столбец $y$ длины 10. Получите матрицу result, полученную прибавлением к каждому столбцу $X$ вектора $y$ (без использования циклов). </font>

In [91]:
x = np.arange(100).reshape(10, 10)
y = np.arange(10)

In [92]:
result = x + y[:, np.newaxis]

Проверьте себя:

In [93]:
assert result[0][0] == 0
for i in range(1, 10):
    assert result[i][i - 1] == 10 * i + (i - 1) * 2 + 1

## Матричные операции

In [94]:
x = np.array([[1, 2], [2, 1], [2, 3]])
x

array([[1, 2],
       [2, 1],
       [2, 3]])

Транспонирование:

In [95]:
x.T

array([[1, 2, 2],
       [2, 1, 3]])

Матричное умножение:

In [96]:
y = np.array([[0, 1, 0], [1, 0, 1]])

In [97]:
res = np.dot(x, y)
res

array([[2, 1, 2],
       [1, 2, 1],
       [3, 2, 3]])

In [98]:
res = x @ y
res

array([[2, 1, 2],
       [1, 2, 1],
       [3, 2, 3]])

### Операции с размерностями

Некоторые из операций можно принять вдоль некоторых размерностей.

Максимум в каждом столбцe (первая размерность, axis=0):

In [99]:
res

array([[2, 1, 2],
       [1, 2, 1],
       [3, 2, 3]])

In [100]:
res = np.arange(12).reshape((4, -1))

In [101]:
res

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [102]:
res.shape

(4, 3)

In [103]:
np.max(res, axis=1).shape

(4,)

In [104]:
res.sum(axis=1)

array([ 3, 12, 21, 30])

Как легко запомнить, как работает axis:
* после применения функции получится массив, в котором будет отсутствовать размерность указанная в axis, но остальные размерности будут иметь такие же значения

<font color='brown'>**Задача 6.** Дан вектор $x$ и квадратная матрица $A$. Вычислить вектор значений $y_j = argmin_i (x_i + A_{ij})$. </font>

In [105]:
x = np.array([5, 2, 3, 1])
A = np.array([
    [1, 2, 3],
    [2, 2, 4],
    [5, 6, 1],
    [2, 4, 5]
])

In [109]:
x[np.newaxis, :].T + A

array([[6, 7, 8],
       [4, 4, 6],
       [8, 9, 4],
       [3, 5, 6]])

In [110]:
x[:, np.newaxis] + A

array([[6, 7, 8],
       [4, 4, 6],
       [8, 9, 4],
       [3, 5, 6]])

In [111]:
y = np.argmin(x[:, np.newaxis] + A, axis=0)
y

array([3, 1, 2])

Проверьте себя:

In [112]:
assert y.tolist() == [3, 1, 2]

### Конкатенация матриц

In [113]:
x = np.array([[1, 2], [5, 6]])
y = np.array([[3, 4], [2, 3]])

In [114]:
x

array([[1, 2],
       [5, 6]])

In [115]:
y

array([[3, 4],
       [2, 3]])

Конкатенация матриц по горизонтали:

In [116]:
np.hstack((x, y))

array([[1, 2, 3, 4],
       [5, 6, 2, 3]])

Конкатенация матриц по вертикали:

In [117]:
np.vstack((x, y))

array([[1, 2],
       [5, 6],
       [3, 4],
       [2, 3]])

In [118]:
np.concatenate((x, x, x, x))

array([[1, 2],
       [5, 6],
       [1, 2],
       [5, 6],
       [1, 2],
       [5, 6],
       [1, 2],
       [5, 6]])

Регулируемая конкатенация по какой-то оси:

In [119]:
np.concatenate((x, y), axis=0)

array([[1, 2],
       [5, 6],
       [3, 4],
       [2, 3]])

### Логические маски

Использование масок:

In [120]:
x = np.array([1, 0, 2, 1])
x

array([1, 0, 2, 1])

In [121]:
mask = (x == 1)
mask

array([ True, False, False,  True])

С помощью булевых масок можно выбирать соответствующие элементы массива и даже изменять их:

In [122]:
x[mask]

array([1, 1])

In [123]:
x[mask] = -1
x

array([-1,  0,  2, -1])

In [124]:
x[x == -1] = 42

In [125]:
x

array([42,  0,  2, 42])

С булевыми массивами можно делать побитовые операции с помощью операндов &, |.

С помощью оператора where, можно находить индексы элементов, заданные маской:

In [126]:
y = np.arange(12).reshape(4, -1)

In [127]:
y[y > 4]

array([ 5,  6,  7,  8,  9, 10, 11])

In [128]:
y

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

В случае одномерного массива np.where возвращается tuple. Подробнее смотри документацию.

<font color='brown'> **Задача 7.** Даны два вектора одинаковой длины: a и b. Оставить в этих векторах только те элементы, которые соответствуют позициям ненулевых элементов в обоих векторах. </font>

In [122]:
a = np.array([0, 1, 0, 2, 3])
b = np.array([1, 5, 2, 0, 6])

In [123]:
idxs = np.nonzero(a*b)
a[idxs], b[idxs]

(array([1, 3]), array([5, 6]))

In [124]:
m = (a != 0) & (b != 0)
a = a[m]
b = b[m]
a, b

(array([1, 3]), array([5, 6]))

Проверьте себя:

In [125]:
assert a.tolist() == [1, 3]
assert b.tolist() == [5, 6]

## Индексация

Подробное описание: https://docs.scipy.org/doc/numpy/reference/arrays.indexing.html

In [126]:
x = np.arange(20).reshape(4, 5)
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

Простая индексация:

In [127]:
x[1], x[1, :]

(array([5, 6, 7, 8, 9]), array([5, 6, 7, 8, 9]))

Для массивов можно делать slicing, как и для списков. По каждой размерности может быть свой slice.

x[0] эквивалентно x[0, :], то есть недостающие индексы заменяются на :

In [128]:
x[0:3, ::2] = 42

In [129]:
x

array([[42,  1, 42,  3, 42],
       [42,  6, 42,  8, 42],
       [42, 11, 42, 13, 42],
       [15, 16, 17, 18, 19]])

**Это интересно.** Важное отличие от питоновских списков: при slicing возвращается **view**, а не копия! Это позволяет присваивать значения подматрицам.

#### Сложная индексация

По каждой размерности подаются массивы одинаковых размеров, элементы которых соответствуют индексам каждой размерности. Тогда, на выходе будет массив размера этих массивов, элементы которого будут соответствовать элементам исходного массива, взятых в точках, соответствующих поданным массивам.

In [130]:
X = np.array([[1, 2, 3], [4, 5, 6]])
X

array([[1, 2, 3],
       [4, 5, 6]])

In [131]:
X[[0, 1], [1, 2]]

array([2, 6])

In [132]:
X[[0, 0], [1, 0]]

array([2, 1])

**Сокращенная индексация**

Если у вас есть многомерный массив, а вам, например, надо взять определенные индексы только с последней размерности, то можно написать так:

In [133]:
x = np.arange(80).reshape((2, 2, 4, 5))

In [134]:
x[..., 0]

array([[[ 0,  5, 10, 15],
        [20, 25, 30, 35]],

       [[40, 45, 50, 55],
        [60, 65, 70, 75]]])

In [135]:
x[..., 0].shape

(2, 2, 4)

## View и копирование

In [136]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [137]:
y = x
y.shape = (2, 5)
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [138]:
id(x) == id(y)

True

In [139]:
x = x.reshape(5, 2)
x

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [140]:
y

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [141]:
id(x), id(y)

(4668123776, 4668124816)

In [142]:
x[:2] = 10

In [143]:
x

array([[10, 10],
       [10, 10],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9]])

View ссылается на те же данные, но позволяет задать другие размерности массива.

In [144]:
x = np.arange(10)
v = x.view()
v.shape = (2, 5)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [145]:
v

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [146]:
v[0, 0] = 100
x

array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9])

Если нужно получить копию массива, чтобы не портить переданные данные, пользуйтесь функцией copy()

In [147]:
x = np.arange(10)
y = x.copy()
y[:] = 0
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## Разные задачи

<font color='brown'> **Задача 8.** Дана матрица размерности $N \times K$, $N$ - число объектов, $K$ - число признаков.
Подсчитать выборочное среднее и ковариационную матрицу без использования
функций mean и cov.

$$ E[X]={\frac {1}{n}}\sum \limits _{i=1}^{n}x_{i} $$

$$ {\mathrm  {cov}}(X_{{(n)}},Y_{{(n)}})={\frac  1n}\sum _{{t=1}}^{n}\left(X_{t}-\overline {X}\right)\left(Y_{t}-\overline {Y}\right)$$

 </font>

In [129]:
X = np.arange(32).reshape(8, 4)

In [134]:
mean = np.sum(X, axis=0) / X.shape[0]

In [138]:
# cov = np.sum(np.sum(X - mean, axis=0) * np.sum(X - mean, axis=0))

0.0

Проверьте себя:

In [453]:
assert mean.tolist() == [14, 15, 16, 17]
assert np.all(cov == 84)

<font color='brown'> **Задача 9.** Замените все максимальные элементы матрицы $A$ на 0. </font>

In [149]:
A = np.array([
    [1, 6, 3],
    [6, 2, 1],
    [4, 5, 6],
    [1, 2, 1],
])

In [150]:
is_max = (A == np.max(A))
A[is_max] = 0

In [151]:
new_A = np.array([
    [1, 0, 3],
    [0, 2, 1],
    [4, 5, 0],
    [1, 2, 1],
])
assert np.all(A == new_A)

<font color='brown'> **Задача 10.** Вычислить площадь четверти круга методом Монте-Карло. </font>

In [175]:
N = 1000000
X = np.random.uniform(0, 1, size=(N, 2))

In [176]:
in_circle = [(x[0]**2 + x[1]**2) <= 1 for x in X]
sum(in_circle) / N

0.785663

Проверьте себя:

In [128]:
np.pi / 4

0.7853981633974483

Посмотрим, как значения убывают с итерациями

In [57]:
## our code

<font color='brown'> **Задача (со звёздочкой) 11.** Даны матрицы $A$ размера $(n \times d)$ и $B$ размера $(m \times d)$. Найти в A все строки, содержащиеся в B, не используя циклы. Оцените сложность полученного алгоритма.  </font>

In [177]:
A = np.array([
    [1, 2, 3],
    [1, 2, 1],
    [4, 5, 6],
    [1, 2, 1],
    [4, 2, 1]
])

B = np.array([
    [4, 5, 6],
    [4, 5, 6],
    [1, 2, 3],
    [0, 1, 2]
])

[array([1, 1, 4, 1, 4]), array([2, 2, 5, 2, 2]), array([3, 1, 6, 1, 1])]

In [200]:
indexes = [line for line in A if line in B]

In [201]:
indexes

[array([1, 2, 3]),
 array([1, 2, 1]),
 array([4, 5, 6]),
 array([1, 2, 1]),
 array([4, 2, 1])]

In [None]:
indexes = np.where

Проверьте себя:

In [509]:
assert set(indexes) == {0, 2}

<font color='brown'> **Задача (со звёздочкой) 12.** Даны матрицы $A$ размера $(n \times d)$ и $B$ размера $(m \times d)$. Посчитайте матрицу попарных расстояний D размера $(n \times m)$ такую, что $d_{ij} = \{||a_{i} - b_{j}||\}_{i,j}^{n, m}$,  используя broadcasting. Оцените сложность полученного алгоритма. Можно ли существенно её улучшить? Подсказка: раскройте квадрат нормы разности. </font>

In [149]:
m, n, d = 5, 4, 3

A = np.random.randn(n, d)
B = np.random.randn(m, d)
A, B

(array([[-1.29599235, -1.27745093, -0.85901375],
        [ 0.3900397 ,  1.29728467,  1.25515761],
        [ 0.70165465,  0.49257793,  0.43317251],
        [-0.64788848,  1.42267242, -0.97688131]]),
 array([[-1.00535772,  0.29259359,  1.60578018],
        [ 0.94497138, -0.54210361, -0.47601677],
        [-1.58210603,  0.09617244, -2.26434635],
        [ 2.26545001,  0.26527821, -0.36274197],
        [-1.3701901 ,  1.34270407,  0.044365  ]]))

In [130]:
# your code

In [3]:
import numpy as np


def get_nonzero_diag_product(X):
    diag_X = np.diag(X)
    non_zero_diag_X = diag_X[diag_X != 0]
    if len(non_zero_diag_X) == 0:
        return None
    else:
        return np.prod(non_zero_diag_X)

In [7]:
get_nonzero_diag_product(np.array([0]))

In [13]:
zeros_55[non_zero_mask].shape

(0,)

In [137]:
import numpy as np


def calc_expectations(h, w, X, Q):
    Q_padded = np.pad(Q, pad_width=[[h - 1, 0], [w - 1, 0]],
                      mode='constant',
                      constant_values=-1)
    Q_el_sz = Q.strides[-1]
    Q_pdd_sz0 = Q_padded.shape[0]
    Q_pdd_sz1 = Q_padded.shape[1]
    Q_windows = np.lib.stride_tricks.as_strided(Q_padded,
                                                strides=(Q_el_sz,
                                                         Q_el_sz *
                                                         Q_pdd_sz1,
                                                         Q_el_sz),
                                                shape=(Q_pdd_sz0 *
                                                       Q_pdd_sz1,
                                                       h,
                                                       w))
    not_prob_value = -2
    mask = np.full((h, w), not_prob_value)
    mask[-1][-1] = -1
    cols_to_delete = np.argwhere(Q_windows == mask)[:, 0]
    Q_windows = np.delete(Q_windows, cols_to_delete, axis=0)
    elems_amount = Q.shape[0] * Q.shape[1]
    Q_windows_correct = np.where(Q_windows[:elems_amount] == -1,
                                 0,
                                 Q_windows[:elems_amount])
    probabilities_matrix = np.sum(Q_windows_correct, axis=1)
    probabilities_matrix = np.sum(probabilities_matrix, axis=1)
    return np.multiply(X, probabilities_matrix.reshape(Q.shape))

In [138]:
import numpy as np
import scipy.signal


def calc_expectations_scipy(h, w, X, Q):
    filt_with_ones = np.zeros((X.shape[0], X.shape[1]))
    filt_with_ones[:h, :w] = 1
    scores = scipy.signal.convolve2d(Q, filt_with_ones,
                                     mode='full')
    print(scores)
    return np.multiply(X, scores[:X.shape[0], :X.shape[1]])

In [145]:
X = np.array([ [1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3], [4, 4, 4, 4] ])
Q =  np.array(np.array([ [0.2, 0, 0.3, 0.1], [0.1, 0, 0.2, 0], [0.05, 0, 0, 0], [0, 0, 0, 0.05] ]))
print(Q)
h = 4
w = 4
calc_expectations(h, w, X, Q)

[[0.2  0.   0.3  0.1 ]
 [0.1  0.   0.2  0.  ]
 [0.05 0.   0.   0.  ]
 [0.   0.   0.   0.05]]


array([[0.2 , 0.2 , 0.5 , 0.6 ],
       [0.6 , 0.6 , 1.6 , 1.8 ],
       [1.05, 1.05, 2.55, 2.85],
       [1.4 , 1.4 , 3.4 , 4.  ]])

In [146]:
X = np.array([ [1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3], [4, 4, 4, 4] ])
Q =  np.array(np.array([ [0.2, 0, 0.3, 0.1], [0.1, 0, 0.2, 0], [0.05, 0, 0, 0], [0, 0, 0, 0.05] ]))
print(Q)
h = 4
w = 4
calc_expectations_scipy(h, w, X, Q)

[[0.2  0.   0.3  0.1 ]
 [0.1  0.   0.2  0.  ]
 [0.05 0.   0.   0.  ]
 [0.   0.   0.   0.05]]
[[0.2  0.2  0.5  0.6  0.4  0.4  0.1 ]
 [0.3  0.3  0.8  0.9  0.6  0.6  0.1 ]
 [0.35 0.35 0.85 0.95 0.6  0.6  0.1 ]
 [0.35 0.35 0.85 1.   0.65 0.65 0.15]
 [0.15 0.15 0.35 0.4  0.25 0.25 0.05]
 [0.05 0.05 0.05 0.1  0.05 0.05 0.05]
 [0.   0.   0.   0.05 0.05 0.05 0.05]]


array([[0.2 , 0.2 , 0.5 , 0.6 ],
       [0.6 , 0.6 , 1.6 , 1.8 ],
       [1.05, 1.05, 2.55, 2.85],
       [1.4 , 1.4 , 3.4 , 4.  ]])

In [186]:
X_windows_correct[0, :, :]

array([[0, 0, 0],
       [0, 0, 1]])

In [176]:
X_windows_correct.shape

(12, 2, 3)

In [99]:
X_windows * mask == -mask

array([[[ True,  True,  True],
        [ True,  True, False]],

       [[ True,  True,  True],
        [ True,  True, False]],

       [[ True,  True,  True],
        [ True,  True, False]],

       [[ True,  True,  True],
        [ True,  True, False]],

       [[ True,  True,  True],
        [ True,  True,  True]],

       [[ True,  True,  True],
        [ True,  True,  True]],

       [[ True,  True,  True],
        [ True,  True, False]],

       [[ True,  True,  True],
        [ True,  True, False]],

       [[ True,  True,  True],
        [ True,  True, False]],

       [[ True,  True,  True],
        [ True,  True, False]],

       [[ True,  True,  True],
        [ True,  True,  True]],

       [[ True,  True,  True],
        [ True,  True,  True]],

       [[ True,  True,  True],
        [ True,  True, False]],

       [[ True,  True,  True],
        [ True,  True, False]],

       [[ True,  True,  True],
        [ True,  True, False]],

       [[ True,  True,  True],
        [

In [118]:
X_windows.shape()

(24, 2, 3)

(12, 2, 3)

In [92]:
X_windows[:np.where((X_windows * mask) == -1)[0][-1]-1]

array([[[-1, -1, -1],
        [-1, -1,  1]],

       [[-1, -1, -1],
        [-1,  1,  2]],

       [[-1, -1, -1],
        [ 1,  2,  3]],

       [[-1, -1, -1],
        [ 2,  3,  4]],

       [[-1, -1, -1],
        [ 3,  4, -1]],

       [[-1, -1, -1],
        [ 4, -1, -1]],

       [[-1, -1,  1],
        [-1, -1,  5]],

       [[-1,  1,  2],
        [-1,  5,  6]],

       [[ 1,  2,  3],
        [ 5,  6,  7]],

       [[ 2,  3,  4],
        [ 6,  7,  8]]])

In [78]:
lepr_pos = [0, 0]
h = 4
w = 3
X[lepr_pos[0]:lepr_pos[0] + h, lepr_pos[0]:lepr_pos[0] + w] * \
    Q[lepr_pos[0]:lepr_pos[0] + h, lepr_pos[0]:lepr_pos[0] + w]

array([[0.2 , 0.  , 0.3 ],
       [0.2 , 0.  , 0.4 ],
       [0.15, 0.  , 0.  ],
       [0.  , 0.  , 0.  ]])

In [281]:
np.lib.stride_tricks.as_strided(X, strides=X.strides, shape=(h, w))

array([[1, 1, 1],
       [2, 2, 2],
       [3, 3, 3],
       [4, 4, 4]])

In [268]:
np.roll(X, -1, axis=0)

array([[2, 2, 2, 2],
       [3, 3, 3, 3],
       [4, 4, 4, 4],
       [1, 1, 1, 1]])

In [195]:
import numpy as np


def replace_nan_to_means(X):
    X_without_nans = X.copy()
    mean_by_column = np.nanmean(X_without_nans, axis=0)
    mean_by_column = np.where(np.isnan(mean_by_column), 0, mean_by_column)
    X_without_nans = np.where(np.isnan(X_without_nans),
                              mean_by_column,
                              X_without_nans)
    return X_without_nans

In [31]:
arr = np.array([ [6, 1, 5], [6, 8, 7], [5, 8, 7],  [np.nan, 2, 2], [np.nan, 3, 1] ])
print(arr)
arr0 = np.array([])
replace_nan_to_means(arr)

[[ 6.  1.  5.]
 [ 6.  8.  7.]
 [ 5.  8.  7.]
 [nan  2.  2.]
 [nan  3.  1.]]


array([[6.        , 1.        , 5.        ],
       [6.        , 8.        , 7.        ],
       [5.        , 8.        , 7.        ],
       [5.66666667, 2.        , 2.        ],
       [5.66666667, 3.        , 1.        ]])

In [146]:
import numpy as np


def get_max_before_zero(x):
    zero_positions = np.where(x == 0)[0]
    if (len(zero_positions) == 0) | (zero_positions[0] == (len(x) - 1)):
        return None
    else:
        if (len(x) - 1) == zero_positions[-1]:
            zero_positions = zero_positions[:-1]
        return np.max(x[zero_positions+1])

In [147]:
get_max_before_zero(np.array([1, 2, 0, 8, 0, 0]))

8

In [32]:
import numpy as np


def encode_rle(x):
    if len(x) > 0:
        idx_with_differences = np.append(np.where(np.diff(x) != 0)[0],
                                     np.argwhere(x == x[-1])[-1])
        return (x[idx_with_differences], np.diff(np.insert(idx_with_differences, 0, -1)))
    else:
        return None

In [35]:
# arr = np.array([0, 0, 0, 0, 1, 1, 1, 2, 2, 2, 2, 2, 2, 1, 3, 4, 5, 6])
arr = np.array([0])
encode_rle(arr)

(array([0]), array([1]))

In [36]:
print(arr)
idx_with_differences = np.append(np.where(np.diff(arr) != 0)[0],
                                 np.argwhere(arr == arr[-1])[-1])
print(idx_with_differences)

[0]
[0]


In [18]:
arr[idx_with_differences]

array([0, 1, 2, 1])

In [19]:
idx_with_differences.shape

(4,)

In [20]:
np.diff(idx_with_differences, prepend=[-1])


array([2, 3, 1, 1])

True