# Numpy (Часть 3)


> 🚀 В этой практике нам понадобятся: `numpy==1.21.2`

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy==1.21.2`

In [1]:
import numpy as np

# Broadcasting (трансляция) <a name="broadcasting"></a>

Тема достаточно "широкая" =)
На деле механизм броадкастинга очень полезен и его понимание является одним из мощных инструментов библиотеки numpy.

Зачем он нужен? Допустим, мы имеет вектор $(4,)$, матрицу $(3, 4)$ и хотим умножить этот вектор на каждую строку матрицы. Самый простой способ - пройти в цикле по строкам:

In [2]:
vec = np.arange(4)
mtrx = np.ones((3, 4))
print(vec)
print(mtrx)

[0 1 2 3]
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [3]:
result = np.empty_like(mtrx)

for i_row in range(mtrx.shape[0]):
    result[i_row,:] = mtrx[i_row,:] * vec

print(result)

[[0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]]


С другой стороны, можно склонировать вектор по размеру матрицы, чтобы затем просто перемножить поэлементно две матрицы.

In [4]:
# Функция np.tile() повторяет массив то количество раз и по тем осям,
#   которые заданы в аргументе reps
vec_m = np.tile(vec, reps=(3, 1))
print(vec_m)
print(vec_m * mtrx)

[[0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]]
[[0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]]


А можно вспомнить про броадкастинг и просто умножить вектор на матрицу:

In [5]:
# Умножение, используя броадкастинг
print(vec * mtrx)

[[0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]]


Таким образом, броадкастинг - это механизм распространения элементов операций по разметностям, по которым количество элементов не соотносится с другим операндом. В последней ячейке вектор был продублирован на каждую строку так, что размерности соотносятся.

> Обязательно прочитайте примеры броадкастинга в [статье](https://numpy.org/doc/stable/user/basics.broadcasting.html).

Броадкастинг также работает и при умножении скаляра на массив:

In [6]:
print(2 * mtrx)

[[2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]]


Чтобы больше понять правила броадкастинга, посмотрим на результаты операций 3D матриц:

In [7]:
x = np.ones((4, 1, 1))
y = np.random.randint(0, 5, size=(4, 3, 2))

print((x*y).shape)

(4, 3, 2)


In [8]:
x = np.ones((3, 1))
y = np.random.randint(0, 5, size=(4, 3, 2))

print((x*y).shape)

(4, 3, 2)


In [9]:
x = np.ones((1, 3, 2))
y = np.random.randint(0, 5, size=(5, 1, 2))

print((x*y).shape)

(5, 3, 2)


В последних примерах можно увидеть, что размерности должны быть соотносимы (количества размерностей равны). В случае неравенства количества размерностей новые размерности со значением 1 добавляются слева ($(3, 1) \rightarrow (1, 3, 1)$ в одном из примеров).

> Добавление размерности было и в случае умножения вектора на матрицу: $(4,)*(3, 4) \rightarrow (1, 4)*(3, 4)$

Броадкастинг делается по тем осям, которые у одного операнда имеют размерность 1 путем копирования.

> В нашем случае $(1, 4)*(3, 4) \rightarrow (3, 4)*(3, 4)$

Осознать броадкастинг сразу не совсем просто, но главное не забывать, что такой инструмент есть и им нужно пользоваться во избежание лишнего кода.

# Изменение размеров массива (Reshape) <a name="reshape"></a>

Ещё одна интересная тема, которую стоит рассмотреть. Мы уже касались вопроса приведения массива к выпрямленному виду - это один из видов изменения размерности массива.

По сути, размерность массива - это то, как выстроены элементы в нем. 

Изменение размерности - это изменение структуры **без изменения элементов или порядка**.

Рассмотрим на примере:

In [10]:
arr = np.arange(20)
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


Вот мы имеем вектор из 20 элементов в порядке возрастания. Теперь, допустим, нам нужно сделать массив размером $(4, 5)$, в котором каждый ряд - это продолжение предыдущего по возрастанию чисел. Для начала сделаем руками: 

In [11]:
mtrx = np.ndarray((4, 5), dtype=np.int32)
mtrx[0, :] = arr[:5]
mtrx[1, :] = arr[5:10]
mtrx[2, :] = arr[10:15]
mtrx[3, :] = arr[15:]

print(mtrx)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


Получилось как надо, но есть два недостатка:
- Если элементов будет больше и нужен будет другой размер - код не универсален;
- Приходится расставлять данные вручную.

Теперь взглянем, как работает метод `ndarray.reshape()`:

In [12]:
print(arr.reshape((4, 5)))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


В результате происходит тоже самое. То есть, элементы расположились в порядке размещения по размерностям: начиная с первой строки (нулевая размерность) заполняется по колонкам (первая размерность), а как только заполнение по колонкам закончено - переходим на следующий ряд.

Таким образом, в какую бы размерность не происходило изменение размера - расположение будет придерживаться этого правила.

Для лучшего понимания посмотрим на другие представления:

In [13]:
print(arr.reshape((2, 10)))
print(arr.reshape((5, 4)))
print(arr.reshape((20, 1)))

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]]
[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]
 [12]
 [13]
 [14]
 [15]
 [16]
 [17]
 [18]
 [19]]


Таким образом, можно приводить к любой размерности с учетом правила:
> Количество элементов должно сохраняться

Но бывают ситуации, когда мы точно не знаем количество элементов, но нам нужно точно создать, например, 4 строки в матрице. В этом поможет неопределенная размерность, которая задается числом -1:

In [14]:
print(arr.reshape((4, -1)))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


Таким образом можно задать, что матрица должна быть 2D с фиксированным количеством строк, но без фиксации на количество столбцов. Конечно же, если в исходном будет 21 элемент, то такой трюк не сработает, потому что 21 не делится на 4 без остатка.

# Объединение массивов <a name="union"></a>

При работе с массивами бывают случаи, когда несколько массивов необходимо объединить в один. Для этого поможет функция `np.concatenate()` и понимание ее основных правил.

In [15]:
x = np.arange(10).reshape((2, 5))
y = np.arange(15).reshape((3, 5))

print(x)
print(y)

[[0 1 2 3 4]
 [5 6 7 8 9]]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


Для объединения массивов необходимо, чтобы одна из размерностей имела одинаковое количество элементов. Это достаточно логичное требование задаётся аргументом `axis` в функции:

In [16]:
print(np.concatenate((x, y), axis=0))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


Обратите внимание, что массивы передаются в виде кортежа, что позволяет объединять два и более массивов.

## Задание

Объедините три массива вдоль колонок:

In [21]:
x = np.arange(9).reshape((3, 3))
y = np.arange(12).reshape((3, 4))
z = np.arange(15).reshape((3, 5))

print(x)
print(y)
print(z)

print ('\n',np.concatenate((x, y, z), axis=1))
# TODO - получите объединенный массив:
# [[ 0  1  2  0  1  2  3  0  1  2  3  4]
#  [ 3  4  5  4  5  6  7  5  6  7  8  9]
#  [ 6  7  8  8  9 10 11 10 11 12 13 14]]

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]

 [[ 0  1  2  0  1  2  3  0  1  2  3  4]
 [ 3  4  5  4  5  6  7  5  6  7  8  9]
 [ 6  7  8  8  9 10 11 10 11 12 13 14]]


## Задание

Напишите реализацию добавления стобца единиц к матрице слева:

In [33]:
x = np.arange(1, 10).reshape((3, 3))
print(x)
y = np.ones((3, 1), dtype=np.int32 )
print('-------')
print(np.concatenate((y, x), axis=1))
# TODO - получить матрицу со столбцом единиц слева
# [[1 1 2 3]
#  [1 4 5 6]
#  [1 7 8 9]]

[[1 2 3]
 [4 5 6]
 [7 8 9]]
-------
[[1 1 2 3]
 [1 4 5 6]
 [1 7 8 9]]


# Сортировка массива <a name="sort"></a>

Numpy как серьёзная библиотека работы с массивами имеет также и функционал сортировки. Для этого есть функция `np.sort()`, которая производит сортировку элементов и возвращает отсортированный массив:

In [34]:
unsorted_arr = np.array([2, 4, 5, 1, 2, 7, 5, 0, -1, 3, 5])
sorted_arr = np.sort(unsorted_arr)

print(unsorted_arr)
print(sorted_arr)

[ 2  4  5  1  2  7  5  0 -1  3  5]
[-1  0  1  2  2  3  4  5  5  5  7]


Помимо явной сортировки существует также функция `np.argsort()`, которая возвращает не отсортированный массив, а массив индексов исходного массива в порядке, который даёт отсортированный исходный. Посмотрим:

In [35]:
sorted_indices = np.argsort(unsorted_arr)
print(sorted_indices)

# А теперь воспользуемся индексами и отобразим исходный массив с индексацией
print(unsorted_arr[sorted_indices])

[ 8  7  3  0  4  9  1  2  6 10  5]
[-1  0  1  2  2  3  4  5  5  5  7]


## Задание

По такому же принципу именования найдите функцию, которая возвращает индекс максимального/минимального (в завимости от варианта) элемента в массиве.

Воспользуйтесь найденной функцией и найдите индексы максимальных элементов в каждом столбце 2D матрицы: 

In [46]:
arr = np.array([
    [11, -1, 1, 3, 5],
    [6, 1, 0, -1, 10],
    [1, 3, 2, 3, 6],
    [5, 2, 7, 8, 9],
])

print(arr)
sort_max = np.argmax(arr, axis=0)
sort_min = np.argmin(arr, axis=0)
print(sort_max,'/',sort_min)

# TODO - напишите код поиска индексов максимальных/минимальных 
#           элементов в массиве по столбцам: [0 2 3 3 1]/[2 0 1 1 0]

[[11 -1  1  3  5]
 [ 6  1  0 -1 10]
 [ 1  3  2  3  6]
 [ 5  2  7  8  9]]
[0 2 3 3 1] / [2 0 1 1 0]


## Задание

Напишите код сортировки массива по столбцам:

In [48]:
arr = np.array([
    [11, 2, 1, 3, 5],
    [6, 2, 0, -1, 10],
    [1, 3, 2, 3, 5],
    [5, 2, 7, 8, 9],
])
print(arr)

print('\n',np.sort(arr, axis=0))
# TODO - напишите код сортировки:
# [[ 1  2  0 -1  5]
#  [ 5  2  1  3  5]
#  [ 6  2  2  3  9]
#  [11  3  7  8 10]]

[[11  2  1  3  5]
 [ 6  2  0 -1 10]
 [ 1  3  2  3  5]
 [ 5  2  7  8  9]]

 [[ 1  2  0 -1  5]
 [ 5  2  1  3  5]
 [ 6  2  2  3  9]
 [11  3  7  8 10]]


# Задачки <a name="task"></a>

Создайте массив, состоящий из случайных элементов в диапазоне $[-10; 20]$ размером $(5, 7)$:

In [50]:
# TODO - создайте массив со случайными целочисленными элементами
print (np.random.randint(low=-10, high=20, size=(5, 7)))

[[ 12  -4   7  -2   9  19  16]
 [  0  -6  -2  19   3  -9  -1]
 [  9  10   4  14  -9  -8 -10]
 [  1  -7  12  -5  -2   8  13]
 [ -4  14  19  19   9  13   0]]


Добавьте границу в виде нулей со всех сторон 2D массива:

In [80]:
data = np.arange(1, 16).reshape((3, 5))
print(data)

new_data = np.zeros((5, 7)) 
new_data[1:-1, 1:-1] = data 
print(new_data)

# TODO - реализуйте добавление нулей со всех сторон массива:
# [[ 0  0  0  0  0  0  0]
#  [ 0  1  2  3  4  5  0]
#  [ 0  6  7  8  9 10  0]
#  [ 0 11 12 13 14 15  0]
#  [ 0  0  0  0  0  0  0]]

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]]
[[ 0.  0.  0.  0.  0.  0.  0.]
 [ 0.  1.  2.  3.  4.  5.  0.]
 [ 0.  6.  7.  8.  9. 10.  0.]
 [ 0. 11. 12. 13. 14. 15.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.]]


Разберитесь с функцией `np.clip()` и произведите ограничение массива, чтобы в нем значения были не более шести и не менее двух:

In [2]:
data = np.arange(1, 16).reshape((3, 5))
print(data)
print(np.clip(data,2,6))

# TODO - ограничьте значения массива
# [[2 2 3 4 5]
#  [6 6 6 6 6]
#  [6 6 6 6 6]]

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]]
[[2 2 3 4 5]
 [6 6 6 6 6]
 [6 6 6 6 6]]


Произведите модификацию массива так, чтобы значение в колонке результата соответствовало исходному значению, возведенному в степень индекса колонки:

In [17]:
data = np.full((3, 5), fill_value=2, dtype=np.int32)
print(data)
new_data = data ** np.arange(data.shape[1])
print(new_data)
# TODO - возведите значения в колонках в степень индекса колонки
# [[ 1  2  4  8 16]
#  [ 1  2  4  8 16]
#  [ 1  2  4  8 16]]

[[2 2 2 2 2]
 [2 2 2 2 2]
 [2 2 2 2 2]]
[[ 1  2  4  8 16]
 [ 1  2  4  8 16]
 [ 1  2  4  8 16]]


Умножьте каждую колонку на её индекс:

In [19]:
data = np.full((3, 5), fill_value=2, dtype=np.int32)
print(data)
new_data = data * np.arange(data.shape[1])
print(new_data)
# TODO - Умножьте каждый столбец на свой индекс
# [[0 2 4 6 8]
#  [0 2 4 6 8]
#  [0 2 4 6 8]]

[[2 2 2 2 2]
 [2 2 2 2 2]
 [2 2 2 2 2]]
[[0 2 4 6 8]
 [0 2 4 6 8]
 [0 2 4 6 8]]


Умножьте каждый чётный ряд в матрице на вектор:

In [33]:
data = np.repeat(np.arange(1, 8), 4).reshape(7, 4)
vec = np.array([1, 2, 1, 2])
print(data)
data[::2] = data[::2] * vec
print(data)
# TODO - умножьте каждый четный ряд в матрице на вектор
# [[ 1  2  1  2]
#  [ 2  2  2  2]
#  [ 3  6  3  6]
#  [ 4  4  4  4]
#  [ 5 10  5 10]
#  [ 6  6  6  6]
#  [ 7 14  7 14]]

[[1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]
 [4 4 4 4]
 [5 5 5 5]
 [6 6 6 6]
 [7 7 7 7]]
[[ 1  2  1  2]
 [ 2  2  2  2]
 [ 3  6  3  6]
 [ 4  4  4  4]
 [ 5 10  5 10]
 [ 6  6  6  6]
 [ 7 14  7 14]]


Определите индексы двух наибольших элементов в матрице по каждому ряду:

In [81]:
data = np.array([[20, 22,  2, 14, 25,  8],
                [ 7, 25, 23,  3, 22, 15],
                [ 8, 16,  9, 22,  0,  9],
                [ 4, 24, 24, 28,  3, 40]])
print(data)
sort_max_1 = data.argsort(axis=1)[:,-2:]
print(data.argsort(axis=1))
print(sort_max_1)


# TODO - определите индексы двух наибольших элементов по каждому ряду
# [[4 1]
#  [1 2]
#  [3 1]
#  [5 3]]

[[20 22  2 14 25  8]
 [ 7 25 23  3 22 15]
 [ 8 16  9 22  0  9]
 [ 4 24 24 28  3 40]]
[[2 5 3 0 1 4]
 [3 0 5 4 2 1]
 [4 0 2 5 1 3]
 [4 0 1 2 3 5]]
[[1 4]
 [2 1]
 [1 3]
 [3 5]]


Выберите две случайные колонки из массива:

<details><summary>Подсказка 1</summary>
Для случайного выбора полезно воспользоваться функцией `np.random.choice()`
</details>

<details>
<summary>Подсказка 2</summary>
`np.random.choice()` принимает на вход 1D массив, так что для выбора можно создать массив индексов колонок (`range()` с количеством колонок) и из него функция выберет два случайных индекса
</details>

In [89]:
data = np.array([[20, 22,  2, 14, 25,  8],
                [ 7, 25, 23,  3, 22, 15],
                [ 8, 16,  9, 22,  0,  9],
                [ 4, 24, 24, 28,  3, 40]])
print(data)
print(data[:, np.random.choice(range(data.shape[1]), size=(1,2))])
# TODO - выберите случайные две колонки из массива
# *Например,
# [[22  8]
#  [25 15]
#  [16  9]
#  [24 40]]

[[20 22  2 14 25  8]
 [ 7 25 23  3 22 15]
 [ 8 16  9 22  0  9]
 [ 4 24 24 28  3 40]]
[[[14 25]]

 [[ 3 22]]

 [[22  0]]

 [[28  3]]]


Создайте массив размером $(10, 3)$, который состоит из повторяющихся рядов исходного массива:

In [93]:
data = np.arange(9).reshape(3, 3)
print(data)
new_data = np.resize(data, (10,3))
print(new_data)
# TODO - создайте массив из повторяющихся рядов размером (10, 3)
# *Например,
# [[3 4 5]
#  [6 7 8]
#  [0 1 2]
#  [6 7 8]
#  [3 4 5]
#  [6 7 8]
#  [6 7 8]
#  [6 7 8]
#  [6 7 8]
#  [0 1 2]]

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[0 1 2]
 [3 4 5]
 [6 7 8]
 [0 1 2]
 [3 4 5]
 [6 7 8]
 [0 1 2]
 [3 4 5]
 [6 7 8]
 [0 1 2]]


Соберите массив, состоящий из элементов 2-й и 4-й колонок и строк с 1-й по 3-ю (**цифры указаны с учётом индексации с 0-ля!**):

In [27]:
data = np.array([[20, 22,  2, 14, 25,  8],
                [ 7, 25, 23,  3, 22, 15],
                [ 8, 16,  9, 22,  0,  9],
                [ 14, 9,  33, 21,  7,  6],
                [ 4, 24, 24, 28,  3, 40]])
print(data)
new_data = np.concatenate((data[1:4, 2:3], data[1:4, 4:5]), axis=1)
print(new_data)
# TODO - соберите матрицу из конкретных элементов массива
# [[23 22]
#  [ 9  0]
#  [33  7]]

[[20 22  2 14 25  8]
 [ 7 25 23  3 22 15]
 [ 8 16  9 22  0  9]
 [14  9 33 21  7  6]
 [ 4 24 24 28  3 40]]
[[23 22]
 [ 9  0]
 [33  7]]


Инвертируйте порядок элементов в последних двух колонках:

In [38]:
data = np.array([[20, 22,  2, 14, 25,  8],
                [ 7, 25, 23,  3, 22, 15],
                [ 8, 16,  9, 22,  0,  9],
                [ 14, 9,  33, 21,  7,  6],
                [ 4, 24, 24, 28,  3, 40]])
print(data)
new_data = data[::-1, 4:6]
data[:, 4:6] = new_data
print('\n', data)
# TODO - инвертируйте порядок последних двух колонок
# [[20 22  2 14  3 40]
#  [ 7 25 23  3  7  6]
#  [ 8 16  9 22  0  9]
#  [14  9 33 21 22 15]
#  [ 4 24 24 28 25  8]]

[[20 22  2 14 25  8]
 [ 7 25 23  3 22 15]
 [ 8 16  9 22  0  9]
 [14  9 33 21  7  6]
 [ 4 24 24 28  3 40]]

 [[20 22  2 14  3 40]
 [ 7 25 23  3  7  6]
 [ 8 16  9 22  0  9]
 [14  9 33 21 22 15]
 [ 4 24 24 28 25  8]]
