# Numpy


Numpy - это библиотека для математических вычислений. Написана на языке С, поэтому считается наиболее предпочтительным вариантом при работе с многомерными массивами из-за производительности.

[Официальный сайт](https://numpy.org/doc/stable/) последней версии.

Начало работы с `numpy` заключается в подключении модуля. При этом в практике применения есть уже общепринятое сокращение для него под названием `np`:

In [2]:
import numpy as np

> Если вы ранее работали с MATLAB, обратите внимание, как некоторые подходы и функции схожи.

# Создание массивов

Для того, чтобы начать работать с `numpy`, мы должны научиться создавать объекты `ndarray`, которые по сути являются N-мерными массивами.

In [3]:
# Самый просто способ создать массив numpy - взять уже существующий list и передать в функцию np.array()
arr_1d = np.array([1, 2, 3])

In [4]:
# Теперь проверим 
#   - тип объекта c помощью функции type()
#   - размерность с помощью аттрибута .shape
#   - доступ по индексам, как у обычного list

# Для отладки можно выводить небольшие массивы прямо через print()

print(arr_1d)
print(type(arr_1d))
print(arr_1d.shape)
print(arr_1d[0])
print(arr_1d[2])
print(arr_1d[-1])

[1 2 3]
<class 'numpy.ndarray'>
(3,)
1
3
3


> Обратите внимание, индекс с отрицательным значением означает индексацию с конца. Это возможность языка Python. В данном случае индекс -1 ~ 2, так как 2 - последний индекс в массиве из трех элементов. Аналогично, если хотите взять второй элемент с конца, то можете использовать индекс -2 и т.д.

Как видите, объект имеет тип `np.ndarray`, таким образом описываются все массивы при работе с numpy. Размерность представляет собой кортеж с одним элементом (создали 1D массив ~ массив первого ранга в терминах numpy).

In [5]:
# Теперь создадим двумерный массив с помощью тех же list
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

In [6]:
# Проверим также тип, размерность и доступ по индексам

print(arr_2d)
print(type(arr_2d))
print(arr_2d.shape)
print(arr_2d[0, 0])
print(arr_2d[1, 2])
print(arr_2d[1, 0])

[[1 2 3]
 [4 5 6]]
<class 'numpy.ndarray'>
(2, 3)
1
6
4


Теперь видно, что в кортеже размерности стало два элемента, при этом тип объекта никак не поменялся.

Индексация в 2D массиве делается уже посредством двух индексов:
- первый индекс - номер ряда (строки);
- второй индекс - номер колонки (столбца).

> В 1D массивах вообще никаких вопросов не возникает, в 2D (ряд, колонка), если разворачивать до 3D массивов, то можно интерпретировать как (ряд, колонка, глубина). Дальнейшие размерности уже сложнее в визуальной интерпретации, поэтому вместо названий для каждой размерности идет просто индексация.

Помимо способов создания массивов из уже существующих представлений в виде `list`, можно также создавать массивы по-другому. Рассмотрим некоторые из них:


In [7]:
# Создание массива фиксированного размера
np.ndarray((5, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

В представленном способе мы напрямую вызываем конструктор и передаем ему размерность. Какими числами будет заполнен массив - никто не знает. Вероятнее всего, это будут нули, но для уверенности лучше самостоятельно заполнить такой массив данными.

In [8]:
# Явное создание массива нулей
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [9]:
# Явное создание массива единиц
np.ones((3, 2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [10]:
# Создание массива, заполненного константным значением
np.full((3, 4), 5)

array([[5, 5, 5, 5],
       [5, 5, 5, 5],
       [5, 5, 5, 5]])

In [11]:
# 2D массив с единичной главной диагональю
# (*) В этой функции размерность задается не кортежем, а отдельными аргументами
np.eye(3, 2)

array([[1., 0.],
       [0., 1.],
       [0., 0.]])

In [12]:
# Создание массива нулей с такой же размерностью, как уже существующий
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

np.zeros_like(arr_2d)

array([[0, 0, 0],
       [0, 0, 0]])

In [13]:
# Создание массива единиц с такой же размерностью, как уже существующий
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

np.ones_like(arr_2d)

array([[1, 1, 1],
       [1, 1, 1]])

In [14]:
# Создание массива со случайными значениями в интервале [0; 1.0)
np.random.random((2,2))

array([[0.42425753, 0.14906297],
       [0.37429205, 0.76673647]])

In [15]:
# Аналог функции range
np.arange(start=1, stop=10, step=1.5)

array([1. , 2.5, 4. , 5.5, 7. , 8.5])

In [16]:
# Также создание диапазона значений, но уже с заданием количества элементов
# (*) stop уже входит в создаваемый диапазон
np.linspace(start=1, stop=2, num=10)

array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
       1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

# Хитрая индексация

Индексация в Python не ограничивается заданием конкретных индексов для получения значений в контейнерах (стандартных или массивов `ndarray`). Существуют специальные символы и подходы для работы с диапазонами данных, которые не только упрощают и улучшают код, но и выполняются более быстро, нежели проходы по массивам циклом.

Начнем со знакомства с символом `:`, который позволяет задавать диапазон индексов для чтения/записи контейнеров.

In [17]:
# Для начала на простом списке (1D массива)
# Следующее создание массива можно заменить list(range(1, 11))
arr = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [18]:
# Простая индексация
print(arr[0])
print(arr[-2])
print(arr[5])

1
9
6


Для получения подмассива (части массива) или записи в подмассив используется нотация $$index_{start}:index_{end}:step$$

- $index_{start}$ - индекс начала подмассива
- $index_{end}$ - индекс конца подмассива
- $step$ - шаг подмассива

In [19]:
# Получение части массива от 2го элемента до 6го (не включительно) 
#   с шагом 2 
print(arr[2:8:2])

[3, 5, 7]


In [20]:
# Если шаг не задан, то он равен единице (при этом второй раз : не пишется)
print(arr[2:8])

[3, 4, 5, 6, 7, 8]


In [21]:
# Шаг может быть и отрицательным (индексы меняются местами)
print(arr[8:2:-1])

[9, 8, 7, 6, 5, 4]


In [22]:
# Если не задавать index_start или index_end, 
#   то они будут равны индексу начала и конца массива
print(arr[2:])
print(arr[:8])

[3, 4, 5, 6, 7, 8, 9, 10]
[1, 2, 3, 4, 5, 6, 7, 8]


In [23]:
# Можно комбинировать один из индексов и шаг
print(arr[2::2])
print(arr[:8:3])

[3, 5, 7, 9]
[1, 4, 7]


In [24]:
# И не забываем, что все трюки работают и на запись
new_arr = list(range(1, 11))

new_arr[1:5] = arr[:4]
print(new_arr)

[1, 1, 2, 3, 4, 6, 7, 8, 9, 10]


In [25]:
# Не самая полезная, но все же запись (получить весь диапазон)
print(arr[:])

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


## Задание

Объясните результат операции:

In [26]:
print(arr[:5:-2]) # Порядок индекса - сзади вперед, размер шага: 2.

[10, 8]


## Задание

Получите перевернутый список:

In [27]:
data = list(range(10))
print(data)

# TODO - [9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


## Задание

Получите массив без первого и двух последних элементов:

In [28]:
data = list(range(10))
print(data)
data[::-1]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

# Хитрая индексация в матрицах

Работа с одномерными списками удобна даже через класс `list`, но 2D массивы уже удобнее использовать через библиотеку numpy. Использование numpy никак не ограничивает применение такой индексации, так что можно делать много классных штук:

In [29]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


В индексации numpy есть очень полезное правило: если последующие индексы не заданы, то они принимаются как "весь диапазон". Например, в двумерном массиве мы индексируем по двум числам $[3, 2]$. Если в 2D массиве задать индекс $[3]$, то это эквивалентно индексации $[3, :]$, то есть третий ряд, все колонки.

В плане предшествующих индексов это не работает, поэтому, чтобы получить целую колонку, надо индексировать $[:, 2]$.

In [30]:
# Получим вторую строку массива
print(arr[2])
print(arr[2, :])

[ 9 10 11 12]
[ 9 10 11 12]


In [31]:
# Получим первую колонку массива
print(arr[:, 1])

[ 2  6 10]


In [32]:
# Получить первые два элемента (первые две колонки) первого ряда
print(arr[1, :2])

[5 6]


In [33]:
# Можно повторять целые части массива
#   (но при этом должны соотноситься размерности)
# ndarray.copy() - функция копирования массива
# Копируем, чтобы не изменить оригинальный
new_arr = arr.copy()
print(arr)

new_arr[2, :] = arr[1, :]
print(new_arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[1 2 3 4]
 [5 6 7 8]
 [5 6 7 8]]


In [34]:
# При этом, такая индексация - это новый массив со своей размерностью.
print(arr[:2, :2])
print(arr[:2, :2].shape)

[[1 2]
 [5 6]]
(2, 2)


In [35]:
# В качестве индексов можно также задавать другие массивы
# Получаем первую и последнюю колонки
print(arr[:, [0, -1]])

[[ 1  4]
 [ 5  8]
 [ 9 12]]


In [36]:
# И таким образом никто не заставляет писать в том же порядке индексы
# Перемешаем ряды
print(arr[[2, 0, 1], :])

[[ 9 10 11 12]
 [ 1  2  3  4]
 [ 5  6  7  8]]


In [37]:
# Также, можно комбинировать способы задания
print(arr[[2, 0], [1, 3]])
# То же самое, только первая запись дает массив
print(arr[2, 1], arr[0, 3])

[10  4]
10 4


In [38]:
# Создаем список возможных индексов для рядов массива
row_indices = list(range(arr.shape[0]))
print(row_indices)

# Переворачиваем его
row_indices = list(reversed(row_indices))
print(row_indices)

# Используем для индексации
print('----------------')
print(arr[row_indices])

[0, 1, 2]
[2, 1, 0]
----------------
[[ 9 10 11 12]
 [ 5  6  7  8]
 [ 1  2  3  4]]


## Задание

Получите массив без крайних рядов и колонок (по одной с каждой стороны)

In [39]:
data = np.random.randint(low=0, high=10, size=(5, 6))
print(data)
print(data[:4,:5])

[[3 2 6 8 6 1]
 [0 1 6 1 1 8]
 [0 5 8 1 9 3]
 [0 7 0 9 2 2]
 [2 0 5 5 9 1]]
[[3 2 6 8 6]
 [0 1 6 1 1]
 [0 5 8 1 9]
 [0 7 0 9 2]]


## Задание

Произведите перемешивание колонок с помощью функции `numpy.random.permutation()`:

<details>
<summary>Подсказка</summary>

Перемешать колонки можно путем перемешивания списка возможных индексов колонок (`range(<col_count>)`) и затем индексацией этого списка по индексам колонок (`[:, cols]`).
</details>

In [40]:
data = np.random.randint(low=0, high=10, size=(3, 6))
print(data)
col = np.random.permutation(list(range(data.shape[1])))
print(col)
data[:, col]

[[0 1 7 5 0 3]
 [7 1 0 4 1 2]
 [1 2 6 0 2 0]]
[3 4 5 0 1 2]


array([[5, 0, 3, 0, 1, 7],
       [4, 1, 2, 7, 1, 0],
       [0, 2, 0, 1, 2, 6]])

# Типы данных в массивах

Массивы в numpy имеют не только размер, но и конкретный тип данных, которые хранятся внутри массива. При создании массива почти все функции создания имеют аргумент `dtype`, который означает, с каким типом создать данным массив. Также, класс `ndarray` имеет атрибут `dtype`, который означает тип хранимых данных. 

Подробнее можно прочитать в [документации](https://numpy.org/doc/stable/reference/arrays.dtypes.html).

In [41]:
# Создадим массив без задания типа - тип будет определен автоматически
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr.dtype)

# int, так как все элементы являются целочисленными

int32


In [42]:
# Изменим один элемент на вещественный
arr = np.array([[1.5, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr.dtype)

# Один из элементов float, поэтому весь массив будет float

float64


In [43]:
# Зададим явно тип массива
# Хоть массив и содержит вещественные числа
# мы создаем массив целочисленных, что приводит
# к округлению
arr = np.array([[1.1, 1.6, 2.4], [-1.7, 2.6, -1.2]], dtype=int)
print(arr)
print(arr.dtype)

[[ 1  1  2]
 [-1  2 -1]]
int32


In [44]:
# Создаем массив вещественных
arr = np.array([[1.1, 1.6, 2.4], [-1.7, 2.6, -1.2]])
print(arr)
print(arr.dtype)
print('----------')
# Но в какой-то момент нам нужно привести массив к целочисленным
# Воспользуемся методом ndarray.astype()
arr = arr.astype(int)
print(arr)
print(arr.dtype)

[[ 1.1  1.6  2.4]
 [-1.7  2.6 -1.2]]
float64
----------
[[ 1  1  2]
 [-1  2 -1]]
int32


In [45]:
# При этом попытки записать в целочисленный массив 
# вещественное число приводят к округлению
arr = np.array([[1.1, 1.6, 2.4], [-1.7, 2.6, -1.2]], dtype=int)
print(arr)

arr[0, 1] = 10.12
print(arr)

[[ 1  1  2]
 [-1  2 -1]]
[[ 1 10  2]
 [-1  2 -1]]


# Булевы операции над массивами

Массивы numpy поддерживают операции сравнения, которые генерируют так называемые маски.

In [46]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [47]:
# Произведем сравнение с числом
result = arr > 6
print(result)
print(result.dtype)

[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]
bool


Как видно, в результате операции создается такой же массив, но с булевым типом. Так мы получаем маску элементов, которые соответсвуют условию булевого выражения.

Как и с простым булевым типом, маски можно совмещать булевыми операциями:

In [48]:
result_1 = arr > 6
result_2 = arr < 10
print(result_1)
print(result_2)

print('----------')
# Следующие две операции идентичны, но для второй скобки обязательны!
print(result_1 & result_2)
print((arr > 6) & (arr < 10))

[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]
[[ True  True  True  True]
 [ True  True  True  True]
 [ True False False False]]
----------
[[False False False False]
 [False False  True  True]
 [ True False False False]]
[[False False False False]
 [False False  True  True]
 [ True False False False]]


При работе с масками полезно помнить про функции `np.all()` и `np.any()`, которые имеют следующие описания:
- `all` - проверка на то, что все элементы в массиве имеют значение True (аналог операции И);
- `any` - проверка, что хотя бы один элемент в массиве имеет значение True (аналог операции ИЛИ).

## Задание

Определите, имеется ли хотя бы одно значение больше пяти и меньше восьми в массиве:

In [49]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr)
np.any((arr>5)&(arr<8))

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


True

# Больше индексации

Помимо индексации с помощью диапазонов и списков индексов numpy поддерживает индексацию с помощью булевых массивов.

In [50]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

In [51]:
# Получим маску и воспользуемся ею для индексации
mask = arr > 6
print(mask)
print(arr[mask])

[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]
[ 7  8  9 10 11 12]


Обратите внимание, такая индексация по всему массиву приводит к созданию 1D массива из-за того, что элементы имеют неравномерное расположение, так что они представляются в выпрямленном виде (flattened).

> Выпрямленное представление - приведение массива любой размерности к 1D представлению. Для этого есть метод `ndarray.flatten()`. Происходит это путем разворачивания массива в одномерный, проходом по индексам, начиная с последней размерности: в 2D случае мы берем элемент 1-го рядя, 1-й колонки, затем 1-го ряда, 2-й колонки, как закончим со всем рядом, то переходим на следующий и снова по колонкам. Для 3D массивов - сначала полностью разворачивается глубина, затем колонки, затем ряды.

In [52]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
print(arr)
print(arr.flatten())

[[1 2 3 4]
 [5 6 7 8]]
[1 2 3 4 5 6 7 8]


# Операции с массивами

Мало смысла в создании массивов без возможности сделать с ними что-либо. 

In [53]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

In [54]:
# Сложение
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [55]:
# Вычитание
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [56]:
# Поэлементное умножение
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [57]:
# Поэлементное деление
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [58]:
# Вычисление корня каждого элемента
print(np.sqrt(x))

[[1.         1.41421356]
 [1.73205081 2.        ]]


Отлично, мы рассмотрели основные операции над массивами. Операции поэлементные, результаты такие же по размеру, как и операнды. Помимо рассмотренных существуют и множество других, например, экспонента, логарифм и т.д.

Помимо поэлементных операций, которые не составляют сложностей в представлении, существует операция матричного умножения. В данном случае мы имеем варианты перемножения матриц, векторов и скаляров.

In [59]:
# Умножение матрицы на скаляр - релизуется как поэлементное перемножение 
k = 1.5

print(k*x)

[[1.5 3. ]
 [4.5 6. ]]


In [60]:
v = np.array([1, 2])

In [61]:
# Матричное умножение реализуется через оператор @ или функцию np.dot() 
#   или метод ndarray.dot()
# Для умножения матрица-вектор

print(x @ v)
print(x.dot(v))
print(np.dot(x, v))

[ 5. 11.]
[ 5. 11.]
[ 5. 11.]


In [62]:
# Двух векторов
w = np.array([3, 4])

print(w @ v)
print(w.dot(v))
print(np.dot(w, v))

11
11
11


In [63]:
# Так и для перемножения матриц
print(x @ y)
print(x.dot(y))
print(np.dot(x, y))

[[19. 22.]
 [43. 50.]]
[[19. 22.]
 [43. 50.]]
[[19. 22.]
 [43. 50.]]


Правила умножения матриц и векторов здесь идентичны математическим, то есть соседние размерности должны соотноситься: $(m, n)*(n, k)=(m, k)$.

Прекрасно! Раз мы разобрались с тем, как делать базовые операции, то осталось лишь последняя базовая операция - транспонирование.

In [64]:
# Для транспонирования можно воспользоваться атрибутом ndarray.T
#   или функцией np.transpose()
x = np.array([[1, 2, 3], [4, 5, 6]])
print(x)
print(x.shape)
print('--------')
print(np.transpose(x))
print(x.T)
print(x.T.shape)

[[1 2 3]
 [4 5 6]]
(2, 3)
--------
[[1 4]
 [2 5]
 [3 6]]
[[1 4]
 [2 5]
 [3 6]]
(3, 2)


# Операции по осям

Если ранее операции позволяли модифицировать массив и получать новые массивы с помощью базовых операций, то сейчас мы рассмотрим более "аггрегуирующие" операции, например, получение среднего значения, суммы и т.д.

При разборе обратим внимание на один важный аргумент в операциях `axis`.

In [65]:
x = np.array([[1, 2, 3], [5, 4, 3]])
print(x)

[[1 2 3]
 [5 4 3]]


In [66]:
# Возьмем среднее значение всего массива
print(np.mean(x))
print(np.mean(x, axis=None))

3.0
3.0


In [67]:
# Получим сумму значений всего массива
print(np.sum(x))
print(np.sum(x, axis=None))

18
18


Отлично, работает как надо, но зачем этот аргумент `axis`? Все очень просто, он управляет тем, по какой оси (размерности) делается операция. Нужно это, чтобы получить, например, среднее по каждому столбцу или строке.

In [68]:
# Получим среднее по каждому столбцу
print(np.mean(x, axis=0))

# Получим среднее по каждой строке
print(np.mean(x, axis=1))

[3. 3. 3.]
[2. 4.]


Так как же это воспринимать? Помните индексацию слайсами (диапазонами)? Чтобы получить весь второй столбец, мы пишем $[:, 2]$, что означает "все строки стобца под индексом 2". Так и тут, если мы хотим, чтобы операция выполнилась по всем строкам (например для результата по столбцам), то пишем `axis=0`. Если хотим, чтобы операция проходила по колонкам (для каждой строки), то пишем `axis=1`. То есть, в `axis` задается тот индекс, вдоль которого выполняется операция.

Можно подходить к вопросу более формально. Например, мы имеем матрицу размера $(10, 13)$. При указании `axis=0` мы получим результат вычисления операции по каждому столбцу или массив размером $(13, )$. Через аргумент `axis` мы указываем размерность, которую схлопнем до единицы. Для случая многомерных массивов, например с размером $(8, 3, 40, 20)$, указывая `axis=1`, мы получаем результат с размером $(8, 40, 20)$.

> Такие возможности задания осей хороши тем, что не нужно писать циклы прохода по всем строкам, чтобы получить результат - это делает код более читаемым и производительным.

## Задание

Напишите операцию получения суммы элементов по всем стобцам:

In [69]:
data = np.random.randint(low=0, high=5, size=(3, 6))
print(data)
print(np.sum(data, axis=0))

[[2 3 4 2 4 4]
 [1 4 3 4 2 2]
 [1 3 1 3 1 4]]
[ 4 10  8  9  7 10]


# Broadcasting (трансляция)

Тема достаточно "широкая" =)
На деле механизм броадкастинга очень полезен и его понимание является одним из мощных инструментов библиотеки numpy.

Зачем он нужен? Допустим, мы имеет вектор $(4,)$, матрицу $(3, 4)$ и хотим умножить этот вектор на каждую строку матрицы. Самый простой способ - пройти в цикле по строкам:

In [70]:
vec = np.arange(4)
mtrx = np.ones((3, 4))
print(vec)
print(mtrx)

[0 1 2 3]
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [71]:
result = np.empty_like(mtrx)

for i_row in range(mtrx.shape[0]):
    result[i_row,:] = mtrx[i_row,:] * vec

print(result)

[[0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]]


С другой стороны, можно склонировать вектор по размеру матрицы, чтобы затем просто перемножить поэлементно две матрицы.

In [72]:
# Функция np.tile() повторяет массив то количество раз и по тем осям,
#   которые заданы в аргументе reps
vec_m = np.tile(vec, reps=(3, 1))
print(vec_m)
print(vec_m * mtrx)

[[0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]]
[[0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]]


А можно вспомнить про броадкастинг и просто умножить вектор на матрицу:

In [73]:
# Умножение, используя броадкастинг
print(vec * mtrx)

[[0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]]


Таким образом, броадкастинг - это механизм распространения элементов операций по разметностям, по которым количество элементов не соотносится с другим операндом. В последней ячейке вектор был продублирован на каждую строку так, что размерности соотносятся.

> Обязательно прочитайте примеры броадкастинга в [статье](https://numpy.org/doc/stable/user/basics.broadcasting.html).

Броадкастинг также работает и при умножении скаляра на массив:

In [74]:
print(2 * mtrx)

[[2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]]


Чтобы больше понять правила броадкастинга, посмотрим на результаты операций 3D матриц:

In [75]:
x = np.ones((4, 1, 1))
y = np.random.randint(0, 5, size=(4, 3, 2))

print((x*y).shape)

(4, 3, 2)


In [76]:
x = np.ones((3, 1))
y = np.random.randint(0, 5, size=(4, 3, 2))

print((x*y).shape)

(4, 3, 2)


In [77]:
x = np.ones((1, 3, 2))
y = np.random.randint(0, 5, size=(5, 1, 2))

print((x*y).shape)

(5, 3, 2)


В последних примерах можно увидеть, что размерности должны быть соотносимы (количества размерностей равны). В случае неравенства количества размерностей новые размерности со значением 1 добавляются слева ($(3, 1) \rightarrow (1, 3, 1)$ в одном из примеров).

> Добавление размерности было и в случае умножения вектора на матрицу: $(4,)*(3, 4) \rightarrow (1, 4)*(3, 4)$

Броадкастинг делается по тем осям, которые у одного операнда имеют размерность 1 путем копирования.

> В нашем случае $(1, 4)*(3, 4) \rightarrow (3, 4)*(3, 4)$

Осознать броадкастинг сразу не совсем просто, но главное не забывать, что такой инструмент есть и им нужно пользоваться во избежание лишнего кода.

# Изменение размеров массива (Reshape)

Еще одна интересная тема, которую стоит рассмотреть. Мы уже касались вопроса приведения массива к выпрямленному виду - это один из видов изменения размерности массива.

По сути, размерность массива - это то, как выстроены элементы в нем. Изменение размерности - это изменение структуры **без изменения элементов или порядка**.

Рассмотрим на примере:

In [78]:
arr = np.arange(20)
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


Вот мы имеем вектор из 20 элементов в порядке возрастания. Теперь, допустим, нам нужно сделать массив размером $(4, 5)$, в котором каждый ряд - это продолжение предыдущего по возрастанию чисел. Для начала сделаем руками: 

In [79]:
mtrx = np.ndarray((4, 5), dtype=np.int32)
mtrx[0, :] = arr[:5]
mtrx[1, :] = arr[5:10]
mtrx[2, :] = arr[10:15]
mtrx[3, :] = arr[15:]

print(mtrx)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


Получилось как надо, но есть два недостатка:
- Если элементов будет больше и нужен будет другой размер - код не универсален;
- Приходится расставлять данные вручную.

Теперь взглянем, как работает метод `ndarray.reshape()`:

In [80]:
print(arr.reshape((4, 5)))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


В результате происходит тоже самое. То есть, элементы расположились в порядке размещения по размерностям: начиная с первой строки (нулевая размерность) заполняется по колонкам (первая размерность), а как только заполнение по колонкам закончено - переходим на следующий ряд.

Таким образом, в какую бы размерность не происходило изменение размера - расположение будет придерживаться этого правила.

Для лучшего понимания посмотрим на другие представления:

In [81]:
print(arr.reshape((2, 10)))
print(arr.reshape((5, 4)))
print(arr.reshape((20, 1)))

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]]
[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]
 [12]
 [13]
 [14]
 [15]
 [16]
 [17]
 [18]
 [19]]


Таким образом, можно приводить к любой размерности с учетом правила:
> Количество элементов должно сохраняться

Но бывают ситуации, когда мы точно не знаем количество элементов, но нам нужно точно создать, например, 4 строки в матрице. В этом поможет неопределенная размерность, которая задается числом -1:

In [82]:
print(arr.reshape((4, -1)))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


Таким образом можно задать, что матрица должна быть 2D с фиксированным количеством строк, но без фиксации на количество столбцов. Конечно же, если в исходном будет 21 элемент, то такой трюк не сработает, потому что 21 не делится на 4 без остатка.

# Объединение массивов

При работе с массивами бывают случаи, когда несколько массивов необходимо объединить в один. Для этого поможет функция `np.concatenate()` и понимание ее основных правил.

In [83]:
x = np.arange(10).reshape((2, 5))
y = np.arange(15).reshape((3, 5))

print(x)
print(y)

[[0 1 2 3 4]
 [5 6 7 8 9]]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


Для объединения массивов необходимо, чтобы одна из размерностей имела одинаковое количество элементов. Это достаточно логичное требование задается аргументом `axis` в функции:

In [84]:
print(np.concatenate((x, y), axis=0))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


Обратите внимание, что массивы передаются в виде кортежа, что позволяет объединять два и более массивов.

## Задание

Объедините три массива вдоль колонок:

In [85]:
x = np.arange(9).reshape((3, 3))
y = np.arange(12).reshape((3, 4))
z = np.arange(15).reshape((3, 5))

print(x)
print(y)
print(z)

print(np.concatenate((x,y,z), axis = 1))
# [[ 0  1  2  0  1  2  3  0  1  2  3  4]
#  [ 3  4  5  4  5  6  7  5  6  7  8  9]
#  [ 6  7  8  8  9 10 11 10 11 12 13 14]]

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 0  1  2  0  1  2  3  0  1  2  3  4]
 [ 3  4  5  4  5  6  7  5  6  7  8  9]
 [ 6  7  8  8  9 10 11 10 11 12 13 14]]


## Задание

Напишите реализацию добавления стобца единиц к матрице слева:

In [86]:
x = np.arange(1, 10).reshape((3, 3))
print(x)


x1 = np.ones((x.shape[0], 1))
print(x1)
x2 = np.concatenate((x1,x), axis = 1)
print(x2)
# [[1 1 2 3]
#  [1 4 5 6]
#  [1 7 8 9]]

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1.]
 [1.]
 [1.]]
[[1. 1. 2. 3.]
 [1. 4. 5. 6.]
 [1. 7. 8. 9.]]


# Сортировка массива

Numpy как серьезная библиотека работы с массивами имеет также и функционал сортировки. Для этого есть функция `np.sort()`, которая производит сортировку элементов и возвращает отсортированный массив:

In [87]:
unsorted_arr = np.array([2, 4, 5, 1, 2, 7, 5, 0, -1, 3, 5])
sorted_arr = np.sort(unsorted_arr)

print(unsorted_arr)
print(sorted_arr)

[ 2  4  5  1  2  7  5  0 -1  3  5]
[-1  0  1  2  2  3  4  5  5  5  7]


Помимо явной сортировки существует также функция `np.argsort()`, которая возвращает не отсортированный массив, а массив индексов исходного массива в порядке, который дает отсортированный исходный. Посмотрим:

In [88]:
sorted_indices = np.argsort(unsorted_arr)
print(sorted_indices)

# А теперь воспользуемся индексами и отобразим исходный массив с индексацией
print(unsorted_arr[sorted_indices])

[ 8  7  3  0  4  9  1  2  6 10  5]
[-1  0  1  2  2  3  4  5  5  5  7]


## Задание

По такому же принципу именования найдите функцию, которая возвращает индекс максимального/минимального (в завимости от варианта) элемента в массиве.

Воспользуйтесь найденной функцией и найдите индексы максимальных элементов в каждом столбце 2D матрицы: 

In [89]:
arr = np.array([
    [11, -1, 1, 3, 5],
    [6, 1, 0, -1, 10],
    [1, 3, 2, 3, 6],
    [5, 2, 7, 8, 9],
])

print(arr)

def bjdx(a):
 np.argsort(arr, axis = 0)
 print(f'поиск индекса минимального: {np.argsort(arr, axis = 0)[0]}')
 print(f'поиск индекса максимального: {np.argsort(arr, axis = 0)[-1]}')

bjdx(arr)

# TODO - напишите код поиска индексов максимальных/минимальных 
#           элементов в массиве по столбцам: [0 2 3 3 1]/[2 0 1 1 0]

[[11 -1  1  3  5]
 [ 6  1  0 -1 10]
 [ 1  3  2  3  6]
 [ 5  2  7  8  9]]
поиск индекса минимального: [2 0 1 1 0]
поиск индекса максимального: [0 2 3 3 1]


## Задание

Напишите код сортировки массива по столбцам:

In [90]:
arr = np.array([
    [11, 2, 1, 3, 5],
    [6, 2, 0, -1, 10],
    [1, 3, 2, 3, 5],
    [5, 2, 7, 8, 9],
])
print(arr)

print(np.sort(arr, axis = 0))

# [[ 1  2  0 -1  5]
#  [ 5  2  1  3  5]
#  [ 6  2  2  3  9]
#  [11  3  7  8 10]]

[[11  2  1  3  5]
 [ 6  2  0 -1 10]
 [ 1  3  2  3  5]
 [ 5  2  7  8  9]]
[[ 1  2  0 -1  5]
 [ 5  2  1  3  5]
 [ 6  2  2  3  9]
 [11  3  7  8 10]]


# Задачки

Создайте массив, состоящий из случайных элементов в диапазоне $[-10; 20]$ размером $(5, 7)$:

In [91]:
np.random.randint(-10, 20, size = (5, 7))

array([[  8,  13,  -7,  -1, -10,  19,  19],
       [ -6,  14,  -6,   4,  10,  -5,   1],
       [  5,  19,   1,   3,  13,   4,   9],
       [ 17,  17,  -5,  10,  -4,  -7,   5],
       [ 10,   9,   2,  -6,  16,   4,  11]])

Добавьте границу в виде нулей со всех сторон 2D массива:

In [92]:
data = np.arange(1, 16).reshape((3, 5))
print(data)

lr = np.zeros((data.shape[0], 1))
datalr = np.concatenate((lr, data, lr), axis = 1)
ud = np.zeros((1, datalr.shape[1]))
dataud = np.concatenate((ud, datalr, ud), axis = 0)
print(dataud)
# [[ 0  0  0  0  0  0  0]
#  [ 0  1  2  3  4  5  0]
#  [ 0  6  7  8  9 10  0]
#  [ 0 11 12 13 14 15  0]
#  [ 0  0  0  0  0  0  0]]

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]]
[[ 0.  0.  0.  0.  0.  0.  0.]
 [ 0.  1.  2.  3.  4.  5.  0.]
 [ 0.  6.  7.  8.  9. 10.  0.]
 [ 0. 11. 12. 13. 14. 15.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.]]


Разберитесь с функцией `np.clip()` и произведите ограничение массива, чтобы в нем значения были не более шести и не менее двух:

In [93]:
data = np.arange(1, 16).reshape((3, 5))
print(data)

np.clip(data, 2, 6, out = data)
print(data)
# [[2 2 3 4 5]
#  [6 6 6 6 6]
#  [6 6 6 6 6]]

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]]
[[2 2 3 4 5]
 [6 6 6 6 6]
 [6 6 6 6 6]]


Произведите модификацию массива так, чтобы значение в колонке результата соответствовало исходному значению, возведенному в степень индекса колонки:

In [94]:
data = np.full((3, 5), fill_value=2, dtype=np.int32)
print(data)

result = data.copy();
vec = list(range(data.shape[1]))
for i_row in range(data.shape[0]):
    result[i_row,:] = pow(data[i_row,:] ,vec)
print(result)

# [[ 1  2  4  8 16]
#  [ 1  2  4  8 16]
#  [ 1  2  4  8 16]]

[[2 2 2 2 2]
 [2 2 2 2 2]
 [2 2 2 2 2]]
[[ 1  2  4  8 16]
 [ 1  2  4  8 16]
 [ 1  2  4  8 16]]


Умножьте каждую колонку на ее индекс:

In [95]:
data = np.full((3, 5), fill_value=2, dtype=np.int32)
print(data)

result = data.copy();
vec = list(range(data.shape[1]))
for i_row in range(data.shape[0]):
    result[i_row,:] = data[i_row,:] *vec
print(result)

# [[0 2 4 6 8]
#  [0 2 4 6 8]
#  [0 2 4 6 8]]

[[2 2 2 2 2]
 [2 2 2 2 2]
 [2 2 2 2 2]]
[[0 2 4 6 8]
 [0 2 4 6 8]
 [0 2 4 6 8]]


Умножьте каждый четный ряд в матрице на вектор:

In [96]:
data = np.repeat(np.arange(1, 8), 4).reshape(7, 4)
vec = np.array([1, 2, 1, 2])
print(data)

result = data.copy();
for i_row in range(0, data.shape[0], 2):
    result[i_row,:] = data[i_row,:] *vec
print(result)

# [[ 1  2  1  2]
#  [ 2  2  2  2]
#  [ 3  6  3  6]
#  [ 4  4  4  4]
#  [ 5 10  5 10]
#  [ 6  6  6  6]
#  [ 7 14  7 14]]

[[1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]
 [4 4 4 4]
 [5 5 5 5]
 [6 6 6 6]
 [7 7 7 7]]
[[ 1  2  1  2]
 [ 2  2  2  2]
 [ 3  6  3  6]
 [ 4  4  4  4]
 [ 5 10  5 10]
 [ 6  6  6  6]
 [ 7 14  7 14]]


Определите индексы двух наибольших элементов в матрице по каждому ряду:

In [97]:
data = np.array([[20, 22,  2, 14, 25,  8],
                [ 7, 25, 23,  3, 22, 15],
                [ 8, 16,  9, 22,  0,  9],
                [ 4, 24, 24, 28,  3, 40]])
print(data)

fx = np.argsort(-data)
print(fx[:,[0,1]])

# [[4 1]
#  [1 2]
#  [3 1]
#  [5 3]]

[[20 22  2 14 25  8]
 [ 7 25 23  3 22 15]
 [ 8 16  9 22  0  9]
 [ 4 24 24 28  3 40]]
[[4 1]
 [1 2]
 [3 1]
 [5 3]]


Выберите две случайные колонки из массива:

<details>
<summary>Подсказка 1</summary>

Для случайного выбора полезно воспользоваться функцией `np.random.choice()`
</details>

<details>
<summary>Подсказка 2</summary>

`np.random.choice()` принимает на вход 1D массив, так что для выбора можно создать массив индексов колонок (`range()` с количеством колонок) и из него функция выберет два случайных индекса
</details>

In [98]:
data = np.array([[20, 22,  2, 14, 25,  8],
                [ 7, 25, 23,  3, 22, 15],
                [ 8, 16,  9, 22,  0,  9],
                [ 4, 24, 24, 28,  3, 40]])
print(data)

a = list(range(data.shape[1]))
a1 = data[:, np.random.choice(a)]
a2 = data[:, np.random.choice(a)]
print(a1, a2)
# *Например,
# [[22  8]
#  [25 15]
#  [16  9]
#  [24 40]]

[[20 22  2 14 25  8]
 [ 7 25 23  3 22 15]
 [ 8 16  9 22  0  9]
 [ 4 24 24 28  3 40]]
[ 8 15  9 40] [20  7  8  4]


Создайте массив размером $(10, 3)$, который состоит из повторяющихся рядов исходного массива:

In [99]:
data = np.arange(9).reshape(3, 3)
print(data)

data1 = np.zeros((10, 3))
for row in range(10):
  data1[row, :] = data[np.random.choice(data.shape[0]), :]
print(data1)

# *Например,
# [[3 4 5]
#  [6 7 8]
#  [0 1 2]
#  [6 7 8]
#  [3 4 5]
#  [6 7 8]
#  [6 7 8]
#  [6 7 8]
#  [6 7 8]
#  [0 1 2]]

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[6. 7. 8.]
 [6. 7. 8.]
 [0. 1. 2.]
 [0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]
 [3. 4. 5.]
 [3. 4. 5.]
 [6. 7. 8.]
 [6. 7. 8.]]


Соберите массив, состоящий из элементов 2й и 4й колонок и строк с 1й по 3ю:

In [100]:
data = np.array([[20, 22,  2, 14, 25,  8],
                [ 7, 25, 23,  3, 22, 15],
                [ 8, 16,  9, 22,  0,  9],
                [ 14, 9,  33, 21,  7,  6],
                [ 4, 24, 24, 28,  3, 40]])
print(data)

print(data[1:4, (2,4)])

# [[23 22]
#  [ 9  0]
#  [33  7]]

[[20 22  2 14 25  8]
 [ 7 25 23  3 22 15]
 [ 8 16  9 22  0  9]
 [14  9 33 21  7  6]
 [ 4 24 24 28  3 40]]
[[23 22]
 [ 9  0]
 [33  7]]


Инвертируйте порядок элементов в последних двух колонках:

In [101]:
data = np.array([[20, 22,  2, 14, 25,  8],
                [ 7, 25, 23,  3, 22, 15],
                [ 8, 16,  9, 22,  0,  9],
                [ 14, 9,  33, 21,  7,  6],
                [ 4, 24, 24, 28,  3, 40]])
print(data)

data1 = np.flipud(data[:, [-2,-1]])
data[:, [-2,-1]] = data1
print(data)

#data[:, -1] = data2(-1)
#print(data)

# [[20 22  2 14  3 40]
#  [ 7 25 23  3  7  6]
#  [ 8 16  9 22  0  9]
#  [14  9 33 21 22 15]
#  [ 4 24 24 28 25  8]]

[[20 22  2 14 25  8]
 [ 7 25 23  3 22 15]
 [ 8 16  9 22  0  9]
 [14  9 33 21  7  6]
 [ 4 24 24 28  3 40]]
[[20 22  2 14  3 40]
 [ 7 25 23  3  7  6]
 [ 8 16  9 22  0  9]
 [14  9 33 21 22 15]
 [ 4 24 24 28 25  8]]
