# Numpy (Часть 2)

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2` 

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy==1.21.2` 


## Содержание

* [Булевы операции над массивами](#Булевы-операции-над-массивами)
  * [Задание - закрепим](#Задание---закрепим)
* [Индексация через маску <a name="index"></a>](#Индексация-через-маску-<a-name=index></a>)
* [Операции с массивами](#Операции-с-массивами)
* [Операции аггрегирующие (по осям) с массивами <a name="axe"></a>](#Операции-аггрегирующие-по-осям-с-массивами-<a-name=axe></a>)
  * [Задание - суммируем элементы](#Задание---суммируем-элементы)


В этом ноутбуке:
- Булевы операции над массивами
- Индексация через маску
- Операции с массивами (*, / и т.п.)
- Операции с массивами по осям (сумма, среднее и т.д.)

In [1]:
# Как всегда, в начале ноутбука делаем все необходимые импорты

import numpy as np

## Булевы операции над массивами

Массивы numpy поддерживают операции сравнения, которые генерируют так называемые маски.

In [2]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [3]:
# Произведём сравнение с числом
result = arr > 6
print(result)
print(result.dtype)

[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]
bool


Как видно, в результате операции создается такой же массив, но с булевым типом. Так мы получаем маску элементов, которые соответсвуют условию булевого выражения.

Как и с простым булевым типом, маски можно совмещать булевыми операциями:

In [4]:
result_1 = arr > 6
result_2 = arr < 10
print(result_1)
print(result_2)

print('----------')
# Следующие две операции идентичны, но для второй скобки обязательны!
print(result_1 & result_2)
print((arr > 6) & (arr < 10))

[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]
[[ True  True  True  True]
 [ True  True  True  True]
 [ True False False False]]
----------
[[False False False False]
 [False False  True  True]
 [ True False False False]]
[[False False False False]
 [False False  True  True]
 [ True False False False]]


При работе с масками полезно помнить про функции `np.all()` и `np.any()`, которые имеют следующие описания:
- `all` - проверка на то, что все элементы в массиве имеют значение `True` (аналог операции И);
- `any` - проверка, что хотя бы один элемент в массиве имеет значение `True` (аналог операции ИЛИ).

### Задание - закрепим

Определите, имеется ли хотя бы одно значение больше пяти и меньше восьми в массиве:

In [5]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr)

result = (arr > 5) & (arr < 8)
np.any(result)
# TODO - определить, имеется ли в массиве хотя бы один элемент, 
#           отвечающий условию больше пяти и меньше восьми

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


True

## Индексация через маску <a name="index"></a>

Помимо индексации с помощью диапазонов и списков индексов numpy поддерживает индексацию с помощью булевых массивов. Булевый массив, битовая маска или последовательность битов  можно назвать "логической" маской. "Накладывание" маски на данные позволяет выделить часть из них.

In [6]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [7]:
# Получим маску и воспользуемся ею для индексации
mask = arr > 6
print(mask)
print(arr[mask])

[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]
[ 7  8  9 10 11 12]


*Обратите внимание*, что индексация по маске порождает именно одномерный массив (1D) - массив в развёрнутом или "выпрямленном виде" (flattened). 
Операция выпрямления `ndarray.flatten()` - приведение массива любой размерности к одномерному (1D) представлению. 

Происходит это путём разворачивания массива в одномерный, проходом по индексам, начиная с последней размерности: в 2D случае мы берем элемент 1-го рядя, 1-й колонки, затем 1-го ряда, 2-й колонки, как закончим со всем рядом, то переходим на следующий и снова по колонкам. Для 3D массивов - сначала полностью разворачивается глубина, затем колонки, затем ряды.

In [8]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr)
print(arr.flatten())

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[ 1  2  3  4  5  6  7  8  9 10 11 12]


## Операции с массивами

Мало смысла в создании массивов без возможности сделать с ними что-либо. 

In [9]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

In [10]:
# Сложение
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [11]:
# Вычитание
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [12]:
# Поэлементное умножение
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [13]:
# Поэлементное деление
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [14]:
# Вычисление корня каждого элемента
print(np.sqrt(x))

[[1.         1.41421356]
 [1.73205081 2.        ]]


Отлично, мы рассмотрели основные операции над массивами. Операции поэлементные, результаты такие же по размеру, как и операнды. Помимо рассмотренных существуют и множество других, например, экспонента, логарифм и т.д.

Помимо поэлементных операций, которые не составляют сложностей в представлении, существует операция матричного умножения. В данном случае мы имеем варианты перемножения матриц, векторов и скаляров.

In [15]:
# Умножение матрицы на скаляр - релизуется как поэлементное перемножение 
k = 1.5

print(k*x)

[[1.5 3. ]
 [4.5 6. ]]


In [16]:
v = np.array([1, 2])

In [17]:
# Матричное умножение реализуется через оператор @ или функцию np.dot() 
#   или метод ndarray.dot()
# Для умножения матрица-вектор

print(x @ v)
print(x.dot(v))
print(np.dot(x, v))

[ 5. 11.]
[ 5. 11.]
[ 5. 11.]


In [18]:
# Двух векторов
w = np.array([3, 4])

print(w @ v)
print(w.dot(v))
print(np.dot(w, v))

11
11
11


In [19]:
# Так и для перемножения матриц
print(x @ y)
print(x.dot(y))
print(np.dot(x, y))

[[19. 22.]
 [43. 50.]]
[[19. 22.]
 [43. 50.]]
[[19. 22.]
 [43. 50.]]


Правила умножения матриц и векторов здесь идентичны математическим, то есть соседние размерности должны соотноситься: $(m, n)*(n, k)=(m, k)$.

Прекрасно! Раз мы разобрались с тем, как делать базовые операции, то осталось лишь последняя базовая операция - транспонирование.

In [20]:
# Для транспонирования можно воспользоваться атрибутом ndarray.T
#   или функцией np.transpose()
x = np.array([[1, 2, 3], [4, 5, 6]])
print(x)
print(x.shape)
print('--------')
print(np.transpose(x))
print(x.T)
print(x.T.shape)

[[1 2 3]
 [4 5 6]]
(2, 3)
--------
[[1 4]
 [2 5]
 [3 6]]
[[1 4]
 [2 5]
 [3 6]]
(3, 2)


## Операции аггрегирующие (по осям) с массивами <a name="axe"></a>

Если ранее операции позволяли модифицировать массив и получать новые массивы с помощью базовых операций, то сейчас мы рассмотрим более "аггрегуирующие" операции, например, получение среднего значения, суммы и т.д.

При разборе обратим внимание на один важный аргумент в операциях `axis`.

In [21]:
x = np.array([[1, 2, 3], [5, 4, 3]])
print(x)

[[1 2 3]
 [5 4 3]]


In [22]:
# Возьмем среднее значение всего массива
print(np.mean(x))
print(np.mean(x, axis=None))

3.0
3.0


In [23]:
# Получим сумму значений всего массива
print(np.sum(x))
print(np.sum(x, axis=None))

18
18


Отлично, работает как надо, но зачем этот аргумент `axis`? Все очень просто, он управляет тем, по какой оси (размерности) делается операция. Нужно это, чтобы получить, например, среднее по каждому столбцу или строке.

In [24]:
# Получим среднее по каждому столбцу
print(np.mean(x, axis=0))

# Получим среднее по каждой строке
print(np.mean(x, axis=1))

[3. 3. 3.]
[2. 4.]


Так как же это воспринимать? Помните индексацию слайсами (диапазонами)? Чтобы получить весь второй столбец, мы пишем $[:, 2]$, что означает "все строки стобца под индексом 2". Так и тут, если мы хотим, чтобы операция выполнилась по всем строкам (например, для результата по столбцам), то пишем `axis=0`. Если хотим, чтобы операция проходила по колонкам (для каждой строки), то пишем `axis=1`. То есть, в `axis` задается тот индекс, вдоль которого выполняется операция.

Можно подходить к вопросу более формально. Например, мы имеем матрицу размера $(10, 13)$. При указании `axis=0` мы получим результат вычисления операции по каждому столбцу или массив размером $(13, )$. Через аргумент `axis` мы указываем размерность, которую схлопнем до единицы. Для случая многомерных массивов, например с размером $(8, 3, 40, 20)$, указывая `axis=1`, мы получаем результат с размером $(8, 40, 20)$.

> Такие возможности задания осей хороши тем, что не нужно писать циклы прохода по всем строкам, чтобы получить результат - это делает код более читаемым и производительным.

### Задание - суммируем элементы

Напишите операцию получения суммы элементов по всем стобцам:

In [25]:
data = np.random.randint(low=0, high=5, size=(3, 6))
print(data)

print(np.sum(data, axis=0))

# TODO - вектор сумм элементов по каждому столбцу

[[0 2 3 0 2 1]
 [1 4 4 3 4 3]
 [0 1 4 2 0 0]]
[ 1  7 11  5  6  4]
