In [1]:
import numpy as np
np.__version__

'1.23.5'

# Часть 5. Маски и булева логика

## Использование операторов сравнения в качестве UFuncs

Ранее в разделе про универсальные функции мы говорили о том, какие они бывают и в целом для чего предназначались. Однако их полезность на преобразовании не заканчиваются. Из курса дискретной математики или логики вы наверняка помните, что значения могут быть истинными (True) или ложными (False). В случае с использованием UFuncs есть специальные процедуры, позволяющие работать с этими значениями

In [2]:
x = np.arange(1, 6)
x

array([1, 2, 3, 4, 5])

In [3]:
# удовлетворяет ли значение условию
x <= 2

array([ True,  True, False, False, False])

In [4]:
# удовлетворяет ли значение условию
x > 3

array([False, False, False,  True,  True])

Таким образом, можно проводить проверки, удовлетворяет ли объект на определённой позиции заданному свойству. Обратите внимание, что для многомерных массивов всё работает по абсолютно тому же принципу

In [5]:
x = np.arange(1, 7).reshape((2, 3))
x

array([[1, 2, 3],
       [4, 5, 6]])

In [26]:
x < 3

array([[ True,  True, False],
       [False, False, False]])

## Булевы массивы

Немного углубим наши воспоминания в дискретной математике. Чаще всего истинное значение рассматривалось эквивалентным 1, а ложное - 0. Этим знанием можно пользоваться, чтобы вести подсчёт элементов, удовлетворяющим определённым свойствам

In [27]:
x = np.arange(1, 13).reshape(4, 3)
x

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [28]:
# посчитаем количество значений, меньших чем 5
np.count_nonzero(x < 5)

4

In [29]:
# посчитаем количество значений, меньших чем 5, но уже через сумму
np.sum(x < 5)

4

In [30]:
# если функция np.count_nonzero работает без указания измерения,
# то np.sum может провести агрегацию вдоль указанного измерения
# например, сколько значений меньше 6 в каждой строке
np.sum(x < 6, axis=1)

array([3, 2, 0, 0])

Также порой удобно использовать функции `np.any` и `np.all` для проверки, выполняется ли заданное условие для хотя бы одного или для всех элементов соответственно

In [31]:
# есть ли хотя бы одно число, большее 8
np.any(x > 8)

True

In [32]:
# есть ли хотя бы одно число, меньшее 0
np.any(x < 0)

False

In [33]:
# все ли значения в массиве меньше 100
np.all(x < 100)

True

In [34]:
# все ли значения в массиве больше 3
np.all(x > 3)

False

Обратите внимание, что аналогично `np.sum` функции `np.any` и `np.all` могут быть применены к объектам выбранного измерения

## Использование булевых массивов в качестве масок

И в заключение этой части очень важный трюк. В NumPy у нас есть не только возможность проверять каждый элемент на соответствие определённому условию, но и выбирать эти элементы для последующей обработки

In [6]:
x = np.arange(1, 13).reshape(4, 3)
x

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [7]:
# запишем в маску результат проверки (x < 5) | (x > 10)
mask = (x < 5) | (x > 10)
mask

array([[ True,  True,  True],
       [ True, False, False],
       [False, False, False],
       [False,  True,  True]])

In [8]:
# выберем элементы, которые удовлетворяют этому условию,
# т.е. мы выбрали все числа, которые меньше 5 или больше 10
x[mask]

array([ 1,  2,  3,  4, 11, 12])

Таким образом, комбинируя разные условия можно создавать специализирванные подвыборки из массивов