In [1]:
import numpy as np
np.__version__

'1.23.5'

# Часть 3. Агрегации

До этого мы преимущественно работали с массивами как таковыми. Мы проводили различные операции над ними, однако порой проще работать со скалярными значениями, которые представляют собой какие-то конкретные атрибуты/характеристики векторного объекта. В этом нам помогут агрегации - процедуры, направленные на объединение элементов.

Например, можно найти сумму элементов массива:

In [4]:
x = np.arange(1, 11)
x

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [5]:
print("Сумма элементов массива: ", np.sum(x))

Сумма элементов массива:  55


Обратите внимание, что лучше использовать функции и NumPy, потому что они оптимизированы под векторные вычисления.

In [6]:
big_data = np.random.random(10_000_000)
%timeit sum(big_data)
%timeit np.sum(big_data)

795 ms ± 55.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
15 ms ± 959 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Давайте посмотрим, какие функции агрегации доступны в NumPy (обратите внимание, что это не исчерпывающий список, а лишь примеры):

In [7]:
x = np.arange(1, 11)
print("Минимальное  значение: ", np.min(x))
print("Максимальное значение: ", np.max(x))
print("Среднее      значение: ", np.mean(x))
print("Произведение значений: ", np.prod(x))

Минимальное  значение:  1
Максимальное значение:  10
Среднее      значение:  5.5
Произведение значений:  3628800


До текущего момента мы использовали агрегации только по отношению к одномерным массивам, а как обстоят дела с многомерными?

In [8]:
x = np.arange(1, 7).reshape(2, 3)
x

array([[1, 2, 3],
       [4, 5, 6]])

При использовании агрегаций без дополнительных параметров они будут обрабатывать все элементы, как если бы они были одномерным массивом:

In [9]:
print("Минимальное  значение: ", np.min(x))
print("Максимальное значение: ", np.max(x))
print("Среднее      значение: ", np.mean(x))
print("Произведение значений: ", np.prod(x))

Минимальное  значение:  1
Максимальное значение:  6
Среднее      значение:  3.5
Произведение значений:  720


Однако в случае нескольких измерений у нас появляется возможность явно указывать измерение, вдоль которого будет производиться агрегация:

In [10]:
print("Минимальное   значение (по  строкам): ", np.min(x, axis=0))
print("Минимальное   значение (по столбцам): ", np.min(x, axis=1))
print("Максимальное  значение (по  строкам): ", np.max(x, axis=0))
print("Максимальное  значение (по столбцам): ", np.max(x, axis=1))

Минимальное   значение (по  строкам):  [1 2 3]
Минимальное   значение (по столбцам):  [1 4]
Максимальное  значение (по  строкам):  [4 5 6]
Максимальное  значение (по столбцам):  [3 6]


Иначе говоря: в аргументы `axis` мы указываем изменение, по которому массив будет "схлопнут"