# 02 Анализ массивов NumPy

In [2]:
# -*- coding: utf-8 -*-
import numpy as np

## Статистические характеристики данных

В библиотеке `NumPy` определены функции для вычисления статистических характеристик данных, содержащихся в массиве. Все эти функции могут применяться как ко всем элементам, так и к элементам лишь вдоль указанной размерности. Перечислим важнейшие из этих функций.
- `np.max`, `np.min` --- максимум и минимум.
- `np.sum`, `np.cumsum` --- сумма и накопленная (кумулятивная) сумма.
- `np.prod`, `np.cumprod` --- произведение или накопленное (кумулятивное) произведение.
- `np.mean`, `np.var` --- среднее и вариация (эмпирическая дисперсия).
- `np.percentile` --- квантили.

Рассмотрим примеры применения этих функций.

In [3]:
a = np.arange(1, 6, 1)
res = """a = {},
max(a) = {}, min(a) = {},
sum(a) = {}, cumsum(a) = {},
prod(a) = {}, cumprod(a) = {},
mean(a) = {}, var(a) = {},
percentile(a, q=50) = {} # медиана
""".format(a, np.max(a), np.min(a), np.sum(a), np.cumsum(a), np.prod(a),
           np.cumprod(a),np.mean(a), np.var(a), np.percentile(a, q=50))
print(res)

a = [1 2 3 4 5],
max(a) = 5, min(a) = 1,
sum(a) = 15, cumsum(a) = [ 1  3  6 10 15],
prod(a) = 120, cumprod(a) = [  1   2   6  24 120],
mean(a) = 3.0, var(a) = 2.0,
percentile(a, q=50) = 3.0 # медиана



In [4]:
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# суммирование по первому и второму измерениям, а также по всем элементам
b.sum(axis=0), b.sum(axis=1), b.sum()

(array([12, 15, 18]), array([ 6, 15, 24]), 45)

## Логические операции над массивами

Операции сравнения (`<`, `>` и т.д.) реализованы в библиотеке `NumPy` как поэлементные векторизованные функции. Пользоваться ими можно также как и арифметическими операторами. В качестве результата будут возвращены *логические маски*. Рассмотрим примеры. 

In [5]:
a = np.array([1, -1, 2, 0, 3, -2, 1])
print('a > 0', a > 0)
print('a < 0', a < 0)
print('a >= 0', a >= 0)
print('a <= 0', a <= 0)
print('a == 0', a == 0)

a > 0 [ True False  True False  True False  True]
a < 0 [False  True False False False  True False]
a >= 0 [ True False  True  True  True False  True]
a <= 0 [False  True False  True False  True False]
a == 0 [False False False  True False False False]


Если передать результаты операции логического сравнения массиву в качестве индексов, то будут отобраны только те элементы, которые удовлетворяют переданному условию. Рассмотрим пример.

In [6]:
print('Элементы a > 0:', a[a > 0])
print('Элементы a < 0:', a[a < 0])
print('Элементы a >= 0:', a[a >= 0])
print('Элементы a <= 0:', a[a <= 0])
print('Элементы a == 0:', a[a == 0])

Элементы a > 0: [1 2 3 1]
Элементы a < 0: [-1 -2]
Элементы a >= 0: [1 2 0 3 1]
Элементы a <= 0: [-1  0 -2]
Элементы a == 0: [0]


Для создания более сложных логических условий можно использовать специальные функции `np.logical_and`, `logical_or`, `logical_not` и `logical_xor`. Они служат заменителями стандартных операторов `and`, `or`, `not` и `xor`. Гораздо удобнее применять побитовые логические операции `&` и `|`. В случае логических логических масок побитовые операторы полностью заменяют обычные логические операции.

In [7]:
# все элементы из отрезка [0, 1]
a[(a >= 0) & (a <= 1)]

array([1, 0, 1])

Комбинируя логические операции с универсальными функциями можно отфильтровать данные и сразу же применить к ним желаемые операции.

In [8]:
a[a>0].sum()

7

In [9]:
a[(a >= 0) & (a <= 1)].sum()

2

Функция `np.count_nonzero` позволяет вычислить количество ненулевых элементов в массиве. Так как логическое значение `True` интерпретируется как `1`, а значение `False` как `0` то с помощью `np.count_nonzero`, можно проверять массивы на наличие элементов, удовлетворяющих самым разнообразным условиям.

In [10]:
# Есть ли элементы из отрезка [0, 1]
np.count_nonzero((a >= 0) & (a <= 1))

3

Функция `np.any` принимает в качестве аргумента массив с логическими элементами и возвращает истину в случае если в массиве есть хотя бы один истинный элемент. В свою очередь функция `np.all` возвращает истину, если в массиве все элементы истины. Эти функции могут заменить `count_nonzero` в случае, если число элементов, удовлетворяющих условию нам не интересно.

In [11]:
np.any(a > 0), np.all(a > 1)

(True, False)

Стоит отметить, что в языке `Python` есть встроенные функции `any`и `all`, которые для не очень больших одномерных массивов работают даже быстрее, чем функции `NumPy`. Проверим это утверждение на примере.

In [12]:
for i in range(3,7):
    print("Для массива из {} элементов:".format(i))
    r = np.random.random(10**i)
    %timeit np.any(r>0.5)
    %timeit any(r>0.5)
    %timeit np.all(r>0.5)
    %timeit all(r>0.5)

Для массива из {} элементов:
6.16 µs ± 34.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
2.03 µs ± 3.81 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
6.17 µs ± 14.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
1.98 µs ± 16.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
Для массива из {} элементов:
11.9 µs ± 82.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
6.42 µs ± 27.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
11.8 µs ± 33 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
6.33 µs ± 18.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
Для массива из {} элементов:
71.9 µs ± 1.42 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
62.9 µs ± 168 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
70.9 µs ± 102 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
63.2 µs ± 685 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
Для массива из {} эле

Однако если `NumPy` функции можно применять и к многомерным массивам, то встроенные нельзя, поэтому `NumPy` функции являются более универсальными.