# Выполнение вычислений над массивами библиотеки NumPy: универсальные функции 

In [1]:
import numpy as np
np.random.seed(0)

def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output

values = np.random.randint(1, 10, size=5)
compute_reciprocals(values)

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

In [2]:
big_array = np.random.randint(1, 100, size=1000000)
%timeit compute_reciprocals(big_array)

2.3 s ± 123 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Из-за проверки типа объекта и динамического поиска подходящего для этого типа функции скорость одной обхода цикла > 2.5 секунд!!

## Введение в универсальные функции 

In [3]:
print(compute_reciprocals(values))

[0.16666667 1.         0.25       0.25       0.125     ]


NumPy поддерживает векторизованные операции - операция с массивом, которая применяется ко всем элементам массива.

In [4]:
print(1.0/values)

[0.16666667 1.         0.25       0.25       0.125     ]


In [5]:
%timeit (1.0/big_array)

2.08 ms ± 123 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Операция выполнена на три порядка быстрее!

Главная задача универсальных функций - быстрое выполнение повторяющихся операций над значениями из массивов библиотеки NumPy.

In [6]:
print(np.arange(5), np.arange(1, 6))
np.arange(5) / np.arange(1, 6)


[0 1 2 3 4] [1 2 3 4 5]


array([0.        , 0.5       , 0.66666667, 0.75      , 0.8       ])

Работа с многомерными массивами

In [7]:
x = np.arange(9).reshape((3, 3))
2 ** x

array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]])

## Обзор универсальных функций

Можно выполнять обычные операции сложения, вычитания, умножения и деления:

In [8]:
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2) # деление с округлением в меньшую сторону

x     = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]


Существует также унарная универсальная функция для операции изменения знака, оператор ** для возведения в степень и оператор % для деления по модулю:

In [9]:
print("-x     =", -x)
print("x ** 2 =", x ** 2)
print("x % 2 =", x % 2)

-x     = [ 0 -1 -2 -3]
x ** 2 = [0 1 4 9]
x % 2 = [0 1 0 1]


Операции можно комбинировать с соблюдением стандартных преоритетов операторов:

In [10]:
-(0.5 * x + 1) ** 2

array([-1.  , -2.25, -4.  , -6.25])

## Абсолютное значение

In [11]:
x = np.array([-2, -1, 0, 1, 2])
abs(x)

array([2, 1, 0, 1, 2])

Аналогичная функция NumPy - np.absolute или np.abs

In [12]:
np.abs(x)

array([2, 1, 0, 1, 2])

Эта универсальная функция может также обрабатывать комплексные значения, возвращая их модуль:

In [13]:
x = np.array([3-4j, 4-3j, 2+0j, 0+1j])
np.abs(x)

array([5., 5., 2., 1.])

## Тригонометрические функции

Описание массива углов

In [14]:
theta = np.linspace(0, np.pi, 3)
theta

array([0.        , 1.57079633, 3.14159265])

Вычислим некоторые тригонометрические функции от этих значений

In [15]:
print("theta      =", theta)
print("sin(theta) =", np.sin(theta))
print("cos(theta) =", np.cos(theta))
print("tan(theta) =", np.tan(theta))

theta      = [0.         1.57079633 3.14159265]
sin(theta) = [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(theta) = [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta) = [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


Обратные тригонометрические функции

In [16]:
x = [-1, 0, 1]
print("x         =", x)
print("arcsin(x) =", np.arcsin(x))
print("arccos(x) =", np.arccos(x))
print("arctan(x) =", np.arctan(x))

x         = [-1, 0, 1]
arcsin(x) = [-1.57079633  0.          1.57079633]
arccos(x) = [3.14159265 1.57079633 0.        ]
arctan(x) = [-0.78539816  0.          0.78539816]


## Показательные функции и логарифмы

In [17]:
x = [1, 2, 3]
print("x    =", x)
print("e^x  =", np.exp(x))
print("2^x  =", np.exp2(x))
print("3^x  =", np.power(3, x))

x    = [1, 2, 3]
e^x  = [ 2.71828183  7.3890561  20.08553692]
2^x  = [2. 4. 8.]
3^x  = [ 3  9 27]


Логарифмические функции:

In [18]:
x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)    =", np.log2(x))
print("log10(x)    =", np.log10(x))

x        = [1, 2, 4, 10]
ln(x)    = [0.         0.69314718 1.38629436 2.30258509]
log2(x)    = [0.         1.         2.         3.32192809]
log10(x)    = [0.         0.30103    0.60205999 1.        ]


Некоторые специальные функции, удобные для сохранения точности при очень малых вводимых значениях

In [19]:
x = [0, 0.001, 0.01, 0.1]
print("exp(x) - 1 =", np.expm1(x))
print("log(1 + x) =", np.log1p(x))

exp(x) - 1 = [0.         0.0010005  0.01005017 0.10517092]
log(1 + x) = [0.         0.0009995  0.00995033 0.09531018]


## Специализированные универсальные функции

Источник специализированных и сложных универсальных функций - подмодуль scipy.special.
Демонстрация нескольких функций, которые могут пригодиться для статистических вычислений.

In [20]:
from scipy import special

In [21]:
# Гамма функции (обобщенные факториалы) и тому подобные функции
x = [1, 5, 10]
print("gamma(x)     =", special.gamma(x))
print("ln|gamma(x)  =", special.gammaln(x))
print("beta(x, 2)   =", special.beta(x, 2))

gamma(x)     = [1.0000e+00 2.4000e+01 3.6288e+05]
ln|gamma(x)  = [ 0.          3.17805383 12.80182748]
beta(x, 2)   = [0.5        0.03333333 0.00909091]


In [22]:
# Функция ошибок (интеграл от Гауссовой функции), дополнительная и обратная к ней функции
x = np.array([0, 0.3, 0.7, 1.0])
print("erf(x)  =", special.erf(x))
print("erfc(x)  =", special.erfc(x))
print("erfinv(x)  =", special.erfinv(x))

erf(x)  = [0.         0.32862676 0.67780119 0.84270079]
erfc(x)  = [1.         0.67137324 0.32219881 0.15729921]
erfinv(x)  = [0.         0.27246271 0.73286908        inf]


# Продвинутые возможности универсальных функций 

Указание массива для вывода результата

In [23]:
x = np.arange(5)
y = np.empty(5)
np.multiply(x, 10, out=y)
print(y)

[ 0. 10. 20. 30. 40.]


Можно записать результат в каждый второй элемент заданного массива

In [24]:
y = np.zeros(10)
np.power(2, x, out=y[::2])
print(y)

[ 1.  0.  2.  0.  4.  0.  8.  0. 16.  0.]


## Сводные показатели

Вызов метода reduce для универсальной функции add возвращает сумму всех элементов массива:

In [25]:
x = np.arange(1, 6)
np.add.reduce(x)

15

Аналогично вызов метода reduce для универсальной функции multiply возвращает произведение всех элементов массива:

In [26]:
np.multiply.reduce(x)

120

Для сохранения всех промежуточных результатов используется вместо reduce функция accumulate:

In [27]:
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15])

In [28]:
np.multiply.accumulate(x)

array([  1,   2,   6,  24, 120])

## Векторные произведения 

Все универсальные функции могут выводить результат применения соответствующей операции ко всем парам двух аргументов с помощью метода outer. Это дает возможность одной строкой кода создавать, например, таблицу умножения:

In [29]:
x = np.arange(1, 6)
np.multiply.outer(np.arange(10), x)

array([[ 0,  0,  0,  0,  0],
       [ 1,  2,  3,  4,  5],
       [ 2,  4,  6,  8, 10],
       [ 3,  6,  9, 12, 15],
       [ 4,  8, 12, 16, 20],
       [ 5, 10, 15, 20, 25],
       [ 6, 12, 18, 24, 30],
       [ 7, 14, 21, 28, 35],
       [ 8, 16, 24, 32, 40],
       [ 9, 18, 27, 36, 45]])

# Агрегирование: минимум, максимум и все, что посередине 

## Суммирование значений из массива 

In [30]:
L = np.random.random(100)
sum(L)

50.461758453195614

In [31]:
np.sum(L)

50.46175845319564

In [32]:
big_array = np.random.rand(1000000)
%timeit np.sum(big_array)
%timeit sum(big_array)

511 µs ± 21.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
105 ms ± 5.82 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


## Минимум и максимум 

In [33]:
min(big_array), max(big_array)

(7.071203171893359e-07, 0.9999997207656334)

In [34]:
np.min(big_array), np.max(big_array)

(7.071203171893359e-07, 0.9999997207656334)

In [35]:
%timeit min(big_array)
%timeit np.min(big_array)

74.6 ms ± 1.43 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
549 µs ± 52.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Для min, max, sum и еще нескольких функций вычисления сводных показателей библиотеки NumPy существует сокращенная запись операции путем применения методов самого объекта массива:

In [36]:
print(big_array.min(), big_array.max(), big_array.sum())

7.071203171893359e-07 0.9999997207656334 500216.8034810001


## Многомерные сводные показатели

Агрегирование по столбцу или строке - один из часто применяемых видов операций агрегирования. Пусть имеются какие-либо данные, находящиеся в двумерном массиве:

In [37]:
M = np.random.random((3, 4))
print(M)

[[0.79832448 0.44923861 0.95274259 0.03193135]
 [0.18441813 0.71417358 0.76371195 0.11957117]
 [0.37578601 0.11936151 0.37497044 0.22944653]]


По умолчанию все функции агрегирования NumPy возвращают сводный показатель по всему массиву:

In [38]:
M.sum()

5.1136763453287335

Можно указать ось, по которой вычисляется сводный показатель. Например, можно найти минимальное значение каждого из столбцов, указав axis=0:

In [41]:
M.min(axis=0) # Функция возвращает четыре значения, соответствующие четырем столбцам чисел.

array([0.18441813, 0.11936151, 0.37497044, 0.03193135])

Для поиска максимального значения в строке можно использовать axis=1:

In [40]:
M.max(axis=1) # Функция возвращает три значения, соответствующие трем строкам чисел.

array([0.95274259, 0.76371195, 0.37578601])

## Другие функции агрегирования

In [49]:
x = np.random.rand(1, 20)
x

array([[0.3051392 , 0.88118646, 0.28684871, 0.85701499, 0.67993768,
        0.16275942, 0.45385374, 0.45668989, 0.25600671, 0.28791281,
        0.98448078, 0.30680895, 0.94691335, 0.96469939, 0.07788456,
        0.89510356, 0.02926099, 0.69738707, 0.2784988 , 0.76324927]])

In [50]:
x.sum() # сумма элементов

10.571636304125919

In [51]:
x.prod() # произведение элементов

9.324526334862416e-09

In [52]:
x.mean() # среднее значение элементов

0.528581815206296

In [53]:
x.std() # стандартное отклонение

0.3158627801492662

In [54]:
x.var() # дисперсия

0.0997692958836237

In [55]:
x.min() # минимальное значение

0.02926098996262161

In [56]:
x.max() # максимальное значение

0.9844807837533556

In [57]:
x.argmin() # индекс минимального значения

16

In [58]:
x.argmax() # индекс максимального значения

10

In [59]:
np.median(x) # медиана элементов

0.45527181387933113