# Векторизованные вычисления
До сих пор мы рассмотрели самые простые возможности NumPy. Теперь мы перейдем к наиболее важной особенности массивов NumPy - векторизованным вычислениям.

Обычно для обработки элементов массива используются циклы. Рассмотрим пример вычисления обратного значения ($1/x$) для каждого элемента массива

In [1]:
import numpy as np
np.random.seed(42)

def reciprocals(values):
    x = np.empty(len(values))
    for i in range(len(values)):
        x[i] = 1.0 / values[i]
    return x

values = np.random.randint(1, 10, size=5)
reciprocals(values)

array([ 0.14285714,  0.25      ,  0.125     ,  0.2       ,  0.14285714])

Давайте измерим время работы данной функции для очень большого массива с помощью magic команды %magic

In [2]:
big_array = np.random.randint(1, 1000, size=1000000)
%timeit reciprocals(big_array)

4.61 s ± 351 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Наименьшее время на вызов функции `reciprocals` составило ~2.5 секунды (у вас это время может отличаться). Это крайне много по сравнению, например, с языком C. Причина такого медленного выполнения в том, что при каждой итерации Python проверяет тип элемента массива и выбирает функцию, которая соответствует для данного типа оператора. Если тип каждого элемента был бы известен заранее, то таких накладных расходов не было.

Вместо использования такого явного цикла NumPy позволяет использовать многие операторы напрямую с массивом. При этом оператор применится для каждого элемента массива. Такие вычисления называются векторизованными, так как мы применяем их сразу к целому вектору (т.е. массиву)

In [3]:
print(reciprocals(values))
print(1.0 / values)

[ 0.14285714  0.25        0.125       0.2         0.14285714]
[ 0.14285714  0.25        0.125       0.2         0.14285714]


Как видно мы получили одинаковый результат для обоих вызовов. Давайте проверим время выполнения 

In [4]:
%timeit (1.0 / big_array)

6.03 ms ± 605 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Наименьшее время в ~830 раз меньше, чем при вызове функции `reciprocals` (~2.5 секунды против ~3 миллисекунд. Ваш результат может отличаться, но разница будет в таких же масштабах). Как видно, разница колоссальная.

Векторизованные вычисления можно выполнять между двумя массивами. В примере ниже числитель и знаменатель дроби являются массивами

In [5]:
np.arange(6, 1, -1) / np.arange(1, 6)

array([ 6.        ,  2.5       ,  1.33333333,  0.75      ,  0.4       ])

В векторизованных вичислениях также могут участвовать многомерные массивы

In [6]:
x = np.arange(9).reshape((3, 3))
2 ** x

array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]], dtype=int32)

Можно строить выражения любой сложности для векторизованных вычислений. Давайте рассмотрим несколько примеров

In [7]:
x = np.arange(1, 5)
x

array([1, 2, 3, 4])

In [8]:
x + 3

array([4, 5, 6, 7])

In [9]:
x * 2 + 1

array([3, 5, 7, 9])

In [10]:
((x + 3) / 42) / (2 * x)

array([ 0.04761905,  0.0297619 ,  0.02380952,  0.02083333])

NumPy включает в себя большое количество полезных функций, которые поддерживают векторизованные операции. Например, тригонометрические функции

In [11]:
print('cos^2(x) + sin^2(x) =', np.cos(x) ** 2 + np.sin(x) ** 2)

cos^2(x) + sin^2(x) = [ 1.  1.  1.  1.]


Или экспонента и логарифмы

In [12]:
print('e^x        =', np.exp(x))
print('e^x - 1    =', np.expm1(x))
print('ln(x)      =', np.log(x))
print('ln(1 + x)  =', np.log1p(x))
print('log2(x)    =', np.log2(x))
print('log10(x)   =', np.log2(x))

e^x        = [  2.71828183   7.3890561   20.08553692  54.59815003]
e^x - 1    = [  1.71828183   6.3890561   19.08553692  53.59815003]
ln(x)      = [ 0.          0.69314718  1.09861229  1.38629436]
ln(1 + x)  = [ 0.69314718  1.09861229  1.38629436  1.60943791]
log2(x)    = [ 0.         1.         1.5849625  2.       ]
log10(x)   = [ 0.         1.         1.5849625  2.       ]


Список всех поддерживаемых функций можно посмотреть в документации NumPy. Некоторые специальные математические функции (для оптимизации, диффиренцирования, интегрирования и т.д.) также можно найти в модуле [SciPy](https://www.scipy.org/scipylib/index.html). Эти функции также поддерживают векторизованные вычисления.

## Агрегирующие функции
NumPy поддерживает простые агрегирующие функции такие как минимум, максимум и сумма

In [13]:
x = np.random.normal(0, 100, size=1000000)
x.shape

(1000000,)

In [14]:
print('min:', np.min(x))
print('max:', np.max(x))
print('sum:', np.sum(x))

min: -480.871903296
max: 462.132900248
sum: -37376.6084239


Часто необходимо получить индекс минимального или максимального элемента

In [15]:
print('argmin:', np.argmin(x), 'value:', x[np.argmin(x)])
print('argmax:', np.argmax(x), 'value:', x[np.argmax(x)])

argmin: 159908 value: -480.871903296
argmax: 193533 value: 462.132900248


Также есть набор стандартных статистик

In [16]:
print('mean  : ', np.mean(x))
print('median: ', np.median(x))
print('std   : ', np.std(x))
print('var   : ', np.var(x))

mean  :  -0.0373766084239
median:  0.0814015827587
std   :  100.004072348
var   :  10000.8144862


### Агрегирование многомерных массивов
При агрегировании многомерных массивов можно указать ось (`axis`), по которому необходимо выполнить агрегацию

In [17]:
X = np.random.randint(0, 10, size=(2, 3))
print(X)

[[6 4 5]
 [4 8 7]]


In [18]:
print('total sum :', np.sum(X))
print('column sum:', np.sum(X, axis=0))
print('row sum   :', np.sum(X, axis=1))

total sum : 34
column sum: [10 12 12]
row sum   : [15 19]


In [19]:
print('maximum   :', np.max(X))
print('column max:', np.max(X, axis=0))
print('row max   :', np.max(X, axis=1))

maximum   : 8
column max: [6 8 7]
row max   : [6 8]


Список агригирующих функций

|Функция            |   Без учета NaN     | Описание                                      |
|-------------------|---------------------|-----------------------------------------------|
| `np.min`          | `np.nanmin`         | Минимум                                       |
| `np.max`          | `np.nanmax`         | Максимум                                      |
| `np.argmin`       | `np.nanargmin`      | Индекс миниимального элемента массива         |
| `np.argmax`       | `np.nanargmax`      | Индекс максимального элемента массива         |
| `np.sum`          | `np.nansum`         | Сумма                                         |
| `np.prod`         | `np.nanprod`        | Произведение                                  |
| `np.mean`         | `np.nanmean`        | Среднее значение                              |
| `np.median`       | `np.nanmedian`      | Медиана                                       |
| `np.std`          | `np.nanstd`         | Стандартное отклонение                        |
| `np.var`          | `np.nanvar`         | Дисперсия                                     |
| `np.percentile`   | `np.nanpercentile`  | Перцентиль                                    |


## Кумулятивные функции
В NumPy также есть кумулятивные функции, которые вычисляют накапливающее значение функции. Например, `np.cumsum` и `np.cumprod` вычисляют накапливающиеся сумму и произведение соответственно.

In [20]:
x = np.arange(1, 5)
print('cumsum :', np.cumsum(x))
print('cumprod:', np.cumprod(x))

cumsum : [ 1  3  6 10]
cumprod: [ 1  2  6 24]


Ниже приведено вычисление для выражения $\sum_{k=0}^{10} \frac{1}{k!}$. Знаете что вычисляет данное выражение?

In [21]:
x = np.arange(1, 10)
1 + np.sum(1 / np.cumprod(x))

2.7182815255731922