# **Numba**
### Динамический Python компилятор  

![](https://pbs.twimg.com/profile_images/890658899631591424/-omrU6LN_400x400.jpg)

![](https://cadabra.studio/files/uploads/article%20images/List-of-Best-Backend-Technologies/programming-languages-speed-comparison.png)

Python не самый быстрый язык когда дело касается вычислений и особенно когда такие вычисления выполняются в циклах.

>**Причина:** Динамическая типизация  
>**Решение:** Наиболее сложные для интерпретатора Python операции обработать более производительными методами

### Компиляторы для Python

![](https://drive.google.com/uc?export=view&id=1DaHBULTTQwX2hpQShEJRnJ2_C3uCQbD_)

Видео от разработчиков `Numba`:  
[Numba Python bytecode to LLVM translator (анг.)](https://www.youtube.com/watch?v=WYi1cymszqY)  
[Как ускорить существующую кодовую базу с помощью Numba | SciPy 2019 | Сиу Кван Лам, Стэнли Зайберт (анг.)](https://www.youtube.com/watch?v=-4tD8kNHdXs)

## Установка

```
conda install numba
```  
```
pip install numba
```

## Использование

In [None]:
import numba

In [None]:
@numba.jit
def mysum(a, b):
    return a + b

In [None]:
mysum(500, 637)
mysum(500.7, 637.7)

1138.4

In [None]:
mysum.inspect_types()

mysum (int64, int64)
--------------------------------------------------------------------------------
# File: <ipython-input-2-ba6902b71b76>
# --- LINE 1 --- 

@numba.jit

# --- LINE 2 --- 

def mysum(a, b):

    # --- LINE 3 --- 
    # label 0
    #   a = arg(0, name=a)  :: int64
    #   b = arg(1, name=b)  :: int64
    #   $6binary_add.2 = a + b  :: int64
    #   del b
    #   del a
    #   $8return_value.3 = cast(value=$6binary_add.2)  :: int64
    #   del $6binary_add.2
    #   return $8return_value.3

    return a + b


mysum (float64, float64)
--------------------------------------------------------------------------------
# File: <ipython-input-2-ba6902b71b76>
# --- LINE 1 --- 

@numba.jit

# --- LINE 2 --- 

def mysum(a, b):

    # --- LINE 3 --- 
    # label 0
    #   a = arg(0, name=a)  :: float64
    #   b = arg(1, name=b)  :: float64
    #   $6binary_add.2 = a + b  :: float64
    #   del b
    #   del a
    #   $8return_value.3 = cast(value=$6binary_add.2)  :: float64
    #

In [None]:
for key, value in mysum.inspect_llvm().items():
    print(f'{key}: {value}')

# for key, value in mysum.inspect_asm.items():
#     print(f'{key}: {value}')

(int64, int64): ; ModuleID = 'mysum'
source_filename = "<string>"
target datalayout = "e-m:e-p270:32:32-p271:32:32-p272:64:64-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-unknown-linux-gnu"

@"_ZN08NumbaEnv8__main__9mysum$241Exx" = common local_unnamed_addr global i8* null
@.const.mysum = internal constant [6 x i8] c"mysum\00"
@PyExc_RuntimeError = external global i8
@".const.missing Environment: _ZN08NumbaEnv8__main__9mysum$241Exx" = internal constant [57 x i8] c"missing Environment: _ZN08NumbaEnv8__main__9mysum$241Exx\00"

; Function Attrs: nofree norecurse nounwind writeonly
define i32 @"_ZN8__main__9mysum$241Exx"(i64* noalias nocapture %retptr, { i8*, i32, i8* }** noalias nocapture readnone %excinfo, i64 %arg.a, i64 %arg.b) local_unnamed_addr #0 {
entry:
  %.14 = add nsw i64 %arg.b, %arg.a
  store i64 %.14, i64* %retptr, align 8
  ret i32 0
}

define i8* @"_ZN7cpython8__main__9mysum$241Exx"(i8* nocapture readnone %py_closure, i8* %py_args, i8* nocapture readnone %py_kws

## Как работает

![](https://drive.google.com/uc?export=view&id=1ThpvzJxze5zHMXyM18W-z77Q4V9zv6rT)

[Архитектура библиотеки](https://numba.readthedocs.io/en/stable/developer/architecture.html)

### Декораторы

> `@jit` - базовый декоратор     

> `@vectorize` - превращает функцию в NumPy `ufunc` (со всеми методами `ufunc` присущими). [Документация](https://numba.readthedocs.io/en/stable/user/vectorize.html#vectorize).  
> `@guvectorize` - также как и `@vectorize` создаёт `ufunc`, но общего типа (generalized universal functions). Данные функции могут принимать в качестве параметров не только единичные числовые значения, но и массивы произвольной размерности
[Документация](https://numba.readthedocs.io/en/stable/user/vectorize.html#guvectorize).  

> `@stencil` - декларирует функцию которая будет использована в качестве ядра для шаблонных вычислений (for a stencil like operation). [Документация](https://numba.readthedocs.io/en/stable/user/stencil.html).  
> `@jitclass` - jit декоратор для классов. [Документация](https://numba.readthedocs.io/en/stable/user/jitclass.html#jitclass).  
> `@cfunc` - декларирует функцию для использования в качестве вызова из С/С++. [Документация](https://numba.readthedocs.io/en/stable/user/cfunc.html#cfunc).  
> `@overload` - позволяет перегружать собственное исполнение для произвольных функций для использования в режиме `nopython` (используется в случае если данная функция не поддерживается numba), например: `@overload(scipy.special.j0)`. [Документация](https://numba.readthedocs.io/en/stable/extending/high-level.html#high-level-extending).  

[Документация по jit-компиляции](https://numba.readthedocs.io/en/stable/reference/jit-compilation.html)

In [None]:
import numpy as np
import numba

In [None]:
BOLD = '\033[1m'
END = '\033[0m'

## `@jit`

```
@numba.jit(
    signature=None,
    nopython=False,
    nogil=False,
    cache=False,
    forceobj=False,
    parallel=False,
    error_model='python',
    fastmath=False,
    locals={},
    boundscheck=False
    )
```

In [None]:
def sum_python(nsamples):
    result = 0

    for i in range(nsamples):
        for j in range(nsamples):
            result += i + j
    return result


@numba.jit(['int64(int64)'], nopython=True)
def sum_numba(nsamples):
    result = 0

    for i in range(nsamples):
        for j in range(nsamples):
            result += i + j
    return result

In [None]:
for _ in range(5):
    %timeit -n1 -r1 sum_python(1000)

1 loop, best of 1: 98.4 ms per loop
1 loop, best of 1: 91.3 ms per loop
1 loop, best of 1: 98.1 ms per loop
1 loop, best of 1: 97.1 ms per loop
1 loop, best of 1: 93.2 ms per loop


In [None]:
for _ in range(5):
    %timeit -n1 -r1 sum_numba(1000)

1 loop, best of 1: 75.4 µs per loop
1 loop, best of 1: 3.91 µs per loop
1 loop, best of 1: 2.83 µs per loop
1 loop, best of 1: 2.65 µs per loop
1 loop, best of 1: 2.53 µs per loop


Как видим первое исполнение функции занимает достаточно много времени. Что можно с этим сделать? Ответ: сигнатуры

### `nopython=True`
`@jit` являясь основным декоратором библиотеки numba предоставляет два режима компиляции, первый пробует скомпилировать функцию в nopython режиме, в случае неудачи, numba попробует скомпилировать функцию в объектном режиме.

Хотя Numba и предоставляет функционал по ускорению работы циклов (looplifting), но именно компиляция функций в режиме nopython даёт наибольший прирост в скорости.  
  
`@njit` - алиас для `@jit(nopython=True)`  
  
При компиляции с использованием данного параметра в случае неудачи будет брошено исключение.

### `parallel=True`

Если код состоит из операций которые могут быть выполненны независимо друг от друга Numba может скомпилировать данную функцию в режиме при котором её исполнение будет производиться параллельно в нескольких тредах (без GIL)

На данный момент эта опция поддерживатся только для `CPU`

In [None]:
@numba.jit(nopython=True, parallel=True)
def prange_test_numba_parallel(A):
    s = 0

    for i in numba.prange(A.shape[0]):
        s += A[i]
    return s


@numba.jit(nopython=True)
def prange_test_numba(A):
    s = 0
    # Without "parallel=True" in the jit-decorator
    # the prange statement is equivalent to range
    for i in numba.prange(A.shape[0]):
        s += A[i]
    return s


def prange_test_python(A):
    s = 0

    for i in numba.prange(A.shape[0]):
        s += A[i]
    return s

In [None]:
test_array = np.arange(1000)

print('{}prange_test_numba_parallel(){}'.format(BOLD, END))
for _ in range(5):
    %timeit -n1 -r1 prange_test_numba_parallel(test_array)
print()

print('{}prange_test_numba(){}'.format(BOLD, END))
for _ in range(5):
    %timeit -n1 -r1 prange_test_numba(test_array)
print()

print('{}prange_test_python(){}'.format(BOLD, END))
for _ in range(5):
    %timeit -n1 -r1 prange_test_python(test_array)
print()

[1mprange_test_numba_parallel()[0m




1 loop, best of 1: 470 ms per loop
1 loop, best of 1: 65.1 µs per loop
1 loop, best of 1: 15.1 µs per loop
1 loop, best of 1: 12.9 µs per loop
1 loop, best of 1: 12.8 µs per loop

[1mprange_test_numba()[0m
1 loop, best of 1: 107 ms per loop
1 loop, best of 1: 6.94 µs per loop
1 loop, best of 1: 5.1 µs per loop
1 loop, best of 1: 4.35 µs per loop
1 loop, best of 1: 5.02 µs per loop

[1mprange_test_python()[0m
1 loop, best of 1: 309 µs per loop
1 loop, best of 1: 264 µs per loop
1 loop, best of 1: 260 µs per loop
1 loop, best of 1: 264 µs per loop
1 loop, best of 1: 265 µs per loop



Параметр `parallel=True` необходимо применять с осторожностью, так как в процессе распараллеливания выполнения функции операции над срезами массивов (для отправки массивов на одновременное выполнение в разных тредах может происходить разделение массивов на части) и переменными могу выполняться одновременно. Компилятор может не обнаруживать подобные случаи, что приводит к неопределённому поведению программы (в документации используется термин `race condition`).   
  
Следующий пример демонстрирует случай когда когда распараллеливание приводит к неопределенному поведению функции и как результат к неверному возвращаемому значению:

In [None]:
@numba.jit(nopython=True, parallel=True)
def prange_wrong_result(x):
    n = x.shape[0]
    y = np.zeros(4)
    for i in numba.prange(n):
        # accumulating into the same element of `y` from different
        # parallel iterations of the loop results in a race condition
        y[i % 4] += x[i]
    return y

In [None]:
def prange_right_result(x):
    n = x.shape[0]
    y = np.zeros(4)
    for i in numba.prange(n):
        y[i % 4] += x[i]
    return y

In [None]:
test_array = np.array(range(500))

In [None]:
prange_right_result(test_array)

array([31000., 31125., 31250., 31375.])

In [None]:
prange_wrong_result(test_array)

array([31000., 31125., 31250., 31375.])

### `fastmath=True`

Снимает ограничения накладываемые соблюдением стандарта IEEE 754

In [None]:
@numba.njit(fastmath=False)
def do_sum(A):
    acc = 0.
    # without fastmath, this loop must accumulate in strict order
    for x in A:
        acc += np.sqrt(x)
    return acc

@numba.njit(fastmath=True)
def do_sum_fast(A):
    acc = 0.
    # with fastmath, the reduction can be vectorized as floating point
    # reassociation is permitted.
    for x in A:
        acc += np.sqrt(x)
    return acc


In [None]:
test_array = np.linspace(2.0, 50.0, num=100000)

print('{}do_sum(){}'.format(BOLD, END))
for _ in range(5):
    %timeit -n1 -r1 do_sum(test_array)
print()

print('{}do_sum_fast(){}'.format(BOLD, END))
for _ in range(5):
    %timeit -n1 -r1 do_sum_fast(test_array)
print()

[1mdo_sum()[0m
1 loop, best of 1: 91.8 ms per loop
1 loop, best of 1: 262 µs per loop
1 loop, best of 1: 229 µs per loop
1 loop, best of 1: 228 µs per loop
1 loop, best of 1: 227 µs per loop

[1mdo_sum_fast()[0m
1 loop, best of 1: 89.5 ms per loop
1 loop, best of 1: 238 µs per loop
1 loop, best of 1: 233 µs per loop
1 loop, best of 1: 249 µs per loop
1 loop, best of 1: 250 µs per loop



## `@vectorize`

```
@numba.vectorize(
    *,
    signatures=[],
    identity=None,
    nopython=True,
    target='cpu',
    forceobj=False,
    cache=False,
    locals={}
    )
```


[Написание своей numpy ufunc](https://numpy.org/doc/stable/user/c-info.ufunc-tutorial.html)

In [None]:
import numba
import numpy as np

In [None]:
@numba.vectorize(["int64(int64, int64)",
                  "float64(float64, float64)",
                  ])
def f(a, b):
    return a + b

In [None]:
a = np.arange(6)
# a
f(a, a)

array([ 0,  2,  4,  6,  8, 10])

In [None]:
a = np.linspace(0, 1, 6)

f(a, a)

array([0. , 0.4, 0.8, 1.2, 1.6, 2. ])

In [None]:
f(int(4), int(3))

7

In [None]:
a = np.linspace(0, 1+1j, 6)

f(a, a)

TypeError: ignored

Но зачем, применять данный декоратор когда есть `@jit`?
Используя декоратор `@vectorize` мы получаем методы присущие numpy `ufunc`: `reduction`, `accumulation` or `broadcasting` и [др.](https://numpy.org/doc/stable/reference/ufuncs.html#ufunc)

In [None]:
a = np.arange(12).reshape(3, 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
f.reduce(a, axis=0)

array([12, 15, 18, 21])

In [None]:
f.reduce(a, axis=1)

array([ 6, 22, 38])

In [None]:
f.accumulate(a)

array([[ 0,  1,  2,  3],
       [ 4,  6,  8, 10],
       [12, 15, 18, 21]])

In [None]:
f.accumulate(a, axis=1)

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]])

## `@guvectorize`

```
@numba.guvectorize(
    такие же как и в numba.vectorize кроме одного дополнительного
    layout,
    )
```

У данного декоратора есть особенность, функция обрамляемая этим декоратором не возвращает результат своей работы, а записывает его в один из передаваемых параметров (в примере ниже это параметр `res`)

In [None]:
@numba.guvectorize([("int64[:], int64, int64[:]")], '(n),()->(n)')
def g(x, y, res):
    for i in range(x.shape[0]):
        res[i] = x[i] + y

## `@stencil`

![](https://drive.google.com/uc?export=view&id=1YxldMUKfnD_qfg-mOdk3wrehJvM7A3bn)

[Iterative Stencil Loops](https://en.wikipedia.org/wiki/Iterative_Stencil_Loops)

In [None]:
@numba.stencil
def kernel1(a):
    return 1 * (a[0, 1] + a[1, 0] + a[0, -1] + a[-1, 0])

In [None]:
input_arr = np.ones(25).reshape((5, 5))

In [None]:
input_arr

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [None]:
kernel1(input_arr)

array([[0., 0., 0., 0., 0.],
       [0., 4., 4., 4., 0.],
       [0., 4., 4., 4., 0.],
       [0., 4., 4., 4., 0.],
       [0., 0., 0., 0., 0.]])

### Conway's Game of Life
[Игра «Жизнь» (англ. Conway's Game of Life)](https://ru.wikipedia.org/wiki/%D0%98%D0%B3%D1%80%D0%B0_%C2%AB%D0%96%D0%B8%D0%B7%D0%BD%D1%8C%C2%BB)  — клеточный автомат, придуманный английским математиком Джоном Конвеем в 1970 году. 

![im](https://upload.wikimedia.org/wikipedia/commons/e/e5/Gospers_glider_gun.gif)

**Правила:**
* Любая живая клетка с двумя или тремя соседями выживает.
* Любая мёртвая клетка с тремя живыми соседями становится живой клеткой.
* Любые другие клетки умирают в следующем поколении. Также все остальные мёртвые клетки остаются мёртвыми.

In [None]:
@numba.stencil
def kernel_game_of_life(a):
    res = a[-1, -1] + a[-1, 0] + a[-1, 1] \
        + a[0, -1] + a[0, 1] \
        + a[1, -1] + a[1, 0] + a[1, 1]

    if a[0, 0] == 1 and (res == 2 or res == 3):
        return 1
    elif a[0, 0] == 0 and res == 3:
        return 1
    else:
        return 0

In [None]:
# Две служебные функции для приведения данных в необходимый нам вид

def get_coord(arr):
    y, x = np.ogrid[(*map(slice, arr.shape),)]
    result = np.argwhere(arr == 1)
    return result[:, 0], result[:, 1]


@numba.njit
def prepare_frames(init_array, num_frames=30):
    result = []

    for i in range(num_frames):
        result.append(init_array.copy())
        init_array = kernel_game_of_life(init_array)
    return result

**Glider**  
![](https://www.conwaylife.com/w/images/8/81/Glider.gif)

In [None]:
# Создадим поле для размещения фигур
a = np.zeros((20, 20), dtype=int)

# Glider
# Разместим две фигуры glider
# y, x
loc = [2, 2]
a[loc[0] + 0, loc[1] + 2] = 1
a[loc[0] + 1, loc[1] + 0] = 1
a[loc[0] + 1, loc[1] + 2] = 1
a[loc[0] + 2, loc[1] + 1] = 1
a[loc[0] + 2, loc[1] + 2] = 1

loc = [15, 2]
a[loc[0] + 0, loc[1] + 2] = 1
a[loc[0] + 1, loc[1] + 0] = 1
a[loc[0] + 1, loc[1] + 2] = 1
a[loc[0] + 0, loc[1] + 1] = 1
a[loc[0] + 2, loc[1] + 2] = 1

In [None]:
a

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0,

In [None]:
%%capture

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
# from matplotlib import animation, rc
import matplotlib.cm as cm
from IPython.display import HTML


fig, ax = plt.subplots(figsize=(4, 4))
ln, = plt.plot(get_coord(a)[0], get_coord(a)[1], 's', ms=9, c='k')
ax.set_xlim(0, 19)
ax.set_ylim(0, 19)


def update(frame, *fargs):
    ydata, xdata = get_coord(frame)
    ln.set_data(xdata, ydata)
    return ln,

ani = FuncAnimation(fig, update, frames=prepare_frames(a, 45), blit=True, interval=200)

In [None]:
HTML(ani.to_html5_video())

## `@jitclass`

Внедряется поддержка декоратора для классов, но в данный момент это является экспериментальным функционалом. [Документация](https://numba.pydata.org/numba-doc/latest/user/jitclass.html)

## Why my loop is not vectorized?

In [None]:
# import llvmlite.binding as llvm
# llvm.set_option('', '--debug-only=loop-vectorize')

```
LV: Vectorization is possible but not beneficial.
LV: Interleaving is not beneficial.
...
LV: Can't vectorize due to memory conflicts
...
LV: Not vectorizing: loop did not meet vectorization requirements.
```




## [Ссылки и материалы](https://numba.pydata.org/numba-doc/latest/user/talks.html)

Миникурсы со страницы документации `Numba`:  
> **SciPy 2017** - Numba: Tell those C++ Bullies to Get Lost - Gil Forsyth & Lorena Barba ([Video](https://www.youtube.com/watch?v=1AwG0T4gaO0), [Notebooks](https://github.com/gforsyth/numba_tutorial_scipy2017))  
**GPU Technology Conference 2018** - GPU Computing in Python with Numba - Stan Seibert ([Notebooks](https://github.com/ContinuumIO/gtc2018-numba))  
**PyData Amsterdam 2019** - Create CUDA kernels from Python using Numba and CuPy - Valentin Haenel ([Video](https://www.youtube.com/watch?v=CQDsT81GyS8))


**Сравнение Numba и Numpy в некоторых задачах**  
https://numba.pydata.org/numba-examples/

**Performance Tips**  
https://numba.readthedocs.io/en/stable/user/performance-tips.html?highlight=performance%20tips