# Как писать быстрый код на Python

## Чистый Питон

In [1]:
# Язык Python обладает многими необходимыми для вычислений функциями.
# Целые числа хранятся со знаком и имеют произвольную длину
n = 1 # Целое число
for _ in range(500):
    n *= 10
print(n)
print(type(n))

100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
<class 'int'>


In [2]:
# Арифметика на целых определенна обычным образом.
print(f"1+2={1+2}")
print(f"1-2={1-2}")
print(f"1*2={1*2}")
# Обратите однако внимание, что целочисленное деление обозначается //
print(f"1/2={1/2}")
print(f"1//2={1//2}")
# Часто бывает полезен остаток от деления.
print(f"4%3={4%3}")
# Обратете внимание, что остаток от отрицательного числа положителен.
# Остаток определен таким образом, чтобы согласовываться с арифметикой по данному модулю.
print(f"(-1)%3={(-1)%3}")
assert ((-1)%3 + 1%3)%3 == (1-1)%3

1+2=3
1-2=-1
1*2=2
1/2=0.5
1//2=0
4%3=1
(-1)%3=2


In [3]:
# Вещественные числа имеют в своей записи точку или экспоненту
print(f"type(1)={type(1)}")
print(f"type(1.0)={type(1.0)}")
print(f"type(1e1)={type(1e1)}")

type(1)=<class 'int'>
type(1.0)=<class 'float'>
type(1e1)=<class 'float'>


Научная форма записи чисел указывает показатель после символа `e`:
$$\textrm{314e-2}=e14\cdot 10^{-2}=3.14.$$

In [4]:
# Вещественные числа хранятся в виде чисел с плавающей запятой двойной точности.
print(f"1.0 + 1e-15 = {1.0 + 1e-15}")
print(f"1.0 + 1e-16 = {1.0 + 1e-16}")
print(f"1e307 * 10 = {1e307 * 10}")
print(f"1e308 * 10 = {1e308 * 10}")
print(f"1e309 = {1e309}")
print(f"1e-323 = {1e-323}")
print(f"1e-324 = {1e-324}")

1.0 + 1e-15 = 1.000000000000001
1.0 + 1e-16 = 1.0
1e307 * 10 = 1e+308
1e308 * 10 = inf
1e309 = inf
1e-323 = 1e-323
1e-324 = 0.0


In [5]:
# Также питон ествественно поддерживает комплексные числа.
# Чисто мнимое число получается добавлением символа j после вещественного числа.
print(f"1+2i = {1+2j}")
print(f"i*(1+2i) = {1j*(1+2j)}")

1+2i = (1+2j)
i*(1+2i) = (-2+1j)


In [6]:
# Не во всех языках общего назначения в стандартной библиотеке есть рациональные числа, но в питоне они есть.
from fractions import Fraction
pi = Fraction(355, 113)
print(f"pi ~ {pi} ~ {float(pi)}")
print(f"pi*2/5 = {pi*2/5}")
# Обратите внимание, что типы конвертируются между собой вызовом конструктора.
print(f"int(3.14) = {int(3.14)}")
print(f"float('3.14') = {float('3.14')}")

pi ~ 355/113 ~ 3.1415929203539825
pi*2/5 = 142/113
int(3.14) = 3
float('3.14') = 3.14


In [7]:
# Для хранения векторов на питоне есть две возможности: списки и кортежи.
a = [1,2,3] # Список
print(f"a = {a}")
a[1] = 5 # Списки можно изменять.
print(f"a[1]=5; a = {a}") 
a.insert(1, 6) # Можно даже менять длину списка.
print(f"a.insert(1, 5); a = {a}") 

b = (1,2,3) # Кортеж
print(f"b = {b}")
# b[1] = 5 # Кортежи нельзя изменять.

# И списки, и кортежи могут содержать любые объекты.
a1 = [1, 1.0, 'a']
b1 = (1, 1.0, 'a')

a = [1, 2, 3]
a[1]=5; a = [1, 5, 3]
a.insert(1, 5); a = [1, 6, 5, 3]
b = (1, 2, 3)


In [8]:
# Универсальность списков и кортежей не позволяет хранить в них вектора чисел максимально плотно,
# и работать с ними максимально быстро.
# Магия IPython/Jupyter позволяет нам измерить время выполнения команды.
# В данном случае мы создаем список чисел до 1 000 000
%timeit a = list(x for x in range(1000000)) 

62.6 ms ± 4.2 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [9]:
%%timeit
# Аналогично можно было создать список в цикле
a = []
for x in range(1000000):
    a.append(x)
# В этом варианте несколько большие затраты на интерпретацию.
# Однако оба этих варианта работают слишком медленно.

77.3 ms ± 7.12 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [10]:
# Кортежи дают аналогичный результат.
%timeit a = tuple(x for x in range(1000000)) 

65.2 ms ± 5.12 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [11]:
# В таком духе можно делать операции над векторами, но это медленно.
# Например, сложим два вектора.
%time a = list(x for x in range(1000000)) 
%time b = list(x*x for x in range(1000000)) 
# Интересно, что хотя во втором случае мы возвели числа в квадрат, на скорость вычислений это не повлияло.
# В данном случае основные расходы на интерпретацию, а остальное на выделение памяти, сами вычисления на этом фоне теряются.
# Правда можно сделать еще хуже, если добавить вызов функции.
%time b = list(x**2 for x in range(1000000)) 

CPU times: user 59.8 ms, sys: 16 ms, total: 75.7 ms
Wall time: 81.4 ms
CPU times: user 96.2 ms, sys: 3.45 ms, total: 99.7 ms
Wall time: 101 ms
CPU times: user 256 ms, sys: 11.3 ms, total: 268 ms
Wall time: 269 ms


In [12]:
# Складываем вектора, используя list comprehension.
%time c = list(x+y for x,y in zip(a,b))

CPU times: user 92.7 ms, sys: 15.7 ms, total: 108 ms
Wall time: 107 ms


In [13]:
%%time
# А теперь сложим вектора без выделения новой памяти, сохраняя результат в существующий вектор.
for n in range(len(a)):
    c[n] = a[n] + b[n]

CPU times: user 190 ms, sys: 85 µs, total: 190 ms
Wall time: 190 ms


## NumPy

Как мы видим, на питоне можно считать, но он плохо подходит для численного моделирования, так как
1. Мало типов данных, невозможно контролировать точность, нет поддержки массивов, матриц и т.п.
2. Слишком малая скорость вычислений из-за интерпретируемости языка.

Проблемы с хранением могуть быть решены создания специального типа, в котором хранятся числа только одного типа, 
тогда их можно хранить подряд друг за другом, что уменьшает требуемый обьем памяти.
Такой класс определен в пакете NumPy.

In [14]:
import numpy as np # Далее пакет NumPy доступен по сокращению np.
# Снова создадим вектор из 1 000 000 первых целых чисел, но теперь в типе numpy.NDArray
%time a = np.arange(1000000)
print(f"type a = {type(a)}")
# Время выполнения на порядок сохранилось, для больших массивов разница будет еще больше.

CPU times: user 15.7 ms, sys: 7.94 ms, total: 23.6 ms
Wall time: 23.6 ms
type a = <class 'numpy.ndarray'>


In [15]:
# Также тип NDArray удобен для хранения многомерных массивов.
m = np.array([[1,2,3],[4,5,6]]) 
# Здесь мы преобразовали матрицу в виде списка списков в NDArray
print(f"m = {m}")
# Теперь матрицу можно транспонировать
print(f"m.T = {m.T}")
# В виде списков это было бы сделать гораздо сложнее.

m = [[1 2 3]
 [4 5 6]]
m.T = [[1 4]
 [2 5]
 [3 6]]


In [16]:
# Над массивами естественным образом определены арифметические операции
%time b = a**2
%time b = a*a
%time b = a**2
# Теперь время работы гораздо более разумное, так как арифметика над массивами написана 
# на низкоуровневых языках и использует векторные команды процессора.
# Иногда инструкции NumPy работают быстрее наивного кода на C.

%time c=a+b
%time c+=a
%time c=a+b
# Обратите внимание, что вторая команда работает чуть быстрее первой,
# так как в ней не выделяется память.
# Интересная особенность Jupyter, что третья команда выполняется на порядок быстрее первой,
# хотя команды буквально совпадают.
# Видимо, если переменная уже существовала, она переиспользуется.

CPU times: user 7.47 ms, sys: 7.91 ms, total: 15.4 ms
Wall time: 13.6 ms
CPU times: user 1.77 ms, sys: 0 ns, total: 1.77 ms
Wall time: 1.31 ms
CPU times: user 1.53 ms, sys: 0 ns, total: 1.53 ms
Wall time: 1.24 ms
CPU times: user 11.9 ms, sys: 3.24 ms, total: 15.1 ms
Wall time: 14.9 ms
CPU times: user 2.44 ms, sys: 0 ns, total: 2.44 ms
Wall time: 2.1 ms
CPU times: user 2.45 ms, sys: 374 µs, total: 2.83 ms
Wall time: 2.57 ms


In [17]:
%%time
# Вычисления в цикле работают значительно медленнее.
for n in range(len(a)):
    c[n] += a[n]

CPU times: user 459 ms, sys: 109 µs, total: 460 ms
Wall time: 463 ms


In [18]:
# Главный вывод: если вы делает операции над многими элементами, то пусть цикл будет внутри функции numpy,
# а не в коде на python.

## Numba

Если вам привычнее думать в терминах циклов, то вам может помочь Numba.
С помощью этой библиотеке функция на python компилируется во время выполнения в весьма эффективный код.  

In [19]:
import numba as nb # Теперь Numba доступна под именем nb
# Для примера создадим функцию, которая складывает вектора.
@nb.njit(nb.int64[:](nb.int64[:],nb.int64[:]))
def add(a, b):
    c = np.empty_like(a)
    for n in range(a.shape[0]):
        c[n] = a[n] + b[n]
    return c
# Декоратор @nb.njit говорит, что следующая функция должна быть откомпилирована.
# Здесь нам пришлось задать типы входных и выходных значений, чтобы компилятор мог заменить сложение
# на машинную инструкцию. 

%time c=add(a,b) 
# Производительность почти как у функции из NumPy.

# Не все функции можно использовать из Numba, см. поддерживаемые команды в документации.

CPU times: user 79 µs, sys: 4.02 ms, total: 4.1 ms
Wall time: 4.11 ms


In [20]:
# Кроме эффективного преобразования циклов, Numba может быть полезно, если над одним элементом
# массива производится много операций. 
# Так как в наше время основные затраты при вычислениях приходятся на доступ к памяти,
# то выполняя больше операций над одним элементом сразу, мы значительно ускоряем работу программы.

# Создадим массив чисел с плавающей запятой двойной точности
a=np.arange(10000000,dtype=np.float64) 
# %timeit c=np.sin(a)
# %timeit c=np.sin(np.sin(a))
%timeit c=a*a
%timeit c=(a+3.14)*a
# Две операции занимают в два раза больше времени, что кажется логичным.

17.3 ms ± 1.1 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)
31 ms ± 671 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [21]:
@nb.njit(nb.float64[:](nb.float64[:]))
def f1(x):
    y = np.empty_like(x)
    for n in nb.prange(x.shape[0]):
        y[n] = x[n]*x[n]
    return y


@nb.njit(nb.float64[:](nb.float64[:]))
def f2(x):
    y = np.empty_like(x)
    for n in range(x.shape[0]):
        y[n] = (x[n]+3.14)*x[n]
    return y

%timeit c=f1(a)
%timeit c=f2(a)
# Магическим образом получили время работы f2 почти идентичное f1, хотя операций делалось две, вместо одной.
# Видим, что основное время работы занимал доступ к памяти, а не арифметика.
# Для дорогих операций, вроде np.sin, такой разницы во времени не будет.

38.2 ms ± 672 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
39 ms ± 770 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [22]:
# Функция f1 выше работала медленнее, чем умножение в Numpy, но мы можем ускорить функцию, использую несколько потоков.
# Обратите внимание на использование numba.prange вместо range.
@nb.njit(nb.float64[:](nb.float64[:]), parallel=True)
def f1(x):
    y = np.empty_like(x)
    for n in nb.prange(x.shape[0]):
        y[n] = x[n]*x[n]
    return y

@nb.njit(nb.float64[:](nb.float64[:]), parallel=True)
def f2(x):
    y = np.empty_like(x)
    for n in nb.prange(x.shape[0]):
        y[n] = (x[n]+3.14)*x[n]
    return y

%timeit c=f1(a)
%timeit c=f2(a)

20 ms ± 1.41 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)
21.5 ms ± 2.51 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [23]:
# Если массивы заведомо непрерывные (т.е. не результат индексации), 
# то можно это явно указать, включив дополнительные оптимизации. 
# @nb.njit(nb.float64[::1](nb.float64[::1]), parallel=True)

In [24]:
# Еще сильнее можно ускорить вычисления, исключив проверки чисел с плавающей запятой на нечисловые значения,
# и разрешив оптимизации, которые могут незначительно повлиять на ответ.
# В большинстве случаев безопасно использовать 
# @nb.njit(..., parallel=True, nogil=True, fastmath=True)

In [25]:
# Для получения оптимальной производительности нужно всегда учитывать работу кеша.
# Сравним два варианта сложения матриц, отличающихся порядком суммирования элементов.
a = np.arange(9000000, dtype=np.float64).reshape((3000,3000))
b = a.copy() # Чтобы создать копию массива, мало сделать присваивание, нужно вызвать copy.

@nb.njit(nb.float64[:,:](nb.float64[:,:],nb.float64[:,:]))
def sum1(a,b):
    c = np.empty_like(a)
    for n in range(a.shape[0]):
        for m in range(a.shape[1]):
            c[n,m] = a[n,m]+b[n,m]
    return c

@nb.njit(nb.float64[:,:](nb.float64[:,:],nb.float64[:,:]))
def sum2(a,b):
    c = np.empty_like(a)
    for m in range(a.shape[1]):
        for n in range(a.shape[0]):
            c[n,m] = a[n,m]+b[n,m]
    return c

%timeit c = sum1(a,b)
%timeit c = sum2(a,b)
# Вариант с внутренним циклом по столбцам на порядок быстрее.
# Это объясняется тем, что при чтении одного значения из памяти сразу целый набор последовательных
# значений загружаются в кеш, из которого чтение затем идем на порядок быстрее.
# Для максимальной производительности нужно максимально использовать записанные в кеш значения.

38.2 ms ± 830 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
118 ms ± 2.15 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [26]:
# Чтобы получить максимальную производительность, нужно четко представлять,
# во что преобразуется ваш код, что часто не очевидно.
# Например, сравним следующие коды, вычисляющие конечную разность.
@nb.njit(nb.float64[::1](nb.float64[::1]))
def f0(a):
    c = np.empty_like(a)
    for n in range(1,a.shape[0]):
        c[n] = a[n]-a[n-1]
    c[0] = a[0] - a[-1]
    return c

@nb.njit(nb.void(nb.float64[::1], nb.float64[::1]))
def f1(a, c):
    for n in range(1, a.shape[0]):
        c[n] = a[n] - a[n-1]
    c[0] = a[0] - a[-1]

@nb.njit(nb.void(nb.float64[::1], nb.float64[::1]))
def f2(a, c):
    sx, = a.shape
    for n in range(sx):
        c[n] = a[n]-a[(n-1)%sx]

a = np.arange(10000000,dtype=np.float64) 
c = np.empty_like(a)   
%timeit c=f0(a)
%timeit f1(a, c)
%timeit f2(a, c)
# Вариант f0 отличается от f1 только выделением памяти в f0, что делает этот вариант самым медленным.
# Варианты f1 и f2 не выделяют памяти, но время их выполнения отличается в разы.
# В варианте f2 вычисляется остаток от деления %, который компилятор не может эффективно векторизовать.

48.3 ms ± 2.47 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
12.2 ms ± 297 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
43.5 ms ± 626 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
