https://pythonspeed.com/
Классный ресурс по оптимизации вычислений и работе с памятью

# Ускорение вычислений
Для того, чтобы проверять скорость вычислений в jupyter можно использовать либо %%time перед всем кодом в ячейке,
либо %time или %timeit перед строчкой выполнения кода

In [1]:
%%time
x = sum((i for i in range(10000)))

CPU times: user 1.14 ms, sys: 0 ns, total: 1.14 ms
Wall time: 1.03 ms


*Wall time* показывает суммарное время работы вашего кода.
*CPU times* показываем суммарное время, когда ваш процессор был занят.
При этом *sys* - это время, связанное с обращениями к операционной системе.

Если *wall time* превышает *CPU time*, то это значит, что программа ждет еще каких-то ответов, помимо вычислений процессора.

Таким образом, возможны следующие соотношения:

1. CPU time/ wall time  ≈ 1: Процесс тратит все время на использование CPU. Более быстрый CPU позволит ускорить данный процесс.
2. CPU time/ wall time < 1: Чем ниже отношение, тем больше CPU тратит на ожидание ответа (сети, жесткого диска и т.д., в том числе и просто режим сна).
Например, если он равен 0.75, то 25% времени CPU тратит на ожидание.

In [5]:
%time
sum([i for i in range(10000)])
%time
l = [a for a in range(10000)]

CPU times: user 3 µs, sys: 3 µs, total: 6 µs
Wall time: 10.7 µs
CPU times: user 5 µs, sys: 0 ns, total: 5 µs
Wall time: 9.06 µs


In [7]:
%timeit sum((i for i in range(10000)))
%timeit sum([i for i in range(10000)])

4.49 ms ± 43.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
3.48 ms ± 26.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## Numpy

Данный пакет написан на С++ и позволяет совершать самые быстрые численные операции на всем диком Python.

In [27]:
import numpy as np
%timeit np.sum(np.array((i for i in range(10000))))
%timeit np.sum(np.array([i for i in range(10000)]))

5.69 µs ± 135 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
712 µs ± 4.87 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [10]:
# Индексация
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)
print(a[0, 1])
print(a[:2, :3])
print(a[1:2, 2:3])
print(a[1:, 2:])
print(a[1, :])
print(a[1:2, :])
print(a[[1], :])
print(a[:, 1])
print(a[:, 1:2])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
2
[[1 2 3]
 [5 6 7]]
[[7]]
[[ 7  8]
 [11 12]]
[5 6 7 8]
[[5 6 7 8]]
[[5 6 7 8]]
[ 2  6 10]
[[ 2]
 [ 6]
 [10]]


In [11]:
# Размерность массивов
b = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(b.shape)

# Изменение размерности (умноженные размерности совпадают)
v = np.array([1,2,3])
print(v, "\n", v.reshape(3, 1))

print(np.arange(16).reshape(2, 4, 2))
print(np.arange(16).reshape(1, 4, 2, 2))

# Изменение размерности (новая размерность другая - заполнение нулями)
a0 = np.arange(4)
a0.resize((8,))
print(a0)

(3, 3)
[1 2 3] 
 [[1]
 [2]
 [3]]
[[[ 0  1]
  [ 2  3]
  [ 4  5]
  [ 6  7]]

 [[ 8  9]
  [10 11]
  [12 13]
  [14 15]]]
[[[[ 0  1]
   [ 2  3]]

  [[ 4  5]
   [ 6  7]]

  [[ 8  9]
   [10 11]]

  [[12 13]
   [14 15]]]]
[0 1 2 3 0 0 0 0]


In [12]:
# Сортировка

c = np.array([[4, 3, 5], [1, 2, 1]])
print(np.sort(c, axis=1))

# Возвращает индексы элементов, которые были отсортированы
j = np.argsort(c)
print(j)
print(c[:, j])

[[3 4 5]
 [1 1 2]]
[[1 0 2]
 [0 2 1]]
[[[3 4 5]
  [4 5 3]]

 [[2 1 1]
  [1 1 2]]]


In [13]:
# Присвоение по условию (если, то)
data = np.random.randn(7, 4)
np.where(data, data>0, 0)

array([[1, 0, 0, 0],
       [1, 1, 1, 1],
       [0, 1, 1, 1],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [1, 1, 1, 0],
       [1, 1, 0, 0]])

In [14]:
# Слияние массивов
x,y,z = np.arange(1,3), np.arange(3,5), np.arange(5,7)
print(np.concatenate([x,y,z]))

array2D_1 = np.array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])
array2D_2 = np.array([[10, 11, 12],
       [13, 14, 15],
       [16, 17, 18]])

# Вертикальное слияние
print(f"Вертикальное : \n {np.vstack((array2D_1, array2D_2))}")

# Горизонтальное слияние
print(f"Горизонтальное : \n {np.hstack((array2D_1, array2D_2))}")

[1 2 3 4 5 6]
Вертикальное : 
 [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [10 11 12]
 [13 14 15]
 [16 17 18]]
Горизонтальное : 
 [[ 0  1  2 10 11 12]
 [ 3  4  5 13 14 15]
 [ 6  7  8 16 17 18]]


In [15]:
# Применение функции к разным осям массива
m = np.random.randn(3,2)
# Сначала указываем функцию, потом по какой оси, а затем указываем сам массив
print(np.apply_along_axis(lambda x: sum(x ** 2), 1, m))
print(np.apply_along_axis(lambda x: sum(x ** 2), 0, m))
# Обратим внимание, что у функции может быть только один аргумент - это значения массива из конкретной оси

[0.06559522 2.25617638 2.27683196]
[0.93116261 3.66744094]


In [16]:
# Траблы с округлением при сравнении
print(np.round(0.3, 17) == np.round(3 * 0.1, 17))

# Используем такую функцию, чтобы проверить, равны ли массивы
print(np.allclose(0.3, 3*0.1))

False
True


# Работа с памятью

Помним, что у любого компьютера есть ограничение по оперативной памяти, а все наши рабочие процессы хранятся именно там.
Любой сайт - это такой же компьютер, как и у вас, со своим жестким диском и оперативной памятью.
Таким образом, помимо скорости вычислений, нам бы хотелось еще и не вылазить за пределы оперативной памяти.
В противном случае, программа просто прекратит свою работу и придется запускать все заново.


In [18]:
import sys
data = np.random.randn(7, 4, 10000)
sys.getsizeof(data)  # Данная команда показывает, сколько байтов содержит датасет

2240128

In [24]:
sys.getsizeof(data) / 2 ** 20

2.1363525390625

## Garbage collector

https://stackify.com/python-garbage-collection/

В Python, в отличие от более ранних языков программирования, не нужно самим напрямую управлять памятью.
Здесь реализовано автоматическое управление памятью.
Очевидный плюс для разработчика - можно быстрей писать программы, не тратя время на выделение памяти для каждой переменной.
Очевидный минус - если мы совсем перестаем контроллировать этот процесс, то может выйти за пределы оперативной памяти.

Существует два основных аспекта garbage collection в CPython:

- Reference counting
- Generational garbage collection

### Reference counting garbage collection

Где бы не создавался питоновский объект, базовый С объект использует питоновский тип (например, лист, словарь или функцию) и количество отсылок.
Чем чаще мы отсылаемся к какому-то объекту, тем больше накапливается этого показателя.
Основные способы сослаться на какой-либо объект:
- присвоить объект переменной
- добавить объект к структуре данных (например, добавление в список или как *property* в классе)
- вставить объект как аргумент функции

In [27]:
a = 'my-string'
sys.getrefcount(a)
# Всего было 3 отсылки к объекту a - создание раннее, переприсваивание сейчас и вызов в функции sys.getrefcount

3

In [28]:
b = [a] # Make a list with a as an element.
c = { 'key': a } # Create a dictionary with a as one of the values.
sys.getrefcount(a)

4

### Generational garbage collection



In [31]:
class MyClass(object):
       pass
a = MyClass()
a.obj = a
del a
a

NameError: name 'a' is not defined

Здесь мы определили новый класс.
Затем создали экземпляр класса и присвоили экземпляру аттрибут в качестве самого класса. В итоге мы удалили объект.
Несмотря на то, что объект мы уже удалили, в Python все еще хранится экземпляр в памяти.
Такую проблему мы называем исходный цикл (reference cycle). Эта и многие другие проблемы решаются при помощи модуля *gc*.

Существуют два основных понятия для garbage collection:
- поколение (generation)
- порог (threshold)

Garbage collector отслеживает абсолютно все объекты, которые когда-либо попадали в Python.
Всего существует 3 поколения для объектов и объекты в зависимости от наших действий передвигаются от старого к более новому.
Для каждого поколения *gc* модуль выделены пороги для числа объектов. Если число объектов переваливает за этот порог,
то *gc* запустит процесс сбора. Любые объекты, которые переживут этот процесс, попадут в более старое поколение.

В отличие от проблемы с отсылками, здесь мы можем управлять этим процессом.
Во-первых, мы можем изменять пороги, которые влияют на вызов процесса сборки мусора.
Во-вторых, можем вручную вызывать сборщик мусора или, наоборот, отключать его.

In [34]:
import gc
print(gc.get_threshold())
print(gc.get_count())

(700, 10, 10)
(251, 6, 2)


In [35]:
gc.collect()

37

In [36]:
gc.get_count()

(287, 0, 0)

In [38]:
# Изменим порог для перехода в другие поколения
gc.set_threshold(1000, 15, 15)
gc.get_threshold()

(1000, 15, 15)

Увеличение порога сократит частоту запуска сборщика мусора.
Это ускорит наши процессы, но все объекты будут дольше храниться в памяти.

## Типы данных

Вспомним, что Python - динамический язык программирования. Однако, для более ручного управления памятью и кодом, мы можем объектам присваивать
типы данных самостоятельно. Рекомендуется использовать типы данных *numpy* массивов.

1. int - целочисленный тип данных: (-2, -1, 0, 1, ....)
2. uint - целочисленный тип данных: (0, 1, 2, .....)
3. float - вещественный тип данных с плавающей точкой
4. bool - логический тип данных
5. object - строковый тип данных

После int, uint, float мы можем указать числа, которые будут отвечать за длину диапазона возможных значений.
Например, np.int32 означает, что диапазон значений включает в себя 2 ** 32 (около 4 млрд) чисел, которые расположены симметрично относительно нуля;
np.uint8 - диапазон чисел от 0 до 255

Отметим, что в случае np.float32, np.float64 активируются Ctype типы данных. Это значит, что если нам нужна скорость обработки, то
мы должны использовать именно эти типа данных для вещественных чисел. В противном случае, можно использовать float16


In [43]:
print(np.uint8(255))
print(np.uint8(1000))
print(np.float64(5/3))
print(np.float16(5/3))

255
232
1.6666666666666667
1.667


Давайте позапускаем разные коды и посмотрим, сколько уходит памяти в каждой строчке.

In [3]:
import resource

usage = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss
print(usage)

96692


In [6]:
from memory_checking_1 import make_big_array, make_two_arrays
ar = make_big_array()
print(resource.getrusage(resource.RUSAGE_SELF).ru_maxrss)

In [23]:
# Peak memory usage
ar1, ar2 = make_two_arrays()
print(resource.getrusage(resource.RUSAGE_SELF).ru_maxrss / 10 ** 6)

0.262832


In [20]:
print(sys.getsizeof(ar1) / 2 ** 20)
print(sys.getsizeof(ar2) / 2 ** 20)

80.00012969970703
80.00012969970703


In [24]:
import tracemalloc
tracemalloc.start()
make_two_arrays()
current, peak = tracemalloc.get_traced_memory()
print(f"Current memory usage is {current / (1024 * 1024)}MB; Peak was {peak / (1024 * 1024)}MB")
tracemalloc.stop()

Current memory usage is 167.773679MB; Peak was 167.784111MB


In [65]:
def memory_analyze(func, result="Mb", *args):
    tracemalloc.start()
    func(*args)
    current, peak = tracemalloc.get_traced_memory()
    tracemalloc.stop()
    if result == "Mb":
        print(f"Current memory usage is {current / (1024 * 1024)}MB; Peak was {peak / (1024 * 1024)}MB")
    elif result == "Gb":
         print(f"Current memory usage is {current / (1024 * 1024 * 1024)}Gb; Peak was {peak / (1024 * 1024 * 1024)}Gb")
    elif result == "Kb":
        print(f"Current memory usage is {current / 1024}KB; Peak was {peak / 1024}KB")
    else:
        ValueError("Insert correct type size")

    return
memory_analyze(make_big_array, result="Gb")

Current memory usage is 1.825392246246338e-07Gb; Peak was 0.3906252644956112Gb


## Учимся экономить память

### Проблемы с локальными переменными в функции

In [53]:
def load_1GB_of_data():
    return np.ones((2 ** 30), dtype=np.uint8)

def process_data():
    data = load_1GB_of_data()
    return modify2(modify1(data))

def modify1(data):
    return data * 2

def modify2(data):
    return data + 10

memory_analyze(process_data, "Gb")

Current memory usage is 1.5990808606147766e-06Gb; Peak was 3.000001952983439Gb


Как так вышло? Мы создали данные объемом 1 Гб. Два раза умножили на 2 и прибавили и объем наших данных увеличился в 3 раза.
По-хорошему, объем должен был вырасти до 2 Гб. Однако, откуда здесь еще лишний 1 Гб?
Весь прикол как раз в сборщике мусора, который учел количество обращений в объекту не 2, а 3 раза!
Есть 3 способа борьбы с этим

In [54]:
# 1. Не использовать локальную переменную
def process_data():
    return modify2(modify1(load_1GB_of_data()))
memory_analyze(process_data, "Gb")

Current memory usage is 1.1557713150978088e-06Gb; Peak was 2.000001427717507Gb


In [55]:
# 2. Переприсвоить локальной переменной
def process_data():
    data = load_1GB_of_data()
    data = modify1(data)
    data = modify2(data)
    return data
memory_analyze(process_data, "Gb")

Current memory usage is 1.239590346813202e-06Gb; Peak was 2.0000014854595065Gb


In [None]:
# 3. Передача права собственности на объект
class Owner:
    def __init__(self, data):
        self.data = data

def process_data():
    data = Owner(load_1GB_of_data())
    return modify2(modify1(data))

def modify1(owned_data):
    data = owned_data.data
    # Remove a reference to original data:
    owned_data.data = None
    return data * 2




### Излишняя модификация и присваивание

In [None]:
np.random.randint(1, 10, 10000)

In [68]:
#
def normalize(array: np.ndarray) -> np.ndarray:
    """
    Takes a floating point array.

    Returns a normalized array with values between 0 and 1.
    """
    low = array.min()
    high = array.max()
    return (array - low) * (high - low)
memory_analyze(normalize, "Kb", np.random.randint(1, 10, 10000).reshape(10, 100, 10))

Current memory usage is 117.0244140625KB; Peak was 273.6025390625KB


In [71]:
# In-place type of assigning
def normalize_in_place(array: np.ndarray):
    low = array.min()
    high = array.max()
    result = array.copy()  # Это нужно для того, чтобы не менять значения исходного массива!
    array -= low
    array *= high - low
    return array
memory_analyze(normalize_in_place, "Kb", np.random.randint(1, 10, 10000).reshape(10, 100, 10))

Current memory usage is 0.58203125KB; Peak was 79.107421875KB


# Мультипроцессинг и параллелизация

Все, что мы делали до этого, мы делали на 1 ядре процессоре. Но как мы знаем, у каждого современного процессора больше 1 ядра,
а у каждого ядра есть два потока!
Соответственно, мы можем выполнять идентичные друг другу процессы параллельно!

# Ассинхронность

