In [4]:
import numpy as np
import sys

Традиционный метод создания коллекций -- инициализация массива или списка:

In [82]:
test_array = np.ones(1000 * 1000)

По умолчанию тип чисел в массиве `float64`, то есть одно число занимает 8 байт в памяти

In [86]:
f'{test_array.dtype} занимает {test_array.dtype.itemsize} байт'

'float64 занимает 8 байт'

Таким образом, в памяти одновременно хранится большой объем информации

In [88]:
f'{sys.getsizeof(test_array) / 1e6:.2g} Мбайт'

'8 Мбайт'

Во многих ситуациях работа с коллекциями происходит последовательно и независимо для каждого элемента, поэтому нет необходимости хранить всю коллекцию в памяти одновременно. Для оптимизации работы с коллекциями в `python` есть объекты типа `generator`, генерирующие результат вычислений при итерации:

In [90]:
test_generator = (i ** 2 for i in range(10))
for e in test_generator:
    print(e)

0
1
4
9
16
25
36
49
64
81


При этом в памяти хранится только текущий элемент, а после завершения итерации не хранится ничего:

In [91]:
for e in test_generator:
    print(e)

Чтобы получить данные из генератора надо проитерировать по нему с помощью цикла `for` явно, либо преобразовав в список, кортеж, словарь и т.д

In [93]:
t = tuple(i ** 2 for i in range(10))
t, type(t)

((0, 1, 4, 9, 16, 25, 36, 49, 64, 81), tuple)

Для более сложных генераторов можно использовать синтаксис функций с ключевым словом `yield` -- неблокирующим возвратом, то есть выводом значения за пределы функции без остановки вычислений внутри нее.

In [96]:
def square2N(N):
    for i in range(N):
        yield i ** 2
        print(i)

square2N(10)

<generator object square2N at 0x00000213BDEE6F20>

При этом `print` после `yield` будет вызван:

In [55]:
list(square2N(10))

0
1
2
3
4
5
6
7
8
9


[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Генераторы -- одна из составляющих функционального программирования в `python`. Например, с помощью генераторов можно создавать цепочки функций, которые вычисляются по требованию:

In [52]:
sum(map(lambda x: x ** 2, map(np.sqrt, test_generator)))

285.0

Здесь используется синтаксис lambda-функций (или анонимных функций) для сокращения длины программы и функция поэлементного применения функции `map`.

На основе генераторов сделаны многие полезные функции стандартной библиотеки, например создание упорядоченных комбинаций из списков `zip`

In [1]:
a = range(10)
b = range(10, 25)
c = range(2, 12)
for i, j, k in zip(a, b, c):
    print(i, j, k)

0 10 2
1 11 3
2 12 4
3 13 5
4 14 6
5 15 7
6 16 8
7 17 9
8 18 10
9 19 11


Фильтрация коллекции произвольной функцией `filter`

In [71]:
list(filter(lambda x: x % 2, range(10)))

[1, 3, 5, 7, 9]

Большое количество полезных генераторных функций реализовано в модулях стандартной библиотеки `functools` и `itertools`

https://docs.python.org/3/library/functools.html

https://docs.python.org/3/library/itertools.html

Например аккумулирующая функция `reduce`

In [63]:
from functools import reduce
print(reduce(lambda x, y: x * y, range(1, 10)), sum(range(10)))

362880 45


`zip`, итерирующий по самой длинной коллекции `zip_longest`

In [67]:
from itertools import zip_longest
a = range(10)
b = range(10, 25)
for i, j in zip_longest(a, b):
    print(i, j)

0 10
1 11
2 12
3 13
4 14
5 15
6 16
7 17
8 18
9 19
None 20
None 21
None 22
None 23
None 24


`cycle`, создающая бесконечный зацикленный поток элементов коллекции

In [None]:
from itertools import cycle
for i in cycle(range(10)):
    print(i)