Тема урока: генераторы
Генераторные выражения
Особенности генераторных выражений
Генераторные выражения VS функции map(), filter()
Генераторные выражения VS генераторные функции
Аннотация. Урок посвящен изучению выражений генераторов.

Генераторы

В прошлом уроке мы узнали о том, что генераторы в Python позволяют достаточно легко создавать собственные итераторы. При этом генераторы делятся на два типа:

генераторные функции
генераторные выражения
В этом уроке речь пойдет о генераторных выражениях.

Генераторные выражения

Существует еще более простой, чем генераторные функции, содержащие оператор yield, способ создания итераторов – генераторные выражения. Они подходят, когда код тела генераторной функции можно записать в одно выражение.

Синтаксис генераторных выражений подобен синтаксису генераторов списков, но в отличие от них, в генераторных выражениях используются круглые скобки, а не квадратные.

В Python существуют генераторы словарей и множеств, в которых используются фигурные скобки.

Напомним, как выглядят генераторы списков.

In [5]:
from sys import getsizeof

numbers = [1, 9, 8, 7, 90, -56, -34, 56, 100, 90, 2, 8]

even_numbers = [num for num in numbers if num % 2 == 0]

print(type(even_numbers))
print(even_numbers)
print(getsizeof(even_numbers))

<class 'list'>
[8, 90, -56, -34, 56, 100, 90, 2, 8]
184


Результат выражения, стоящего до for, в данном случае num, добавляется на каждой итерации цикла в итоговый список. Выполнение выражения генератора списка сразу заполняет список, который целиком хранится в памяти.

В случае генераторных выражений создается генератор, у которого очередной элемент будет вычисляться только при вызове встроенной функции next() (явно или неявно).

In [6]:
from sys import getsizeof

numbers = [1, 9, 8, 7, 90, -56, -34, 56, 100, 90, 2, 8]

even_numbers = (num for num in numbers if num % 2 == 0)  # используем круглые скобки

print(type(even_numbers))
print(even_numbers)
print(getsizeof(even_numbers))

<class 'generator'>
<generator object <genexpr> at 0x0000026597421CB0>
200


Обратите внимание на то, что переменная even_numbers имеет уже знакомый нам тип generator, то есть является генератором, который в полной мере реализует протокол итератора. Для того чтобы посмотреть содержимое генератора even_numbers, мы должны проитерироваться по нему любым известным нам способом (явный вызов функции next(), цикл for, распаковка и т.д.).

In [7]:
squares = (i ** 2 for i in range(1, 7))  # создаем генератор с помощью генераторного выражения
capitals = (s.upper() for s in 'abc')  # создаем генератор с помощью генераторного выражения
stars = ('*' for i in range(5))  # создаем генератор с помощью генераторного выражения

for num in squares:
    print(num)

print(next(capitals))

print(*stars, end=' ')

1
4
9
16
25
36
A
* * * * * 

В отличие от генераторных выражений, генераторные функции более универсальны не только из-за произвольного количества кода в их теле. В них вы можете передавать разные значения аргументов. А значит, одна и та же функция может использоваться для создания нескольких разных генераторов.

Особенности генераторных выражений

1) Генераторные выражения нельзя писать без скобок – это синтаксическая ошибка.

In [8]:
squares = i * i
for i in range(10)
    print(*squares)

SyntaxError: invalid syntax (66294443.py, line 1)

2) При передаче генераторного выражения в функцию в качестве единственного аргумента скобки можно опускать 🧐.

In [9]:
print(sum(i * i for i in range(10)))  # передача без скобок
print(sum((i * i for i in range(10))))  # передача со скобками

285
285


3) Согласно PEP8 – то, что указано в скобках, можно переносить. Значит, генераторные выражения можно записывать так, чтобы их было удобно читать.

In [10]:
even_squares = (
    i ** 2
    for i in range(10)
    if i % 2 == 0
)

равнозначен:

In [None]:
even_squares = (i ** 2 for i in range(10) if i % 2 == 0)

Ограничения генераторных выражений

Генераторное выражение является итератором, поэтому оно обладает всеми его особенностями:

1) Нельзя получить длину генераторного выражения с помощью встроенной функции len().

In [11]:
squares = (i * i for i in range(10))
print(len(squares))

TypeError: object of type 'generator' has no len()

2) Нельзя распечатать элементы генераторного выражения с помощью функции print(), без предварительной распаковки.

In [12]:
squares = (i * i for i in range(10))
print(squares)
print(*squares)

<generator object <genexpr> at 0x0000026597BF0380>
0 1 4 9 16 25 36 49 64 81


3) Генераторные выражения не поддерживают получение элемента по индексу.

In [13]:
squares = (i * i for i in range(10))
print(squares[7])

TypeError: 'generator' object is not subscriptable

4) К генераторному выражению нельзя применить обычные операции среза.

In [14]:
squares = (i * i for i in range(10))
print(squares[1:6])

TypeError: 'generator' object is not subscriptable

5) После использования генераторного выражения, оно остается пустым.

In [15]:
squares = (i * i for i in range(10))

first, second = next(squares), next(squares)

nums1 = list(squares)
nums2 = list(squares)

print(first)
print(second)
print(nums1)
print(nums2)

0
1
[4, 9, 16, 25, 36, 49, 64, 81]
[]


Генераторные выражения VS функции map(), filter()

Генераторные выражения могут использоваться в качестве альтернативы использования функций map(), filter(), которые преобразуют и фильтруют данные. И генераторные выражения, и функции map(), filter() возвращают ленивые объекты, поддерживающие протокол итератора и не потребляющие много памяти.

In [16]:
fruits = ['apple', 'apricot', 'avocado', 'pineapple', 'banana', 'bergamot', 'durian', 'grapefruit']

fruits_filter = filter(lambda s: len(s) > 7, fruits)
fruits_map = map(lambda s: s.upper(), fruits)
fruits_filter_map = map(lambda s: s.upper(), filter(lambda s: len(s) > 7, fruits))

print(*fruits_filter)
print(*fruits_map)
print(*fruits_filter_map)

print(type(fruits_filter))
print(type(fruits_map))

pineapple bergamot grapefruit
APPLE APRICOT AVOCADO PINEAPPLE BANANA BERGAMOT DURIAN GRAPEFRUIT
PINEAPPLE BERGAMOT GRAPEFRUIT
<class 'filter'>
<class 'map'>


Альтернативный код с использованием генераторных выражений:

In [17]:
fruits = ['apple', 'apricot', 'avocado', 'pineapple', 'banana', 'bergamot', 'durian', 'grapefruit']

fruits_filter = (s for s in fruits if len(s) > 7)
fruits_map = (s.upper() for s in fruits)
fruits_filter_map = (s.upper() for s in fruits if len(s) > 7)

print(*fruits_filter)
print(*fruits_map)
print(*fruits_filter_map)

print(type(fruits_filter))
print(type(fruits_map))

pineapple bergamot grapefruit
APPLE APRICOT AVOCADO PINEAPPLE BANANA BERGAMOT DURIAN GRAPEFRUIT
PINEAPPLE BERGAMOT GRAPEFRUIT
<class 'generator'>
<class 'generator'>


Несложно заметить, что генераторные выражения выглядят намного понятнее, лаконичнее и читабельнее, чем их соответствующие аналоги map(), filter() с лямбда функциями.

Сравнение занимаемой памяти

Генераторные выражения занимают немного больше памяти, чем соответствующие аналоги map(), filter() с лямбда функциями.

In [19]:
from sys import getsizeof

range_object = range(1_000_000)
list_object = list(range_object)
filter_object = filter(lambda num: True, range_object)
map_object = map(lambda num: num, range_object)
generator_object = (num for num in range_object)

print(getsizeof(range_object))
print(getsizeof(list_object))
print(getsizeof(filter_object))
print(getsizeof(map_object))
print(getsizeof(generator_object))

48
8000056
48
48
192


Генераторные выражения VS генераторные функции

Генераторные выражения и генераторные функции являются, как правило, взаимозаменяемыми.

In [None]:
def do_something(elements):
    for item in elements:
        yield some_operation(item)

может быть записана в виде функции, возвращающей генератор с помощью генераторного выражения:

In [None]:
def do_something(elements):
    return (some_operation(item) for item in elements)

Рассмотрим генераторную функцию trim_line_endings(), которая принимает в качестве аргумента файловый объект (открытый текстовый файл) и возвращает генератор, порождающий последовательность строк переданного файла без символа \n:

In [None]:
def trim_line_endings(lines):
    for line in lines:
        yield line.rstrip('\n')

Данная функция может быть записана в виде функции, возвращающей генератор с помощью генераторного выражения:

In [None]:
def trim_line_endings(lines):
    return (line.rstrip('\n') for line in lines)

Примечания

Примечание 1. Генераторные выражения более компактны, но менее универсальны, чем полные генераторные функции.

Примечание 2. Обратите внимание, если обрабатывается большая структура данных (список, словарь и т.д.) без использования генератора, то она сразу вся загружается в память, что может занять значительную часть памяти, а в некоторых случаях оперативной памяти может не хватить, тогда будет возбуждено исключение MemoryError. В случае использования генераторного выражения (генераторной функции) такого не происходит, так как элементы создаются и обрабатываются по одному.

Примечание 3. Очень часто начинающие программисты думают, что генераторное выражение является генератором кортежа 😄. Это не так, в Python нет генераторов кортежей. Но при этом генераторное выражение можно передавать в качестве аргумента любой функции конструктору стандартных типов данных Python.

In [20]:
squares_tuple = tuple(i * i for i in range(5))
squares_list = list(i * i for i in range(5))
squares_set = set(i * i for i in range(5))

print(squares_tuple, type(squares_tuple))
print(squares_list, type(squares_list))
print(squares_set, type(squares_set))

(0, 1, 4, 9, 16) <class 'tuple'>
[0, 1, 4, 9, 16] <class 'list'>
{0, 1, 4, 9, 16} <class 'set'>


Примечание 4. Python поддерживает четыре вида генераторов:

генераторы списков (list comprehension)
генераторы множеств (set comprehension)
генераторы словарей (dict comprehension)
генераторные выражения (generator expressions, а не tuple comprehensions).

Примечание 5. Разумное применение генераторов может улучшить читаемость кода, в то время как неразумное их использование может сделать код абсолютно нечитаемым. Во всем нужно соблюдать баланс 😉.

Синтаксис генератора списков устроен следующим образом:

new_list = [выражение for элемент in последовательность if условие]

Синтаксис генератора словарей устроен следующим образом:

new_dict = {ключ:значение for (ключ,значение) in dict.items() if условие}

Синтаксис генератора множеств устроен следующим образом:

new_set = {выражение for элемент in последовательность if условие}

Синтаксис генераторных выражений устроен следующим образом:

new_gen = (выражение for элемент in последовательность if условие)

Обратите внимание, что генераторы множеств и словарей используют одинаковые скобки, разница в том, что у словаря указывается двойной элемент ключ: значение.

Примечание 6. В Python синтаксис позволяет использовать переносы строк внутри скобок. Используя эту возможность, можно сделать синтаксис генераторов выражений более легким для чтения:

In [None]:
numbers = range(10)

# Before
squared_evens = [n ** 2 for n in numbers if n % 2 == 0]

# After
squared_evens = [
    n ** 2
    for n in numbers
    if n % 2 == 0
]

In [21]:
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

total = sum(i for i in numbers if i <= 5)

print(total)

15


Функция cubes_of_odds()
Вам доступна генераторная функция cubes_of_odds(), принимающая в качестве аргумента итерируемый объект, элементами которого являются целые числа, и возвращающая генератор, порождающий последовательность нечетных чисел переданного итерируемого объекта, возведенных в третью степень.

Перепишите данную функцию с использованием генераторного выражения, чтобы она выполняла ту же задачу.

Примечание 1. Если генераторное выражение становится достаточно большим, его можно записать в виде нескольких строк.

In [29]:
def cubes_of_odds(iterable):
    for number in iterable:
        if number % 2:
            yield number ** 3


def cubes_of_odds(iterable):
    yield from (
        number ** 3
        for number in iterable
        if number % 2
    )


cubes_of_odds = lambda it: (i ** 3 for i in it if i % 2)

print(*cubes_of_odds([1, 2, 3, 4, 5]))

evens = [2, 4, 6, 8, 10]
print(list(cubes_of_odds(evens)))

1 27 125
[]


Функция is_prime()
Реализуйте функцию is_prime() с использованием генераторных выражений, которая принимает один аргумент:

number — натуральное число
Функция должна возвращать True, если число number является простым, или False в противном случае.

Примечание 1. Простое число — натуральное число, имеющее ровно два различных натуральных делителя — единицу и самого себя.

Примечание 2. В задаче удобно воспользоваться функциями all() или any(). 

In [45]:
def is_prime(number: int):
    return sum(1 for i in range(1, number + 1) if number % i == 0) == 2


print(is_prime(7))
print(is_prime(8))
print(is_prime(1))

True
False
False


Функция count_iterable()
Реализуйте функцию count_iterable() с использованием генераторных выражений, которая принимает один аргумент:

iterable — итерируемый объект
Функция должна возвращать единственное число — количество элементов итерируемого объекта iterable.

Примечание 1. Гарантируется, что передаваемый в функцию итерируемый объект является конечным.

In [47]:
def count_iterable(iterable):
    return sum(1 for _ in iterable)

print(count_iterable([1, 2, 3, 4, 5]))

numbers = iter([1, 2, 3, 4, 5, 6, 7])
print(count_iterable(numbers))

data = tuple(range(432, 3845, 17))
print(count_iterable(data))

5
7
201


Функция all_together()
Реализуйте функцию all_together() с использованием генераторных выражений, которая принимает произвольное количество позиционных аргументов, каждый из которых является итерируемым объектом.

Функция должна возвращать генератор, порождающий каждый элемент всех переданных итерируемых объектов: сначала все элементы первого итерируемого объекта, затем второго, и так далее.

Примечание 1. Гарантируется, что итерируемый объект, передаваемый в функцию, не является множеством.

In [49]:
def all_together(*args):
    return (j for i in args for j in i)

objects = [range(3), 'bee', [1, 3, 5], (2, 4, 6)]
print(*all_together(*objects))

objects = [[1, 2, 3], [(0, 0), (1, 1)], {'geek': 1}]
print(*all_together(*objects))

print(list(all_together()))

0 1 2 b e e 1 3 5 2 4 6
1 2 3 (0, 0) (1, 1) geek
[]


Функция interleave()
Реализуйте функцию interleave() с использованием генераторных выражений, которая принимает произвольное количество позиционных аргументов, каждый из которых является последовательностью.

Функция должна возвращать генератор, порождающий каждый элемент всех переданных последовательностей: сначала первый элемент первой последовательности, затем первый элемент второй последовательности, и так далее; после второй элемент первой последовательности, затем второй элемент второй последовательности, и так далее.

Примечание 1. Последовательностью является коллекция, поддерживающая индексацию и имеющая длину. Например, объекты типа list, str, tuple являются последовательностями.

Примечание 2. Гарантируется, что все последовательности, передаваемые в функцию, имеют равные длины.

Примечание 3. Гарантируется, что в функцию всегда подается хотя бы одна последовательность.

In [52]:
def interleave(*args):
    return (j for i in zip(*args) for j in i)

print(*interleave('bee', '123'))

numbers = [1, 2, 3]
squares = [1, 4, 9]
qubes = [1, 8, 27]
print(*interleave(numbers, squares, qubes))

b 1 e 2 e 3
1 1 1 2 4 8 3 9 27
