# Генераторы и сборки.
<div class="alert alert-warning">

**Примечание**:

В тексте встречаются задания для проверки усвоения материала. С их помощью можно попробовать сразу применить прочитанное на практике. Ответы на задания приведены в конце раздела.
</div>

## Что такое генератор.
Пора познакомиться с важным типом объектов под названием **генератор**. Он позволяет получать произвольное множество элементов один за другим без необходимости одновременно хранить в памяти их все.  

<div class="alert alert-info">

**Определение**:

**Генератор** представляет собой особый вид итератора, хранящий в себе инструкции о том, каким образом *генерировать* элементы по порядку, а также текущую позиции в последовательности итераций. Элементы генерируются по одному только при запросе по итерации.
</div>

Напомним, что в списке все эелементы хранятся в состоянии готовности; любой из них сразу же доступен по индексу. Генератор, с другой стороны, *вообще не хранит никаких элементов*. Вместо этого в нем хранятся инструкции, необходимые для генерирования каждого элемента, и состояние итерации; то есть генератор, к примеру, "знает", что второй элемент уже был сгенерирован, и при следующей итерации выдаст третий. 

Смысл здесь в том, что генератор можно использовать для получения длинной череды элементов, не храня их все в памяти.

### Генератор `range`.
Весьма поулярным встроенным генератором является `range`, который при заданных параметрах 

- 'start' (включительно, по умолчанию 0)
- 'stop' (не включительно)
- 'step' (по умолчанию 1) 

итеративно выдаёт соответствующую последовательность целых чисел (от `start` до `stop` с интервалом `step`). Рассмотрим следующие примеры использования `range`:

In [None]:
# start: 2  (включительно)
#  stop: 7  (не включительно)
#  step: 1  (значение по умолчанию)
for i in range(2, 7):
    print(i)
# печатается: 2.. 3.. 4.. 5.. 6

In [None]:
# start:  1  (включительно)
#  stop: 10  (не включительно)
#  step:  2
for i in range(1, 10, 2):
    print(i)
# печатается: 1.. 3.. 5.. 7.. 9

In [None]:
# Очень распространенный вариант!
# start:  0  (значение по умолчанию, включительно)
#  stop:  5  (не включительно)
#  step:  1  (значение по умолчанию)
for i in range(5):
    print(i)
# печатается: 0.. 1.. 2.. 3.. 4

Поскольку `range` является генератором, команда `range(5)` просто сохраняет инструкции для получения последовательности чисел 0-4, тогда как список `[0, 1, 2, 3, 4]` держит все эти элементы в памяти одновременно. В случае коротких последовательностей выигрыш кажется совсем незначителным; но с ростом длины числового ряда ситуация меняется. На графике показано, сколько памяти используется при создании генератора для последовательности чисел $0-N$ с помощью `range` по сравнению с сохранением этой же последовательности в списке:

![Memory consumption figure](https://github.com/rsokl/Learning_Python/blob/master/docs/_images/Mem_Consumption_Generator.png?raw=true)

С учетом сказанного о генераторах выше, можно заметить, что объем памяти, используемой, когда просто задаётся `range(N)`, не зависит от $N$, тогда как объем памяти, занимаемый списком, возрастает пропорционально  $N$ (на достаточно больших $N$).

<div class="alert alert-info">

**Вывод**: 

`range` - это встроенный генератор, выдающий последовательность целых чисел.
</div>

<div class="alert alert-info">

**Контрольное задание: Применение `range`**.

Используя `range` в итеративном цикле `for`, выведите числа 10-1 по порядку одно за другим.

</div>

## Создание пользовательских генераторов: генераторные сборки.

В Python предусмотрен лаконичный синтаксис для создания несложных генераторов одной строкой; такие выражения называют **генераторными сборками**. Нижеприведенная конструкция весьма полезна и встречается в коде на Python очень часто:

<div class="alert alert-info">
    
**Определение**: 

Синтаксическая конструкция 
<br>
`(<expression> for <var> in <iterable> [if <condition>])`
<br>
описывает общую форму **генераторной сборки**. При этом создаётся генератор, выдающий элементы по инструкции, представленной выражением в круглых сокбках. 
</div>

В развернутой форме условный код для 
```
(<expression> for <var> in <iterable> if <condition>)
``` 
выглядит как:

```
for <var> in <iterable>:
    if bool(<condition>):
        yield <expression>
```

Следующим выражением задаётся генератор чётных чисел в диапазоне 0-99:
```python
# в ходе итерирования `even_gen` будет выдавать 0.. 2.. 4.. ... 98
even_gen = (i for i in range(100) if i%2 == 0)
```

Конструкция `if <condition>` используется в генераторных выражениях по необходимости. Генераторная сборка 
```
(<expression> for <var> in <iterable>)
``` 
эквивалентна:

```
for <var> in <iterable>:
    yield <expression>
```

Например:

In [None]:
# `example_gen` будет при итерировании выдавать 0/2.. 9/2.. 21/2.. 32/2
example_gen = (i/2 for i in [0, 9, 21, 32])

for item in example_gen:
    print(item)
# напечатается: 0.0.. 4.5.. 10.5.. 16.0

`<expression>` может представлять собой любой однострочный фрагмент корректного кода на Python, в результате выполнения которого взвращается некий объект:

```python
((i, i**2, i**3) for i in range(10))
# будет выдавать:
# (0, 0, 0)
# (1, 1, 1)
# (2, 4, 8)
# (3, 9, 27)
# (4, 16, 64)
# (5, 25, 125)
# (6, 36, 216)
# (7, 49, 343)
# (8, 64, 512)
# (9, 81, 729)
```

Следовательно, в состав `<expression>` могут входить даже условно-альтернативные выражения if-else!
```python
(("apple" if i < 3 else "pie") for i in range(6))
# will generate:
# 'apple'..
# 'apple'..
# 'apple'..
# 'pie'..
# 'pie'..
# 'pie'
```

<div class="alert alert-info">

**Вывод**:  

Генераторная сборка в Python - это однострочная инструкция, задающая генератор. Владение этим методом *совершенно необходимо* для написания понятного, легкочитаемого кода.
</div>

<div class="alert alert-warning">
    
**Примечание**:  

Генераторные сборки являются **не** единственным способом создания генераторов в Python. Генератор можно задать и аналогично функции (скоро мы этого коснемся). При желании глубже разобраться в генераторах рекомендуется обратиться к [этому разделу официального практического руководства по работе с Python](https://docs.python.org/3/tutorial/classes.html#generators).
</div>

<div class="alert alert-info">

**Контрольное задание: написание генератороной сборки**:

Задайте генератор следующей последовательности с помощью генераторной сборки:

```
(0, 2).. (1, 3).. (2, 4).. (4, 6).. (5, 7)
```
</br>
<p>Обратите внимание, что (3, 5) в последовательности <strong>не</strong> содержится.</p>
<p>Для проверки решения итеративно выведите содержимое генератора на печать.</p>

</div>

### Хранение генераторов
Как и в примере с генератором на базе `range`, при создании генератора методом сборки *не* выполняется никаких вычислений и не занимается память сверх того, что требуется для определения правил выдачи последовательности данных. Посмотрим, что будет, если попытаться распечатать вот такой генератор:

In [None]:
# will generate 0, 1, 4, 9, 25, ..., 9801
>>> gen = (i**2 for i in range(100))
>>> print(gen)
# <generator object <genexpr> at 0x000001E768FE8A40>

Как  видно, `gen` просто хранит в памяти выражение-генератор по адресу `0x000001E768FE8A40`; там нет ничего помимо инструкции по генерированию последовательности квадратов чисел. `gen` не выдаст никаких результатов, пока по нему не проитерируются. В силу этого о генераторах нельзя получить всю информацию, доступную для списков и многих других последовательностей. Сделать следующее **не получится**:

In [None]:
# у вас не получится...
>>> gen = (i**2 for i in range(100))

# узнать длину генератора
>>> len(gen)
# TypeError: object of type 'generator' has no len()

In [None]:
# получить элемент по индексу
>>> gen[2]
# TypeError: 'generator' object is not subscriptable

Единственным исключением является генератор `range`, поддерживающий указанные операции.

### Консумирование генераторов.
Переменную с генератором можно передать в любую функцию, способную принимать интерируемые объекты. Например, передадим `gen` во встроенную функцию `sum`, вычисляющую сумму всех элементов:

In [None]:
gen = (i**2 for i in range(100))
sum(gen)  # computes the sum 0 + 1 + 4 + 9 + 25 + ... + 9801
# 328350

Сумма чисел в последовательности при этом вычисляется *даже не держа их все в памяти*. Фактически, на каждой итерации необходимо хранить всего два числа: текущие значения суммы и очередного добавляемого элемента.

Попробуем выполнить ту же самую команду повторно:

In [None]:
# computes the sum of ... nothing!
# `gen` has already been consumed!
sum(gen)
# 0

Результат может оказаться неожиданным - `sum` теперь возвращает 0. Дело в том, что **по мере итерирования происходит консумация генератора**. При необходимости повторного итерирования его придется задать заново; к счастью, на это требуется совсем немного ресурсов, так что беспокоиться особо не о чем.

Генератор можно проверить на наличие определенного элемента, но при этом он также консумируется:

In [None]:
# при проверке на наличие элемента генератор консумируется
# вплоть до позиции искомого элемента (или полностью,
# если искомого элемента в нем нет)
gen = (i for i in range(1, 11))
5 in gen  # первые 5 элементов консумированы 
# True

In [None]:
# числен 1-5 в gen больше нет
# на этот раз проверка полностью консумирует генератор!
5 in gen  
# False

In [None]:
sum(gen)
# 0

<div class="alert alert-info">

**Вывод**:

Проитерироваться по генератору можно только один раз, после чего он окажется консумирован; для повторного итерирования генератор придется задать заново.
</div>

### Сборочные связки.
Поскольку генераторы яляются итерируемыми объектами, их можно передавать в генераторные сборки следующего порядка, объединяя в "цепочки".

In [None]:
# создание цепочки из двух генераторных сборок

# генерирует числа 400.. 100.. 0.. 100.. 400 
gen_1 = (i**2 for i in [-20, -10, 0, 10, 20])

# итерируется по gen_1, пропуская числа с абсолютным значением больше 150
gen_2 = (j for j in gen_1 if abs(j) <= 150)

# вычисление 100 + 0 + 100
sum(gen_2)
# 200

Представленная цепочка эквивалентна следующей конструкции:

In [None]:
total = 0
for i in [-20, -10, 0, 10, 20]:
    j = i ** 2
    if j <= 150:
        total += j

# total is now 200
total

### Динамическая подстановка генераторных сборок

Одной из характерных особенностей Python, позволяющей писать очень легкочитаемый, интуитивно понятный код, является возможность передавать генераторные сборки *непосредственно* в функции, работающие с итерируемыми объектами. Таким образом,

In [None]:
gen = (i**2 for i in range(100))
sum(gen)
# 328350

можно упростить до:

In [None]:
sum(i**2 for i in range(100))
# 328350

А в случае необходимости посчитать конечный гармонический ряд
</br>
![image.png](harmonic.png)
</br>
достаточно просто написать:

In [None]:
sum(1/n for n in range(1, 101))
# 5.187377517639621

Такая сжатая форма записи применима к любой функции, принимающей в качестве аргумента итерируемый  объект - например, функциям `list` и `all`:

In [None]:
# передача генераторных выражений в качестве аргумента в функции,
# работающие с итерируемыми  объектами
list(i**2 for i in range(10))
# [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [None]:
all(i < 10 for i in [1, 3, 5, 7])
# True

In [None]:
", ".join(str(i) for i in [10, 200, 4000, 80000])
# '10, 200, 4000, 80000'

<div class="alert alert-info">

**Вывод**:

Генераторная сборка может быть задана обновременно с передачей ее в качестве аргумета в любую функцию, принимающую единичный итерируемый объект.
</div>

<div class="alert alert-info">

**Контрольное задание: Динамическая подстановка генераторных сборок**.

Вычислите сумму всех нечетных чисел на интервале 0-100 в одну строку.

</div>

## Итерирование по генераторам с помощью `next`
Встроенная функция`next` позволяет вручную "запросить" следующий элемент из генератора, или, в более общем виде, из любой разновидности *итератора*. При вызове `next` на консумированном генераторе выдаётся сигнал `StopIteration`.

In [None]:
# консумирование генератора вызовами `next`
short_gen = (i/2 for i in [1, 2, 3])

next(short_gen)
# 0.5

In [None]:
next(short_gen)
# 1.0

In [None]:
next(short_gen)
# 1.5

In [None]:
next(short_gen)

Стоит иметь в виду этот удобный способ получения содержимого генератора без необходимости выполнять на нем итеративный цикл.

### Итерируемые объекты и итераторы - в чем разница?
Этот подраздел не имеет решающего значения для понимания темы. Он сюда добавлен, чтобы материал не ввел в заблуждение тех, кто уже имеет неплохое представление о Python. **Рассматриваемые здесь нюансы могут показаться довольно сложными, поэтому начинающие могут смело пока его пропустить ...**

Во избежание путаницы важно чётко различать термины: итерируемый объект и итератор - не одно и то же.

Объект типа *iterator* сохраняет текущую позицию итерации и "выдаёт" содержащиеся в нём элементы по порядку один за другим по запросу с использованием `next`, пока не будет полностью консумирован. Как было показано выше, генератор является частным случаем итератора. Теперь важно уяснить, что любой итератор является итерируемым объектом, но не каждое итерируемое представляет собой итератор.

*Итерируемое* - это объект, по которому *можно* проитерироваться, однако не обязательно обладающий всеми функциями итератора. Например, последовательности (такие как списки, кортежи и строки), а также прочие контейнеры (в частности, словари и множества) не отслеживают текущее состояние итерации. По этой причине на них нельзя вызвать `next` напрямую без дополнительных преобразований: 

In [None]:
# список служит примером итерируемого объекта *не*
# являющегося итератором - вызвать на нём `next` не получится.
x = [1, 2, 3]
next(x)

получаем
```python
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-19-b9d20096048c> in <module>()
----> 1 next([1,2])

TypeError: 'list' object is not an iterator
```

Чтобы проитерироваться, скажем, по списку, его надо сначала передать в функцию `iter`. Эта функция вернёт *итератор* для данного списка, хранящий текущее состояние итеерации и инструкции по выдаче каждого следующего элемента:

In [None]:
# любое итерируемое можно передать в `iter`
# и получить итератор по нему
x = [1, 2, 3]
x_it = iter(x)  # `x_it` - итератор
next(x_it)
# 1

In [None]:
next(x_it)
# 2

In [None]:
next(x_it)
# 3

Итак, список является *итерируемым*, но не *итератором*, что также справедливо для кортежей, строк, множеств и словарей.

Python на самом деле всякий раз, когда на итерируемом объекте - например, списке - выполняется итеративный цикл, создаёт "за кулисами" итератор. Итерируемое автвоматически передаётся в `iter`, а затем при каждой итерации цикла на полученном итераторе вызывается `next`.

## Сборки списков и кортежей.
Инициализация списков с помошью генераторных сборок настолько широко применима, что в Python для этого предусмотрена специальная синтаксическая конструкция - **сборка списка**, в точности повторяющая синтаксис генераторной сборки, только скобки вместо круглых - квадратные:

```
[<expression> for <var> in <iterable> {if <condition}]
```

Например, если требуется создать список квадратов ряда чисел, достаточно написать:

In [None]:
# простай пример сборки списка
[i**2 for i in range(10)]
# [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Это даёт в точности такой же результат, как передача генерарторной сборки в функцию `list`, однако использование сборки списка выходит чуть более эффективным.

Давайте убедимся, насколько экономными могут быть сборки списков. Вот код для сохранения в список всех слов, содержащих букву "o":
```python
words_with_o = []
word_collection = ['Python', 'Like', 'You', 'Mean', 'It']

for word in word_collection:
    if "o" in word.lower():
        words_with_o.append(word)
```

То же самое можно сделать в одну строку с использованием сборки списка:

In [None]:
word_collection = ['Python', 'Like', 'You', 'Mean', 'It']
words_with_o = [word for word in word_collection if "o" in word.lower()]
words_with_o
# ['Python', 'You']

Кортежи тоже можно создавать с помощью сборочных выражений, однако приходится явно вызывать конструктор `tuple`, поскольку круглые скобки уже зарезервированы для создания генераторных сборок.

In [None]:
# создание кортежа с помощью сборочного выражения
tuple(i**2 for i in range(5))
# (0, 1, 4, 9, 16)

<div class="alert alert-info">

**Вывод**:

Сборочные выражения предоставляют очень удобный синтаксис для создания как простых, так и сложных списков и кортежей.
</div>

### Вложенные сборки
Иногда может потребоваться написать одно сборочное выражение внутри другого, хотя лучше этим не злоупотреблять.

In [None]:
# Вложенные сборки списков.
# Так создаётся матрица (список из списков) размера 3x4 со всеми нулями.
[[0 for col in range(4)] for row in range(3)]
# [[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 0, 0]]

<div class="alert alert-info">

**Контрольное задание: Сборка списка**.

Создайте список, содержащий строку "hello" 100 раз, с помощью сборки.

</div>

<div class="alert alert-info">

**Контрольное задание: Усложненная сборка списка**.

Используя сборку с условно-альтернативным выражением `if-else` (рассматривалось ранее в этом модуле), создайте следующий список:

```python
['hello',
 'goodbye',
 'hello',
 'goodbye',
 'hello',
 'goodbye',
 'hello',
 'goodbye',
 'hello',
 'goodbye']
```

</div>

<div class="alert alert-info">

**Контрольное задание: Сборка кортежа**.

Воспользовавшись сборкой кортежа, преобразуйте строку из чисел, записанных через запятую, в кортеж десятичных дробей. Т.е. `"3.2,2.4,99.8"` должно превратиться в `(3.2, 2.4, 99.8)`. Решить задачу поможет встроенный метод [str.split](https://docs.python.org/3/library/stdtypes.html#str.split).

</div>

<div class="alert alert-info">

**Контрольное задание: Замена итеративного цикла**.

Воспроизведите работу следующего фрагмента кода, написав сборку списка.
```python
# пропускаются все символы, не являющиеся буквами в нижнем регистре (включая знаки препинания)
# в список добавляется 1, если буква в нижнем регистре - это "o",
# а если это не "o"  - добавляется 0
out = []
for i in "Hello. How Are You?":
    if i.islower():
        out.append(1 if i == "o" else 0)
```

</div>

<div class="alert alert-info">

**Контрольное задание: Эффективное использование памяти**.

Есть ли разница в эффективности между следующими выражениями?

```python
# в `sum` передаётся генераторная сборка
sum(1/n for n in range(1, 101))
```

```python
# в `sum` передаётся сборка списка
sum([1/n for n in range(1, 101)])
```

Является ли одно из них более предпочтительным? Почему?

</div>

## Ссылки на официальную документацию (на английском языке)

- [Определение генератора](https://docs.python.org/3/glossary.html#term-generator)
- [range](https://docs.python.org/3/library/stdtypes.html#typesseq-range)
- [Генераторные сборки](https://docs.python.org/3/tutorial/classes.html#generator-expressions)
- [Определение итератора](https://docs.python.org/3/glossary.html#term-iterator)
- [next](https://docs.python.org/3/library/functions.html#next)
- [iter](https://docs.python.org/3/library/functions.html#iter)
- [Сборки списков](https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions)
- [Вложенные сборки списков](https://docs.python.org/3/tutorial/datastructures.html#nested-list-comprehensions)

## Ответы на контрольные задания:

**Применение `range`: Решение**
```python
# start=10, stop=0 (не включительно), step-size=-1
>>> for i in range(10, 0, -1):
>>>     print(i, end=" ") # параметр "end" позволяет вывести все значения в одну строку
10 9 8 7 6 5 4 3 2 1 
```

**Написание генераторной сборки: Решение**
```python
>>> g = ((n, n+2) for n in range(6) if n != 3)
>>> list(g) # конвертация в список нужна для того, чтобы можно было вывести значения
[(0, 2), (1, 3), (2, 4), (4, 6), (5, 7)]
```

**Динамическая подстановка генераторной сборки: Решение**
```python
>>> sum(range(1, 101, 2))
2500
```

или

```python
>>> sum(i for i in range(101) if i%2 != 0)
2500
```

**Сборка списка: Решение**
```python
>>> ["hello" for i in range(100)]
['hello', 'hello', ..., 'hello', 'hello'] # hello 100 раз
```

**Усложненная сборка списка: Решение**
```python
>>> [("hello" if i%2 == 0 else "goodbye") for i in range(10)]
['hello', 'goodbye', 'hello', 'goodbye', 'hello', 'goodbye', 'hello', 'goodbye', 'hello', 'goodbye']
```

**Сборка кортежа: Решение**
```python
>>> string_of_nums = "3.2, 2.4, 99.8"
>>> tuple(float(i) for i in string_of_nums.split(","))
(3.2, 2.4, 99.8)
```

**Замена итеративного цикла: Решение**
```python
>>> out = [(1 if i == "o" else 0) for i in "Hello. How Are You?" if i.islower()]
>>> out
[0, 0, 0, 1, 1, 0, 0, 0, 1, 0]
```

**Эффективное использование памяти: Решение**

Лучше использовать выражение с генератором `sum(1/n for n in range(1, 101))`, чем сборку списка `sum([1/n for n in range(1, 101)])`. В случае со сборкой списка в памяти без необходимости создаётся список из ста чисел, который затем передаётся в `sum`. Генератор просто выдаёт значения одно за другим по мере того, как `sum` итерируется по нему.

</br>© Copyright 2021, Ryan Soklaski. Перевод с [английского](https://github.com/rsokl/Learning_Python/blob/master/docs/Module2_EssentialsOfPython/Generators_and_Comprehensions.ipynb) Максим Миславский, 2024.