# Глава 20. Итераторы и генераторы

## Еще раз о генераторах списков: функциональные инструменты

**Генераторы списков** применяют к элементам итерируемых объектов произвольные **выражения** (вместо применения функций у `map` и `filter`)

### Генераторы списков и функция `map`

In [1]:
res = map(ord, 'spam')  # применить функцию к последовательности
list(res)

[115, 112, 97, 109]

In [2]:
res = [ord(x) for x in 'spam']  # применить выражение к послед-ти
res

[115, 112, 97, 109]

Генераторы списков собирают результаты применения произвольного выражения к  элементам последовательности и  возвращают их в  виде нового списка.

In [3]:
[x ** 2 for x in range(10)]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [4]:
list(map(lambda x: x**2, range(10)))

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

### Добавление проверок и вложенных циклов: функция `filter`

Ниже приводятся две версии реализации выбора четных чисел в диапазоне от 0 до 4  – с  помощью генератора списка и  с помощью функции `filter`, которая использует небольшое `lambda`-выражение для выполнения проверки. Для сравнения здесь также показана реализация на основе цикла `for`:

In [5]:
[x for x in range(5) if x % 2 == 0]

[0, 2, 4]

In [6]:
list(filter(lambda x: x % 2 == 0, range(5)))

[0, 2, 4]

In [7]:
res = []
for x in range(5):
    if x % 2 == 0:
        res.append(x)
res

[0, 2, 4]

Генераторы списков дают возможность объединять оператор `if` и произвольные выражения, позволяя добиться эффекта действия функций `filter` и `map` в единственном выражении:

In [8]:
[x ** 2 for x in range(10) if x % 2 == 0]

[0, 4, 16, 36, 64]

In [9]:
list(map(lambda x: x ** 2, filter(lambda x: x % 2 == 0, range(10))))

[0, 4, 16, 36, 64]

В действительности, генераторы списков обладают еще большей гибкостью.
Они дают возможность запрограммировать любое число вложенных циклов
`for`, каждый из которых может сопровождаться собственным оператором `if` с условным выражением.

В общем виде генераторы списков выглядят следующим образом:
```
[ expression for target1 in sequence1 [if condition]
             for target2 in sequence2 [if condition] ...
             for targetN in sequenceN [if condition] ]
```

In [10]:
[x + y for x in [0, 1, 2] for y in [100, 200, 300]]

[100, 200, 300, 101, 201, 301, 102, 202, 302]

In [11]:
[x + y for x in 'spam' for y in 'BACON']

['sB',
 'sA',
 'sC',
 'sO',
 'sN',
 'pB',
 'pA',
 'pC',
 'pO',
 'pN',
 'aB',
 'aA',
 'aC',
 'aO',
 'aN',
 'mB',
 'mA',
 'mC',
 'mO',
 'mN']

In [12]:
[(x, y) for x in range(5) if x % 2 == 0 for y in range(5) if y % 2 == 0]

[(0, 0), (0, 2), (0, 4), (2, 0), (2, 2), (2, 4), (4, 0), (4, 2), (4, 4)]

### Генераторы списков и матрицы

Генераторы списков являются мощным средством обработки таких структур данных, как матрицы из вложенных списков, потому что они позволяют автоматически сканировать строки и столбцы матриц.

In [13]:
M = [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]]

N = [[2, 2, 2],
     [3, 3, 3],
     [4, 4, 4]]

In [14]:
[row[1] for row in M]  # 2ой столбец матрицы M

[2, 5, 8]

In [15]:
[M[i][i] for i in range(len(M))]  # диагональ матрицы M

[1, 5, 9]

In [16]:
# простой список, содержащий результаты умножения соответствующих
# элементов двух матриц
[M[row][col] * N[row][col] for row in range(3) for col in range(3)]

[2, 4, 6, 12, 15, 18, 28, 32, 36]

In [17]:
# структура вложенных списков, с теми же самыми значениями, что и выше
[[M[row][col] * N[row][col] for col in range(3)] for row in range(3)]

[[2, 4, 6], [12, 15, 18], [28, 32, 36]]

### Понимание генераторов списков

В настоящее время усложнение программного кода обеспечивает более высокую его производительность: проведенные тесты свидетельствуют, что функция `map` работает практически в два раза быстрее, чем эквивалентные циклы `for`, а  генераторы списков обычно немного быстрее, чем функция `map`.

Это различие в  скорости выполнения обусловлено тем фактом, что функция `map` и  генераторы списков реализованы на языке C, что обеспечивает более высокую скорость, чем выполнение циклов `for` внутри виртуальной машины Python (PVM).

Кроме того, функция `map` и  генераторы списков являются выражениями и  синтаксически могут находиться там, где недопустимо использовать инструкцию `for`, например в  теле `lambda`-выражений, в литералах списков и словарей и во многих других случаях.

## Еще раз об итераторах: генераторы

Существуют две языковые конструкции, откладывающие создание результатов, когда это возможно:

* **Функции-генераторы** – выглядят как обычные инструкции `def`, но для возврата результатов по одному значению за раз используют инструкцию `yield`, которая приостанавливает выполнение функции.


* **Выражения-генераторы** – напоминают генераторы списков, о которых рассказывалось в  предыдущем разделе, но они не конструируют список с  результатами, а возвращают объект, который будет воспроизводить результаты по требованию.

Поскольку ни одна из этих конструкций не создает сразу весь список с результатами, они позволяют экономить память и производить дополнительные вычисления между операциями получения результатов. Как мы увидим далее, обе конструкции поддерживают такую возможность возврата результатов по требованию **за счет реализации протокола итераций**.

### Функции-генераторы: инструкция `yield` вместо `return`

Возможно написать функцию, которая может возвращать значение, а позднее продолжить свою работу с того места, где она была приостановлена.

Такие функции известны как **функции-генераторы**, потому что они генерируют последовательность значений с течением времени.

Функции-генераторы во многом похожи на обычные функции и в действительности создаются с  помощью инструкции `def`. Единственное отличие состоит в  том, что они **автоматически поддерживают протокол итераций** и  могут использоваться в  контексте итераций.

#### Замораживание состояния

Функции-генераторы при приостановке автоматически сохраняют информацию о своем состоянии, под которым понимается **вся локальная область видимости**, со всеми локальными переменными, которая становится доступной сразу же, как только функция возобновляет работу.

Главное отличие функций-генераторов от обычных функций состоит в том, что **функция-генератор поставляет значение, а не возвращает его** – инструкция `yield` приостанавливает работу функции и  передает значение вызывающей программе, при этом сохраняется информация о  состоянии, необходимая, чтобы возобновить работу с  того места, где она была приостановлена.

Когда функция-генератор возобновляет работу, ее **выполнение продолжается с  первой инструкции, следующей за инструкцией `yield`**.

#### Интеграция с протоколом итераций

> **Протокол итераций**:
* Итерируемые объекты определяют метод `__next__`, который
  * либо возвращает следующий элемент в итерации,
  * либо возбуждает особое исключение `StopIteration` по окончании итераций.
>
>
>* Доступ к  итератору объекта можно получить с помощью встроенной функции `iter`

Чтобы обеспечить поддержку этого протокола, **функции, содержащие инструкцию `yield`, компилируются именно как генераторы**. 

При вызове такой функции она возвращает объект генератора, поддерживающий интерфейс итераций с  помощью автоматически созданного метода `__next__`, позволяющего продолжить выполнение.

Функции-генераторы точно так же могут включать инструкцию `return`, которая не только служит окончанием блока `def`, но и  завершает генерацию значений, возбуждая исключение `StopIteration` после выполнения обычного выхода из функции.

С точки зрения вызывающей программы, метод `__next__` генератора возобновляет выполнение функции, работа которой продолжается, пока она не встретит следующую инструкцию `yield` или пока не возбудит исключение `StopIteration`.

### Пример функции-генератора

In [18]:
def gensquares(N):
    for i in range(N):
        yield i ** 2  # позднее продолжит работу с этого места

In [19]:
for i in gensquares(5):
    print(i, end=' : ')

0 : 1 : 4 : 9 : 16 : 

> Чтобы завершить генерацию значений, функция может либо воспользоваться инструкцией `return` без значения, либо просто позволить потоку управления достичь конца функции.

In [20]:
def gensquares_limited(N):
    for i in range(N):
        if i > 10: return  # только для чисел <= 10
        yield i ** 2  # позднее продолжит работу с этого места

In [21]:
list(gensquares_limited(100))

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

In [22]:
x = gensquares(3)
x

<generator object gensquares at 0x7fbcb0907360>

In [23]:
next(x)

0

In [24]:
next(x)

1

In [25]:
next(x)

4

In [26]:
next(x)  # получено исключение

StopIteration: 

Генераторы предлагают лучшее решение (по сравнению с циклом `for`, функцией `map` или генератором списков) **с точки зрения использования памяти и производительности**.

Они дают возможность избежать необходимости выполнять всю работу сразу, что особенно удобно, когда список результатов имеет значительный объем или когда вычисление каждого значения занимает продолжительное время. Генераторы распределяют время, необходимое на создание всей последовательности значений, по отдельным итерациям цикла.

Кроме того, в  более сложных случаях использования они обеспечивают простую альтернативу сохранению состояния вручную между вызовами в  объектах классов – в  случае с  генераторами переменные функций сохраняются и восстанавливаются автоматически.

### Расширенный протокол функций-генераторов: `send` и `next`

**Метод `send`** не только выполняет переход к следующему элементу в последовательности результатов, как это делает метод `next`, но еще и  **обеспечивает для вызывающей программы способ взаимодействия с  генератором, влияя на его работу**.

С технической точки зрения `yield` в настоящее время является не инструкцией, а выражением, которое возвращает элемент, передаваемый методу `send` (несмотря на то, что его можно использовать любым из двух способов – как `yield X` или как `A = (yield X)`). Когда выражение `yield` помещается справа от оператора присваивания, оно должно заключаться в  круглые скобки, за исключением случая, когда оно не является составной частью более крупного выражения. Например, правильно будет написать `X = yield Y`, а также `X = (yield Y) + 42`.

При использовании расширенного протокола значения передаются генератору `G` вызовом метода `G.send(value)`. После этого программный код генератора возобновляет работу, и выражение `yield` возвращает значение, полученное от метода
`send`. Когда вызывается обычный метод `G.__next__()` (или выполняется эквивалентный вызов `next(G)`), выражение `yield` возвращает `None`

In [27]:
def gen():
    for i in range(10):
        X = yield i
        print(X)
        
G = gen()
next(G)  # чтобы запустить генератор, необходимо сначала вызвать next()

0

In [28]:
G.send(77)  # переход к следующему значению и передача значения
            # выражению yield

77


1

In [29]:
G.send(88)

88


2

In [30]:
next(G)  # next() и X.__next__() передают значение None

None


3

>Метод `send` может использоваться, например, чтобы реализовать генератор, который можно будет завершать из вызывающей программы или переустанавливать в  нем текущую позицию в  последовательности результатов. Кроме того,
генераторы в версии 2.5 поддерживают метод `throw(type)` для возбуждения исключения внутри генератора в последнем выражении `yield` и метод `close`, который возбуждает специальное исключение `GeneratorExit` внутри генератора,
чтобы вынудить его завершить итерации.

### Выражения-генераторы: итераторы и генераторы списков

Во всех последних версиях Python понятия итератора и генератора списков были объединены в новую языковую конструкцию – **выражения-генераторы**.

Синтаксически выражения напоминают обычные генераторы списков, но они
заключаются не в квадратные, а в круглые скобки

In [31]:
[x ** 2 for x in range(4)]  # генератор списков: создает список

[0, 1, 4, 9]

In [32]:
# выражение-генератор: создает итерируемый объект
(x ** 2 for x in range(4))

<generator object <genexpr> at 0x7fbcb0059678>

Фактически, по крайней мере с функциональной точки зрения, генератор списков является эквивалентом генератора-выражения, обернутого в вызов встроенной функции `list` для принудительного получения сразу всего списка с результатами:

In [33]:
list(x ** 2 for x in range(4))  # эквивалент генератора списков

[0, 1, 4, 9]

Однако с другой стороны, выражения-генераторы кардинально отличаются от генераторов списков – вместо того, чтобы создавать в памяти список с результатами, они возвращают объект-генератор, который в свою очередь поддерживает протокол итераций, поставляя по одному элементу списка за раз в любом итерационном контексте:

In [34]:
G = (x ** 2 for x in range(3, 5))

In [35]:
next(G)

9

In [36]:
next(G)

16

In [37]:
next(G)

StopIteration: 

>Обратите внимание, что **круглые скобки вокруг выражения-генератора можно опустить, если оно является единственным элементом, заключенным в другие круглые скобки, например в вызове функции**.

Однако круглые скобки необходимы во втором вызове функции `sorted` ниже:

In [38]:
sum(x ** 2 for x in range(4))

14

In [39]:
sorted(x ** 2 for x in range(4))

[0, 1, 4, 9]

In [40]:
sorted((x ** 2 for x in range(4)), reverse=True)

[9, 4, 1, 0]

In [41]:
sorted(x ** 2 for x in range(4), reverse=True)

SyntaxError: Generator expression must be parenthesized if not sole argument (<ipython-input-41-d158a9f8be75>, line 1)

### Функции-генераторы и выражения-генераторы

Одни и те же итерации часто можно реализовать как в  виде функции-генератора, так и  в виде выражения-генератора.

Следующее выражение-генератор, например, четырежды повторяет каждый символ в исходной строке:

In [42]:
G = (c * 4 for c in 'SPAM')  # выражение-генератор
list(G)  # принудительно получить сразу все результаты

['SSSS', 'PPPP', 'AAAA', 'MMMM']

Эквивалентная функция-генератор содержит чуть больше программного кода,
но, будучи функцией, при необходимости способна вместить в  себя больший объем логики и использовать больший объем информации:

In [43]:
def timesfour(S):  # функция-генератор
    for c in S:
        yield c * 4
        
G = timesfour('spam')
list(G)  # выполнит итерации автоматически

['ssss', 'pppp', 'aaaa', 'mmmm']

>**Для повторного получения результатов нужно создавать новый генератор**

In [45]:
list(G)

[]

### Генераторы – это объекты итераторов однократного применения

И **функции-генераторы, и  выражения-генераторы имеют свои собственные итераторы и потому поддерживают возможность лишь однократного выполнения итераций** – в отличие от некоторых встроенных типов, нет никакой возможности получить несколько итераторов или выполнять позиционирование итератора в множестве результатов.

Например, для выражения-генератора из предыдущего раздела итератором является сам генератор (фактически вызов метода `iter` генератора не выполняет никаких действий):

In [46]:
G = (c * 4 for c in 'SPAM')
iter(G) is G  # итератором генератора является сам генератор

True

Если попробовать выполнить обход результатов вручную, с помощью нескольких итераторов, окажется, что все они ссылаются на одну и  ту же позицию в последовательности результатов:

In [47]:
G = (c * 4 for c in 'SPAM')
I1 = iter(G)
next(I1)

'SSSS'

In [48]:
next(I1)

'PPPP'

In [49]:
I2 = iter(G)
next(I2)

'AAAA'

Кроме того, как только итерации достигнут конца, все результаты окажутся исчерпаны  – чтобы выполнить повторный обход результатов, нам придется создать новый генератор

In [50]:
list(I1)  # выберет остатки результатов в I1

['MMMM']

In [51]:
next(I2)  # другие итераторы также окажутся исчерпанными

StopIteration: 

In [52]:
I3 = iter(G)  # то же относится и к вновь созданным итераторам
next(I3)

StopIteration: 

То же относится и к функциям-генераторам – эквивалентный генератор, реализованный в виде функции, также обеспечивает возможность однократного выполнения итераций.

**Некоторые встроенные типы имеют отличное поведение**, поддерживают возможность создания множества независимых итераторов и способны отражать изменения объекта во всех активных итераторах:

In [53]:
L = [1, 2, 3, 4]
I1, I2 = iter(L), iter(L)
next(I1)

1

In [54]:
next(I1)

2

In [55]:
next(I2)  # списки поддерживают множество независимых итераторов

1

In [56]:
del L[2:]
next(I1)  # изменения отражаются на всех итераторах

StopIteration: 

### Имитация функций `zip` и `map` с помощью инструментов итераций

При вызове с  несколькими аргументами функция `map` отображает заданную функцию на элементы, взятые из каждой последовательности, практически тем же способом, каким функция `zip` объединяет их:

In [57]:
S1 = 'abc'
S2 = 'xyz123'
list(zip(S1, S2))

[('a', 'x'), ('b', 'y'), ('c', 'z')]

In [58]:
# единственная последовательность: одномерные кортежи
list(zip([-2, -1, 0, 1, 2]))

[(-2,), (-1,), (0,), (1,), (2,)]

In [59]:
# N последовательностей: N-мерные кортежи
list(zip([1, 2, 3], [2, 3, 4, 5])) 

[(1, 2), (2, 3), (3, 4)]

>`map` передает объединенные элементы последовательностей указанной функции, усекая результирующую последовательность по длине кратчайшей исходной последовательности

In [60]:
# единственная последовательность: одномерная функция
list(map(abs, [-2, -1, 0, 1, 2]))

[2, 1, 0, 1, 2]

In [61]:
# N последовательностей: N-мерная функция
list(map(pow, [1, 2, 3], [2, 3, 4, 5]))

[1, 8, 81]

#### Создание собственной версии функции `map(func, ...)`

Встроенные функции `map` и `zip` показывают высокую производительность и  удобны в  использовании, тем не менее мы всегда можем добиться той же функциональности, написав несколько строк самостоятельно.

В предыдущей главе, например, мы видели реализацию функции, имитирующей поведение встроенной функции `map` для случая, когда ей передается единственная последовательность. Нам не составит большого труда распространить эту версию на случай множества последовательностей:

In [62]:
# map(func, seqs...) на основе использования zip
def mymap(func, *seqs):
    res = []
    for args in zip(*seqs):
        res.append(func(*args))
    return res

print(mymap(abs, [-2, -1, 0, 1, 2]))

[2, 1, 0, 1, 2]


In [63]:
print(mymap(pow, [1, 2, 3], [2, 3, 4, 5]))

[1, 8, 81]


Эта версия в значительной степени опирается на конструкцию `*args` передачи аргументов – она получает множество аргументов-последовательностей (в действительности – итерируемых объектов), распаковывает их в аргументы функции `zip`, для последующего объединения, и затем распаковывает результаты вызова функции `zip` в аргументы указанной функции `func`. То есть мы используем тот факт, что объединение элементов последовательностей, по сути, является промежуточной операцией при отображении.

Однако в действительности предыдущая версия функции представляет собой классический шаблон генератора списков, конструируя список с результатами с помощью цикла `for`. Учитывая это обстоятельство, мы можем сделать нашу
версию функции `map` более компактной, реализовав все необходимое в виде однострочного генератора списков:

In [64]:
# С использованием генератора списков
def mymap(func, *seqs):
    return [func(*args) for args in zip(*seqs)]

print(mymap(abs, [-2, -1, 0, 1, 2]))

[2, 1, 0, 1, 2]


In [65]:
print(mymap(pow, [1, 2, 3], [2, 3, 4, 5]))

[1, 8, 81]


Обе предыдущие версии функции `mymap` конструируют сразу весь список с  результатами, что для крупных списков может привести к  существенному увеличению потребления памяти. Теперь, когда мы познакомились с функциями-генераторами и выражениями-генераторами, мы легко можем создать две альтернативные версии, возвращающие результаты по требованию:

In [66]:
# С использованием генераторов: yield и (...)
def mymap(func, *seqs):
    res = []
    for args in zip(*seqs):
        yield func(*args)


def mymap(func, *seqs):
    return (func(*args) for args in zip(*seqs))

Эти версии воспроизводят те же самые результаты, но возвращают генераторы, поддерживающие протокол итераций, – первая версия поставляет по одному результату за раз, а вторая возвращает результат выражения-генератора, который имеет тот же эффект. Если обернуть вызовы этих функций в вызов функции `list`, мы сможем получить сразу все результаты:

In [67]:
print(list(mymap(pow, [1, 2, 3], [2, 3, 4, 5])))

[1, 8, 81]


#### Создание собственных версий функций `zip(...)` и `map(None, ...)`

Используя инструменты итераций, мы можем создать версии, имитирующие
усечение, как это делает функция `zip`, и дополнение, как это делает функция `map` в версии 2.6.

In [68]:
# Версии zip(seqs...) и map(None, seqs...) в Python 2.6
def myzip(*seqs):
    seqs = [list(S) for S in seqs]
    res = []
    while all(seqs):
        res.append(tuple(S.pop(0) for S in seqs))
    return res

def mymapPad(*seqs, pad=None):
    seqs = [list(S) for S in seqs]
    res = []
    while any(seqs):
        res.append(tuple((S.pop(0) if S else pad) for S in seqs))
    return res

In [69]:
S1, S2 = 'abc', 'xyz123'
print(myzip(S1, S2))

[('a', 'x'), ('b', 'y'), ('c', 'z')]


In [70]:
print(mymapPad(S1, S2))

[('a', 'x'), ('b', 'y'), ('c', 'z'), (None, '1'), (None, '2'), (None, '3')]


In [71]:
print(mymapPad(S1, S2, pad=99))

[('a', 'x'), ('b', 'y'), ('c', 'z'), (99, '1'), (99, '2'), (99, '3')]


Обе функции, представленные здесь, способны работать с  любыми итерируемыми объектами, потому что они применяют к своим аргументам встроенную функцию `list`, вынуждая их сгенерировать все результаты (что, к примеру, позволяет передавать в качестве аргументов не только простые последовательности, такие как строки, но и файлы). Обратите внимание, что здесь используются встроенные функции `all` и `any`, – они возвращают `True`, если все или хотя бы
один элемент итерируемого объекта соответственно имеет истинное значение (то есть непустой). Эти встроенные функции позволяют остановить итерации, когда один или все аргументы, пропущенные через функцию `list`, превращаются в пустые списки после удаления очередного элемента.

Эти функции не могут быть преобразованы в генераторы списков из-за того, что в них используются слишком специфичные циклы. Однако, как и прежде, текущие версии функций `zip` и `map` конструируют и возвращают сразу весь список с результатами и их точно так же легко можно превратить в генераторы, поставляющие результаты по одному элементу за раз. Результаты получаются теми же самыми, что и прежде, но нам снова придется использовать функцию `list`, чтобы получить сразу все значения для отображения:

In [72]:
def myzip(*seqs):
    seqs = [list(S) for S in seqs]
    while all(seqs):
        yield tuple(S.pop(0) for S in seqs)
        
def mymapPad(*seqs, pad=None):
    seqs = [list(S) for S in seqs]
    while any(seqs):
        yield tuple((S.pop(0) if S else pad) for S in seqs)

In [73]:
S1, S2 = 'abc', 'xyz123'
print(list(myzip(S1, S2)))

[('a', 'x'), ('b', 'y'), ('c', 'z')]


In [74]:
print(list(mymapPad(S1, S2, pad=99)))

[('a', 'x'), ('b', 'y'), ('c', 'z'), (99, '1'), (99, '2'), (99, '3')]


Наконец, ниже приводятся альтернативные реализации наших версий функций `zip` и `map`  – вместо того, чтобы удалять элементы из списков с  помощью метода `pop`, они выполняют свою работу за счет нахождения аргументов с минимальной и максимальной длиной. Вооружившись этими значениями, легко можно реализовать вложенные генераторы списков для обхода диапазонов индексов в аргументах:

In [75]:
# Альтернативные реализации с вычислением длин
# исходных последовательностей
def myzip(*seqs):
    minlen = min(len(S) for S in seqs)
    return [tuple(S[i] for S in seqs) for i in range(minlen)]

def mymapPad(*seqs, pad=None):
    maxlen = max(len(S) for S in seqs)
    index = range(maxlen)
    return [tuple((S[i] if len(S) > i else pad) for S in seqs) for i in index]

In [76]:
S1, S2 = 'abc', 'xyz123'
print(myzip(S1, S2))

[('a', 'x'), ('b', 'y'), ('c', 'z')]


In [77]:
print(mymapPad(S1, S2))

[('a', 'x'), ('b', 'y'), ('c', 'z'), (None, '1'), (None, '2'), (None, '3')]


In [78]:
print(mymapPad(S1, S2, pad=99))

[('a', 'x'), ('b', 'y'), ('c', 'z'), (99, '1'), (99, '2'), (99, '3')]


Поскольку в этих версиях используются функция `len` и операция извлечения элементов по индексам, они уже не предполагают, что их аргументы могут быть произвольными итерируемыми объектами. Внешний генератор списков здесь выполняет обход диапазона индексов в  аргументе, а  внутренний (передается функции `tuple`) выполняет обход полученных функцией последовательностей, одновременно извлекая из каждой по одному элементу.

Если запустить этот пример, вы получите те же результаты, что и прежде. Больше всего в  этом примере поражает широкое использование генераторов и  итераторов. Аргументы, которые передаются функциям `min` и  `max`, являются выражениями-генераторами, которые заканчивают свои итерации еще до того, как вложенный генератор списков приступит к выполнению итераций.

Кроме того, вложенные генераторы списков содержат два уровня отложенных операций – итератор, возвращаемый встроенной функцией `range` в Python 3.0, и выражение-генератор, которое передается, как аргумент функции `tuple`.

В действительности, пока поток управления не достигнет квадратных скобок генератора списков, здесь не воспроизводится никаких результатов – именно в этом месте происходит запуск генераторов списков и выражений-генераторов. Чтобы эти версии функций возвращали не списки с результатами, а генераторы, вместо квадратных скобок следует использовать круглые скобки. Ниже приводится преобразованная версия нашей функции `zip`:

In [79]:
# С использованием генераторов: (...)
def myzip(*seqs):
    minlen = min(len(S) for S in seqs)
    return (tuple(S[i] for S in seqs) for i in range(minlen))
print(list(myzip(S1, S2)))

[('a', 'x'), ('b', 'y'), ('c', 'z')]


#### Придется держать в уме: однократные итерации

Рассмотрим следующую альтернативную реализацию нашей функции `zip`, которая является адаптированной версией функции, взятой из руководства по языку Python:

In [80]:
def myzip(*args):
    iters = map(iter, args)
    while iters:
        res = [next(i) for i in iters]
        yield tuple(res)

Так как в этой версии используются функции `iter` и `next`, она способна принимать любые итерируемые объекты. Обратите внимание, что нет никаких причин перехватывать исключение `StopIteration`, возбуждаемое вызовом функции `next(i)` внутри генератора списков по исчерпании любого из аргументов-итераторов,  – внутри функции-генератора это
исключение дает тот же эффект, что и инструкция `return`.

Инструкции `while iters`: вполне достаточно, чтобы организовать обход, когда функции был передан хотя бы один аргумент, и  избежать зацикливания в противном случае (генератор списков в этом случае всегда будет возвращать пустой список). Эта функция прекрасно действует в Python 2.6

Но она попадает в бесконечный цикл в Python 3.0, потому что функция `map` в версии 3.0 возвращает объект-итератор однократного пользования, а  не список, как в  версии  2.6. В  версии  3.0, как только внутри цикла будет выполнен генератор списков, переменная `iters` навсегда останется пустой (и переменная `res` будет ссылаться на пустой список `[]`). Чтобы обеспечить работоспособность функции в  версии  3.0, нам необходимо с  помощью встроенной функции `list` создать объект, который поддерживает многократные итерации:

In [81]:
list(myzip('abc', 'lmnop'))  # если запустить, то бесконечный цикл

KeyboardInterrupt: 

In [83]:
def myzip(*args):
    iters = list(map(iter, args))  # map обернут в list
    while iters:
        res = [next(i) for i in iters]
        yield tuple(res)

In [84]:
list(myzip('abc', 'lmnop'))

  """Entry point for launching an IPython kernel.


[('a', 'l'), ('b', 'm'), ('c', 'n')]

### Генерирование значений во встроенных типах и классах

Словари, например, имеют собственные итераторы, которые во время итераций воспроизводят ключи:

In [85]:
D = {'a': 1, 'b': 2, 'c': 3}
x = iter(D)
next(x)

'a'

Подобно значениям, которые воспроизводятся нашими собственными генераторами, ключи словарей можно обойти вручную или с помощью автоматизированных инструментов итераций, включая циклы `for`, функцию `map`, генераторы списков и других

In [86]:
for key in D: print(key, D[key])

a 1
b 2
c 3


Мы также видели, что при использовании итераторов файлов интерпретатор Python просто загружает строки из файла по мере необходимости

Хотя итераторы встроенных типов воспроизводят значения определенного типа, тем не менее в  них используются те же концепции, что и  в наших выражениях-генераторах и  функциях-генераторах. Инструменты итераций, такие как циклы `for`, принимают любые итерируемые объекты, как определяемые пользователем, так и встроенные.

Хотя это и выходит за рамки данной главы, тем не менее замечу, что существует возможность реализовать произвольные объекты-генераторы с  помощью классов, которые поддерживают протокол итераций, и поэтому могут использоваться в  циклах `for` и  в других итерационных контекстах. Такие классы определяют специальный метод `__iter__`, вызываемый функцией `iter` и  возвращающий объект-итератор, обладающий методом `__next__`, который вызывается встроенной функцией `next` (при этом метод `__getitem__` также остается доступным, как крайнее средство обеспечения итераций через доступ к  элементам по индексу).

Экземпляры таких классов считаются итерируемыми объектами и  могут использоваться в  циклах `for` и  во всех остальных итерационных контекстах. Однако при использовании классов мы получаем доступ к более богатым возможностям реализации логики выполнения и структурирования данных, чем могут предложить другие конструкции генераторов.

## Краткая сводка по синтаксису генераторов в 3.0

* В случае с множествами литеральная форма `{1, 3, 2}` эквивалентна вызову `set([1, 3, 2])`, а новый синтаксис генераторов множеств `{f(x) for x in S if P(x)}` напоминает синтаксис выражений-генераторов `set(f(x) for x in S if P(x))`, где `f(x)` - произвольное выражение


* В случае со словарями новая конструкция генераторов словарей `{key: val for (key, val) in zip(keys, vals)}` действует точно так же, как `dict(zip(keys, vals))`, и `{x: f(x) for x in items}`, и напоминает выражение-генератор `dict((x, f(x)) for x in items)`

In [87]:
# Генератор списков:
# конструирует список подобно вызову list(generator expr)
[x * x for x in range(10)]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [88]:
# Выражение-генератор:
# воспроизводит элементы. Скобки часто необязательны
(x * x for x in range(10))

<generator object <genexpr> at 0x7fbcb003b2b0>

In [89]:
# Генератор множеств (начиная с 3.0)
# {x, y} - литерал множества
{x * x for x in range(10)}

{0, 1, 4, 9, 16, 25, 36, 49, 64, 81}

In [90]:
# Генератор словарей (начиная с 3.0)
{x: x * x for x in range(10)}

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}

### Понимание генераторов множеств и словарей

В некотором смысле, конструкции генераторов множеств и словарей являются всего лишь синтаксическим подсластителем для выражений-генераторов, которые передаются конструкторам этих типов данных.

In [91]:
{x * x for x in range(10)}  # Генератор

{0, 1, 4, 9, 16, 25, 36, 49, 64, 81}

In [92]:
set(x * x for x in range(10)) # Генератор и конструктор типа

{0, 1, 4, 9, 16, 25, 36, 49, 64, 81}

In [93]:
{x: x * x for x in range(10)}

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}

In [94]:
dict((x, x * x) for x in range(10))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}

Хотя обе формы принимают итераторы, но они не воспроизводят результаты по требованию  – обе формы конструируют результат целиком.

Если вам потребуется воспроизводить ключи и значения по запросу,
используйте выражение-генератор:

In [95]:
G = ((x, x * x) for x in range(10))
next(G)

(0, 0)

### Расширенный синтаксис генераторов множеств и словарей

Как и  генераторы списков, генераторы множеств и  словарей поддерживают:

* вложенные условные инструкции `if`, позволяющие отфильтровывать элементы из результата

In [96]:
{x * x for x in range(10) if x % 2 == 0}  # но множество неупорядочено

{0, 4, 16, 36, 64}

* вложенные циклы `for` также допустимы, хотя неупорядоченная природа обоих типов, не допускающая появления дубликатов, может несколько осложнять интерпретацию результатов

In [97]:
# Списки сохраняют дубликаты
[x + y for x in [1, 2, 3] for y in [4, 5, 6]]

[5, 6, 7, 6, 7, 8, 7, 8, 9]

In [98]:
# А множества - нет
{x + y for x in [1, 2, 3] for y in [4, 5, 6]}

{5, 6, 7, 8, 9}

In [99]:
# Как и ключи словарей
{x: y for x in [1, 2, 3] for y in [4, 5, 6]}

{1: 6, 2: 6, 3: 6}

## Хронометраж итерационных альтернатив

### Модуль `time`

In [101]:
# Файл mytimer.py
import time
reps = 10000
reps_timer = 1000
repslist_timer = range(reps)

def timer(func, *pargs, **kargs):
    start = time.time()
    for i in repslist_timer:
        ret = func(*pargs, **kargs)
    elapsed = time.time() - start
    return (elapsed, ret)

Функционально эта утилита способна вызывать любую функцию с любым количеством позиционных и  именованных аргументов. Она фиксирует начальное время, вызывает функцию фиксированное число раз и вычитает время начала из времени конца. Важно отметить следующие обстоятельства:

* Модуль `time` из стандартной библиотеки языка Python позволяет получить текущее время с  точностью, зависящей от платформы


* Вызов функции `range` был вынесен за пределы цикла измерения времени, благодаря чему время конструирования диапазона не накладывается на получаемые результаты в Python 2.6. В Python 3.0 функция `range` возвращает итератор, поэтому в версии 3.0 данный шаг можно считать излишним (хотя он и не мешает)


* Счетчик `reps` оформлен как глобальная переменная, благодаря чему она может изменяться импортирующим модулем при необходимости: `mytimer.reps = N`

### Сценарий хронометража

In [102]:
import sys

reps = 10000
repslist = range(reps) # Вызов функции range вынесен за пределы цикла в 2.6

def forLoop():
    res = []
    for x in repslist:
        res.append(abs(x))
    return res

def listComp():
    return [abs(x) for x in repslist]

def mapCall():
    return list(map(abs, repslist)) # Вызов list необходим только в 3.0

def genExpr():
    return list(abs(x) for x in repslist) # Функция list вынуждает
                                          # вернуть сразу все результаты

def genFunc():
    def gen():
        for x in repslist:
            yield abs(x)
    return list(gen())

In [103]:
print(sys.version)

3.6.6 |Anaconda custom (64-bit)| (default, Jun 28 2018, 17:14:51) 
[GCC 7.2.0]


Этот сценарий тестирует все пять альтернативных способов создания списков и, как видно из листинга, выполняет по 10 миллионов итераций каждым из способов, то есть каждый из тестов создает список из 10 000 элементов 1 000 раз.

In [104]:
for test in (forLoop, listComp, mapCall, genExpr, genFunc):
    elapsed, result = timer(test)
    print ('-' * 33)
    print ('%-9s: %.5f => [%s...%s]' %
           (test.__name__, elapsed, result[0], result[-1]))

---------------------------------
forLoop  : 6.29314 => [0...9999]
---------------------------------
listComp : 3.59266 => [0...9999]
---------------------------------
mapCall  : 2.06058 => [0...9999]
---------------------------------
genExpr  : 5.24833 => [0...9999]
---------------------------------
genFunc  : 5.18083 => [0...9999]


Если внимательно изучить программный код и  полученные результаты, можно заметить, что выражения-генераторы выполняются медленнее, чем генераторы списков. Несмотря на то что обертывание выражения-генератора в вызов функции `list` превращает его в функциональный эквивалент генератора списка в квадратных скобках, тем не менее результаты показывают, что внутренние реализации этих двух видов выражений отличаются (даже если учесть время, затрачиваемое на вызов функции `list` в тесте производительности выражения-генератора):

In [105]:
%timeit [abs(x) for x in range(1000)]

35.7 µs ± 20 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [106]:
%timeit list(abs(x) for x in range(1000))

52.6 µs ± 74.3 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


Но вот как изменилось положение дел, когда сценарий был изменен так, чтобы он выполнял настоящую операцию, такую как сложение, вместо вызова тривиальной встроенной функции `abs` (опущенные части сценария остались без изменений):

In [107]:
def forLoop():
    res = []
    for x in repslist:
        res.append(x + 10)
    return res

def listComp():
    return [x + 10 for x in repslist]

def mapCall():
    return list(map((lambda x: x + 10), repslist))

def genExpr():
    return list(x + 10 for x in repslist) # Вызов list необходим в 2.6 + 3.0

def genFunc():
    def gen():
        for x in repslist:
            yield x + 10
    return list(gen())

In [108]:
for test in (forLoop, listComp, mapCall, genExpr, genFunc):
    elapsed, result = timer(test)
    print ('-' * 33)
    print ('%-9s: %.5f => [%s...%s]' %
           (test.__name__, elapsed, result[0], result[-1]))

---------------------------------
forLoop  : 5.69083 => [10...10009]
---------------------------------
listComp : 3.03664 => [10...10009]
---------------------------------
mapCall  : 6.50267 => [10...10009]
---------------------------------
genExpr  : 4.53549 => [10...10009]
---------------------------------
genFunc  : 4.51283 => [10...10009]


Так как внутренние механизмы интерпретатора сильно оптимизированы, анализ производительности, как в  данном случае, становится очень непростым делом. В действительности невозможно заранее утверждать, какой метод лучше, – лучшее, что можно сделать, это провести хронометраж своего программного кода, на своем компьютере, со своей версией Python. В  этом случае все, что можно сказать наверняка, – это то, что в данной версии Python использование пользовательской функции в вызове `map` может привести к снижению производительности по крайней мере в 2 раза, и что в этом испытании генератор списков оказался самым быстрым.

### Альтернативные реализации модуля хронометража

Модуль хронометража из предыдущего раздела вполне работоспособен, но в некоторых отношениях он слишком примитивен:
* В нем всегда используется функция `time.clock`. В  операционной системе Windows она является лучшим выбором, однако на некоторых платформах в системе UNIX более высокую точность можно получить с помощью функции `time.time`.

* Для изменения количества повторений требуется изменять глобальную переменную модуля – не самое идеальное решение, если функция `timer` импортируется и одновременно используется в нескольких модулях.

* Функция `timer` выполняет тестовую функцию большое число раз. Чтобы учесть случайные флуктуации, вызванные различными уровнями нагрузки на систему, можно было бы отбирать наилучшие результаты из серии тестов вместо того, чтобы рассчитывать общее время выполнения.

##############

**ПРОПУЩЕНО**

##############

### Другие предложения

**Модуль `timeit`** автоматизирует хронометраж кода и позволяет избежать проблем, связанных с используемой платформой


**Модуль `profile`** содержит полные исходные тексты инструментов профилирования программного кода.

Профилирование программного кода с целью выявления узких мест должно проводиться перед проведением хронометража, который рассматривался ранее

## Типичные ошибки при работе с функциями

### Локальные имена определяются статически

Обычно, если внутри функции имени не присваивается какое-либо значение,
поиск его будет производиться в области видимости объемлющего модуля:

In [109]:
X = 99
def selector(): # Переменная X исп-ся, но ей ничего не присваивается
    print(X) # Переменная X будет найдена в глобальной области вид-ти
    
selector()

99


В этом фрагменте переменная `X` внутри функции определяется как переменная `X` модуля.

Но посмотрите, что произойдет, если добавить инструкцию присваивания переменной `X` после ее использования:

In [110]:
del X  # для ipython ноутбука

def selector(): 
    print(X) # Переменная еще не существует!
    X = 88   # X классифицируется как локальная переменная
             # То же самое происходит при “import X”, “def X”...

In [111]:
selector()

UnboundLocalError: local variable 'X' referenced before assignment

Этот программный код компилируется интерпретатором во время ввода в интерактивной оболочке или во время импорта модуля. Во время компиляции Python обнаруживает операцию присваивания переменной `X` и  делает вывод, что `X` – это локальное имя везде в теле функции. Но во время выполнения функции, из-за того, что к моменту вызова инструкции `print` операция присваивания еще не производилась, интерпретатор сообщает о том, что имя не определено.

### Значения по умолчанию и изменяемые объекты

>Значения по умолчанию для аргументов функции вычисляются и запоминаются в момент выполнения инструкции `def`, а не при вызове функции. 
>
>Внутренняя реализация Python сохраняет по одному объекту для каждого аргумента со значением по умолчанию, присоединенного к функции.

Вычисление значений по умолчанию в  момент определения функции  – это чаще именно то, что вам требуется; это позволяет, в случае необходимости, сохранять значения из объемлющей области видимости. Но так как значения по умолчанию сохраняются между вызовами функции, следует быть внимательным при воздействии на изменяемые значения по умолчанию.

Например, следующая функция использует пустой список в качестве значения по умолчанию своего аргумента, а затем изменяет его при каждом вызове:

In [112]:
def saver(x=[]): # Объект списка сохраняется
    x.append(1)  # При каждом вызове изменяется один и тот же объект!
    print(x)

In [113]:
saver([2])  # # Значение по умолчанию не используется

[2, 1]


In [114]:
saver()  # Используется значение по умолчанию

[1]


In [115]:
saver()  # Список растет при каждом вызове!

[1, 1]


Некоторые воспринимают такое поведение как достоинство – **изменяемые аргументы по умолчанию сохраняют свое состояние между вызовами функции**, поэтому они могут играть роль, подобную роли **статических локальных переменных** в языке C.

В некотором смысле они ведут себя как глобальные переменные за исключением того, что их имена являются локальными по отношению к функциям, вследствие чего исключается конфликт имен с переменными, определенными в другом месте.

В  предыдущем примере для значения по умолчанию существует единственный объект списка – тот, что был создан в момент выполнения инструкции `def`. При каждом обращении к  функции не будет создаваться новый список, поэтому он будет расти с каждым новым вызовом – он не опустошается при каждом вызове.

Если такое поведение является неприемлемым, можно просто создавать копию аргумента по умолчанию в начале тела функции или переместить выражение, возвращающее значение по умолчанию, в  тело функции. Поскольку в  этом случае значение по умолчанию будет находиться в  программном коде, который выполняется при каждом вызове функции, вы всякий раз будете получать новый объект:

In [116]:
def saver(x=None):
    if x is None:  # аргумент отсутствует?
        x = []
    x.append(1)
    print(x)

In [117]:
saver([2])

[2, 1]


In [118]:
saver()

[1]


In [119]:
saver()  # список больше не растет

[1]


На сегодняшний день имеется еще один, менее запутанный, способ получения изменяемых значений по умолчанию, который заключается в **использовании атрибутов функций**

In [120]:
def saver():
    saver.x.append(1)
    print(saver.x)

In [121]:
saver.x = []
saver()

[1]


In [122]:
saver()

[1, 1]


Имя функции является глобальным для самой функции, но объявлять его глобальным внутри функции не требуется, так как мы фактически не изменяем его внутри функции.

Такой прием использования атрибутов, присоединенных к объекту функции, оказывается более явным (и, вероятно, менее таинственным).

### Функции, не возвращающие результат

С  технической точки зрения все функции возвращают некоторое значение – в отсутствие инструкции `return` функция автоматически возвращает объект `None`

In [123]:
lst = [1, 2, 3]
lst = lst.append(4)
print(lst)

None
