# Итераторы

## Итерируемый объект

В Python термины "итерируемый объект", "итератор" и "генератор" имеют разный смысл. 

Итерируемый объект -- это любой объект который реализует специальный метод обращения по индексу ```__getitem__``` или метод получения итератора ```__iter__```. Метод ```__getitem__``` относится к так называемому протоколу последовательности, а метод ```__iter__``` - к протоколу итератора. Таким образом, если объект реализует один из этих протоколов, то он является итерируемым объектом. Подробнее протоколы в Python будут рассмотрены в разделе "Классы". Если метод ```__iter__``` не реализован, то метод ```__getitem__``` должен принимать индексы начиная с нуля. В Python итерируемыми объектами являются все базовые коллекции (```list```, ```dict```, ```set```, ```tuple```). Итерируемыми объектами могут выступать не только структуры данных. Например, файлы также могут являться итерируемым объектом и порождать итератор для перебора строк.

Метод ```__getitem__``` отвечает за обращение к элементу коллекции по индексу или ключу. Он вызывается всякий раз, когда используется оператор квадратных скобок. Также он возвращает исключение ```IndexError``` когда переданный индекс лежит вне диапазона индексов последовательности или ```KeyError``` когда переданного ключа нет в коллекции.

Стоит упомянуть, что методы, которые начинаются и заканчиваются на два нижних подчеркивания, называются дандер-методы или "магические" методы. Подробно их работа будет рассмотрена в соответствующем разделе главы о классах.

Возвращаясь к стандартным коллекциям, рассмотрим какие методы есть в каждой из них. Списки и кортежи -- это индексируемые последовательности и они реализуют метод ```__getitem__```, кроме того у них есть и метод ```__iter__```. Для проверки воспользуемся встроенной функцией ```hasattr``` она принимает какой-либо объект в качестве первого аргумента и название атрибута в качестве второго аргумента. Затем она возвращает ```True``` если атрибут есть у объекта и ```False``` в противном случае.

In [2]:
foo = [1, 2, 3]

print(f'{hasattr(foo, "__getitem__") = }')
print(f'{hasattr(foo, "__iter__") = }')

hasattr(foo, "__getitem__") = True
hasattr(foo, "__iter__") = True


In [3]:
bar = tuple(foo)
print(f'{hasattr(bar, "__getitem__") = }')
print(f'{hasattr(bar, "__iter__") = }')

hasattr(bar, "__getitem__") = True
hasattr(bar, "__iter__") = True


Словари также реализуют оба метода, но в качестве индексов у них выступают ключи.

In [4]:
baz = {'a': 'Douglas Adams', 'b': 42}
print(f'{hasattr(baz, "__getitem__") = }')
print(f'{hasattr(baz, "__iter__") = }')

hasattr(baz, "__getitem__") = True
hasattr(baz, "__iter__") = True


Множества -- это не индексируемая коллекция, это означает, что у множеств нет метода ```__getitem__```, однако они являются итерируемыми объектами за счет реализации метода ```__iter__```.

In [6]:
quux = set(foo)
print(f'{hasattr(quux, "__getitem__") = }')
print(f'{hasattr(quux, "__iter__") = }')

hasattr(quux, "__getitem__") = False
hasattr(quux, "__iter__") = True


Реализовать собственный итерируемый объект не составляет особого труда. Этот процесс подробно будет описан в главе о классах.

## Итератор

Итераторы в Python это специальные объекты, получаемые с помощью специального метода ```__iter__``` или встроенной функции ```iter```, которая вызывает соответствующий метод.

В Python для того, чтобы объект соответствовал объекту итератору необходимо, чтобы он реализовал протокол итератора. Это некоторое соглашение, описывающее условия, при которых объект можно считать итератором. Этот протокол требует, чтобы объект реализовывал два метода ```__iter__``` и ```__next__```. Метод ```__iter__``` предназначен для конструирования итератора и должен возвращать итератор. Метод ```__next__``` используется для вычисления следующего значения. Вызывать эти методы напрямую нет необходимости, для этого используются встроенные функции ```iter``` для вызова ```__iter__``` и ```next``` для ```__next__```.

Так встроенные коллекции не являются итераторами, но его из них можно получить.

In [7]:
bar = [1, 2, 3]
bar_iter = iter(bar)
print(f'{bar_iter = }')
print(f'{type(bar_iter) = }')
print('-' * 25)

# функция next возвращает следующий элемент
print('0:', next(bar_iter))
print('1:', next(bar_iter))
print('2:', next(bar_iter))

# Все следующие попытки вызвать next будут приводить к появлению 
# исключения StopIteration, т.к. итератор закончился 
print('3:', next(bar_iter))  # StopIteration

bar_iter = <list_iterator object at 0x000002E0AF7D2BE0>
type(bar_iter) = <class 'list_iterator'>
-------------------------
0: 1
1: 2
2: 3


StopIteration: 

Обратите внимание что, когда функция ```next``` возвращает последний элемент последовательности, последующий вызов этой функции вернет исключение ```StopIteration```, которое говорит о том, что в итераторе закончились элементы. Таким образом, итератор исчерпаем, т. е. после того, как он был использован один раз, повторное использование невозможно. При дальнейшем вызове функции ```next``` будет всегда возникать исключение ```StopIteration```.

Итераторы сами по себе всегда являются итерируемыми объектами, т. е. из них можно получить итератор, потому как они реализуют метод ```__iter__```. В большинстве случаем этот метод возвращает сам объект итератора. Стоит обратить внимание, что возвращается именно ссылка.

In [15]:
metavariables = {
    'foo': 'first canonical metavariable', 
    'bar': 'second canonical metavariable', 
    'baz': 'canonical third metavariable',
    'quux': 'canonical fourth metavariable',
    'eggs': 'only in Python',
}

# итератор на основе словаря
xyzzy = iter(metavariables)
plugh = iter(metavariables)
# итератор из итератора
xyzzy_iter = iter(xyzzy)

print(f'{xyzzy is plugh = }')  # имена указывают на разные объекты, итераторы не связаны
print(f'{xyzzy is xyzzy_iter = }')  # имена указывают на один объект
print('-' * 25)
print(f'(1) значение из xyzzy: {next(xyzzy)}')
print(f'(2) значение из xyzzy_iter: {next(xyzzy_iter)}')  # значения не начинаются сначала
print(f'(3) значение из xyzzy_iter: {next(xyzzy_iter)}')
print(f'(4) значение из xyzzy: {next(xyzzy)}')
print('-' * 25)
print(f'(5) значение из plugh: {next(plugh)}')  # другой итератор

xyzzy is plugh = False
xyzzy is xyzzy_iter = True
-------------------------
(1) значение из xyzzy: foo
(2) значение из xyzzy_iter: bar
(3) значение из xyzzy_iter: baz
(4) значение из xyzzy: quux
-------------------------
(5) значение из plugh: foo


В некоторых других случаях поведение будет другим. Например, для функций ```map```, ```zip``` и ```filter``` получение итератора от их результата будут одинаковы. Это связано с тем, что результат этих функций уже является итератором.

In [13]:
foo = map(int, '1234')
foo_iter = iter(foo)
print(f'{foo is foo_iter = }')

foo is bar = True


Основным достоинством итераторов является их ленивость. Это означает, что каждое новое значение вычисляется по запросу, а не храниться в памяти заранее.

In [16]:
foo = [i for i in range(10_000_000)]
foo_iter = iter(foo)
print(f'Размер объекта: {foo.__sizeof__()}')
print(f'Размер итератора: {foo_iter.__sizeof__()}')

Размер объекта: 89095144
Размер итератора: 32


На основе итераторов построен цикл ```for```. Перед началом работы он неявно создает итератор на основе коллекции. И затем использует его для перебора элементов с помощью функции ```next```. Цикл ```for``` можно переписать, используя цикл ```while```.

In [18]:
foo = [1, 2, 3]

foo_iter = iter(foo)
while True:
    try:
        print(f'{next(foo_iter) = }')
    except StopIteration:
        break

next(foo_iter) = 1
next(foo_iter) = 2
next(foo_iter) = 3


Этот цикл будет эквивалентен стандартному циклу ```for```.

In [20]:
for i in [1, 2, 3]:
    print(f'{i = }')

i = 1
i = 2
i = 3


Помимо того, что итераторы исчерпаемы, они могут быть бесконечными. Например, функция ```count``` из модуля ```itertools``` возвращает бесконечный итератор. Она аналогична ```range```. Возможности модуля ```itertools``` будут рассмотрены в следующем разделе.

In [1]:
from itertools import count

k = 0
for i in count():
    # это условие нужно для принудительного завершения, 
    # т.к. count() бесконечный
    if k > 5:
        break
    print(f'{i = }')
    k += 1

i = 0
i = 1
i = 2
i = 3
i = 4
i = 5


Итераторы можно преобразовать в коллекции, применяя соответствующие им функции. В этом случае итератор полностью выполнится.

In [3]:
foo = [1, 2, 3, 4]
foo_iter = iter(foo)

bar = list(foo_iter)
print(f'{bar = }')
print(f'{foo_iter = }')
print(f'{next(foo_iter) = }')

bar = [1, 2, 3, 4]
foo_iter = <list_iterator object at 0x000001E5993A0760>


StopIteration: 

В этом заключается одна особенность. Не стоит пытаться преобразовать в коллекцию бесконечный итератор, т.е. не стоит выполнять следующий код:

```python
list(count())
```

### Операции с итераторами

Итераторы поддерживают только две операции: 
- создание итератора с помощью ```iter```;
- получение следующего значение с помощью ```next```.

Больше никакие операции нельзя выполнять с ними. Итераторы не имеют длины, нельзя проверить элемент на вхождение в итератор и т.д.

In [1]:
foo = [1, 2, 3, 4]
foo_iter = iter(foo)

len(foo_iter)

TypeError: object of type 'list_iterator' has no len()

## Объект ```range```

Объекты диапазона или ```range``` объекты не являются итераторами или генераторами.

In [4]:
foo = range(5)
print(f'{foo = }')
print(f'{type(foo) = }')

foo = range(0, 5)
type(foo) = <class 'range'>


С ними можно выполнять все те же операции, что и с коллекциями.

In [None]:
print(f'{len(foo) = }')
print(f'{2 in foo = }')
print(f'{foo[-1] = }')

Кроме этого, они имеют ряд специфических атрибутов:

In [5]:
print(f'{foo.start = }')
print(f'{foo.stop = }')
print(f'{foo.step = }')

foo.start = 0
foo.stop = 5
foo.step = 1


```range``` объекты можно переиспользовать, они не исчерпываются как итераторы и генераторы.

In [6]:
bar = range(5)

for i in bar:
    print(i)

print(list(bar))

0
1
2
3
4
[0, 1, 2, 3, 4]


In [7]:
baz = range(5)
iter(baz) is baz

False

# Выражения-генераторы (```generator expressions```)

С точки зрения реализации, генератор в Python - это специальная языковая конструкция, которую можно реализовать двумя способами: как функцию или как генераторное выражение. В результате вызова функции или вычисления выражения получается объект типа ```generator```.

Функции генераторы будут рассмотрены позднее. Сейчас остановимся только на генераторных выражения или ```generator expressions```.

Генератор по сути является частным случаем итератора. Объект-генератор также реализует протокол итератора, т. е. методы ```__iter__``` и ```__next__```. С этой точки зрения, в Python любой генератор является итератором, но не наоборот.

Концептуально, итератор — это механизм поэлементного обхода данных, а генератор позволяет отложено (лениво) создавать результат при итерации. Генератор может создавать результат на основе какого-то алгоритма или брать элементы из источника данных (коллекция, файлы, сетевое подключения и т.д.) и изменять их.

Генераторные выражения записываются аналогично включениям за исключением скобок. В генераторных выражениях используются круглые скобки.

In [10]:
foo = (i for i in range(5))
print(f'{foo = }')
print(f'{type(foo) = }')
print(f'{foo.__sizeof__() = }')

foo = <generator object <genexpr> at 0x00000202DC350580>
type(foo) = <class 'generator'>
foo.__sizeof__() = 96


Генераторы, как и итераторы, исчерпаемы, т.е. их нельзя использовать повторно.

In [9]:
a = list(foo)
b = list(foo)
c = list(foo)

print(f'{a = }')
print(f'{b = }')
print(f'{c = }')

a = [0, 1, 2, 3, 4]
b = []
c = []


# Связь между итерируемыми объектами, итераторами и генераторами

Для более легкого понимания всех вышеописанных объектов их связи изображены на схеме.

<img src="image/gen_iter.png">

В таблице приведены сравнительные характеристики этих понятий.

| Свойство                         | Последовательность | Итерируемый объект                 | Итератор              | Генератор |
|----------------------------------|--------------------|------------------------------------|-----------------------|-----------|
| Хранение всех элементов в памяти | +                  | - (+ для последовательностей)      | -                     | -         |
| Вычисление нового значения       | -                  | - (+ для генераторов)              | - (+ для генераторов) | +         |
| Одноразовое использование        | -                  | - (+ для итераторов и генераторов) | +                     | +         |
| Бесконечные                      | -                  | - (+ для итераторов и генераторов) | +                     | +         |
| Длина                            | +                  | + (- для итераторов и генераторов) | -                     | -         |
| Индексация                       | +                  | + (- для итераторов и генераторов) | -                     | -         |
| Проверка на вхождение (```in```) | +                  | + (- для итераторов и генераторов) | -                     | -         |

# Полезные ссылки

- [Документация по итераторам](https://docs.python.org/3/tutorial/classes.html#iterators)
- [Обсуждение отличий в терминах "итерируемый объект", "итератор" и "итерация"](https://stackoverflow.com/questions/9884132/what-exactly-are-iterator-iterable-and-iteration)
- [Почему нельзя вызвать next() от range объекта?](https://stackoverflow.com/questions/13092267/if-range-is-a-generator-in-python-3-3-why-can-i-not-call-next-on-a-range)
- Статья [range не является итератором](https://treyhunner.com/2018/02/python-range-is-not-an-iterator/)
- [В чем разница между генераторами и итераторами](https://stackoverflow.com/questions/2776829/difference-between-pythons-generators-and-iterators)
- [Итерируемые объекты, итераторы и генераторы](https://nvie.com/posts/iterators-vs-generators/)
- [Метапеременные](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%B0%D0%BF%D0%B5%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F)