# Seminario 3 de Python: Iteradores y generadores.

En este seminario vamos a estudiar varios mecanismos muy importantes y √∫tiles de Python, as√≠ como los conceptos en que se basan: los *iterables*, *iteradores* y *generadores*.

El concepto de iterador proviene de los *lenguajes funcionales*, como tambi√©n sucede con las *comprehensions*. Python, aunque por dise√±o es un lenguaje orientado a objetos, incorpora conceptos y herramientas que provienen de lenguajes imperativos (estructurados) y de los lenguajes funcionales, lo que realmente lo convierte en un lenguaje multiparadigma. Los iteradores son parte integral de Python y su utilizaci√≥n es ubicua, hasta el punto de que muchas veces no se perciben de forma evidente.


## Iterables y contextos de iteraci√≥n.

Al inicio del aprendizaje de Python se introduce el concepto de *secuencia*, como son las cadenas, listas, tuplas, o archivos; se dice tambi√©n que la funci√≥n `range` crea una secuencia num√©rica; y se explica que la forma natural de recorrer una secuencia de inicio a fin es utilizar la sentencia `for` del siguiente modo:

    for variable in secuencia:
        ...

Sin embargo, se trata de una simplificaci√≥n de un concepto mucho m√°s general: el de **iterable**. Un objeto iterable es aqu√©l que permite realizar una iteraci√≥n sobre todos sus elementos. Las secuencias son obviamente iterables, pero hay muchos otros objetos que, no siendo secuencias, tambi√©n son iterables.

Todo objeto iterable se puede utilizar en un **contexto de iteraci√≥n**, como es el caso de la sentencia `for`. De modo que, en realidad, un `for` tiene esta forma:

    for variable in iterable:
        ...

En Python existen numerosos ejemplos de contextos de iteraci√≥n. Por ejemplo, los desempaquetamientos, sean impl√≠citos (como en una asignaci√≥n m√∫ltiple) o expl√≠citos (al utilizar los operadores `*` y `**`) definen contextos de iteraci√≥n. Tambi√©n los encontramos (aunque de forma m√°s evidente) en las *comprehensions* y en las expresiones generadoras.


## Iterables e iteradores.

Formalmente, un objeto es *iterable* si posee un m√©todo `__iter__`. Dicho m√©todo ha de retornar un objeto **iterador**, que se caracteriza por utilizar el denominado *protocolo de iterador* (*iterator protocol*), el cual consiste en:

- Poseer un m√©todo `__next__`, que produce y retorna un elemento a partir del iterable. Si no quedan m√°s elementos, el iterador desencadena la excepci√≥n `StopIteration`.
- Poseer un m√©todo `__iter__` que retorna el mismo objeto iterador. Esto implica que todo iterador es tambi√©n un iterable.

En definitiva: *el objeto iterador itera sobre los elementos del iterable del que procede*.

El m√©todo `__next__` del iterador producir√° los elementos del iterable en un orden concreto: si el iterable es una secuencia, utilizar√° el orden de dicha secuencia; pero si el iterable no define un orden para sus elementos, no debemos realizar suposiciones sobre el orden de producci√≥n por parte de su iterador.

Por otra parte, un iterador producir√° elementos a partir del iterable del que procede, pero *no tienen por qu√© ser exactamente los elementos del iterable*. Por ejemplo, los iteradores sobre diccionarios producen s√≥lo las claves.

Python ofrece, como conveniencia, las funciones `iter` y `next`, que invocan respectivamente los m√©todos `__iter__` y `__next__` del objeto que se les pasa como argumento, y que retornan lo mismo que sendos m√©todos.


### Ejemplos.

Empecemos por definir una lista `l`. Como ya hemos dicho, las listas son objetos iterables; es por esa raz√≥n que las podemos recorrer dentro de contextos de iteraci√≥n, como un `for`:

In [1]:
l = ['hola', 'qu√©', 'tal']
for c in l:
    print(c)

hola
qu√©
tal


Ahora veamos qu√© sucede en el `for` con m√°s detalle. Lo primero que sucede en un contexto de iteraci√≥n es que Python invoca el m√©todo `__iter__` del objeto iterable (en este ejemplo, la lista `l`). Nosotros lo haremos utilizando la funci√≥n `iter` por simple comodidad:

In [2]:
it = iter(l)
print(it)

<list_iterator object at 0x7fadd44571f0>


Obs√©rvese que `iter(l)` ha retornado un objeto iterador (de clase `list_iterator`) que itera sobre la lista `l`. Como todo iterador, este objeto cuenta con un m√©todo `__next__` que, al invocarlo, retornar√° un nuevo elemento de `l`. Dado que se trata de una lista, sus elementos tienen un orden definido, por lo que el iterador `it` los producir√° en ese mismo orden.

A continuaci√≥n invocaremos dicho m√©todo, utilizando la funci√≥n `next`:

In [3]:
print(next(it))
print(next(it))
print(next(it))

hola
qu√©
tal


N√≥tese que el iterador `it` retiene el estado tras cada invocaci√≥n de su m√©todo `__next__`: es decir, *recuerda* en qu√© punto de la secuencia ha quedado. (N√≥tese que esto puede provocar efectos inesperados si la c√©lula anterior de este notebook se ejecuta m√°s veces sin volver a ejecutar la c√©lula previa.)

En este punto, hemos obtenido los tres elementos de la lista `l`. Veamos qu√© sucede al ejecutar `next(it)` una vez m√°s:

In [4]:
print(next(it))

StopIteration: 

Como podemos comprobar, surge la excepci√≥n `StopIteration`. Aqu√≠ vemos el mensaje de error porque no se ha capturado esa excepci√≥n, pero en los contextos de iteraci√≥n s√≠ se captura, con el objeto de salir de dicho contexto cuando al iterador ya no le quedan elementos por producir. En una sentencia `for`, la salida del contexto de iteraci√≥n consiste simplemente en finalizar el ciclo. De hecho, podemos simular un `for` como el de m√°s arriba f√°cilmente:

> Nota: aunque el manejo de excepciones en Python se tratar√° en un seminario posterior, el uso que realizamos a continuaci√≥n deber√≠a entenderse f√°cilmente.

In [5]:
it = iter(l)
while True:
    try:
        c = next(it)
    except StopIteration:
        break
    print(c)

hola
qu√©
tal


> Nota: si alguien est√° considerando  modificar la c√©lula anterior para reemplazar `next(it)` por `next(iter(l))` y as√≠ eliminar la primera l√≠nea, animo a que lo pruebe, y encuentre la explicaci√≥n a lo que sucede.

Un fen√≥meno que a primera vista puede parecer sorprendente es que el funcionamiento de un iterador puede verse afectado por posibles modificaciones al iterable del que procede. Esto sucede porque el objeto iterador utiliza los elementos del objeto iterable:

In [6]:
l = [1,2]
it = iter(l)
print(next(it))
print(next(it))
l.insert(0,0)
print(next(it))
l.append(3)
print(next(it))

1
2
2
3


Ahora bien, una vez que se ha agotado el iterador (habi√©ndose desencadenado `StopIteration`), su estado es irreversible. En cualquier caso, no es prudente modificar un iterable mientras se utiliza un iterador creado a partir de √©l.

Por otra parte, no hay problema en utilizar simult√°neamente varios iteradores creados a partir del mismo iterable:

In [7]:
l = [1,2,3,4]
it1, it2 = iter(l), iter(l)
print('it1',next(it1))
print('it1',next(it1))
print('it2',next(it2))
print('it1',next(it1))
print('it2',next(it2))
print('it2',next(it2))
print('it1',next(it1))
print('it2',next(it2))

it1 1
it1 2
it2 1
it1 3
it2 2
it2 3
it1 4
it2 4


Tambi√©n podemos comprobar que *el m√©todo `__iter__` de un iterador retorna el mismo iterador*, lo que permite emplear un iterador all√≠ donde se pueda utilizar un iterable:

In [8]:
print(id(it))
print(id(iter(it)))

140384570238432
140384570238432


### Iteradores sobre diccionarios.

Como ya sabemos, los objetos de clase `dict` cuentan con los m√©todos `keys`, `values` e `items`, los cuales retornan sendas *vistas* (*views*) sobre las claves, los valores y tuplas clave-valor, respectivamente. Dichas *vistas* son objetos iterables, y como su nombre indica funcionan como ‚Äúventanas‚Äù, por lo que no consumen memoria adicional. Por tanto, podemos iterar sobre un diccionario de forma muy sencilla:

In [9]:
d = {'a': 1, 'b': 2, 'c': 3}

for k in d.keys():
    print(k)
for v in d.values():
    print(v)
for i in d.items():
    print(i)

a
b
c
1
2
3
('a', 1)
('b', 2)
('c', 3)


Sucede, no obstante, que los objetos `dict` son en s√≠ mismos iterables:

In [10]:
it = iter(d)
print(next(it))
print(next(it))
print(next(it))

a
b
c


Como podemos ver, el m√©todo `__next__` de un iterador no est√° obligado a producir elementos del iterable: puede dise√±arse para que retorne lo que se considere m√°s apropiado. As√≠, los iteradores sobre diccionarios producen sus claves (desde Python 3.7, el orden de las claves de un diccionario es el de su inserci√≥n). De modo que si simplemente deseamos iterar sobre las claves de un diccionario, podemos prescindir del m√©todo `keys`:

In [11]:
for k in d:
    print(k)

a
b
c


### Otros objetos iterables.

No s√≥lo los objetos de las clases contenedoras son iterables; existen muchos tipos de objetos que tambi√©n poseen el m√©todo `__iter__`. Por ejemplo, la funci√≥n `range` crea y retorna un objeto iterable de clase `range` que, en realidad, no contiene una estructura de datos como una lista o tupla con todos los elementos del rango, sino *la forma de producir esos elementos*. L√≥gicamente, un iterador creado a partir de un objeto `range` produce secuencialmente cada elemento del rango cuando se invoca su m√©todo `__next__`.

In [12]:
r = range(10)
it = iter(r)
print('r:', r)
print('iter(r):', it)
print(next(it), next(it), next(it))

r: range(0, 10)
iter(r): <range_iterator object at 0x7fadd470e960>
0 1 2


Tambi√©n existen funciones que crean *directamente* objetos iteradores que, por tanto, no proceden de un iterable. Por ejemplo, la funci√≥n `zip` sirve para emparejar (o ‚Äún-tuplar‚Äù, en realidad) los elementos de dos o m√°s secuencias‚Ä¶ o iterables. Pues bien, esta funci√≥n *retorna directamente un iterador*; obs√©rvese a continuaci√≥n que no es necesario utilizar el m√©todo `__iter__` para crear un iterador a partir del objeto que retorna `zip`:

In [13]:
z = zip([1,2,3],[4,5,6])
print(next(z), next(z), next(z))

(1, 4) (2, 5) (3, 6)


Recu√©rdese que se puede utilizar un iterador all√≠ donde se pueda emplear un iterable, por lo que podemos utilizar `zip` en un `for`:

In [14]:
for t in zip(range(0,5),range(1,6),range(2,7)):
    print(t)

(0, 1, 2)
(1, 2, 3)
(2, 3, 4)
(3, 4, 5)
(4, 5, 6)


Obs√©rvese que, de forma similar a `range`, el iterador construido por la funci√≥n `zip` no contiene todos los elementos, sino la forma de producirlos. En este √∫ltimo ejemplo en el que se le pasan como argumentos tres objetos `range`, el uso de memoria es m√≠nimo, ya que ni los objetos `range` (ni los iteradores sobre ellos), ni el objeto `zip` contienen elemento alguno (enteros o tuplas), sino solamente el c√≥digo necesario para producirlos en el momento en que se invoque el m√©todo `__next__`. En consecuencia, podemos afirmar que **el uso de iteradores resulta extremadamente eficiente en cuanto a consumo de memoria**.


## Definici√≥n de iteradores.

Como ya hemos visto, un iterador b√°sicamente genera una sucesi√≥n de elementos, produciendo y retornando un nuevo elemento al invocar su m√©todo `__next__`; si no hay m√°s elementos, desencadena la excepci√≥n `StopIteration`. Tambi√©n posee un m√©todo `__iter__` que simplemente retorna el mismo objeto iterador.

Nada nos impide crear nuestros propios iteradores, definiendo una clase cuyas instancias cumplan con los requisitos mencionados. Como ejemplo, a continuaci√≥n se muestra la definici√≥n de la clase `Fiboserie`. Un iterador de clase `Fiboserie` genera una secuencia correspondiente a la serie de Fibonacci. Al constructor de esta clase se le pasa como argumento de elementos deseados.

In [15]:
class Fiboserie():
    def __init__(self, nterms):
        self._nterms = nterms
        self._n = 0
        self._a, self._b = 0, 1
    def __next__(self):
        if self._n == self._nterms:
            raise StopIteration
        else:
            self._n += 1
            self._a, self._b = self._b, self._a + self._b
            return self._a
    def __iter__(self):
        return self

Como es habitual, el m√©todo `__init__` inicializa cada instancia que se crea de `Fiboserie`. Posee un par√°metro `nterms` que, obviamente, se utiliza para especificar el n√∫mero m√°ximo de t√©rminos de la serie de Fibonacci que se han de generar. El valor de este par√°metro se guarda en una variable privada de la instancia denominada  `_nterms`. Tambi√©n se definen las variables privadas `_n` (que lleva la cuenta del n√∫mero de t√©rminos ya generados), as√≠ como `_a` y `_b` donde se mantienen los dos √∫ltimos t√©rminos calculados de la serie.

> La convenci√≥n en Python es que los nombres de los atributos ‚Äú*privados*‚Äù de una clase comiencen con un gui√≥n bajo (`_`), como forma de indicar que no est√° previsto que se acceda externamente a esos atributos (en realidad, nada lo impide). Si el nombre de un atributo comienza con dos guiones bajos (`__`) Python lo altera para que no entre en conflicto con atributos de posibles subclases.

El m√©todo `__next__` comienza por comprobar si ya se ha generado el n√∫mero m√°ximo de t√©rminos de la serie, en cuyo caso desencadena `StopIteration`. Si no es as√≠, incrementa `_n` y avanza `_a` y `_b` a los siguientes t√©rminos respectivos. Finalmente, retorna `_a`.

El m√©todo `__iter__` se limita a que esa instancia del iterador se retorne a s√≠ misma.

N√≥tese que las variables `_nterms`, `_n`, `_a` y `_b` son propias de cada instancia de `Fiboserie`, por lo que no hay problema alguno en que existan simult√°neamente varios iteradores `Fiboserie`, dado que no hay interferencias mutuas en su funcionamiento. Veamos unos ejemplos de uso:

In [16]:
for n in Fiboserie(10):
    print(n)

1
1
2
3
5
8
13
21
34
55


In [17]:
l = list(Fiboserie(20))
print('l =', l)

l = [1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 4181, 6765]


El cociente entre un t√©rmino de la serie de Fibonacci y el anterior tiene como l√≠mite la *raz√≥n a√∫rea* (ùúë). Supongamos que queremos (por puro masoquismo) calcular ùúë de ese modo, en lugar utilizar directamente la f√≥rmula ùúë=(1+‚àö5)/2. La cuesti√≥n es c√≥mo conseguir *s√≥lo* los dos √∫ltimos t√©rminos generados por `Fibogen(50)` (con 50 t√©rminos ya se consigue muy buena precisi√≥n) sin almacenarlos previamente en una lista u otra estructura, ya que eso consumir√≠a memoria sin necesidad.

In [18]:
# C√°lculo directo con la conocida f√≥rmula:
print('Usando f√≥rmula: ùúë =', (1+5**0.5)/2)

# Consume memoria para la lista:
a,b = list(Fiboserie(50))[-2:]
print('Usando lista: ùúë =',b/a)

# Consume memoria, pero queda elegante:
*borrame,a,b = Fiboserie(50); del borrame
print('Usando empaquetamiento: ùúë =',b/a)

# Hay muchas m√°s formas que de una manera u otra
#  almacenan los t√©rminos que no necesitamos...

# Pero as√≠ no se consume m√°s memoria de la necesaria:
fibo_it = Fiboserie(50)
for a in fibo_it:
    b = next(fibo_it)
print('Usando for con ‚Äònext‚Äô extra: ùúë =', b/a)

Usando f√≥rmula: ùúë = 1.618033988749895
Usando lista: ùúë = 1.618033988749895
Usando empaquetamiento: ùúë = 1.618033988749895
Usando for con ‚Äònext‚Äô extra: ùúë = 1.618033988749895


N√≥tese que el *truco* del √∫ltimo m√©todo s√≥lo funciona con un n√∫mero par de t√©rminos. Si fuese impar, el `next` dentro del ciclo desencadenar√≠a `StopIteration` justo al final. Podr√≠amos capturar la excepci√≥n, eso s√≠, pero nos quedar√≠a en `a` el √∫ltimo t√©rmino y en `b` el pen√∫ltimo, por lo que habr√≠a que hacer `a/b`.


## Generadores.

Los generadores son una herramienta que posibilita crear iteradores de forma sencilla y flexible. En su forma m√°s general, se parecen a funciones convencionales, salvo que utilizan la sentencia `yield` para retornar datos. La diferencia entre las sentencias `yield` y `return` es que la primera hace que el generador conserve su estado, de forma que la pr√≥xima vez que se invoca `__next__` contin√∫a en el punto en que se qued√≥ tras ejecutarse `yield`, recordando tambi√©n todas sus variables locales.

Veamos un ejemplo de generador que funciona de manera similar al iterador `Fiboserie`:

In [19]:
def Fibogen(nterms):
    n = 0
    a,b = 0,1
    
    while n < nterms:
        n += 1
        a,b = b,a+b
        yield a

Como podemos comprobar, la definici√≥n de un generador resulta simple y compacta, ya que los m√©todos `__next__` e `__iter__` se crean autom√°ticamente, y la excepci√≥n `StopIteration` se desencadena al alcanzarse el final de su ‚Äúfunci√≥n‚Äù. Por supuesto, el generador `Fibogen` funciona y se utiliza exactamente igual que el iterador `Fiboserie`:

In [20]:
for n in Fibogen(10):
    print(n)

1
1
2
3
5
8
13
21
34
55


### Expresiones generadoras.

Algunos generadores sencillos se pueden escribir de manera a√∫n m√°s compacta en forma de *expresiones generadoras*. Su sintaxis es pr√°cticamente id√©ntica a la de las *list comprehensions*, pero utilizando par√©ntesis en lugar de corchetes. (Los par√©ntesis no son necesarios si la expresi√≥n generadora es el √∫nico argumento de una funci√≥n.)

Las expresiones generadoras se pueden utilizar en lugar de *list comprehensions* cuando no necesitamos crear una lista como tal, sino tan s√≥lo iterar sobre sus elementos. Por ejemplo, comp√°rese

In [21]:
s1 = sum(n*n for n in range(10))
s2 = sum([n*n for n in range(10)])

El efecto es exactamente el mismo, ya que la funci√≥n `sum` espera realmente un *iterable* como argumento. La diferencia es que con la expresi√≥n generadora no se construye lista alguna, por lo que resulta m√°s eficiente en tiempo y en uso de memoria.

En el siguiente ejemplo se calcula un producto escalar de dos vectores (listas) sin necesidad de construir ninguna lista adicional:

In [22]:
vec1 = [10, 20, 30, 40, 50]
vec2 = [2, 3, 5, 7, 11]
print(sum(x*y for x,y in zip(vec1,vec2)))

1060


La funci√≥n `sum` utiliza el generador que se le ha pasado como argumento para ir obteniendo los sumandos uno por uno, que va acumulando en el sumatorio. A su vez, cada vez que se le demanda un nuevo elemento desde la funci√≥n, el generador obtiene del iterador creado por `zip` una nueva tupla, de la cual extrae y multiplica sus dos componentes; y a su vez, el iterador del `zip` obtiene un par de elementos de ambos vectores y forma con ellos una tupla a medida que se le va demandando por parte del generador. √âste es un proceso muy eficiente en t√©rminos de uso de memoria, y tambi√©n temporales.

Quiz√° se vea esto m√°s claramente, y se aprecie mejor la potencia y facilidad de uso de los iteradores, generadores y expresiones generadoras si descomponemos la expresi√≥n anterior del producto escalar de la siguiente forma (`mi_sum` y `mi_zip` son simplificaciones de las funciones `sum` y `zip`):

In [23]:
def mi_sum(iterable):
    suma = 0
    for item in iterable:
        suma += item
    return suma
    
def prod_elems(v1,v2):
    for x,y in mi_zip(v1,v2):
        yield x*y
    
def mi_zip(iterable1, iterable2):
    it1 = iter(iterable1)
    it2 = iter(iterable2)
    while True:
        try:
            yield next(it1), next(it2)
        except StopIteration:
            break

print(mi_sum(prod_elems(vec1,vec2)))

1060


## El m√≥dulo `itertools`.

La biblioteca est√°ndar de Python cuenta con un m√≥dulo llamado `itertools`, el cual ofrece un conjunto de iteradores que, en conjunto, forman un ‚Äú√°lgebra de iteradores‚Äú con los que se pueden realizar construcciones compactas y extremadamente potentes; m√°s a√∫n si se combinan con el m√≥dulo `operator` de la biblioteca est√°ndar.

No vamos a tratar aqu√≠ el contenido y uso del m√≥dulo `itertools`, pero recomendamos [la lectura de su documentaci√≥n](https://docs.python.org/3/library/itertools.html), que adem√°s incluye diversos ejemplos de uso.