![Cabecera cuadernos Jupyter.png](attachment:5f695534-e58c-4207-be3c-d793db8ee1e3.png)
<a name = "inicio"></a>

<a name = "inicio"></a>

<div style="font-size: 40px;text-align: center;height:50px;padding:10px;margin:0 0 10px 0;">Comprehensions</div>

Python dispone de una estructura que nos permite crear listas, conjuntos, diccionarios y generadores a partir de otras estructuras de una forma mucho más eficiente y legible que utilizando bucles *for*. Veámosla...

# List comprehensions

Esta herramienta -con nombre de difícil traducción- ofrece un método conciso para la creación de listas. Frecuentemente nos encontramos con que una lista se forma al aplicar ciertas operaciones a los elementos de otra secuencia de valores. Por ejemplo, si quisiéramos crear una lista con los cuadrados de los números entre 1 y 5, podríamos hacerlo con el siguiente bucle for:

In [1]:
m = []
for n in [1, 2, 3, 4, 5]:
    m.append(n ** 2)

m

[1, 4, 9, 16, 25]

Básicamente, lo que estamos haciendo es recorrer la lista [1, 2, 3, 4, 5] y crear los elementos de la nueva lista *m* (inicialmente vacía) elevando al cuadrado cada valor recorrido. Pues bien, las "list comprehensions" nos permiten hacer esto mismo de una forma más sucinta:

In [2]:
m = [n ** 2 for n in [1, 2, 3, 4, 5]]
m

[1, 4, 9, 16, 25]

O, un poco más simplificado:

In [3]:
m = [n ** 2 for n in range(1, 6)]
m

[1, 4, 9, 16, 25]

La estructura de una "*list comprehension*" es la siguiente: entre corchetes situamos una expresión ("n ** 2" en nuestro ejemplo) que es la que va a generar los valores de la lista, seguida de una sentencia *for* que definirá los datos de partida.

### Condiciones

Es posible añadir también una condición para escoger los datos de partida a considerar añadiendo una sentencia *if* después de la sentencia *for*. Por ejemplo, supongamos que partimos de la lista de números entre 1 y 10 y queremos calcular el cuadrado solo de los números pares. Podríamos hacerlo del siguiente modo:

In [4]:
m = [n ** 2 for n in range(1, 11) if n % 2 == 0]
m

[4, 16, 36, 64, 100]

Si quisiéramos leer esto sería algo como "*genera una lista con el cuadrado de los números, perteneciendo estos números al rango 1-10 (ambos incluidos) pero solo si el número es par*".

### Anidación de bucles

De hecho, podríamos incluir varias sentencias *for* y varias sentencias *if* en la "*list comprehension*". Por ejemplo:

In [5]:
cities = ["Madrid", "Londres", "Ámsterdam", "Múnich"]
years = [2017, 2018, 2019, 2020]

In [6]:
[(c, y) for c in cities for y in years]

[('Madrid', 2017),
 ('Madrid', 2018),
 ('Madrid', 2019),
 ('Madrid', 2020),
 ('Londres', 2017),
 ('Londres', 2018),
 ('Londres', 2019),
 ('Londres', 2020),
 ('Ámsterdam', 2017),
 ('Ámsterdam', 2018),
 ('Ámsterdam', 2019),
 ('Ámsterdam', 2020),
 ('Múnich', 2017),
 ('Múnich', 2018),
 ('Múnich', 2019),
 ('Múnich', 2020)]

Comprobamos que el resultado es equivalente al devuelto por el siguiente código:

In [7]:
a = []
for c in cities:
    for y in years:
        a.append((c, y))
a

[('Madrid', 2017),
 ('Madrid', 2018),
 ('Madrid', 2019),
 ('Madrid', 2020),
 ('Londres', 2017),
 ('Londres', 2018),
 ('Londres', 2019),
 ('Londres', 2020),
 ('Ámsterdam', 2017),
 ('Ámsterdam', 2018),
 ('Ámsterdam', 2019),
 ('Ámsterdam', 2020),
 ('Múnich', 2017),
 ('Múnich', 2018),
 ('Múnich', 2019),
 ('Múnich', 2020)]

Por supuesto, podríamos anidar tantos bucles como quisiéramos:

In [8]:
[(a, b, c, d) for a in ["a1", "a2"] for b in ["b1", "b2"] for c in ["c1", "c2"] for d in ["d1", "d2"]]

[('a1', 'b1', 'c1', 'd1'),
 ('a1', 'b1', 'c1', 'd2'),
 ('a1', 'b1', 'c2', 'd1'),
 ('a1', 'b1', 'c2', 'd2'),
 ('a1', 'b2', 'c1', 'd1'),
 ('a1', 'b2', 'c1', 'd2'),
 ('a1', 'b2', 'c2', 'd1'),
 ('a1', 'b2', 'c2', 'd2'),
 ('a2', 'b1', 'c1', 'd1'),
 ('a2', 'b1', 'c1', 'd2'),
 ('a2', 'b1', 'c2', 'd1'),
 ('a2', 'b1', 'c2', 'd2'),
 ('a2', 'b2', 'c1', 'd1'),
 ('a2', 'b2', 'c1', 'd2'),
 ('a2', 'b2', 'c2', 'd1'),
 ('a2', 'b2', 'c2', 'd2')]

En estos casos resulta imprescindible especificar la estructura que van a tener los datos generados. En los ejemplos anteriores estamos generando una lista de tuplas (obsérvese los paréntesis: [(a, b, c, d) for...), pero podría ser otro tipo de estructura. En el siguiente ejemplo generamos una lista de listas:

In [9]:
[[c, y] for c in cities for y in years]

[['Madrid', 2017],
 ['Madrid', 2018],
 ['Madrid', 2019],
 ['Madrid', 2020],
 ['Londres', 2017],
 ['Londres', 2018],
 ['Londres', 2019],
 ['Londres', 2020],
 ['Ámsterdam', 2017],
 ['Ámsterdam', 2018],
 ['Ámsterdam', 2019],
 ['Ámsterdam', 2020],
 ['Múnich', 2017],
 ['Múnich', 2018],
 ['Múnich', 2019],
 ['Múnich', 2020]]

No se permite en ningún caso algo como lo siguiente:

In [10]:
# [c, y for c in cities for y in years]

### Anidación con condiciones

Cuando anidamos varios bucles, sigue siendo posible aplicar condiciones a todos ellos. Por ejemplo, seguimos con el mismo ejemplo que acabamos de ver:

In [11]:
cities = ["Madrid", "Londres", "Ámsterdam", "Múnich"]
years = [2017, 2018, 2019, 2020]

Si quisiéramos crear una lista de tuplas formadas por las combinaciones de ciudades que empiezan por la letra "M" y los años pares, podríamos hacerlo de la siguiente forma:

In [12]:
[(c, y) for c in cities for y in years if c.startswith("M") if y % 2 == 0]

[('Madrid', 2018), ('Madrid', 2020), ('Múnich', 2018), ('Múnich', 2020)]

Tal y como vemos, las condiciones se suceden una tras otra sin añadir ningún operador lógico entre ellas.

También podríamos haber combinado ambas condiciones en una sola:

In [13]:
[(c, y) for c in cities for y in years if (c.startswith("M")) and (y % 2 == 0)]

[('Madrid', 2018), ('Madrid', 2020), ('Múnich', 2018), ('Múnich', 2020)]

Las condiciones pueden "moverse" por la expresión siempre que hagan mención a una variable que ya haya sido declarada (si leemos la expresión de izquierda a derecha):

In [14]:
[(c, y) for c in cities if c.startswith("M") for y in years if y % 2 == 0]

[('Madrid', 2018), ('Madrid', 2020), ('Múnich', 2018), ('Múnich', 2020)]

En el anterior ejemplo obtendríamos un error si intercambiásemos las dos condiciones:

In [15]:
try:
    [(c, y) for c in cities if y % 2 == 0 for y in years if c.startswith("M")]
except:
    print("Error")

Error


...pues la condición "if y % 2 == 0" se estaría ejecutando antes de declarar la variable "y".

### Rendimiento de la anidación con bucles

En todo caso, aun cuando desde un punto de vista conceptual sea posible "mover" las condiciones (respetando siempre la regla de que la variable deba ser declarada antes que la condición) el rendimiento del código no es siempre el mismo.

Por ejemplo, partamos de las siguientes dos listas de diez mil valores aleatorios 0 o 1:

In [16]:
import random

In [17]:
a = random.choices([0, 1], k = 10000)
b = random.choices([0, 1], k = 10000)

Supongamos que queremos recorrerlas de forma anidada extrayendo las parejas de unos. Es decir, queremos replicar el comportamiento del siguiente código:

In [18]:
%%time
m = []
for x in a:
    for y in b:
        if (x == 1) & (y == 1):
            m.append((x, y))

CPU times: total: 13 s
Wall time: 13 s


In [19]:
print(f"{len(m):,d}")

25,148,929


Comprobamos que el resultado está formado por unos 25 millones de tuplas.

Ahora creamos nuestra primera versión de la list comprehension:

In [20]:
%%time
c = [(x, y) for x in a for y in b if x == 1 if y == 1]

CPU times: total: 4.08 s
Wall time: 4.12 s


Tal y como está escrita (y tal y como se ha escrito el bucle *for* inicial) se recorren todos los valores de la lista "a", para cada uno de ellos se recorren todos los valores de la lista "b" y solo al final se aplican las condiciones.

Pero podríamos mejorarlo de la siguiente forma:

In [21]:
%%time
c = [(x, y) for x in a if x == 1 for y in b if y == 1]

CPU times: total: 3.14 s
Wall time: 3.13 s


Ahora, recorremos la lista "a" y solo cuando toma el valor 1, recorremos la lista "b".

De hecho, podríamos preguntarnos si mejoraría el rendimiento de la primera versión de nuestra list comprehension con el siguiente código:

In [22]:
%%time
c = [(x, y) for x in a for y in b if (x == 1) and (y == 1)]

CPU times: total: 4.42 s
Wall time: 4.46 s


pero comprobamos que no es así.

Comprobamos, en todo caso, que los tiempos de ejecución de la list comprehension es mucho menor que el de los bucles *for* que estamos emulando.

# Set comprehensions

También es posible generar conjuntos con el mismo enfoque:

In [23]:
{n ** 2 for n in range(11) if n % 2 == 0}

{0, 4, 16, 36, 64, 100}

Vemos que el único cambio es el uso de las llaves para delimitar la expresión.

# Dict comprehensions

Los **Dictionary comprehensions** -o **Dict comprehensions** para abreviar- son estructuras semejantes a las vistas pero, tal y como indica su nombre, generan diccionarios. Un ejemplo es el siguiente:

In [24]:
cities = ["Madrid", "Londres", "Ámsterdam", "Múnich"]

In [25]:
{c: len(c) for c in cities}

{'Madrid': 6, 'Londres': 7, 'Ámsterdam': 9, 'Múnich': 6}

Comprobamos que, en este caso, la expresión que define los datos a generar está compuesta de una clave ("c"), seguida de dos puntos (":") y, por último, el valor asociado a la clave ("len(c)").

En este ejemplo hemos hecho referencia a una única lista, pero no tiene por qué ser así:

In [26]:
cities = ["Madrid", "Londres", "Ámsterdam", "Múnich"]
years = [2017, 2018, 2019, 2020]

In [27]:
{c: y for c in cities for y in years}

{'Madrid': 2020, 'Londres': 2020, 'Ámsterdam': 2020, 'Múnich': 2020}

Obsérvese que, en este caso, también se está simulando el mismo bucle *for* anidado que ya hemos visto (aunque, en este caso, para generar parejas clave-valor):

In [28]:
d = {}
for c in cities:
    for y in years:
        d.update({c: y})
d

{'Madrid': 2020, 'Londres': 2020, 'Ámsterdam': 2020, 'Múnich': 2020}

Solo subsisten cuatro parejas clave-valor (en lugar de 16) pues ya sabemos que en un diccionario no puede haber claves repetidas, por lo que para cada valor c se recorren todos los años en la variable "y" y se va sobrescribiendo el valor que pueda existir para la clave c.

Si quisiéramos obtener un diccionario que relacionase cada par de valores de *cities* y *years*, podríamos hacerlo con la función [zip](https://docs.python.org/3/library/functions.html#zip) que ya hemos visto:

In [29]:
{c: y for c, y in zip(cities, years)}

{'Madrid': 2017, 'Londres': 2018, 'Ámsterdam': 2019, 'Múnich': 2020}

# Generator expression

Por último, también es posible crear generadores usando la misma estructura. Por ejemplo, podríamos crear un generador que devolviese los cuadrados de los primeros 10 números enteros (a partir del 0) con la siguiente expresión:

In [30]:
s = (n ** 2 for n in range(11))

Vemos que el único cambio es el uso de los paréntesis en lugar de los corchetes o las llaves. El resultado devuelto es un generador:

In [31]:
type(s)

generator

La ventaja del uso de generadores es que los valores "contenidos" en él no ocupan espacio en memoria como lo harían en una lista, conjunto o diccionario, sino que solo se generarán cuando se solicite.

Por ejemplo, podemos extraer los valores con un bucle:

In [32]:
for n in s:
    print(n)

0
1
4
9
16
25
36
49
64
81
100


O podríamos sumar dichos valores pasando el generador como argumento a la función [sum](https://docs.python.org/3/library/functions.html#sum), por poner un segundo ejemplo:

In [33]:
s = (n ** 2 for n in range(11))
sum(s)

385

<div style = "float:right"><a style="text-decoration:none" href = "#inicio">Inicio</a></div>