# List comprehensions

Esta herramienta __con nombre de difícil traducción__ ofrece un método conciso para la creación de listas. Frecuentemente nos encontramos con que una lista se forma al aplicar ciertas operaciones a los elementos de otra secuencia de valores. Por ejemplo, si quisiéramos crear una lista con los cuadrados de los números entre 1 y 5, podríamos hacerlo con el siguiente bucle for:

In [1]:
lista = []
for x in range(1,6):
    lista.append(x**2)
print(f'Lista: {lista}')

Lista: [1, 4, 9, 16, 25]


Básicamente, lo que estamos haciendo es recorrer la lista [1, 2, 3, 4, 5] y crear los elementos de la nueva lista "lista" elevando al cuadrado cada valor recorrido. Pues bien, las "list comprehensions" nos permiten hacer esto mismo de una forma más sucinta:

In [2]:
lista = [ x**2 for x in[1,2,3,4,5] ]
print(f'Lista: {lista}')

Lista: [1, 4, 9, 16, 25]


O, un poco más simplificado:

In [3]:
lista = [x**2 for x in range(1,6)]
rr = 10
tt = "kdghdkg"
cadena = f'Lista: {lista} variable rr: {rr:20} variable tt: {tt.upper()}'
print(cadena)

Lista: [1, 4, 9, 16, 25] variable rr:                   10 variable tt: KDGHDKG


La estructura de una "list comprehension" es la siguiente: entre corchetes situamos una expresión (que es la que va a generar los valores de la lista) seguida de una sentencia for que definirá los datos de partida.

Este es un modo extremadamente útil y rápido de generar listas y conjuntos.

# Condiciones

Es posible añadir también una condición para escoger los datos de partida añadiendo una sentencia if después de la sentencia for. Por ejemplo, supongamos que partimos de la lista de números entre 0 y 10 y queremos calcular el cuadrado de los números pares (y añadirlos a la lista de salida). Podríamos hacerlo del siguiente modo:

In [4]:
lista = [     n ** 2 for n in range(11) if n % 2 == 0            ]
print(f'Lista: {lista}')

print( [n ** 2 for n in range(11) if n % 2 == 0])

Lista: [0, 4, 16, 36, 64, 100]
[0, 4, 16, 36, 64, 100]


Si quisiéramos leer esto sería algo como "genera una lista con el cuadrado de los números, perteneciendo estos números al rango 0-10 (ambos incluidos) pero solo si n es par".

Otra opción es considerar todos los valores de partida pero aplicar transformaciones diferentes a éstos en función de algún criterio. Por ejemplo, supongamos que partimos de una lista de valores positivos y negativos:

In [5]:
lista1 = [2, -1, -4, 1, 5, -6]

...y que queremos transformarla dejando los valores positivos como están, y los negativos sustituidos por ceros. Podríamos hacerlo de la siguiente forma:

In [6]:
lista3 = []

for n in lista1:
    if n > 0:
        lista3.append(n)
    else:
        lista3.append(0)



lista2 = [n     if n > 0 else 0      for n in lista1]
#lista2 = [n      for n in lista1   if n > 0  ]  NO

print(f'Lista1: {lista1}')
print(f'Lista2: {lista2}')
print(f'Lista3: {lista3}')



Lista1: [2, -1, -4, 1, 5, -6]
Lista2: [2, 0, 0, 1, 5, 0]
Lista3: [2, 0, 0, 1, 5, 0]


Como vemos, ahora estamos dejando pasar todos los valores de la "lista1" hasta nuestra función (a la que llegan con el nombre "n"), pero ésta aplica una transformación u otra en función de que el valor en cuestión cumpla una cierta condición que, en este caso, es que supere el valor cero:

# Anidación con condiciones

In [7]:
ciudades = ["Madrid", "Barcelona", "Milán", "Santander"]
anios = [2017, 2018, 2019, 2020,2022,2024]

Si quisiéramos crear una lista de tuplas formadas por las combinaciones de ciudades que empiezan por la letra "M" y los años pares, podríamos hacerlo de la siguiente forma:

In [8]:
lista1 = []
for c in ciudades:
    for y in anios:
        if c.startswith("M"):
            if y%2 == 0:
                lista1.append((c,y))


lista2 = [(c, y) for c in ciudades for y in anios if c.startswith("M") if y % 2 == 0]

print(f'ciudades: {ciudades}')
print(f'anios: {anios}')
print(f'Lista: {lista1}')
print(f'Lista: {lista2}')

ciudades: ['Madrid', 'Barcelona', 'Milán', 'Santander']
anios: [2017, 2018, 2019, 2020, 2022, 2024]
Lista: [('Madrid', 2018), ('Madrid', 2020), ('Madrid', 2022), ('Madrid', 2024), ('Milán', 2018), ('Milán', 2020), ('Milán', 2022), ('Milán', 2024)]
Lista: [('Madrid', 2018), ('Madrid', 2020), ('Madrid', 2022), ('Madrid', 2024), ('Milán', 2018), ('Milán', 2020), ('Milán', 2022), ('Milán', 2024)]


Tal y como vemos, las condiciones se suceden una tras otra sin añadir ningún operador lógico entre ellas.

También podríamos haber combinado ambas condiciones en una sola:

In [9]:
lista1 = []
for c in ciudades:
    for y in anios:
        if c.startswith("M") and y%2 == 0:
            lista1.append((c,y))

lista2 = [(c, y) for c in ciudades for y in anios if c.startswith("M") and y % 2 == 0]
print(f'ciudades: {ciudades}')
print(f'anios: {anios}')
print(f'Lista: {lista1}')
print(f'Lista: {lista2}')

ciudades: ['Madrid', 'Barcelona', 'Milán', 'Santander']
anios: [2017, 2018, 2019, 2020, 2022, 2024]
Lista: [('Madrid', 2018), ('Madrid', 2020), ('Madrid', 2022), ('Madrid', 2024), ('Milán', 2018), ('Milán', 2020), ('Milán', 2022), ('Milán', 2024)]
Lista: [('Madrid', 2018), ('Madrid', 2020), ('Madrid', 2022), ('Madrid', 2024), ('Milán', 2018), ('Milán', 2020), ('Milán', 2022), ('Milán', 2024)]


Las condiciones pueden "moverse" por la expresión siempre que hagan mención a una variable que ya haya sido declarada (si leemos la expresión de izquierda a derecha):

In [10]:
lista = [(c, y) for c in ciudades if c.startswith("M") for y in anios if y % 2 == 0]
print(f'Lista: {lista}')

Lista: [('Madrid', 2018), ('Madrid', 2020), ('Madrid', 2022), ('Madrid', 2024), ('Milán', 2018), ('Milán', 2020), ('Milán', 2022), ('Milán', 2024)]


En el anterior ejemplo obtendríamos un error si intercambiásemos las dos condiciones:

In [11]:
try:
    [(c, y) for c in ciudades if y % 2 == 0 for y in anios if c.startswith("M")]
except:
    print("Error")

Error


..pues la condición "if y % 2 == 0" se estaría ejecutando antes de declarar la variable "y".

# Rendimiento de la anidación con bucles

En todo caso, aun cuando desde un punto de vista conceptual sea posible "mover" las condiciones (respetando siempre la regla de que la variable deba ser declarada antes que la condición) el rendimiento del código no es siempre el mismo.

Por ejemplo, partamos de las siguientes dos listas de diez mil valores aleatorios 0 o 1:

In [12]:
import random

lista1 = random.choices([0, 1], k = 10000)
lista2 = random.choices([0, 1], k = 10000)

***
### %%time es un comando mágico. Es parte de IPython.

%%time imprime el tiempo de la pared para toda la celda, 

In [13]:
%%time
for x in range(100000):
    pass

CPU times: total: 0 ns
Wall time: 2.46 ms


***

**Supongamos que queremos recorrerlas de forma anidada extrayendo las parejas de unos. Es decir, queremos replicar el comportamiento del siguiente código:**

In [14]:
%%time
lista3 = []
for x in lista1:
    for y in lista2:
        if (x == 1) and (y == 1):
            lista3.append((x, y))

CPU times: total: 1.52 s
Wall time: 7 s


In [15]:
print(f"Largo de lista3: {len(lista3)} ")

Largo de lista3: 24740315 


Comprobamos que el resultado está formado por casi 25 millones de tuplas.

Ahora creamos nuestra primera versión de la list comprehension:

In [16]:
%%time
lista3 = [(x, y) for x in lista1 for y in lista2 if x == 1 if y == 1]

CPU times: total: 1.36 s
Wall time: 5.44 s


In [17]:
print(f"Largo de lista3: {len(lista3)} ")

Largo de lista3: 24740315 


Tal y como está escrita (y tal y como se ha escrito el bucle for inicial) se recorren todos los valores de la lista "lista1", para cada uno de ellos se recorren todos los valores de la lista "lista2" y solo al final se aplican las condiciones.

Pero podríamos mejorarlo de la siguiente forma:

In [18]:
%%time
lista3 = []
for x in lista1:
    if x == 1:
        for y in lista2:
            if y == 1:
                lista3.append((x,y))

CPU times: total: 1.08 s
Wall time: 4.9 s


In [20]:
%%time
c = [(x, y) for x in a if x == 1 for y in b if y == 1]

NameError: name 'a' is not defined

In [21]:
print(f"Largo de c: {len(c)} ")

Largo de c: 9 


Ahora, recorremos la lista "lista1" y solo cuando toma el valor 1, recorremos la lista "lista2".

De hecho, podríamos preguntarnos si mejoraría el rendimiento de la primera versión de nuestra list comprehension con el siguiente código:

In [22]:
%%time
lista3 = [(x, y) for x in lista1 for y in lista2 if (x == 1) and (y == 1)]

CPU times: total: 1.3 s
Wall time: 5.01 s


...pero comprobamos que no es así. En realidad, en ambas versiones estamos permitiendo a Python que termine la comprobación de las condiciones en cuanto la primera no se cumpla, de forma que habría que buscar en el código fuente la diferencia de rendimiento entre ambos enfoques.

# Anidación de bucles

De hecho, podríamos incluir varias sentencias for y varias sentencias if en la "list comprehension". Por ejemplo:

In [23]:
%%time
ciudades = ["Madrid", "Barcelona", "Milán", "Santander"]
anios = [2017, 2018, 2019, 2020]

lista = [(c, y) for c in ciudades for y in anios]
print(f'Lista: {lista}')

Lista: [('Madrid', 2017), ('Madrid', 2018), ('Madrid', 2019), ('Madrid', 2020), ('Barcelona', 2017), ('Barcelona', 2018), ('Barcelona', 2019), ('Barcelona', 2020), ('Milán', 2017), ('Milán', 2018), ('Milán', 2019), ('Milán', 2020), ('Santander', 2017), ('Santander', 2018), ('Santander', 2019), ('Santander', 2020)]
CPU times: total: 0 ns
Wall time: 0 ns


Comprobamos que el resultado es equivalente al devuelto por el siguiente código:

In [24]:
%%time
ciudades = ["Madrid", "Barcelona", "Milán", "Santander"]
anios = [2017, 2018, 2019, 2020]

lista = []
for c in ciudades:
    for y in anios:
        lista.append((c, y))
print(f'Lista: {lista}')

Lista: [('Madrid', 2017), ('Madrid', 2018), ('Madrid', 2019), ('Madrid', 2020), ('Barcelona', 2017), ('Barcelona', 2018), ('Barcelona', 2019), ('Barcelona', 2020), ('Milán', 2017), ('Milán', 2018), ('Milán', 2019), ('Milán', 2020), ('Santander', 2017), ('Santander', 2018), ('Santander', 2019), ('Santander', 2020)]
CPU times: total: 0 ns
Wall time: 0 ns


Por supuesto, podríamos anidar tantos bucles como quisiéramos:

In [25]:
%%time
lista = []
for a in  ["a1", "a2"]:
    for b in ["b1", "b2"]:
        for c in ["c1", "c2"]:
            for d in ["d1", "d2"]:
                lista.append((a,b,c,d))
print(f'Lista: {lista}')    

Lista: [('a1', 'b1', 'c1', 'd1'), ('a1', 'b1', 'c1', 'd2'), ('a1', 'b1', 'c2', 'd1'), ('a1', 'b1', 'c2', 'd2'), ('a1', 'b2', 'c1', 'd1'), ('a1', 'b2', 'c1', 'd2'), ('a1', 'b2', 'c2', 'd1'), ('a1', 'b2', 'c2', 'd2'), ('a2', 'b1', 'c1', 'd1'), ('a2', 'b1', 'c1', 'd2'), ('a2', 'b1', 'c2', 'd1'), ('a2', 'b1', 'c2', 'd2'), ('a2', 'b2', 'c1', 'd1'), ('a2', 'b2', 'c1', 'd2'), ('a2', 'b2', 'c2', 'd1'), ('a2', 'b2', 'c2', 'd2')]
CPU times: total: 0 ns
Wall time: 0 ns


In [26]:
%%time
lista = [(a, b, c, d) for a in ["a1", "a2"] for b in ["b1", "b2"] for c in ["c1", "c2"] for d in ["d1", "d2"]]
print(f'Lista: {lista}')

Lista: [('a1', 'b1', 'c1', 'd1'), ('a1', 'b1', 'c1', 'd2'), ('a1', 'b1', 'c2', 'd1'), ('a1', 'b1', 'c2', 'd2'), ('a1', 'b2', 'c1', 'd1'), ('a1', 'b2', 'c1', 'd2'), ('a1', 'b2', 'c2', 'd1'), ('a1', 'b2', 'c2', 'd2'), ('a2', 'b1', 'c1', 'd1'), ('a2', 'b1', 'c1', 'd2'), ('a2', 'b1', 'c2', 'd1'), ('a2', 'b1', 'c2', 'd2'), ('a2', 'b2', 'c1', 'd1'), ('a2', 'b2', 'c1', 'd2'), ('a2', 'b2', 'c2', 'd1'), ('a2', 'b2', 'c2', 'd2')]
CPU times: total: 0 ns
Wall time: 0 ns


En estos casos resulta imprescindible especificar la estructura que van a tener los bloques generados. En los ejemplos anteriores se trata de tuplas, pero podría ser otro tipo de estructura:

In [27]:
lista = [[c, y] for c in ciudades for y in anios]
print(f'Lista: {lista}')

Lista: [['Madrid', 2017], ['Madrid', 2018], ['Madrid', 2019], ['Madrid', 2020], ['Barcelona', 2017], ['Barcelona', 2018], ['Barcelona', 2019], ['Barcelona', 2020], ['Milán', 2017], ['Milán', 2018], ['Milán', 2019], ['Milán', 2020], ['Santander', 2017], ['Santander', 2018], ['Santander', 2019], ['Santander', 2020]]


No se permite en ningún caso algo como lo siguiente:

In [28]:
try:
    print([{c:y} for c in ciudades for y in anios])
except:
    print('Error ')

[{'Madrid': 2017}, {'Madrid': 2018}, {'Madrid': 2019}, {'Madrid': 2020}, {'Barcelona': 2017}, {'Barcelona': 2018}, {'Barcelona': 2019}, {'Barcelona': 2020}, {'Milán': 2017}, {'Milán': 2018}, {'Milán': 2019}, {'Milán': 2020}, {'Santander': 2017}, {'Santander': 2018}, {'Santander': 2019}, {'Santander': 2020}]
