# Dicionarios y conjuntos

Este cuaderno presenta el tipo incorporado `dict` llamado *diccionario*. Los diccionarios son una de las mejores características de Python y son los componentes básicos de muchos algoritmos eficientes y elegantes. Al final del cuaderno veremos el tipo `set` utilizado para representar conjuntos.

## 1. Un diccionario es un mapeo

Un *diccionario* es como una lista, pero más general. En una lista, los índices deben ser números enteros no negativos; en un diccionario pueden ser de cualquier tipo inmutable.

Un diccionario contiene una colección de índices, que se denominan *claves*, y una colección de *valores*. Cada clave está asociada a un valor único. La asociación de una clave y un valor se denomina un *item*  o también  *par clave-valor*. Es decir,  cuando nos referimos a un item del diccionario estamos hablando del par clave-valor.

En lenguaje matemático, un diccionario representa una *mapeo* (una función) de claves a valores, por lo que también puede decir que cada clave se "asigna a" un valor. Como ejemplo, crearemos un diccionario que mapee de palabras en inglés a palabras en español, por lo que las claves y los valores son cadenas.

La función `dict()` crea un nuevo diccionario sin elementos. Debido a que `dict` es el nombre de una función incorporada, no se debe usar como nombre de variable.


In [None]:
ing2esp = dict() # también se puede usar ing2esp = {}
ing2esp

Los llaves, `{}`, representan un diccionario vacío. Para agregar elementos al diccionario, se puede utilizar corchetes:

In [None]:
ing2esp['one'] = 'uno'

Esta línea crea un elemento que  asigna desde la clave `'one'` el valor `'uno'`.

Si imprimimos el diccionario nuevamente, vemos un ítem con dos puntos entre la clave y el valor:

In [None]:
print(ing2esp)

El  código anterior imprime en pantalla `{'one': 'uno'}`.

Este formato de salida también es un formato de entrada. Por ejemplo, se puede crear un nuevo diccionario con tres elementos de la siguiente forma:

In [None]:
ing2esp = {'one': 'uno', 'two': 'dos', 'three': 'tres'}
print(ing2esp)

Cuando se imprime un diccionario es posible que el orden de los items no sea el mismo. En general, el orden de los items de un diccionario es impredecible.

Pero eso no es un problema, porque un diccionario no debe *nunca* considerarse una secuencia indexada por números enteros. Deben usarse las claves para buscar los valores correspondientes:

In [None]:
ing2esp['two']

Si la clave no está en el diccionario, se obtiene una excepción (un error).

La función `len` funciona en diccionarios: devuelve el número de pares clave-valor o items que contiene el diccionario:

In [None]:
len(ing2esp)

El operador `in` también funciona en diccionarios: si `diccionario` es un diccionario,  entonces
```
x in diccionario
```
es `True` si `x` es una de las claves de `diccionario`. El operador `in` solo busca en las claves, no en los valores.

In [None]:
print('one' in ing2esp)
print('uno' in ing2esp)

Para ver si algo aparece como un valor en un diccionario, podés usar el método `values`, que devuelve una colección de valores, y luego usar el operador` in`:

In [None]:
vals = ing2esp.values()
print('El tipo de \'vals\':', type(vals))
print('uno' in vals)

vals_lst = list(vals)
print('El tipo de list(vals):', type(vals_lst))
print(vals_lst)
print('uno' in vals_lst)

El operador `in` utiliza diferentes algoritmos para listas y diccionarios. Para listas, busca los elementos de la lista en orden. A medida que la lista se alarga, el tiempo de búsqueda se alarga en proporción directa.

Los diccionarios de Python usan una estructura de datos llamada *tabla hash* que tiene una propiedad notable: el operador `in` toma aproximadamente la misma cantidad de tiempo (casi nulo) sin importar cuántos elementos haya en el diccionario. Siempre recordemos que en diccionarios el `in` busca solo las claves.



Los diccionarios son similares  a las listas,  en el sentido que dada una clave (un entero en el caso de listas, un objeto inmutable en el caso de diccionarios),  devuelve un valor.

Más allá de la diferencia en las claves una diferencia fundamental es que la lista tiene un orden y los diccionarios no. Esto último facilita, entre otras cosas, el hecho que  podamos crear nuevas entradas al diccionario simplemente por asignación:
```
diccionario[nueva_clave] = valor
```
Como ya sabemos,  en listas no es posible asignar un valor a un índice que no existe, ni aunque sea el que sigue al último índice.

## 2. Recorriendo un diccionario

Si usamos en un diccionario  `for`, este recorre todas las las claves del diccionario. Por ejemplo:

In [None]:
for clave in ing2esp:
    print(clave)

imprime cada clave del diccionario. Si queremos imprimir clave y valores podemos hacer:

In [None]:
for clave in ing2esp:
    print(clave, ing2esp[clave])

Si queremos recorrer la clave y el valor correspondiente de un diccionario, podemos utilizar el método `items()`.

In [None]:
for pal_ing, pal_esp in ing2esp.items():
    print(pal_ing, pal_esp)

Otra forma de usar `items()`:

In [None]:
for item in ing2esp.items():
    print(item)

## 3.Test de igualdad

Se pueden usar los operadores `==` y `!=` para probar si dos diccionarios contienen los mismos items.

Por ejemplo:


In [None]:
d1 = {"rojo": 41, "azul": 3}
d2 = {"azul": 3, "rojo": 41}
print(d1 == d2)
print(d1 != d2)

En este ejemplo, `d1` y `d2` contienen los mismos items independientemente del orden de los items en el diccionario. Como en el caso de  listas y tuplas el operdor `==` no se fija si los diccionarios son "el mismo" (digamos, que ocupen las mismas direcciones en memoria), si no que se fija si el contenido de un diccionario (los items) es igual al del otro.  

## 4. Métodos en diccionarios

La clase o tipo Python para diccionarios es `dict`. A continuación enumeramos los métodos que se pueden invocar desde un diccionario,  es decir desde un objeto de la clase `dict`. Sea `x` un diccionario:

- `x.keys()` : devuelve la secuencia de claves de `x`.
- `x.values()` : devuelve la secuencia de valores.
- `x.items()` : devuelve una secuencia de tuplas. Cada tupla es (clave, valor) para un ítem.
- `x.clear()` : elimina todas las entradas de `x`, el diccionario pasa a ser `{}`.
- `x.get(clave)` : devuelve el valor de la clave si está en el diccionario. En caso contrario devuelve `None`.
- `x.pop(clave)` : elimina el ítem para esa clave si está y devuelve su valor. Si la clave no está se produce una excepción.
- `x.popitem()`: devuelve un par clave / valor seleccionado aleatoriamente  y elimina el elemento seleccionado. Si  el diccionario es vacío  se produce una excepción.

El método `x.get(clave)` es similar a `x[clave]` excepto que el método `get` devuelve `None` si la clave no está en el diccionario en lugar de generar una excepción.

A continuación, se muestran algunos ejemplos de uso de estos métodos:

In [None]:
estudiantes = {"111-34-3434": "Juan", "132-56-6290": "Pedro"}
print(type(estudiantes.keys()))
print('Claves:', tuple(estudiantes.keys()))
print('Valores:', tuple(estudiantes.values()))
print('Items:', tuple(estudiantes.items()))
print(estudiantes.get("111-34-3434"))
print(estudiantes.get("999-34-3434"))
print(estudiantes.pop("111-34-3434"))
print(estudiantes)
estudiantes.clear()
print(estudiantes)

En  el ejemplo anterior hemos convertido,en la 3º, 4º y 5º línea, las secuencias que devuelven algunos métodos a `tuple` .

El diccionario estudiantes se crea en la línea 1.  La línea 2 devuelve el tipo de `estudiantes.keys()`. Lo único que nos interesa ahora de este tipo es que es una secuencia que puede ser convertida a tupla con la función `tuple`.

En  la línea 3 se imprime `estudiantes.keys()` que son las claves del diccionario.

En la línea 4, `estudiantes.values()` devuelve los valores en el diccionario y `estudiantes.items()` en la línea 5 devuelve los items del diccionario como tuplas. Ambos valores se imprimen.

En la línea 6, `estudiantes.get("111-34-3434")` devuelve el nombre del estudiante para esa clave (`Juan`). En la línea 7, `estudiantes.get("999-34-3434")` devuelve `None` porque no existe la clave `"999-34-3434"` en el diccionario.

La invocación `estudiantes.pop("111-34-3434")` en la línea 8 elimina el elemento del diccionario con la clave `"111-34-3434"`. En la línea 10, la invocación de `estudiantes.clear()` elimina todos los elementos del diccionario.

## 5. Conversiones de tipos

Cuando es posible, Python permite la conversión de un tipo a otro  utilizado en nombre del tipo. Ya hemos visto varios ejemplos de esto, por ejemplo:

In [None]:
int(4.0)

funciona bien,  tambien funciona bien  

In [None]:
int(4.5)

pues la función `int` aplicada a un `float` devuelve el entero más cercano al flotante, por izquierda. Es decir,  funciona pero, en este caso, no es una conversión de tipos.  

Lo que no funciona es  algo así como:

```
int('s')
```
pues no hay forma razonable de convertir una cadena en un entero.

Ahora bien, el ejemplo anterior  es muy simple pero  podemos hacer  conversiones de todo tipo mientras sean razonables.

Por ejemplo, la función `str` se aplica a cualquier tipo de Python y devuelve una cadena que es una representación del objeto al cual se aplica `str` que los creadores de Python consideraron adecuada.  

In [None]:
str(1)

In [None]:
str([1, 3, 5])

In [None]:
str({"111-34-3434": "Juan", "132-56-6290": "Pedro"})

**Conversión de iterables**


**Definición.** Un *iterable* es cualquier objeto Python capaz de devolver sus miembros uno a la vez, lo que permite iterarlo en un bucle `for`.

Los ejemplos familiares de iterables incluyen listas, tuplas y cadenas: cualquier secuencia de este tipo se puede iterar en un bucle `for`.

Los diccionarios también son iterables  y por definición iteramos sobre sus claves. Cuando hacemos `for x  in diccionario` estamos iterando sobre sus claves,  es decir lo anterior es lo mismo que `for  x  in diccionario.keys()`.

Todo lo que sea iterable se  puede convertir a lista o tupla. En particular una lista y un diccionario se puede convertir en una tupla o una tupla o diccionario se pueden convertir en listas. También se puede convertir una cadena en lista o tupla.

In [None]:
print(tuple([1, 2, 3]))
print(list(('a', 'b', 'c')))
print(list('Hola'))
print(tuple('Hola'))
diccionario = {'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4}
print(list(diccionario))
print(tuple(diccionario))

Observar que cuando convertimos un diccionario a lista o tupla se "pierden" los valores, solo quedan las claves. Si queremos en una lista o tupla todos los items del diccionario debemos hacer algo así:



In [None]:
print(list(diccionario.items()))
print(tuple(diccionario.items()))

Por otro lado, no hay conversiones directas de listas o tuplas a diccionarios,  es decir hacer `dict(lista)`donde `lista` es una lista,  devuelve error. Si tenemos intenciones de hacer un diccionario a partir de una lista o tupla con claves de `0` a `len(list) - 1` entonces lo podemos hacer iterando sobre la lista o tupla:

In [None]:
lista = ['a', 'b', 'c', 'd', 'e']
# lista[0] = 'a', lista[1] = 'b',  lista[2] = 'c', etc.
diccionario = {}
for i in range(len(lista)):
    diccionario[i] = lista[i]
print(lista)
print(diccionario)

Debemos tener cuidado, en este caso `diccionario` es muy parecido  a `lista`,  sin embargo `diccionario` no es una secuencia ordenada y, como ya dijimos,  recorrer el diccionario con el `for` puede resultar en un orden muy distinto al de la lista original.

## 6. Conjuntos

El tipo *conjunto* es una característica del Python y no suele encontrarse en otros lenguajes de programación imperativo. A veces, las situaciones que modelamos se representan mejor como conjuntos y entonces puede ser conveniente usar este tipo.  

El tipo conjunto es `set` y tiene la siguientes características:

- los conjuntos no están ordenados,
- los elementos del conjunto son únicos. No se permiten elementos duplicados,
- un conjunto en sí mismo puede ser modificado, pero los elementos contenidos en el conjunto deben ser de un tipo inmutable,
- los conjuntos son iterables.

¿Cómo creamos un conjunto? Hay varias formas, una es directamente usando la notación de llaves usual en matemática:

In [None]:
a = {'x', 'z', 'y'}
print(type(a))
print(a)

Hay que tener un poco de cuidado. Contrariamente a lo que nuestra intución nos indica el conjunto vacío *no* es `{}` en Python. Recordemos  que la notación `{}` está reservada al diccionario vacío. El conjunto vacío se obtiene con `set()`:

In [None]:
a = set()
print(type(a), a)
b = {}
print(type(b), b)

Otra forma, muy utilizada, de crear conjuntos es a partir de una lista, tupla o cadena. En realidad se puede crear un conjunto desde cualquier iterable.


In [3]:
a = set([1, 3, 2, 2, -1, 3])
print('Conjunto a partir de la lista [1, 3, 2, 2, -1, 3]: ', a)
b = set(('a', 'b', 'v'))
print("Conjunto a partir de la tupla ('a', 'b', 'v'): ", b)
c = set('Banana')
print("Conjunto a partir de la cadena 'Banana': ", c)
d = set({'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4})
print("Conjunto a partir del diccionario {'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4}: ", d)

Conjunto a partir de la lista [1, 3, 2, 2, -1, 3]:  {1, 2, 3, -1}
Conjunto a partir de la tupla ('a', 'b', 'v'):  {'b', 'a', 'v'}
Conjunto a partir de la cadena 'Banana':  {'B', 'a', 'n'}
Conjunto a partir del diccionario {'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4}:  {'b', 'c', 'd', 'a'}


No hay que olvidar que los elementos de un conjunto deben ser inmutables. Por ejemplo, una tupla puede incluirse en un conjunto:

In [5]:
x = {42, 'foo', (1, 2, 3), 3.14159}
print(x)

{'foo', 42, (1, 2, 3), 3.14159}


Pero las listas, los diccionarios y los conjuntos mismos son mutables, por lo que no se pueden incluir este tipo de elementos en un conjunto. En  particular no se pueden hacer conjuntos de conjuntos.

In [7]:
# set([[1, 2], 3])
# set({set(), {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}}) # conjunto de subconjuntos de {1, 2, 3}
print('Descomentar algunas de las líneas de código anteriores produce error')


Descomentar algunas de las líneas de código anteriores produce error


Si queremos hacer conjuntos de conjuntos,  debemos utilitar otro tipo el `frozenset` ("conjunto congelado") que es muy parecido al tipo `set`, pero inmutable. Por ejemplo:

In [8]:
e = frozenset({1, 2})
print(e, type(e))

frozenset({1, 2}) <class 'frozenset'>


Como ejemplo,  representemos el conjunto conformado por los subconjuntos de $\{1, 2, 3\}$,  es decir
\begin{equation*}
\mathcal P(\{1, 2, 3\}) = \{\emptyset, \{1\}, \{2\}, \{3\}, \{1, 2\}, \{1,3\}, \{2, 3\} ,\{1, 2, 3\}\}.
\end{equation*}

In [9]:
set({frozenset(), frozenset({1}), frozenset({2}), frozenset({3}), frozenset({1, 2}), frozenset({1, 3}), frozenset({2, 3}), frozenset({1, 2, 3})})

{frozenset(),
 frozenset({2}),
 frozenset({2, 3}),
 frozenset({1}),
 frozenset({1, 2}),
 frozenset({3}),
 frozenset({1, 3}),
 frozenset({1, 2, 3})}

Lamentablemente, la implementación no es demasiado elegante.

**¿Por  qué es conveniente que los elementos de un conjunto sean inmutables?**

Los conjuntos utilizan una estructura de datos hash que permite búsquedas muy eficientes, incluso con conjuntos de gran tamaño. Si los elementos fueran mutables, esto afectaría negativamente el rendimiento de las operaciones de búsqueda.

Pero quizás la razón más importante es que al no permitir elementos mutables, se asegura que cada elemento en un conjunto sea único. Si  permitieramos, por ejemplo,  listas en un conjunto, podríamos hacer un conjunto del tipo

```
a, b = [1,2], [1,3]
conjunto = {a, b}
```
Ahora hacemos `b[1] = 2` y entonces vale que `a == b` sin que sean la misma lista. ¿Qué deberíamos hacer? ¿Eliminar `b` para que se mantenga la propiedad de que un elemento no pueda estar repetido? No está claro y aparentemente no hay ninguna solución satisfactoria.



**Recorriendo un conjunto.** Como ya mencionamos anteriormente, el tipo `set` es iterable y por lo tanto podemos recuperar sus elementos con un `for`:

In [10]:
a = set('hola y adios') # cada carácter pasa a ser un elemento del conjunto
print(a)
for letra in a:
    print(letra)

{'i', 'h', 'y', 'd', ' ', 'a', 's', 'o', 'l'}
i
h
y
d
 
a
s
o
l


En el código anterior el conjunto `a` es el conjunto de todas las letras que tiene la frase `'hola y adios'`.  El `for` nos permite, en este caso,  recorrer todas las letra e imprimirlas.

El operador `in` también funciona como el "pertenece" en matemática: si `x` es un objeto inmutable y `a` es un conjunto,  `x in a` devuelve `True` si el elemento `x` pertenece a `a`.

*Observación.* Podemos pensar un conjunto como un diccionario donde las claves son los elementos y los valores son `None`. Por ejemplo, el conjunto

     {'a', 'b', 'c', 'd'}

se comporta muy parecido al diccionario

    {'a' : None, 'b' : None, 'c' : None, 'd' : None}

## 7. Operadores y métodos disponibles en conjuntos

A continuación se muestra una lista de las operaciones establecidas disponibles en Python. Algunos son realizados por un operador, otros por un  método, y otros por ambos. Veamos algunos métodos y operadores:

- `x1.union(x2)` : si `x1` conjunto y `x2` iterable devuelve la unión entre `x1` y `set(x2)`.
- `x1 | x2` :  si `x1`, `x2` son conjuntos devuelve la unión entre `x1` y `x2`.
- `x1.intersection(x2)` : si `x1` conjunto y `x2` iterable devuelve la intersección entre `x1` y `set(x2)`.
- `x1 & x2` :  si `x1`, `x2` son conjuntos devuelve la intersección entre `x1` y `x2`.
- `x1.difference(x2)` : si `x1` conjunto y `x2` iterable devuelve la diferencia entre `x1` y `set(x2)`.
- `x1 - x2` :  si `x1`, `x2` son conjuntos devuelve la diferencia entre `x1` y `x2`.

Ninguno de estos métodos y operaciones modifica `x1` o `x2`.

Veamos algunos ejemplos:

In [11]:
x1, x2 = {1, 3, 5 ,7}, {2, 4, 5, 7, 8, 10}
x3 = [2, 4, 5, 5, 7, 8, 10]
print(x1.union(x3))
print(x1 | set(x3))
print(x1 | x2)
print(x1.intersection(x3))
print(x1 & x2)
print(x1.difference(x3))
print(x1 - x2)
print(x1, x2, x3)

{1, 2, 3, 4, 5, 7, 8, 10}
{1, 2, 3, 4, 5, 7, 8, 10}
{1, 2, 3, 4, 5, 7, 8, 10}
{5, 7}
{5, 7}
{1, 3}
{1, 3}
{1, 3, 5, 7} {2, 4, 5, 7, 8, 10} [2, 4, 5, 5, 7, 8, 10]


El principio general es que los métodos de conjuntos, los que usan la notación "punto" (`union`, `intersection`, `difference`),  aceptan cualquier iterable como argumento, pero los operadores (`|`, `&`, `-`) requieren conjuntos,  es decir elementos de tipo `set`, como operandos.



**Métodos y operadores que relacionan conjuntos**

Veamos algunos métodos y operadores entre conjuntos que devuelven valores booleanos. Sean `x1` y `x2` conjuntos. `x2` puede ser un iterable en el caso de los métodos:

- `x1.isdisjoint(x2)` : devuelve `True` si `x1` y `set(x2)` no tienen elementos en común.
- `x1.issubset(x2)`: devuelve `True` si `x1` es subconjunto de `set(x2)`.
- `x1 <= x2` : devuelve `True` si `x1` es subconjunto de `x2`.
- `x1 < x2` : devuelve `True` si `x1` está incluido en forma estrica en `x2`. Es decir,  es equivalente `(x1 <= x2) and (x1 != x2)`.
- `x1.issuperset(x2)`: devuelve `True` si `set(x2)` es subconjunto de `x1`.
- `x1 >= x2` : devuelve `True` si `x2` es subconjunto de `x1`.
- `x1 > x2` : devuelve `True` si `x2` está incluido en forma estrica en `x1`.

Hagamos algunos ejemplos:

In [None]:
x1, x2 = {1, 3, 5 ,7}, {2, 4, 5, 7, 8, 10}
x3, x4  = {21, 23}, {1, 3, 5 ,7, 2, 4, 5, 7, 8, 10, 21, 23}
print(x1.isdisjoint(x2))
print(x1.isdisjoint(x3))
print(x1.issubset(x2))
print(x1.issubset(x4))
print(x1 <= x2)
print(x1 <= x4)
print(x1 <= x1)
print(x1 < x1)
print(x1 < x4)

## 8. Métodos que modifican conjuntos

Aunque los elementos contenidos en un conjunto deben ser de tipo inmutable, los propios conjuntos pueden modificarse. Al igual que las operaciones anteriores, hay una combinación de operadores y métodos que se pueden utilizar para cambiar el contenido de un conjunto.

 Veamos algunos métodos y operadores que modifican conjuntos:

- `x1.union_update(x2)` : si `x1` conjunto y `x2` iterable,  le agrega a  `x1` los elementos de `set(x2)`.
- `x1 |= x2` :  si `x1`, `x2` son conjuntos, le agrega a `x1` los elementos de `x2`.
- `x1.intersection_update(x2)` : si `x1` conjunto y `x2` iterable, deja en `x1` los elementos que están también en `set(x2)`.
- `x1 &= x2` :  si `x1`, `x2` son conjuntos, deja en  `x1` los elementos que están también en `x2`.
- `x1.difference_update(x2)` : si `x1` conjunto y `x2` iterable, le quita a  `x1` los elementos de `set(x2)`.
- `x1 -= x2` :  si `x1`, `x2` son conjuntos, le quita a  `x1` los elementos de `x2`.

Ejemplos de uso:


In [None]:
x1, x2 = {1, 3, 5 ,7}, {2, 4, 5, 7, 8, 10}
x1 |= x2
print(x1)
x1, x2 = {1, 3, 5 ,7}, {2, 4, 5, 7, 8, 10}
x1 &= x2
print(x1)
x1, x2 = {1, 3, 5 ,7}, {2, 4, 5, 7, 8, 10}
x1 -= x2
print(x1, x2)

Todas las operaciones y métodos anteriores son entre conjuntos (o entre conjuntos e iterables). Veamos ahora algunas operaciones que involucren elementos. Sea `x` conjunto y `e` un objeto inmutable:

- `x.add(e)` : agrega `e` a `x`.
- `x.remove(e)`: quita  `e` a `x` si `e` está en `x`. En caso contrario se produce una excepción.
- `x.discard(e)` : también quita `e` de `x`. Sin embargo, si `e` no está en `x`, este método  no hace nada en lugar de plantear una excepción.
- `x.pop()` : quita y devuelve un elemento elegido aleatoriamente de `x`. Si `x` está vacío, genera una excepción.
- `x.clear()` : elimina todos los elementos de `x`.


Ejemplos:

In [None]:
x = {0,1, 3, 5 ,7}
print(x)
x.add(8)
print(x)
x.add(5)
print(x)
x.remove(5)
print(x)
x.discard(11)
print(x)
x.pop()
print(x)
x.clear()
print(x)

## 9. Definiciones por comprensión

En  matemática usualmente se hace la diferencia entre definir un conjunto por *extensión* o por *comprensión*. Cuando definimos por extensión (en forma estricta) enumeramos todos los elementos de un conjunto. En cambio, cuando definimos por comprensión los elementos del conjunto son los que cumple cierta propiedad. Por ejemplo
\begin{equation*}
\{1,2,3,4,5,6\}
\end{equation*}
y
\begin{equation*}
\{i \in \mathbb Z: 1 \le i \le 6\}
\end{equation*}
son dos notaciones para el mismo conjunto,  el primero definido  por extensión y el segundo por comprensión.

Notablemente, en Python podemos hacer algo muy parecido: los conjuntos
```
{1,2,3,4,5,6}
```
y
```
{i for i in range(1,7)}
```
son iguales. La segunda expresión es lo que se llama en Python la definición de un conjunto por comprensión.

Implementemos esto:

In [13]:
a = {1,2,3,4,5,6}
b = {i for i in range(1,7)}
print(a , b)
print(a == b)

{1, 2, 3, 4, 5, 6} {1, 2, 3, 4, 5, 6}
True


Las definiciones por comprensión son muy poderosas,  se pueden hacer en listas, conjuntos y diccionarios y siempre se basan en uno o varios iterables.

Por ejemplo,  definamos  la lista de longitud 6 que almacena los primeros 6 números no negativos elevados  al cuadrado:

In [14]:
cuadrados = [i**2 for i in range(6)]
print(cuadrados)

[0, 1, 4, 9, 16, 25]


También podemos hacer un diccionario parecido:

In [15]:
{i: i**2 for i in range(6)}

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25}

O  el conjunto de los primeros 6 enteros no negativos elevados al cuadrado:

In [16]:
{i**2 for i in range(6)}

{0, 1, 4, 9, 16, 25}

Aquí no termina la utilidad de las definiciones por comprensión, pues en ellas también podemos poner condicionales. Por ejemplo:

In [17]:
pares = [x for x in range(20) if x % 2 == 0]
print(pares)

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]


nos imprime la lista ordenada de todos los números pares del 0 al 19, o

In [20]:
mult6 = [ x for x in range(20) if x % 2 == 0 if x % 3 == 0]
print(mult6)

[0, 6, 12, 18]


nos imprime la lista ordenada de todos los números múltiplos de 6 del 0 al 19.

También podemos utilizar `if ... else ...` para determinar que acción tomar, por ejemplo:

In [None]:
obj = ["Par" if i % 2 == 0 else "Impar" for i in range(100)]
print(obj)

['Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar', 'Par', 'Impar']


Construye una lista de longitud 10 donde en las coordenadas pares se encuentra la cadena `Par` y en las coordenadas impares la cadena `Impar`.

Otro ejemplo:

In [None]:
obj = [str(i) +" Par" if i % 2 == 0 else str(i) +" Impar" for i in range(100) if i % 5 == 0]
print(obj)

['0 Par', '5 Impar', '10 Par', '15 Impar', '20 Par', '25 Impar', '30 Par', '35 Impar', '40 Par', '45 Impar', '50 Par', '55 Impar', '60 Par', '65 Impar', '70 Par', '75 Impar', '80 Par', '85 Impar', '90 Par', '95 Impar']


Hay muchas forma de definir un objeto por comprensión y aquí solo hemos visto algunas de las más sencillas.



**Ejemplo.** Crear una lista de palabras que empiezan con la letra `'a'` a partir de una lista de palabras:



In [None]:
palabras = ["manzana", "banana", "arroz", "azul", "amarillo"]
a_palabras = [x for x in palabras if x[0] == 'a']
print(a_palabras) # Output: ["arroz", "azul", "amarillo"]

['arroz', 'azul', 'amarillo']


**Ejemplo.** Dado $n$ entero positivo crear una lista de tuplas que contengan los números de $1$  a $n-1$ y su cuadrado correspondiente:


In [None]:
n = 6
tuplas = [(x, x**2) for x in range(1, n)]
print(tuplas) # Output: [(1, 1), (2, 4), (3, 9), (4, 16), (5, 25)]

**Ejemplo. Arreglo bidimensional de 0.** Supongamos que   queremos crear un arreglo bidimensional de $3 \times 5$ donde cada elemento es `0`. Lo siguiente


In [None]:
lista = [[0] * 5]*3 # 3 filas, 5 columnas
print(lista)

[[0, 0, 0, 0, 0], [0, 0, 0, 0, 0], [0, 0, 0, 0, 0]]


aunque muy conciso y elegante, no es correcto, pues si modificamos, por ejemplo, `lista[0][0]` y  le damos el valor `3`,  entonces

In [None]:
lista[0][0] = 3
print(lista)

[[3, 0, 0, 0, 0], [3, 0, 0, 0, 0], [3, 0, 0, 0, 0]]


tenemos un problema,  no solo pasó a valer `3` el elemento `lista[0][0]` sino tambíen todos los de la primera columna. ¿Qué es lo que ha pasado? Si  hacemos `una_lista*3` en realidad estamos  poniendo la misma lista en cada fila y  cualquier modificación de `una_lista` se reflejará en cada fila.

Una solución,  menos elegante pero correcta sería:

In [None]:
lista = []
for _ in range(3):
    lista.append([0]*5)

En  este caso, en cada iteración se crea una fila nueva y ya las cosas funcionan como queríamos:

In [None]:
print(lista)
lista[0][0] = 3
print(lista)

[[0, 0, 0, 0, 0], [0, 0, 0, 0, 0], [0, 0, 0, 0, 0]]
[[3, 0, 0, 0, 0], [0, 0, 0, 0, 0], [0, 0, 0, 0, 0]]


Una solución por comprensión es aún mejor, más eficiente y más compacta:

In [None]:
lista = [[0]*5 for _ in range(3)] # solución por comprensión (3 filas y 5 columnas de 0)

Entonces,

In [None]:
print(lista)
lista[0][0] = 3
print(lista)

[[0, 0, 0, 0, 0], [0, 0, 0, 0, 0], [0, 0, 0, 0, 0]]
[[3, 0, 0, 0, 0], [0, 0, 0, 0, 0], [0, 0, 0, 0, 0]]


**Ejemplo. La criba de Eratóstenes.** El ejemplo siguiente es una aplicación relativamente complicada de los mecanismos de definición por comprensión.

La *criba de Eratóstenes* es un algoritmo para encontrar todos los números primos menores que un número natural dado $n$. El proceso comienza con una lista de números consecutivos del $2$ hasta $n$. Luego, se eliminan de la lista los múltiplos de $2$, se toma el primer número no eliminado (el $3$) y se eliminan sus múltiplos, y así sucesivamente. El proceso termina cuando terminamos de recorrer la lista. Los números no eliminado son los números primos de $2$  a $n$.


En el ejemplo,  se reproduce el método de la  criba de Eratóstenes para encontrar la lista de primos de  `2` a `n - 1`:

In [None]:
n = 100
primos = {i for i in range(2, n)} - {i for q in range(2, n) for i in range(2 * q, n, q)}
print(primos)

El primer conjunto a la izquierda de la asignación a  `primos` es el conjunto de los enteros entre `2` y `n - 1`. A este conjunto le saco todos los múltiplos no triviales de `q` para `q` entre `2` y `n - 1`.

No pretendemos que un alumno que se inicia en Python pueda realizar este tipo de definiciones, simplemente estamos mostrando un ejemplo del tipo de aplicaciones que pueden tener las definiciones por comprensión.  

Podemos mejorar la definición de la criba: si `q >= n**05`,  entonces los múltiplos no triviales de `q` ya están incluidos en el conjunto que fue generado hasta ese momento ($pq = m \Rightarrow p \le \sqrt{m} \vee q \le \sqrt{m}$), por lo tanto hay una versión mucho más eficiente de la implementación de la criba de Eratóstenes, que es la siguiente:  


In [21]:
n = 100
primos = {i for i in range(2, n)} - {i for q in range(2, int(n**0.5)) for i in range(2 * q, n, q)}
print(primos)

{2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97}


### **Eficiencia de las definiciones por comprensión**

Como último comentario diremos que los métodos de definición por comprensión no solo son elegantes y concisos, si no que también son muy eficientes y se recomienda usarlos cuando sea posible.

En  el ejemplo siguiente podrán ver (variando  el `n`) que generar la lista de cuadrados hasta `n` lleva alrededor de un 30% más de tiempo si no la hacemos por comprensión. En ejemplos más complicados la diferencia puede ser mucho mayor.

In [23]:
import time
t0 = time.time()
n = 50_000_000 # 50 millones
print('Lista de los cuadrados de los primeros',n,'números naturales')

lista = [] # primera forma
for i in range(n):
    lista.append(n**2)
t1 = time.time()
print('Sin comprensión:',t1 - t0,'segundos')

t0 = time.time()
lista = [i**2 for i in range(n)] # por comprensión
t1 = time.time()
print('Por comprensión:',t1 - t0,'segundos')

Lista de los cuadrados de los primeros 50000000 números naturales
Sin comprensión: 18.200957775115967 segundos
Por comprensión: 14.033408403396606 segundos


En realidad, en este  ejemplo se ve bastante diferencia en Colab. En  el compilador de la PC hay diferencias menores.