<p>
<font size='5' face='Georgia, Arial'>IIC2233 Apunte Programación Avanzada</font><br>
<font size='1'>&copy; 2015 Karim Pichara - Christian Pieringer.
    Todos los derechos reservados. Modificado el 2018-1, 2018-2, 2019-2, 2020-1, 2020-2, 2021-1, 2021-2 por Equipo Docente IIC2233</font>
</p>

## *Sets*

Los *sets* (en español, conjuntos) son contenedores **mutables**, **no *hasheables***, y **no ordenados** que no repiten elementos. Tienen un comportamiento similar a los [conjuntos matemáticos](https://es.wikipedia.org/wiki/Conjunto). Los *sets* pueden contener cualquier objeto *hasheable*, los mismos que pueden ser llave en un diccionario. La razón de esto último es que los *sets* también utilizan *tablas de hash* para almacenar los datos.

Los *sets* típicamente se utilizan para eliminar duplicados o para revisar si un elemento se encuentra en esta estructura o no, de forma eficiente. **Revisar si un elemento está o no está** toma tiempo constante; es decir, el tiempo que se demora esta operación no depende de cuán grande es el conjunto.

En Python, los *sets* son implementados por la clase `set`. Es posible crear un *set* vacío con `set()`.

In [1]:
conjunto_vacío = set()
print(conjunto_vacío)

set()


Es posible crear un conjunto a partir de una lista de elementos. Notemos que el *set* creado **no tendrá elementos repetidos**, y no necesariamente respetará el orden original de los elementos.

In [2]:
lista_artistas = ["Olivia Newton-John", "Daddy Yankee", "Sting", 
                  "Dream Theater", "Mon Laferte", "Sting"]
print(set(lista_artistas))

{'Olivia Newton-John', 'Daddy Yankee', 'Mon Laferte', 'Sting', 'Dream Theater'}


Es importante notar que el músico Sting —que estaba repetido en la lista— queda una única vez al transformarlo a *set*. Podemos también construir un *set* directamente usando llaves `{`, `}`, donde los elementos están separados por coma.

In [3]:
conjunto_artistas = {"Olivia Newton-John", "Daddy Yankee", "Sting", 
                     "Dream Theater", "Mon Laferte"}
print(conjunto_artistas)

{'Mon Laferte', 'Sting', 'Olivia Newton-John', 'Dream Theater', 'Daddy Yankee'}


La notación con llaves no puede ser utilizada para crear un *set* vacío, ya que esa notación se usa para crear un diccionario.

In [4]:
intento_de_conjunto_vacío = {}
print(type(intento_de_conjunto_vacío))

<class 'dict'>


A diferencia de otros lenguajes como Java o C#, los tipos de los elementos de un *set* pueden ser heterogéneos.

In [5]:
conjunto_heterogéneo = {"cero", 3, "cero", 3, "cuatro", 5, "seis"}
print(conjunto_heterogéneo)

{3, 5, 'cero', 'seis', 'cuatro'}


Además, en Python se permite la definición por comprensión de *sets*, de forma similar a como es posible con listas y diccionarios. También, esto admite para definiciones más complejas que dependen de otro tipo de estructuras.

In [6]:
from collections import namedtuple


Película = namedtuple("Pelicula", ["título", "director", "género"])
películas = [
    Película("Into the Woods", "Rob Marshall", "Aventura"),
    Película("American Sniper", "Clint Eastwood", "Acción"),
    Película("Birdman", "Alejandro González Inárritu", "Comedia"),
    Película("Boyhood", "Richard Linklater", "Drama"),
    Película("Taken", "Pierre Morel", "Acción"),
    Película("Taken 2", "Olivier Megaton", "Acción"),
    Película("Taken 3", "Olivier Megaton", "Acción"),
    Película("The Imitation Game", "Morten Tyldum", "Biografías"),
    Película("Gone Girl", "David Fincher", "Drama")
]

# Set por comprensión
directores_acción = {p.director for p in películas if p.género == 'Acción'}
# Por cada elemento p en películas,
# si el género de p es 'Acción',
# entonces el director de p pertenece a directores_acción

print(directores_acción)  # Notamos que no hay duplicados, nuevamente

{'Pierre Morel', 'Olivier Megaton', 'Clint Eastwood'}


## Operaciones sobre *sets*

En Python, los *sets* son capaces de realizar varias operaciones. Algunas son comunes con otros tipos de colecciones, y otras son análogas a las que se hacen con conjuntos matemáticos.

Es importante mencionar que los *sets* **no soportan ningún tipo de acceso indexado**, pues no tienen orden. Por ejemplo, el siguiente código arroja un error.

In [7]:
conjunto_artistas = {"Olivia Newton-John", "Daddy Yankee", "Sting", 
                     "Dream Theater", "Mon Laferte"}
conjunto_artistas[0]

TypeError: 'set' object is not subscriptable

Ahora revisaremos las operaciones más importantes que soportan los *sets*.

### Revisar la cantidad de elementos

Tal y como con las otras estructuras, esto se hace con la función `len`

In [8]:
print(len(conjunto_artistas))

5


### *Add*

A un *set* se le pueden añadir elementos con el método `add`.

In [9]:
conjunto_artistas.add("Taylor Swift")
print(conjunto_artistas)

{'Taylor Swift', 'Mon Laferte', 'Sting', 'Olivia Newton-John', 'Dream Theater', 'Daddy Yankee'}


Si se intenta agregar un elemento que ya estaba, nada ocurre.

In [10]:
conjunto_artistas.add("Sting")
print(conjunto_artistas)

{'Taylor Swift', 'Mon Laferte', 'Sting', 'Olivia Newton-John', 'Dream Theater', 'Daddy Yankee'}


**Puedes revisar el Ejercicio Propuesto 6.1 para practicar la creación de *sets*.**

### *Remove*

Se puede sacar un elemento del *set* con el método `remove`.

In [11]:
conjunto_artistas.remove("Daddy Yankee")
print(conjunto_artistas)

{'Taylor Swift', 'Mon Laferte', 'Sting', 'Olivia Newton-John', 'Dream Theater'}


Esta operación resulta en un error si se intenta eliminar algo que no estaba previamente en el *set*.

In [12]:
conjunto_artistas.remove("The Beatles")

KeyError: 'The Beatles'

### *Discard*

Es una operación similar a *remove*, pero que no lanza un error en caso de que el elemento no haya estado en el conjunto.

In [13]:
conjunto_artistas.discard("Dream Theater")
print(conjunto_artistas)

{'Taylor Swift', 'Mon Laferte', 'Sting', 'Olivia Newton-John'}


In [14]:
conjunto_artistas.discard("The Beatles")
print()




### Iterar con `for`

Se puede iterar por los elementos de un conjunto con `for`. Debemos recordar, sin embargo, que el recorrido no se hará en ningún orden en particular, puesto que los *sets* **no** son estructuras ordenadas. Está garantizado que cada elemento será recorrido *exactamente una vez*.

In [15]:
for artista in conjunto_artistas:
    print(f"Por favor, ¡saluden a {artista}!")

Por favor, ¡saluden a Taylor Swift!
Por favor, ¡saluden a Mon Laferte!
Por favor, ¡saluden a Sting!
Por favor, ¡saluden a Olivia Newton-John!


### Verificar si un elemento pertenece al *set*

Podemos verificar si un elemento está en el *set* con la sentencia `in`.

In [16]:
print("Natalia Lafourcade" in conjunto_artistas)

False


In [17]:
print("Sting" in conjunto_artistas)

True


En los *sets*, esta operación es **muy eficiente** y toma un tiempo que *no depende del tamaño del conjunto*.

Esto es muy distinto del caso de las listas. Para verificar si un elemento está o no en una lista, internamente se debe recorrer toda la lista hasta encontrarlo, o bien llegar al final para darse cuenta de que no estaba. Esto significa que el *tiempo máximo de búsqueda crece* a medida que el tamaño de la lista aumenta.

Para comprobar estas diferencias en tiempo, vamos a crear una lista y un *set*, cada uno con 10.000.000 de elementos.

In [18]:
from time import time


ELEMENTOS = 10 ** 7
ELEMENTO_A_BUSCAR = ELEMENTOS // 2

lista_gigante = list(range(ELEMENTOS))
set_gigante = set(range(ELEMENTOS))

tiempo_inicio = time()
ELEMENTO_A_BUSCAR in set_gigante
tiempo_fin = time()
tiempo_set = tiempo_fin - tiempo_inicio
print(f"set  -- La búsqueda de {ELEMENTO_A_BUSCAR} demoró... {tiempo_set:.6f} segundos.")

tiempo_inicio = time()
ELEMENTO_A_BUSCAR in lista_gigante
tiempo_fin = time()
tiempo_lista = tiempo_fin - tiempo_inicio
print(f"list -- La búsqueda de {ELEMENTO_A_BUSCAR} demoró... {tiempo_lista:.6f} segundos.")

print()
print(f"La búsqueda en la lista fue {tiempo_lista / tiempo_set:.2f} veces más lenta que en el set.")

set  -- La búsqueda de 5000000 demoró... 0.000368 segundos.
list -- La búsqueda de 5000000 demoró... 0.126199 segundos.

La búsqueda en la lista fue 342.82 veces más lenta que en el set.


**Puedes revisar el Ejercicio Propuesto 6.2 para extender este experimento de tiempo.**

### Unión de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/3/32/SetUnion.svg)

Sirve para obtener un nuevo conjunto que tenga todos los elementos de los conjuntos que se unen. Esta operación no altera ninguno de los *sets* originales. Se utiliza el operador `|`.

In [19]:
set_a = {0, 1, 2, 3}
set_b = {5, 4, 3, 2}
set_union = set_a | set_b
print(set_union)

{0, 1, 2, 3, 4, 5}


También se puede ocupar el método `union`. Esta operación no altera ninguno de los *sets* originales.

In [20]:
set_union = set_a.union(set_b)
print(set_union)

{0, 1, 2, 3, 4, 5}


### Intersección de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/c/cb/SetIntersection.svg)

Sirve para obtener un nuevo conjunto que tenga los elementos que están en **todos** los conjuntos que se intersectan. Esta operación no altera ninguno de los *sets* originales. Se utiliza el operador `&`.

In [21]:
set_a = {0, 1, 2, 3}
set_b = {4, 3, 2, 5}
set_intersection = set_a & set_b
print(set_intersection)

{2, 3}


También se puede ocupar el método `intersection`. Esta operación no altera ninguno de los *sets* originales.

In [22]:
set_intersection = set_a.intersection(set_b)
print(set_intersection)

{2, 3}


### Diferencia de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/e/ec/SetDifferenceA.svg)

Sirve para obtener un nuevo conjunto que tenga los elementos que están en un conjunto, pero que no estén en otro. Esta operación no altera ninguno de los *sets* originales. Se utiliza el operador `-`. Notar que el resultado de esta operación **sí depende** del orden de los factores.

In [23]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_difference_a_b = set_a - set_b
set_difference_b_a = set_b - set_a
print(set_difference_a_b)
print(set_difference_b_a)

{0, 1}
{4, 5}


También se puede ocupar el método `difference`. Esta operación no altera ninguno de los *sets* originales.

In [24]:
set_difference_a_b = set_a.difference(set_b)
set_difference_b_a = set_b.difference(set_a)
print(set_difference_a_b)
print(set_difference_b_a)

{0, 1}
{4, 5}


#### Diferencia simétrica de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/f/f2/SetSymmetricDifference.svg)

Sirve para obtener un nuevo conjunto de objetos que están en un conjunto o en el otro, pero no en ambos. Esta operación no altera ninguno de los *sets* originales. Se ocupa el operador `^`. 

In [25]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_sym_difference = set_a ^ set_b
print(set_sym_difference)

{0, 1, 4, 5}


También se puede ocupar el método `symmetric_difference`. Esta operación no altera ninguno de los *sets* originales.

In [26]:
set_sym_difference = set_a.symmetric_difference(set_b)
print(set_sym_difference)

{0, 1, 4, 5}


### Comparar conjuntos

Podemos saber rápidamente si un conjunto es subconjunto, superconjunto, o son iguales a otro. 

Un conjunto `A` es *subconjunto* de otro `B` si todos los elementos que están en `A` están también en `B`. Esto incluye el caso en que sean iguales. Si no queremos incluir el caso de la igualdad, se habla de *subconjunto propio*.

Al revés, un `A` es *superconjunto* de otro `B` si todos los elementos que están en `B` también están en `A`. Esto también incluye el caso en que sean iguales. Si no queremos incluir el caso de la igualdad, se habla de *superconjunto propio*.

In [27]:
artistas_lollapalooza = {"Mac Demarco", "The Killers", "Shakira", "Camila Cabello"}
artistas_favoritos = {"Mac Demarco", "Shakira"}


print("artistas_lollapalooza vs. artistas_favoritos:")
print(f"- superset: {artistas_lollapalooza >= artistas_favoritos}")
print(f"- subset: {artistas_lollapalooza <= artistas_favoritos}")
print(f"- iguales: {artistas_lollapalooza == artistas_favoritos}")

print("-" * 45)

print("artistas_favoritos vs. artistas_lollapalooza:")
print(f"- superset: {artistas_favoritos >= artistas_lollapalooza}")
print(f"- subset: {artistas_favoritos <= artistas_lollapalooza}")
print(f"- iguales: {artistas_favoritos == artistas_lollapalooza}")

artistas_lollapalooza vs. artistas_favoritos:
- superset: True
- subset: False
- iguales: False
---------------------------------------------
artistas_favoritos vs. artistas_lollapalooza:
- superset: False
- subset: True
- iguales: False


In [28]:
artistas_lollapalooza = {"Mac Demarco", "The Killers", "Shakira", "Camila Cabello"}
artistas_favoritos = {"Mac Demarco", "Shakira"}


print("artistas_lollapalooza es a artistas_favoritos:")
print("Superset: {}".format(artistas_lollapalooza.issuperset(artistas_favoritos)))
print("Subset: {}".format(artistas_lollapalooza.issubset(artistas_favoritos)))

print("-" * 45)

print("artistas_favoritos es a artistas_lollapalooza:")
print("Superset: {}".format(artistas_favoritos.issuperset(artistas_lollapalooza)))
print("Subset: {}".format(artistas_favoritos.issubset(artistas_lollapalooza)))

artistas_lollapalooza es a artistas_favoritos:
Superset: True
Subset: False
---------------------------------------------
artistas_favoritos es a artistas_lollapalooza:
Superset: False
Subset: True


### Ejemplo de eliminación de duplicados

Podemos usar *sets* para eliminar duplicados de una lista.

In [29]:
lista = ['A', 'B', 'A', 'D', 'F', 'X', 'X', 'X', 'Z', 'Z', 'Y']
lista_set = set(lista)
print(lista_set)

{'F', 'Y', 'A', 'B', 'Z', 'D', 'X'}


Y también es posible crear una lista a partir de un *set*.

In [30]:
lista = list(lista_set)
print(lista)

['F', 'Y', 'A', 'B', 'Z', 'D', 'X']


Podemos ordenar la lista si queremos convencernos que no hay repetidos:

In [31]:
lista.sort()
print(lista)

['A', 'B', 'D', 'F', 'X', 'Y', 'Z']
