<p>
<font size='5' face='Georgia, Arial'>IIC-2233 Apunte Programación Avanzada</font><br>
<font size='1'>&copy; 2015 Karim Pichara - Christian Pieringer. Todos los derechos reservados.</font>
</p>

## Sets

Los _sets_ son un contenedor **mutable**, **no _hasheable_**, y **no ordenado** que no almacena elementos repetidos. Tienen un comportamiento similar a los [conjuntos matemáticos](https://es.wikipedia.org/wiki/Conjunto). Los _sets_ pueden tener cualquier objeto _hasheable_, los mismos que pueden ser _key_ en un diccionario. La razón de esto último es que los _sets_ también utilizan _tablas de hash_ para almacenar los datos.

Los _sets_ están diseñados para revisar si un elemento se encuentra en él o no en forma eficiente. Revisar si un elemento está o no está toma tiempo constante, es decir, el tiempo que se demora esta operación no depende de cuán grande es el conjunto en cuestión.

En Python, se puede crear un _set_ vacío con `set()`:

In [1]:
conjunto_vacio = set()
print(conjunto_vacio)

set()


También es posible crear un conjunto a partir de una lista de elementos. Notar que el _set_ creado no tendrá elementos repetidos, y tampoco respetará el orden original de los elementos.

In [2]:
lista_artistas = ["Olivia Newton-John", "Daddy Yankee", "Sting", "Dream Theater", "Mon Laferte", "Sting"]
conjunto_artistas = set(lista_artistas)
print(conjunto_artistas)

{'Dream Theater', 'Daddy Yankee', 'Sting', 'Mon Laferte', 'Olivia Newton-John'}


Podemos también construir un _set_ directamente usando llaves, donde los elementos están separados por coma:

In [3]:
conjunto_artistas = {"Olivia Newton-John", "Daddy Yankee", "Sting", "Dream Theater", "Mon Laferte"}
print(conjunto_artistas)

{'Dream Theater', 'Daddy Yankee', 'Sting', 'Mon Laferte', 'Olivia Newton-John'}


La notación con llaves no puede ser utilizada para crear un _set_ vacío. En este caso, se creará un diccionario:

In [4]:
intento_de_conjunto_vacio = {}
print(type(intento_de_conjunto_vacio))

<class 'dict'>


A diferencia de otros lenguajes como Java o C#, los tipos de los elementos de un _set_ pueden ser heterogéneos:

In [5]:
conjunto_heterogeneo = {"cinco", 3, "cinco", 3, "cuatro", 5, "seis"}
print(conjunto_heterogeneo)

{'cinco', 3, 5, 'seis', 'cuatro'}


### Operaciones

En Python, los _sets_ son capaces de realizar varias operaciones, que incluyen algunas típicas de otros tipos de colecciones, y otras análogas a las que se hacen con conjuntos matemáticos.

Es importante mencionar que los _sets_ no soportan ningún tipo de acceso indexado, pues no tienen orden. Por ejemplo, el siguiente código arroja un error:

In [19]:
conjunto_artistas = {"Olivia Newton-John", "Daddy Yankee", "Sting", "Dream Theater", "Mon Laferte"}
conjunto_artistas[0]

TypeError: 'set' object does not support indexing

Ahora revisaremos las operaciones más importantes que soportan los _sets_:

#### Revisar la cantidad de elementos

Tal y como con las otras estructuras, esto se hace con la función `len`

In [20]:
len(conjunto_artistas)

5

#### _Add_

A un _set_ se le pueden añadir elementos después de se creado con el método `add`.

In [21]:
conjunto_artistas.add("Taylor Swift")
print(conjunto_artistas)

{'Dream Theater', 'Daddy Yankee', 'Sting', 'Mon Laferte', 'Taylor Swift', 'Olivia Newton-John'}


Si se intenta agregar un elemento que ya estaba, nada ocurre:

In [22]:
conjunto_artistas.add("Sting")
print(conjunto_artistas)

{'Dream Theater', 'Daddy Yankee', 'Sting', 'Mon Laferte', 'Taylor Swift', 'Olivia Newton-John'}


#### Remove

Se puede sacar un elemento del _set_ con el método `remove`.

In [23]:
conjunto_artistas.remove("Daddy Yankee")
print(conjunto_artistas)

{'Dream Theater', 'Sting', 'Mon Laferte', 'Taylor Swift', 'Olivia Newton-John'}


Esta operación resulta en un error si se intenta eliminar algo que no estaba previamente en el _set_:

In [24]:
conjunto_artistas.remove("Sia")

KeyError: 'Sia'

#### Discard

Es una operación similar al _remove_, pero que no lanza un error en caso de que el elemento no haya estado en el conjunto:

In [25]:
conjunto_artistas.discard("Dream Theater")
print(conjunto_artistas)

{'Sting', 'Mon Laferte', 'Taylor Swift', 'Olivia Newton-John'}


In [26]:
conjunto_artistas.discard("Sia")
print(conjunto_artistas)

{'Sting', 'Mon Laferte', 'Taylor Swift', 'Olivia Newton-John'}


#### Iterar con un `for`

Se puede iterar por los elementos de un conjunto con un `for`. Recordar que esto no se hará en ningún orden en particular, puesto que los _sets_ no son estructuras ordenadas:

In [27]:
for artista in conjunto_artistas:
    print("Por favor, saluden a {}!".format(artista))

Por favor, saluden a Sting!
Por favor, saluden a Mon Laferte!
Por favor, saluden a Taylor Swift!
Por favor, saluden a Olivia Newton-John!


#### Verificar si un elemento pertenece al _set_

Podemos verificar si un elemento está en el _set_ con la sentencia `in`.

In [28]:
"Natalia Lafourcade" in conjunto_artistas

False

In [29]:
"Sting" in conjunto_artistas

True

En los _sets_, esta operación es muy eficiente y toma un tiempo que no depende del tamaño del conjunto. 

En el caso de las listas esto no es así. Para verificar si un elemento está o no en una lista, internamente se debe recorrer toda la lista hasta encontrarlo, o hasta llegar al final. Esto significa que el tiempo crece a medida que el tamaño de la lista aumenta.

Podemos comprobar estas diferencias en tiempo con un ejemplo muy grande:

In [30]:
from time import time

ELEMENTOS = 10 ** 7
ELEMENTO_COMPROBAR = ELEMENTOS // 2

lista_gigante = list(range(ELEMENTOS))
set_gigante = set(range(ELEMENTOS))

time_base = time()
ELEMENTO_COMPROBAR in set_gigante
print("Para el set, ver si {} estaba en él se demoró {} segundos".format(ELEMENTO_COMPROBAR, time() - time_base))

time_base = time()
ELEMENTO_COMPROBAR in lista_gigante
print("Para la lista, ver si {} estaba en ella se demoró {} segundos".format(ELEMENTO_COMPROBAR, time() - time_base))

Para el set, ver si 5000000 estaba en él se demoró 0.00011920928955078125 segundos
Para la lista, ver si 5000000 estaba en ella se demoró 0.06589913368225098 segundos


#### Unión de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/3/32/SetUnion.svg)

Sirve para obtener un nuevo conjunto que tenga todos los elementos de los conjuntos que se unen. Esta operación no altera ninguno de los _sets_ originales. Se utiliza el operador `|`.

In [32]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_union = set_a | set_b
print(set_union)

{0, 1, 2, 3, 4, 5}


También se puede ocupar el método `union`. Esta operación no altera ninguno de los _sets_ originales.

In [40]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_union = set_a.union(set_b)
print(set_union)

{0, 1, 2, 3, 4, 5}


#### Intersección de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/c/cb/SetIntersection.svg)

Sirve para obtener un nuevo conjunto que tenga los elementos que están en **todos** los conjuntos que se intersectan. Esta operación no altera ninguno de los _sets_ originales. Se utiliza el operador `&`.

In [43]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_intersection = set_a & set_b
print(set_intersection)

{2, 3}


También se puede ocupar el método `intersection`. Esta operación no altera ninguno de los _sets_ originales.

In [44]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_intersection = set_a.intersection(set_b)
print(set_intersection)

{2, 3}


#### Diferencia de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/e/ec/SetDifferenceA.svg)

Sirve para obtener un nuevo conjunto que tenga los elementos que están en un conjunto, pero que no estén en otro. Esta operación no altera ninguno de los _sets_ originales. Se utiliza el operador `-`. Notar que el resultado de esta operación depende del orden de los factores.

In [45]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_difference_a_b = set_a - set_b
set_difference_b_a = set_b - set_a
print(set_difference_a_b)
print(set_difference_b_a)

{0, 1}
{4, 5}


También se puede ocupar el método `difference`. Esta operación no altera ninguno de los _sets_ originales.

In [47]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_difference_a_b = set_a.difference(set_b)
set_difference_b_a = set_b.difference(set_a)
print(set_difference_a_b)
print(set_difference_b_a)

{0, 1}
{4, 5}


#### Diferencia simétrica de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/f/f2/SetSymmetricDifference.svg)

Sirve para obtener un nuevo conjunto de objetos que están en un conjunto o en el otro pero no en ambos. Esta operación no altera ninguno de los _sets_ originales. Se ocupa el operador `^`. 

In [48]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_sim_difference = set_a ^ set_b
print(set_sim_difference)

{0, 1, 4, 5}


También se puede ocupar el método `symmetric_difference`. Esta operación no altera ninguno de los _sets_ originales.

In [53]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_sim_difference = set_a.symmetric_difference(set_b)
print(set_sim_difference)

{0, 1, 4, 5}


#### Comparar conjuntos

Podemos saber rápidamente si un conjunto es subconjunto, superconjunto, o son iguales a otro. 

Un conjunto `A` es subconjunto de otro `B` si todos los elementos que están en `A` están también en `B`. Esto incluye el caso en que sean iguales. Si no queremos incluir el caso de la igualdad, se habla de "subconjunto propio".

Al revés, un `A` es superconjunto de otro `B` si todos los elementos que están en `B` también están en `B`. Esto también incluye el caso en que sean iguales. Si no queremos incluir el caso de la igualdad, se habla de "superconjunto propio".

In [57]:
artistas_lollapalooza = {"Mac Demarco", "The Killers", "Lana del Rey", "Camila Cabello"}
artistas_favoritos = {"Mac Demarco", "Lana del Rey"}


print("artistas_lollapalooza es a artistas_favoritos:")
print("Superset: {}".format(artistas_lollapalooza >= artistas_favoritos))
print("Subset: {}".format(artistas_lollapalooza <= artistas_favoritos))
print("Iguales: {}".format(artistas_lollapalooza == artistas_favoritos))

print("-"*20)

print("artistas_favoritos es a artistas_lollapalooza:")
print("Superset: {}".format(artistas_favoritos >= artistas_lollapalooza))
print("Subset: {}".format(artistas_favoritos <= artistas_lollapalooza))
print("Iguales: {}".format(artistas_favoritos == artistas_lollapalooza))

artistas_lollapalooza es a artistas_favoritos:
Superset: True
Subset: False
Iguales: False
--------------------
artistas_favoritos es a artistas_lollapalooza:
Superset: False
Subset: True
Iguales: False


In [58]:
artistas_lollapalooza = {"Mac Demarco", "The Killers", "Lana del Rey", "Camila Cabello"}
artistas_favoritos = {"Mac Demarco", "Lana del Rey"}


print("artistas_lollapalooza es a artistas_favoritos:")
print("Superset: {}".format(artistas_lollapalooza.issuperset(artistas_favoritos)))
print("Subset: {}".format(artistas_lollapalooza.issubset(artistas_favoritos)))

print("-"*20)

print("artistas_favoritos es a artistas_lollapalooza:")
print("Superset: {}".format(artistas_favoritos.issuperset(artistas_lollapalooza)))
print("Subset: {}".format(artistas_favoritos.issubset(artistas_lollapalooza)))

artistas_lollapalooza es a artistas_favoritos:
Superset: True
Subset: False
--------------------
artistas_favoritos es a artistas_lollapalooza:
Superset: False
Subset: True


### Ejemplo de eliminación de duplicados

Podemos usar _sets_ para eliminar duplicados de una lista:

In [60]:
lista = ['A', 'B', 'A', 'D', 'F', 'X', 'X', 'X', 'Z', 'Z', 'Y']
lista_set = set(lista)

Es posible crear una lista a partir de un _set_:

In [61]:
lista = list(lista_set)
print(lista)

['Z', 'X', 'B', 'A', 'F', 'D', 'Y']


Podemos ordenar la lista si es necesario:

In [62]:
lista.sort()
print(lista)

['A', 'B', 'D', 'F', 'X', 'Y', 'Z']
