<p>
<font size='5' face='Georgia, Arial'>IIC-2233 Apunte Programación Avanzada</font><br>
<font size='1'>&copy; 2015 Karim Pichara - Christian Pieringer. Todos los derechos reservados. Modificado el 2018-1 por Equipo docente IIC2233</font>
</p>

## Sets

Los _sets_ (conjunto) son contenedores **mutables**, **no _hasheables_**, y **no ordenados** que no repiten elementos. Tienen un comportamiento similar a los [conjuntos matemáticos](https://es.wikipedia.org/wiki/Conjunto). Los _sets_ pueden tener cualquier objeto _hasheable_, los mismos que pueden ser _key_ en un diccionario. La razón de esto último es que los _sets_ también utilizan _tablas de hash_ para almacenar los datos.

Los _sets_ están diseñados para revisar si un elemento se encuentra en él o no en forma eficiente. **Revisar si un elemento está o no está** toma tiempo constante, es decir, el tiempo que se demora esta operación no depende de cuán grande es el conjunto.

En Python, los _sets_ son implementados por la clase `set`. Se puede crear un _set_ vacío con `set()`:

In [1]:
conjunto_vacio = set()
print(conjunto_vacio)

set()


Es posible crear un conjunto a partir de una lista de elementos. Notemos que el _set_ creado **no tendrá elementos repetidos**, y no necesariamente respetará el orden original de los elementos.

In [2]:
lista_artistas = ["Olivia Newton-John", "Daddy Yankee", "Sting", 
                  "Dream Theater", "Mon Laferte", "Sting"]
conjunto_artistas = set(lista_artistas)
print(conjunto_artistas)

{'Dream Theater', 'Olivia Newton-John', 'Daddy Yankee', 'Sting', 'Mon Laferte'}


Podemos también construir un _set_ directamente usando llaves `{`, `}`, donde los elementos están separados por coma:

In [3]:
conjunto_artistas = {"Olivia Newton-John", "Daddy Yankee", "Sting", 
                     "Dream Theater", "Mon Laferte"}
print(conjunto_artistas)

{'Dream Theater', 'Olivia Newton-John', 'Daddy Yankee', 'Sting', 'Mon Laferte'}


La notación con llaves no puede ser utilizada para crear un _set_ vacío, ya que esa notación se usa para crear un diccionario.

In [4]:
intento_de_conjunto_vacio = {}
print(type(intento_de_conjunto_vacio))

<class 'dict'>


A diferencia de otros lenguajes como Java o C#, los tipos de los elementos de un _set_ pueden ser heterogéneos:

In [5]:
conjunto_heterogeneo = {"cero", 3, "cero", 3, "cuatro", 5, "seis"}
print(conjunto_heterogeneo)

{'seis', 3, 5, 'cuatro', 'cero'}


### Operaciones sobre _sets_

En Python, los _sets_ son capaces de realizar varias operaciones. Algunas son comunes con otros tipos de colecciones, y otras son análogas a las que se hacen con conjuntos matemáticos.

Es importante mencionar que los _sets_ **no soportan ningún tipo de acceso indexado**, pues no tienen orden. Por ejemplo, el siguiente código arroja un error:

In [6]:
conjunto_artistas = {"Olivia Newton-John", "Daddy Yankee", "Sting", 
                     "Dream Theater", "Mon Laferte"}
conjunto_artistas[0]

TypeError: 'set' object does not support indexing

Ahora revisaremos las operaciones más importantes que soportan los _sets_:

#### Revisar la cantidad de elementos

Tal y como con las otras estructuras, esto se hace con la función `len`

In [7]:
len(conjunto_artistas)

5

#### _Add_

A un _set_ se le pueden añadir elementos con el método `add`.

In [8]:
conjunto_artistas.add("Taylor Swift")
print(conjunto_artistas)

{'Dream Theater', 'Olivia Newton-John', 'Taylor Swift', 'Daddy Yankee', 'Sting', 'Mon Laferte'}


Si se intenta agregar un elemento que ya estaba, nada ocurre:

In [9]:
conjunto_artistas.add("Sting")
print(conjunto_artistas)

{'Dream Theater', 'Olivia Newton-John', 'Taylor Swift', 'Daddy Yankee', 'Sting', 'Mon Laferte'}


#### Remove

Se puede sacar un elemento del _set_ con el método `remove`.

In [10]:
conjunto_artistas.remove("Daddy Yankee")
print(conjunto_artistas)

{'Dream Theater', 'Olivia Newton-John', 'Taylor Swift', 'Sting', 'Mon Laferte'}


Esta operación resulta en un error si se intenta eliminar algo que no estaba previamente en el _set_:

In [11]:
conjunto_artistas.remove("The Beatles")

KeyError: 'The Beatles'

#### Discard

Es una operación similar a _remove_, pero que no lanza un error en caso de que el elemento no haya estado en el conjunto:

In [12]:
conjunto_artistas.discard("Dream Theater")
print(conjunto_artistas)

{'Olivia Newton-John', 'Taylor Swift', 'Sting', 'Mon Laferte'}


In [13]:
conjunto_artistas.discard("The Beatles")
print(conjunto_artistas)

{'Olivia Newton-John', 'Taylor Swift', 'Sting', 'Mon Laferte'}


#### Iterar con `for`

Se puede iterar por los elementos de un conjunto con `for`. Debemos recordar, sin embargo, que el recorrido no se hará en ningún orden en particular, puesto que los _sets_ no son estructuras ordenadas. Sí está garantizado que cada elemento será recorrido _exactamente una vez_.

In [14]:
for artista in conjunto_artistas:
    print("Por favor, saluden a {}!".format(artista))

Por favor, saluden a Olivia Newton-John!
Por favor, saluden a Taylor Swift!
Por favor, saluden a Sting!
Por favor, saluden a Mon Laferte!


#### Verificar si un elemento pertenece al _set_

Podemos verificar si un elemento está en el _set_ con la sentencia `in`.

In [15]:
"Natalia Lafourcade" in conjunto_artistas

False

In [16]:
"Sting" in conjunto_artistas

True

En los _sets_, esta operación es muy eficiente y toma un tiempo que _no depende del tamaño del conjunto_. 

Esto es muy distinto del caso de las listas. Para verificar si un elemento está o no en una lista, internamente se debe recorrer toda la lista hasta encontrarlo, o bien llegar al final para darse cuenta que no estaba. Esto significa que el _tiempo máximo de búsqueda crece_ a medida que el tamaño de la lista aumenta.

Para comprobar estas diferencias en tiempo, vamos a crear una lista y un _set_, cada uno con 10000000 de elementos:

In [17]:
from time import time

ELEMENTOS = 10 ** 7
ELEMENTO_A_BUSCAR = ELEMENTOS // 2

lista_gigante = list(range(ELEMENTOS))
set_gigante = set(range(ELEMENTOS))

start_time = time()
ELEMENTO_A_BUSCAR in set_gigante
finish_time = time()
set_time = finish_time - start_time
print("Set.  La búsqueda de {} en el set demoró   """
      """{:.6f} segundos""".format(ELEMENTO_A_BUSCAR, set_time))

start_time = time()
ELEMENTO_A_BUSCAR in lista_gigante
finish_time = time()
list_time = finish_time - start_time
print("""List. La búsqueda de {} en la lista demoró """
      """{:.6f} segundos""".format(ELEMENTO_A_BUSCAR, list_time))
print()
print("La búsqueda en list fue {:.2f} veces el tiempo de set.".format(list_time/set_time))

Set.  La búsqueda de 5000000 en el set demoró   0.000046 segundos
List. La búsqueda de 5000000 en la lista demoró 0.075322 segundos

La búsqueda en list fue 1636.91 veces el tiempo de set.


#### Unión de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/3/32/SetUnion.svg)

Sirve para obtener un nuevo conjunto que tenga todos los elementos de los conjuntos que se unen. Esta operación no altera ninguno de los _sets_ originales. Se utiliza el operador `|`.

In [18]:
set_a = {0, 1, 2, 3}
set_b = {5, 4, 3, 2}
set_union = set_a | set_b
print(set_union)

{0, 1, 2, 3, 4, 5}


También se puede ocupar el método `union`. Esta operación no altera ninguno de los _sets_ originales.

In [19]:
set_a = {0, 1, 2, 3}
set_b = {5, 4, 3, 2}
set_union = set_a.union(set_b)
print(set_union)

{0, 1, 2, 3, 4, 5}


#### Intersección de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/c/cb/SetIntersection.svg)

Sirve para obtener un nuevo conjunto que tenga los elementos que están en **todos** los conjuntos que se intersectan. Esta operación no altera ninguno de los _sets_ originales. Se utiliza el operador `&`.

In [20]:
set_a = {0, 1, 2, 3}
set_b = {4, 3, 2, 5}
set_intersection = set_a & set_b
print(set_intersection)

{2, 3}


También se puede ocupar el método `intersection`. Esta operación no altera ninguno de los _sets_ originales.

In [21]:
set_a = {0, 1, 2, 3}
set_b = {4, 3, 2, 5}
set_intersection = set_a.intersection(set_b)
print(set_intersection)

{2, 3}


#### Diferencia de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/e/ec/SetDifferenceA.svg)

Sirve para obtener un nuevo conjunto que tenga los elementos que están en un conjunto, pero que no estén en otro. Esta operación no altera ninguno de los _sets_ originales. Se utiliza el operador `-`. Notar que el resultado de esta operación depende del orden de los factores.

In [22]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_difference_a_b = set_a - set_b
set_difference_b_a = set_b - set_a
print(set_difference_a_b)
print(set_difference_b_a)

{0, 1}
{4, 5}


También se puede ocupar el método `difference`. Esta operación no altera ninguno de los _sets_ originales.

In [23]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_difference_a_b = set_a.difference(set_b)
set_difference_b_a = set_b.difference(set_a)
print(set_difference_a_b)
print(set_difference_b_a)

{0, 1}
{4, 5}


#### Diferencia simétrica de conjuntos

![](https://upload.wikimedia.org/wikipedia/commons/f/f2/SetSymmetricDifference.svg)

Sirve para obtener un nuevo conjunto de objetos que están en un conjunto o en el otro pero no en ambos. Esta operación no altera ninguno de los _sets_ originales. Se ocupa el operador `^`. 

In [24]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_sim_difference = set_a ^ set_b
print(set_sim_difference)

{0, 1, 4, 5}


También se puede ocupar el método `symmetric_difference`. Esta operación no altera ninguno de los _sets_ originales.

In [25]:
set_a = {0, 1, 2, 3}
set_b = {2, 3, 4, 5}
set_sim_difference = set_a.symmetric_difference(set_b)
print(set_sim_difference)

{0, 1, 4, 5}


#### Comparar conjuntos

Podemos saber rápidamente si un conjunto es subconjunto, superconjunto, o son iguales a otro. 

Un conjunto `A` es _subconjunto_ de otro `B` si todos los elementos que están en `A` están también en `B`. Esto incluye el caso en que sean iguales. Si no queremos incluir el caso de la igualdad, se habla de _subconjunto propio_.

Al revés, un `A` es _superconjunto_ de otro `B` si todos los elementos que están en `B` también están en `A`. Esto también incluye el caso en que sean iguales. Si no queremos incluir el caso de la igualdad, se habla de _superconjunto propio_.

In [26]:
artistas_lollapalooza = {"Mac Demarco", "The Killers", "Shakira", "Camila Cabello"}
artistas_favoritos = {"Mac Demarco", "Shakira"}


print("artistas_lollapalooza es a artistas_favoritos:")
print("Superset: {}".format(artistas_lollapalooza >= artistas_favoritos))
print("Subset: {}".format(artistas_lollapalooza <= artistas_favoritos))
print("Iguales: {}".format(artistas_lollapalooza == artistas_favoritos))

print("-"*40)

print("artistas_favoritos es a artistas_lollapalooza:")
print("Superset: {}".format(artistas_favoritos >= artistas_lollapalooza))
print("Subset: {}".format(artistas_favoritos <= artistas_lollapalooza))
print("Iguales: {}".format(artistas_favoritos == artistas_lollapalooza))

artistas_lollapalooza es a artistas_favoritos:
Superset: True
Subset: False
Iguales: False
----------------------------------------
artistas_favoritos es a artistas_lollapalooza:
Superset: False
Subset: True
Iguales: False


In [27]:
artistas_lollapalooza = {"Mac Demarco", "The Killers", "Shakira", "Camila Cabello"}
artistas_favoritos = {"Mac Demarco", "Shakira"}


print("artistas_lollapalooza es a artistas_favoritos:")
print("Superset: {}".format(artistas_lollapalooza.issuperset(artistas_favoritos)))
print("Subset: {}".format(artistas_lollapalooza.issubset(artistas_favoritos)))

print("-"*20)

print("artistas_favoritos es a artistas_lollapalooza:")
print("Superset: {}".format(artistas_favoritos.issuperset(artistas_lollapalooza)))
print("Subset: {}".format(artistas_favoritos.issubset(artistas_lollapalooza)))

artistas_lollapalooza es a artistas_favoritos:
Superset: True
Subset: False
--------------------
artistas_favoritos es a artistas_lollapalooza:
Superset: False
Subset: True


### Ejemplo de eliminación de duplicados

Podemos usar _sets_ para eliminar duplicados de una lista:

In [28]:
lista = ['A', 'B', 'A', 'D', 'F', 'X', 'X', 'X', 'Z', 'Z', 'Y']
lista_set = set(lista)

Es posible crear una lista a partir de un _set_:

In [29]:
lista = list(lista_set)
print(lista)

['B', 'A', 'Y', 'F', 'D', 'Z', 'X']


Podemos ordenar la lista si queremos convencernos que no hay repetidos:

In [30]:
lista.sort()
print(lista)

['A', 'B', 'D', 'F', 'X', 'Y', 'Z']
