# Conjuntos (Sets)

* Classe: **set**

* Sintaxe: {...}

* *Sets*, ou conjuntos, são coleções não-ordenadas de elementos (assim como os dicionários).

* O ordenamento dos elementos de um conjunto é aleatório, ao contrário de *strings*, listas e tuplas, que são coleções cujos elementos são indexados de maneira ordenada.

* Conjuntos são úteis quando você está trabalhando com conjuntos de dados e precisa, por exemplo,
  * extrair os elementos comuns a dois conjuntos (**intersecção**),
  * ou "fundir" dois conjuntos em um só sem introduzir repetições de elementos (**união**) ou checar que elementos de um conjunto não estão presentes em outro (**diferença**),
  * ou ainda que elementos de dois conjuntos só aparecem em apenas um deles (**diferença simétrica**).

## Criando um conjunto

* **Conjuntos** são coleções não-ordenadas de objetos delimitadas por *chaves* {}.

In [None]:
s = {1, 2, 3, 4, 5}

print(s, type(s))

{1, 2, 3, 4, 5} <class 'set'>


In [None]:
# Criando conjuntos vazios:

# Existem duas formas de criar strings/listas/tuplas vazias:
strx = ''                  # str()
lista = []                 # list()
tupla = ()                 # tuple()
print(strx, lista, tupla)

# No entanto, chaves vazias criam um dicionário vazio, não um conjunto
setx = {}
print(setx, type(setx))

# Só é possível criar um conjunto vazio usando a função set()
sx = set()
print(sx, type(sx))

 [] ()
{} <class 'dict'>
set() <class 'set'>


## Função set()

* **set()**: faz um conjunto vazio

* **set(x)**: converte x para o tipo *set*


In [None]:
# Conversão para o tipo set:

s = set("Python")
lista = list("Python")
print(s, lista)  # Diferentemente da lista que é um connjunto ordenado, o conjunto não é

# lista -> conjunto:
print( set( [1,2,3,4] ) )

# tupla -> conjunto:
print( set( (1,2,3,4) ) )

# conjunto -> conjunto:
print( set( {1,2,3,4} ) )

{'P', 'y', 't', 'n', 'h', 'o'} ['P', 'y', 't', 'h', 'o', 'n']
{1, 2, 3, 4}
{1, 2, 3, 4}
{1, 2, 3, 4}


In [None]:
# int,float -> conjunto: é uma exceção porque um número não é iterável
print( set(1) )

TypeError: ignored

## Tamanho de um conjunto

* **len(conjunto)**: retorna o número de elementos únicos (não contabiliza repetições)

In [None]:
s0 = set()
s1 = {1}
s5 = {5, 4, 3, 2, 1}

print(len(s0), len(s1), len(s5))

0 1 5


In [None]:
s = {5, 1, 1, 2, 3, 2, 2, 5, 1, 3, 4}

print(len(s))  # A lista possui 11 elementos, mas apenas 5 únicos

5


## Unicidade de elementos

* Nos conjuntos em Python existe a unicidade de elementos: nunca são levados em conta elementos repetidos

In [None]:
s = {5, 1, 1, 2, 3, 2, 2, 5, 1, 3, 4}

print(s, len(s))  # O Python só leva em consideração os elementos únicos dos conjuntos

{1, 2, 3, 4, 5} 5


In [None]:
# A unicidade é útil para eliminar os números repetidos de uma lista, por exemplo:

lista = [1, 5, 5, 5, 2, 3, 1, 2, 3, 4, 6, 6, 1, 2]
lista = list( set(lista) )
print(lista)

[1, 2, 3, 4, 5, 6]


## Operadores

* Associação **in** / **not in**: binário sendo um operando o elemento a ser verificado se pertence ou não ao conjunto, que é o segundo operando

* Operadores entre conjuntos:

 * União: **|** retorna a união de dois ou mais conjuntos
 * Intersecção: **&** retorna a intersecção de dois ou mais conjuntos
 * Diferença: **-** retorna os elementos de set0 que não estão incluídos nos outros conjuntos; note que é uma operação assimétrica
 * Diferença simétrica: **^** retorna todos os elementos de todos os conjuntos que não são comuns à eles; é uma operação simétrica



 * Observe que não aceita o operador de concatenação **+**!

In [None]:
# Operadores (binários) de associação in/not in que retorna True ou False se o elemento pertence ou não ao conjunto

s = set("Python")
print(s)

print("P" in s, 'p' in s)  # Case-sensitive
print('x' not in s)

#c = s + set([1, 2, 3.4])  # Erro!
#s.union({1, 2, 3.4})  # Retorna um novo conjunto, não altera o anterior

{'P', 'y', 't', 'n', 'h', 'o'}
True False
True


{1, 2, 3.4, 'P', 'h', 'n', 'o', 't', 'y'}

In [None]:
# Operações entre conjuntos:

# 1) União: |
s = {1, 2, 3}
t = {4, 5, 6}
u = s | t           # Ou então u = s.union(t)
print(s, t, u)

{1, 2, 3} {4, 5, 6} {1, 2, 3, 4, 5, 6}


In [None]:
# 2) Intersecção: &
s = {1, 2, 3, 4}
t = {3, 4, 5, 6}
u = s & t           # Ou então u = s.intersection(t)
print(s, t, u)

{1, 2, 3, 4} {3, 4, 5, 6} {3, 4}


In [None]:
# 3) Diferença: -
s = {1, 2, 3, 4}
t = {3, 4, 5, 6}
u = s - t           # Pega os elementos de s que não aparecem em t
v = t - s           # Pega os elementos de t que não aparecem em s
print(s, t, u, v)   # Observe que é uma operação assimétrica
print()

s = {1, 2, 3, 4}
t = {7, 8, 9, 10}
print(s - t)
print()

s = {1, 2, 3, 4}
t = {1, 2, 3, 4}
print(s - t)        # Retorna um conjunto vazio, que é representado por set() pois {} é um dicionário vazio

{1, 2, 3, 4} {3, 4, 5, 6} {1, 2} {5, 6}

{1, 2, 3, 4}

set()


In [None]:
# 3) Diferença simétrica: ^
s = {1, 2, 3, 4}
t = {3, 4, 5, 6}
u = s ^ t           # Pega todos os elementos de s e t que não são comuns aos dois conjuntos
v = t ^ s           # Observe que é uma operação simétrica
print(s, t, u, v)
print()

s = {1, 2, 3, 4}
t = {7, 8, 9, 10}
print(s ^ t)
print()

s = {1, 2, 3, 4}
t = {1, 2, 3, 4}
print(s ^ t)        # Retorna um conjunto vazio, que é representado por set() pois {} é um dicionário vazio

{1, 2, 3, 4} {3, 4, 5, 6} {1, 2, 5, 6} {1, 2, 5, 6}

{1, 2, 3, 4, 7, 8, 9, 10}

set()


## Métodos de conjuntos

* Inclusão de elementos:
 * Operação de união
 * Adição de um elemento por meio da função **.add(elemento a ser adicionado)**
 * Adição de um conjunto por meio da função **.update(conjunto a ser adicionado)**

* Remoção de elementos:
 * Remoção de um elemento por meio da função **.discard(elemento a ser removido)**
 * Remoção de um elemento por meio da função **.remove(elemento a ser removido)**; gera exceção se o elemento não existe
 * Remoção de um elemento aleatório **.pop()**
 * Remoção de todos os elemento **.clear()**, retornando um conjunto vazio

* Cópia de conjuntos:
 * Operador atribuição **=** atribuindo ao novo conjunto o conjunto a ser copiado
 * Cópia de conjunto por meio da função **.copy()**

* Operações clássicas entre conjuntos:
 * União: **set0.union(set1, set2,...)** retorna a união de dois ou mais conjuntos
 * Intersecção:
    * **set0.intersection(set1, set2,...)** retorna a intersecção de dois ou mais conjuntos
    * **set0.intersection_update(set1,set2,...)** modifica set0 para conter a intersecção dos conjuntos
 * Diferença: é uma operação assimétrica
    * **set0.difference(set1, set2,...)** retorna os elementos de set0 que não estão incluídos nos outros conjuntos
    * **set0.difference_update(set1, set2,...)** modifica set0 para conter os elementos de set0 que não estão incluídos nos outros conjuntos
 * Diferença simétrica: é uma operação simétrica
    * **set0.symmetric_difference(set1, set2,...)** retorna todos os elementos de todos os conjuntos que não são comuns à eles
    * **set0.symmetric_difference_update(set1, set2,...)** modifica set0 para conter todos os elementos de todos os conjuntos que não são comuns à eles

* Testes:
  * **set0.isdisjoint(set1)** retorna False ou True caso exista ou não algum elemento comum entre os conjuntos
  * **set0.issuperset(set1)** retorna True ou False caso set0 contenha ou não o conjunto set1
  * **set0.issubset(set1)** retorna True ou False caso set0 esteja contido ou não no conjunto set1

In [None]:
# Métodos para inclusão de elementos a um conjunto:

s = {1, 2, 3}
s = s | {4}       # Operação de união
print(s)
print()

s.add(5)          # Adiciona (apenas) um elemento
print(s)
print()

t = {5, 6, 7, 8}
s.update(t)       # Adiciona o conjunto (lembrando da unicidade dos conjuntos)
print(s)

{1, 2, 3, 4}

{1, 2, 3, 4, 5}

{1, 2, 3, 4, 5, 6, 7, 8}


In [None]:
# Métodos para remoção de elementos de um conjunto:

s = {1, 2, 3, 4, 5, 6, 7, 8}

s.discard(4)        # Remove (apenas) um elemento
print(s)
print()

s.discard(10)       # Se o elemento não existe não gera exceção
print(s)
print()

s.remove(8)
print(s)
print()

#s.remove(10)       # Se o elemento não existe gera exceção

s.pop()             # Remove um elemento aleatório
print(s)
s.pop()             # Não pode assumir que a remoção segue uma ordem, assim como não pode-se esperar ordenação nos elementos do conjunto
print(s)
s.pop()
print(s)
print()

s.clear()           # Remove todos os elementos, gerando um conjunto vazio
print(s)

{1, 2, 3, 5, 6, 7, 8}

{1, 2, 3, 5, 6, 7, 8}

{1, 2, 3, 5, 6, 7}

{2, 3, 5, 6, 7}
{3, 5, 6, 7}
{5, 6, 7}

set()


In [None]:
# Método para copiar conjuntos:

s = {3, 5, 6, 7}
t = s
print(s, t)
print()

t = 0
t = s.copy()  # Copia os valores de s e passa para t
print(s, t)

{3, 5, 6, 7} {3, 5, 6, 7}

{3, 5, 6, 7} {3, 5, 6, 7}


In [None]:
# Métodos para operações clássicas entre conjuntos:

# 1) União
s = {1, 2, 3, 4}
t = {3, 4, 5, 6}
u = s.union(t)            # Equivalente: u = s | t
print(u)
print()

# 2) Intersecção
s = {1, 2, 3, 4}
t = {3, 4, 5, 6}
u = s.intersection(t)     # Equivalente: u = s & t
print(s, u)
print()

s = {1, 2, 3, 4}
t = {3, 4, 5, 6}
s.intersection_update(t)  # Equivalente: s = s & t  <===>  s &= t (&= não funciona)
print(s)
print()

# 3) Diferença
s = {1, 2, 3, 4}
t = {3, 4, 5, 6}
u = s.difference(t)       # Equivalente: u = s - t
v = t.difference(s)       # Equivalente: v = t - s
print(u, v)
print()

s = {1, 2, 3, 4}
t = {3, 4, 5, 6}
s.difference_update(t)    # Equivalente: s = s - t  <===>  s -= t (-= não funciona)
print(s)
s = {1, 2, 3, 4}
t.difference_update(s)    # Equivalente: t = t - s  <===>  t -= s (-= não funciona)
print(t)
print()

# 3) Diferença simétrica
s = {1, 2, 3, 4}
t = {3, 4, 5, 6}
u = s.symmetric_difference(t)     # Equivalente: u = s ^ t
v = t.symmetric_difference(s)     # Equivalente: v = t ^ s
print(u, v)
print()

s = {1, 2, 3, 4}
t = {3, 4, 5, 6}
s.symmetric_difference_update(t)  # Equivalente: s = s ^ t  <===>  s ^= t (^= não funciona)
print(s)
s = {1, 2, 3, 4}
t.symmetric_difference_update(s)  # Equivalente: t = t ^ s  <===>  t ^= s (^= não funciona)
print(t)

{1, 2, 3, 4, 5, 6}

{1, 2, 3, 4} {3, 4}

{3, 4}

{1, 2} {5, 6}

{1, 2}
{5, 6}

{1, 2, 5, 6} {1, 2, 5, 6}

{1, 2, 5, 6}
{1, 2, 5, 6}


In [None]:
# Métodos para testes:

# Para saber se conjuntos são disjuntos, ou seja, se tem algum elemento em comum entre conjuntos:
# .isdisjoint()
s = {1, 2, 3, 4, 5}
t = {4, 5, 6, 7, 8}
u = {6, 7, 8, 9, 10}

print( s.isdisjoint(t) )  # Intersecção != 0
print( s.isdisjoint(u) )  # Intersecção == 0
print()

# Para saber se um conjunto é superconjunto/subconjunto de outro, ou seja, se contém/está contido o outro:
# .issuperset() .issubset()
s = {1, 2, 3, 4, 5}
t = {2, 3}

print( s.issuperset(t) )  # s é um superconjunto de t (contém t)
print( t.issuperset(s) )  # t não é superconjunto de s (não contém s)
print()

print( s.issubset(t) )   # s não é subconjunto de t
print( t.issubset(s) )   # t é um subconjunto de s

False
True

True
False

False
True



## Função sorted()

* Retorna uma lista ordenada de elementos de uma coleção de dados

In [None]:
# Pega os elementos de s, converte para uma lista (que é indexada) e devolve a lista com os elementos ordenados:
s = {5, 1, 3, 6, 4, 2}

x = sorted(s)
print(x, type(x))

[1, 2, 3, 4, 5, 6] <class 'list'>


## Exemplos:

In [None]:
# Exemplo 1: remover itens repetidos em listas
lista = [5, 2, 1, 2, 1, 4, 4]
lista = list( set(lista) )
print(lista)

[1, 2, 4, 5]


In [None]:
# Exemplo 2: não iterar valores de uma lista que já foram iterados
ids = [123, 201, 199, 123, 199, 999, 201, 123]

# Modo 1
seen = set()
for id in ids:
  if id not in seen:
    print(id)
  seen.add(id)
print()

# Modo 2
for id in sorted( set(ids) ):
  print(id)

123
201
199
999

123
199
201
999


In [None]:
# Exemplo 3: eliminar itens indesejados de uma lista
lista = list("ABCDEFGHIJK")
print(lista)

# Para eliminar os elementos 'D' e 'J', poderíamos usar .remove(), mas ele só aceita 1 elemento
lista.remove('D')
print(lista)
lista.remove('J')
print(lista)
print()

# Outro método mais simples é utilizar a diferença entre conjuntos:
lista = list("ABCDEFGHIJK")
print(lista)

s1 = set(lista) - {"D", "J"}
s1 = sorted(list(s1))
print(s1)

s2 = set(lista).difference( {"D", "J"} )
s2 = sorted(list(s2))
print(s2)

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K']
['A', 'B', 'C', 'E', 'F', 'G', 'H', 'I', 'J', 'K']
['A', 'B', 'C', 'E', 'F', 'G', 'H', 'I', 'K']

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K']
['A', 'B', 'C', 'E', 'F', 'G', 'H', 'I', 'K']
['A', 'B', 'C', 'E', 'F', 'G', 'H', 'I', 'K']


In [None]:
# Exemplo 4: testes rápidos de associações

# Usado por, exemplo, para retornar instruções de ajuda caso o usuário indique
# na entrada usando -h ou --help com a sintaxe:
# if entrada in {'-h', '--help'}: suíte 

## Compressão de conjuntos

* Os mesmos métodos usados em listas.

In [None]:
# Exemplo 1: gerar conjunto contendo nomes de arquivos que serão usados para armazenar/ler dados ao longo do programa
s = {'file' + str(i) + ".dat" for i in range(9)}
print(s)

{'file0.dat', 'file1.dat', 'file2.dat', 'file3.dat', 'file5.dat', 'file6.dat', 'file7.dat', 'file4.dat', 'file8.dat'}


In [None]:
# Exemplo 2: queremos extrair o subconjunto contendo extensão .dat de um conjunto de arquivos
files = {'file1.doc', 'xyz.dat', "b1.dat", 'index.htm', 'readme.txt', 'prog.out', 'abc.DAT', 'texto.DOC', 'index2.htm', 'alfa.DAT', 'beta.TXT'}
print(s)

# Para conseguir pegar os que estão .DAT, pode-se converter todas as letras em minúsculas antes de testar:
dat = { x for x in files if x.lower().endswith('.dat') }
print(dat)

{'file0.dat', 'file1.dat', 'file2.dat', 'file3.dat', 'file5.dat', 'file6.dat', 'file7.dat', 'file4.dat', 'file8.dat'}
{'abc.DAT', 'alfa.DAT', 'b1.dat', 'xyz.dat'}


# Conjuntos congelados

* Classe: **frozenset**

* Sintaxe: **frozenset(objeto iterável)**

* É uma classe cujos elementos não podem ser alterados, semelhantemente às tuplas e às *strings*.

* É útil para segurança e para minimizar o uso da memória.

In [None]:
# conjunto -> frozenset
fs = frozenset( {12, 5, 3, 23} )
print(fs, type(fs))

# string -> frozenset
print( frozenset('abcdef') )

# lista -> frozenset
print( frozenset([1, 2, 3, 4, 5]) )

# tupla -> frozenset
print( frozenset( (1, 2, 3, 4) ) )

frozenset({3, 12, 5, 23}) <class 'frozenset'>
frozenset({'b', 'd', 'e', 'c', 'a', 'f'})
frozenset({1, 2, 3, 4, 5})
frozenset({1, 2, 3, 4})


## Métodos

* A maioria das operações e dos métodos aplicados a conjuntos também se aplicam a conjuntos congelados:
  * .copy()
  * .difference()
  * .intersection()
  * .isdisjoint()
  * .issuperset()
  * .issubset()
  * .union()
  * .symmetric_diference() *(talvez não)*