# Set

`set_name = {element, element, ⋯} `

## Set 특징
- 순서가 없는 (unordered) 데이터 모음
- 중복된 원소가 없음
- Iterable
- set 자체는 mutable이지만 원소는 immutable

### Empty Set 생성

In [2]:
set_1 = set()
print(set_1)
print(f"원소의 갯수 : {len(set_1)}")

set()
원소의 갯수 : 0


In [6]:
s1 = set([1, 5, 7, 3, 9])
s2 = set([7, 3, 5, 3, 5, 7, 14]) # 중복된 원소는 제거된다
s3 = {5, 21, 4, 3, 5}

In [8]:
print(s1)
print(s2)
print(s3)

{1, 3, 5, 7, 9}
{3, 5, 14, 7}
{5, 3, 4, 21}


In [9]:
s4 = set("abc")
print(s4)

{'a', 'b', 'c'}


In [10]:
s5 = {'abc'}
s5

{'abc'}

## Set의 원소로 hashable 객체만 사용가능
- Python의 튜플, 정수, 실수, 문자열 등과 같은 모든 immutable 데이터 유형들은 hashable
-  Python의 리스트, 딕셔너리, set 등과 같은 모든 mutable 데이터 유형들은 unhashable

In [11]:
s4 = {1,3,5, 'abc'}
s5 = {1,3,5, 'abc', (12,3)}

In [12]:
s6 = {1,3,5, 'abc', [12, 3]}

TypeError: unhashable type: 'list'

In [13]:
s7 = {1,3,5,'abc', {12,3}}

TypeError: unhashable type: 'set'

In [14]:
s8 = {1,3,5,'abc', {'a':12}}

TypeError: unhashable type: 'dict'

## Set Comprehension

In [15]:
{ n for n in range(1,6)}

{1, 2, 3, 4, 5}

In [16]:
{2*n+1 for n in range(5)}

{1, 3, 5, 7, 9}

In [17]:
{ (m,n) for m in [1,5] for n in range(3) }

{(1, 0), (1, 1), (1, 2), (5, 0), (5, 1), (5, 2)}

In [18]:
ss = {1,5,'abc', (1,2), 3}
{ n**2 for n in ss if type(n) == int }

{1, 9, 25}

## Set은 List에 비해서 처리하는 속도가 빠르다.

- 일반적으로 set은 list보다 검색 속도가 빠르다. 그 이유는?
- list는 동적배열구조, set은 hashable 구조.

In [19]:
import random
random.seed(0)

In [20]:
N = 100
lst = list(range(N+1))
s = set(lst)

In [21]:
%%timeit
for i_ in range(50):
    n = random.randint(0, 2*N)
    n in lst

69.5 µs ± 116 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [22]:
%%timeit
for i_ in range(50):
    n = random.randint(0, 2*N)
    n in s

31.8 µs ± 343 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [23]:
%%timeit
for i_ in range(10000):
    n = random.randint(0, 2*N)
    n in lst

14.1 ms ± 102 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [24]:
%%timeit
for i_ in range(10000):
    n = random.randint(0, 2*N)
    n in s

6.47 ms ± 38.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [26]:
69.5 / 31.8 , 14.1/6.47

(2.1855345911949686, 2.179289026275116)

## Set 연산과 메소드
### 멤버쉽 확인

In [27]:
s1 = {1,2,3,4,5}
s2 = {3,5,7,9}

4 in s1, 4 not in s2

(True, True)

`Add`
- set.add(element): 세트에 새로운 element를 추가. element가 이미 원소로 존재하면 아무 일도 일어나지 않음

In [29]:
set_1 = {1, 3}
print(set_1)
set_1.add(6)
print(set_1)
set_1.add(6)
print(set_1)
set_1.add("abc")
print(set_1)
set_1.add({1,3}) # mutable 객체이기 때문에 에러가 남.
print(set_1)

{1, 3}
{1, 3, 6}
{1, 3, 6}
{'abc', 1, 3, 6}


TypeError: unhashable type: 'set'

`pop`
- set.pop() : 셋에서 임의의 원소를 제거하고 제거된 원소를 반환함.

In [32]:
print(set_1)
element = set_1.pop()
print(element)
print(set_1)

{1, 3, 6}
1
{3, 6}


`Discard`
- set.discard(element):
    - 셋에서 element를 제거.
    - element가 세트의 원소가 아니면 아무 일도 일어나지 않음.

In [33]:
color = {'r' , 'g', 'b'}
color

{'b', 'g', 'r'}

In [34]:
color.discard('m')
color

{'b', 'g', 'r'}

In [35]:
color.discard('b')
color

{'g', 'r'}

`Remove`

- set.remove(element):
    - 세트에서 element를 제거
    - element가 세트의 원소가 아니면 KeyError 발생.

In [39]:
color = {'r', 'g', 'b'}
color

{'b', 'g', 'r'}

In [40]:
color.remove('b')
color

{'g', 'r'}

In [41]:
color.remove('m')
color

KeyError: 'm'

`clear`
- set.clear() : 세트에서 모든 원소를 제거.

In [42]:
print(set_1)
set_1.clear()
print(set_1)

{3, 6}
set()


`copy`
- set.copy() : 셋 객체의 shallow copy를 반환

In [47]:
set_2 = {1,3,5}
set_3 = set_2
set_4 = set_2.copy()
print(set_2, set_3, set_4)

{1, 3, 5} {1, 3, 5} {1, 3, 5}


In [48]:
set_2.add(4)
print(set_2, set_3, set_4)
print(id(set_2), id(set_3), id(set_4))

{1, 3, 4, 5} {1, 3, 4, 5} {1, 3, 5}
140496187139456 140496187139456 140496187139680


# 교집합 연산: intersection( ), &, intersection_update( )

- set1.intersection(set2):
    - 두 세트 set1과 set2의 교집합을 반환.
    - 두 세트는 변화 없음.
- set1.intersection_update(set2):
    - set2는 변화가 없고,
    - set1이 두 세트의 교집합이 됨

In [56]:
import pspmisc

ModuleNotFoundError: No module named 'pspmisc'

In [54]:
s1 = {1, 3, 5, 7, 9}
s2 = {7, 9, 11, 13}
pspmisc.plot_venn_diagram(s1, s2)
print("Before intersection operation")
print("s1 = ", s1)
print("s2 = ", s2)
s3 = s1.intersection(s2)
s4 = s1 & s2
print("After s1.intersection(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s3 = ", s3)
print("s4 = ", s4)
s1.intersection_update(s2)
print("After s1.intersection_update(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s3 = ", s3)
print("s4 = ", s4)

NameError: name 'pspmisc' is not defined

# 합집합 연산: union( ), |, update( )
- set1.union(set2):
    - 두 세트 set1과 set2의 합집합을 반환.
    - 두 세트는 변화 없음.
- set1.update(set2):
    - set2는 변화가 없고,
    - set1이 두 세트의 합집합이 됨

In [57]:
s1 = {1, 3, 5, 7, 9}
s2 = {7, 9, 11, 13}
pspmisc.plot_venn_diagram(s1, s2)
print("Before union operation")
print("s1 = ", s1)
print("s2 = ", s2)
s5 = s1.union(s2)
s6 = s1 | s2
print("After s1.union(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s5 = ", s5)
print("s6 = ", s6)
s3 = s1.update(s2)
print("After s1.update(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s5 = ", s5)
print("s6 = ", s6)

NameError: name 'pspmisc' is not defined

# 차집합 연산 (Difference Set): difference( ), -, difference_update
- set1.difference(set2):
    - set1에서 set2을 뺀 차집합을 반환.
    - 두 세트는 변화 없음.
- set1.difference_update(set2):
    - set2는 변화가 없고,
    - set1이 두 세트의 차집합이 됨

In [58]:
s1 = {1, 3, 5, 7, 9}
s2 = {7, 9, 11, 13}
print("Before difference operation")
print("s1 = ", s1)
print("s2 = ", s2)
pspmisc.plot_venn_diagram(s1, s2)
s7 = s1.difference(s2)
s8 = s1 - s2
print("After s1.difference(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s7 = ", s7)
print("s8 = ", s8)
s1.difference_update(s2)
print("After s1.difference_update(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s7 = ", s7)
print("s8 = ", s8)

Before difference operation
s1 =  {1, 3, 5, 7, 9}
s2 =  {9, 11, 13, 7}


NameError: name 'pspmisc' is not defined

In [60]:
s1 - s2 == s1 - (s1 & s2)

True

# 대칭차집합 (Symmetric Difference Set): symmetric_difference(), ^, symmetric_difference_update
- set1.symmetric_difference(set2):
    - set1에서 set2을 뺀 대칭차집합을 반환.
    - 두 세트는 변화 없음.
- set1.symmetric_difference_update(set2):
    - set2는 변화가 없고,
    - set1이 두 세트의 대칭차집합이 됨

In [61]:
s1 = {1, 3, 5, 7, 9}
s2 = {7, 9, 11, 13}
print("Before symmetric_difference operation")
print("s1 = ", s1)
print("s2 = ", s2)
pspmisc.plot_venn_diagram(s1, s2)
s9 = s1.symmetric_difference(s2)
s10 = s1 ^ s2
print("After s1.difference(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s9 = ", s9)
print("s10 = ", s10)
s1.symmetric_difference_update(s2)
print("After s1.symmetric_difference_update(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s9 = ", s9)
print("s10 = ", s10)

Before symmetric_difference operation
s1 =  {1, 3, 5, 7, 9}
s2 =  {9, 11, 13, 7}


NameError: name 'pspmisc' is not defined

# 부분집합과 진부분집합 확인
- 부분집합 (subset) 확인: `issubset()` , `<=` , 안에 속하는지 여부, 같은건 False 
- 진부분집합 (proper subset) 확인: `<` , 안에 속하는지 + 같은지 , 같으면 True

In [62]:
ss1 = {1, 3, 5, 7}
ss2 = {1, 3, 5, 7}
ss3 = {1, 3, 5, 7, 9, 11, 13}
print("ss1 < ss2 : ", ss1 < ss2)
print("ss1 <= ss2 : ", ss1 <= ss2)
print("ss1 < ss3 : ", ss1 < ss3)
print("ss1 <= ss3 : ", ss1 <= ss3)
print("ss1.issubset(ss2) :", ss1.issubset(ss2))
print("ss1.issubset(ss3) :", ss1.issubset(ss3))

ss1 < ss2 :  False
ss1 <= ss2 :  True
ss1 < ss3 :  True
ss1 <= ss3 :  True
ss1.issubset(ss2) : True
ss1.issubset(ss3) : True


# 상위집합과 진상위집합 확인
- 상위집합 (superset) 확인: `issuperset()` , `>=`
- 진상위집합 (proper superset) 확인: >

In [63]:
ss1 = {1, 3, 5, 7}
ss2 = {1, 3, 5, 7}
ss3 = {1, 3, 5, 7, 9, 11, 13}
print("ss2 > ss1 : ", ss2 > ss1)
print("ss3 > ss1 : ", ss3 > ss1)
print("ss2 >= ss1 : ", ss2 >= ss1)
print("ss3 >= ss1 : ", ss3 >= ss1)
print("ss2.issuperset(ss1) :", ss2.issuperset(ss1))
print("ss3.issuperset(ss1) :", ss3.issuperset(ss1))

ss2 > ss1 :  False
ss3 > ss1 :  True
ss2 >= ss1 :  True
ss3 >= ss1 :  True
ss2.issuperset(ss1) : True
ss3.issuperset(ss1) : True


# 서로소집합 확인: 
`isdisjoint()` , `>=`

In [64]:
a = {1, 3, 5}
b = {3, 5, 7}
c = {10, 11}
print(a.isdisjoint(b))
print(b.isdisjoint(a))
print(a.isdisjoint(c))
print(c.isdisjoint(a))

False
False
True
True


# Set 관련 메쏘드
- len(object): 컨테이너 내의 항목의 개수 반환
- sum(iterable, start=0): iterable의 합과 start의 합을 반환
- min(iterable): iterable 내의 최솟값을 반환
- max(iterable): iterable 내의 최댓값을 반환
- any(iterable): iterable 내의 어떤 x가 True이면 True를 반환
- all(iterable): iterable 내의 모든 x가 True이면 True를 반환
- sorted(sequence, key=None, reverse=False): sequence의 모든 값을 정렬하여 만든 리스트를 반환
- enumerate(iterable, start=0): start로 시작하는 카운트와 iterable 내의 value의 쌍을 가진 enumerate 객체를 반환
- filter(function, iterable): iterable의 항목 x 중에서 function(x)의 결과가 True인 x를 iterable로 반환

In [68]:
s = {1, 3, 9, 5}
print(len(s))
print(sum(s))
print(sum(s, 10))
print(min(s))
print(max(s))
print(any(s))
print(all(s))
print(sorted(s))
print(sorted(s, reverse=True))

4
18
28
1
9
True
True
[1, 3, 5, 9]
[9, 5, 3, 1]


# 어떤 객체를 먼저 반환할지 모름.

In [70]:
a = {1, 5, 0, 3}
for n, v in enumerate(a): 
    print(n, v)
for n, v in enumerate(a, 10):
    print(n, v)

0 0
1 1
2 3
3 5
10 0
11 1
12 3
13 5


## filter 함수는 특정한 함수를 적용했을 때 참인 결과만 반환하는 함수

In [71]:
a = {1, -3, 5, -7, 9}
y = filter(lambda x: x>0, a)
print(set(y))

{1, 5, 9}


# Frozen set
- Immuatable 객체
- Set 메소드 중에서 연산결과가 set에 영향을 미치지 않는 연산만 적용 가능.

## Fronzen set 생성

In [72]:
set_1 = frozenset()
print(set_1)
print("원소의 갯수 " , len(set_1))

frozenset()
원소의 갯수  0


In [73]:
fs1 = frozenset([1, 5, 7, 3, 9])
fs2 = frozenset([7, 3, 5, 3, 5, 7, 14]) # 중복된 원소는 제거된다
print(fs1)
print(fs2)

frozenset({1, 3, 5, 7, 9})
frozenset({3, 5, 14, 7})


In [74]:
fs1.union(fs2)

frozenset({1, 3, 5, 7, 9, 14})

In [75]:
fs1.update(fs2)

AttributeError: 'frozenset' object has no attribute 'update'

In [77]:
fs3 = frozenset("abc")
print(fs3)

frozenset({'a', 'b', 'c'})


In [78]:
s5 = {'abc'}
s5

{'abc'}