# Set

- `set_name` = {element, element, ... }

## set의 특징

- 순서가 없는 (unordered) 데이터 모음
- 중복된 원소가 없음
- Iterable
- set 자체는 mutable 이지만 원소는 immutable

## Set의 생성
### Empty set 생성

In [1]:
set_1 = set()
print(set_1)
print("원소의 갯수 : ", len(set_1))

set()
원소의 갯수 :  0


### Non-empty set 생성

In [2]:
s1 = set([1,3,5,7,9])
s2 = set([1,3,5,7,3,5,3,5,14])
s3 = {5,21, 4,3,5}

print(s1)
print(s2)
print(s3)

{1, 3, 5, 7, 9}
{1, 3, 5, 7, 14}
{5, 3, 4, 21}


In [3]:
s4 = {'abc'}
print(s4)

{'abc'}


## set의 원소로 hashable 객체만 사용가능
- python의 튜플, 정수, 실수, 문자열 등과 같은 모든 immutable 데이터 유형들은 hashable
- Python의 리스트, 딕셔너리, set 등과 같은 모든 mutable 데이터 유형들은 unhashable

In [5]:
s4 = {1,3,5,'abc'}
s5 = {1,3,5,'abc', (12,3)}

In [6]:
s6 = {1,3,5,'abc', [12,3]}

TypeError: unhashable type: 'list'

In [7]:
s7 = {1,3,5,'abc', {12,3}}

TypeError: unhashable type: 'set'

In [8]:
s8 = {1,3,5,'abc', {'a':12, 'b':13}}

TypeError: unhashable type: 'dict'

## Set Comprehension

In [9]:
{ n for n in range(1,6) }

{1, 2, 3, 4, 5}

In [10]:
{2*n+1 for n in range(5) }

{1, 3, 5, 7, 9}

In [11]:
{ (m,n) for m in [1,5] for n in range(3) }

{(1, 0), (1, 1), (1, 2), (5, 0), (5, 1), (5, 2)}

In [12]:
ss = {1,5,'abc', (1,2), 3}
{n**2 for n in ss if(type(n)) == int }

{1, 9, 25}

In [13]:
ss = {1,5,'abc', (1,2), 3}
{n**2 for n in ss}

TypeError: unsupported operand type(s) for ** or pow(): 'tuple' and 'int'

## Set은 List에 비해서 처리 속도가 빠르다.

In [14]:
import random
random.seed(0)

In [15]:
N = 100
lst = list(range(N+1))
s = set(lst)

In [16]:
%%timeit

for i in range(50):
    n = random.randint(0, 2*N)
    n in lst

69.5 µs ± 312 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [17]:
%%timeit

for i in range(50):
    n = random.randint(0, 2*N)
    n in s

31.9 µs ± 113 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [20]:
%%timeit

N = 100000

for i in range(N+1):
    n = random.randint(0, 2*N)
    n in lst

168 ms ± 1.03 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [19]:
%%timeit

N = 100000

for i in range(N+1):
    n = random.randint(0, 2*N)
    n in s

67.4 ms ± 497 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [21]:
69.5/ 31.9 , 168/67.4

(2.1786833855799372, 2.492581602373887)

### Set 연산과 메소드 
#### 멤버쉽 학인

In [23]:
s1 = {1,2,3,4,5}
s2 = {3,5,7,9}

4 in s1, 4 in s2, 4 not in s2

(True, False, True)

### ADD
`set.add(element)` : 세트에 새로운 element 추가. element가 이미 존재한다면 아무일도 일어나지 않음 왜냐면 셋은 중복 허용 안하니까.

In [26]:
set_1 = {1, 3}
print(set_1)
set_1.add(6)
print(set_1)
set_1.add(6)
print(set_1)
set_1.add("abc")
print(set_1)
# set_1.add({1,3}) -> unhashable type : set
# print(set_1)

{1, 3}
{1, 3, 6}
{1, 3, 6}
{1, 3, 'abc', 6}


### POP

`set.pop()` : 세트에서 임의의 원소를 제거하고 제거된 원소를 반환함.

In [28]:
print(set_1)
element = set_1.pop()
print(element)
print(set_1)

{3, 'abc', 6}
3
{'abc', 6}


### Discard

`set.discard(element)` : 세트에서 element를 제거, element가 세트의 원소가 아니면 아무일도 일어나지 않음.

In [29]:
color = {'r', 'g', 'b'}
color

{'b', 'g', 'r'}

In [30]:
color.discard('m')
color

{'b', 'g', 'r'}

In [31]:
color.discard('r')
color

{'b', 'g'}

### Remove
`set.remove` : 세트에서 element제거, element가 세트의 원소가 아니면 Error 발생.

In [34]:
color = {'r', 'g', 'b'}
color

{'b', 'g', 'r'}

In [35]:
color.remove('r')
color

{'b', 'g'}

In [36]:
color.remove('m')
color

KeyError: 'm'

### clear
`set.clear()` : 세트에서 모든 원소를 제거

In [37]:
color

{'b', 'g'}

In [39]:
color.clear()
color

set()

### Copy
`set.copy()` : 셋에서 shallow copy를 반환.

- shallow copy란 : 주소 참조하는 객체를 만드는 것이 아닌 또 다른 객체를 가지는 set반환

In [40]:
set_2 = {1,3,5}
set_3 = set_2
set_4 = set_2.copy()
print(set_2)
print(set_3)
print(set_4)

{1, 3, 5}
{1, 3, 5}
{1, 3, 5}


In [41]:
print(id(set_2)), print(id(set_3)), print(id(set_4))

140390669855424
140390669855424
140390669853856


(None, None, None)

In [42]:
set_2.add(2)

print(set_2)
print(set_3)
print(set_4)

{1, 2, 3, 5}
{1, 2, 3, 5}
{1, 3, 5}


### 교집합 연산: intersection( ), &, intersection_update( )
- `set1.intersection(set2)` : 두 세트 set1과 set2의 교집합을 반환. 두 세트는 변화 없음.
- `set1.intersection_update(set2)` : set2는 변화가 없고, set1이 두 세트의 교집합이 됨

In [43]:
s1 = {1, 3, 5, 7, 9}
s2 = {7, 9, 11, 13}
# pspmisc.plot_venn_diagram(s1, s2)
print("Before intersection operation")
print("s1 = ", s1)
print("s2 = ", s2)
s3 = s1.intersection(s2)
s4 = s1 & s2
print("After s1.intersection(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s3 = ", s3)
print("s4 = ", s4)
s1.intersection_update(s2)
print("After s1.intersection_update(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s3 = ", s3)
print("s4 = ", s4)

Before intersection operation
s1 =  {1, 3, 5, 7, 9}
s2 =  {9, 11, 13, 7}
After s1.intersection(s2)
s1 =  {1, 3, 5, 7, 9}
s2 =  {9, 11, 13, 7}
s3 =  {9, 7}
s4 =  {9, 7}
After s1.intersection_update(s2)
s1 =  {9, 7}
s2 =  {9, 11, 13, 7}
s3 =  {9, 7}
s4 =  {9, 7}


### 합집합 연산: union( ), |, update( )
- `set1.union(set2)` : 두 세트 set1과 set2의 합집합을 반환. 두 세트는 변화 없음.
- `set1.update(set2)` : set2는 변화가 없고, set1이 두 세트의 합집합이 됨

In [45]:
s1 = {1, 3, 5, 7, 9}
s2 = {7, 9, 11, 13}
# pspmisc.plot_venn_diagram(s1, s2)
print("Before union operation")
print("s1 = ", s1)
print("s2 = ", s2)
s5 = s1.union(s2)
s6 = s1 | s2
print("After s1.union(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s5 = ", s5)
print("s6 = ", s6)
s3 = s1.update(s2)
print("After s1.update(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s5 = ", s5)
print("s6 = ", s6)

Before union operation
s1 =  {1, 3, 5, 7, 9}
s2 =  {9, 11, 13, 7}
After s1.union(s2)
s1 =  {1, 3, 5, 7, 9}
s2 =  {9, 11, 13, 7}
s5 =  {1, 3, 5, 7, 9, 11, 13}
s6 =  {1, 3, 5, 7, 9, 11, 13}
After s1.update(s2)
s1 =  {1, 3, 5, 7, 9, 11, 13}
s2 =  {9, 11, 13, 7}
s5 =  {1, 3, 5, 7, 9, 11, 13}
s6 =  {1, 3, 5, 7, 9, 11, 13}


### 차집합 연산 (Difference Set): difference( ), -, difference_update
- `set1.difference(set2)` : set1에서 set2을 뺀 차집합을 반환. 두 세트는 변화 없음.
- `set1.difference_update(set2)` : set2는 변화가 없고, set1이 두 세트의 차집합이 됨

In [47]:
s1 = {1, 3, 5, 7, 9}
s2 = {7, 9, 11, 13}
print("Before difference operation")
print("s1 = ", s1)
print("s2 = ", s2)
# pspmisc.plot_venn_diagram(s1, s2)
s7 = s1.difference(s2)
s8 = s1 - s2
print("After s1.difference(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s7 = ", s7)
print("s8 = ", s8)
s1.difference_update(s2)
print("After s1.difference_update(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s7 = ", s7)
print("s8 = ", s8)

Before difference operation
s1 =  {1, 3, 5, 7, 9}
s2 =  {9, 11, 13, 7}
After s1.difference(s2)
s1 =  {1, 3, 5, 7, 9}
s2 =  {9, 11, 13, 7}
s7 =  {1, 3, 5}
s8 =  {1, 3, 5}
After s1.difference_update(s2)
s1 =  {1, 3, 5}
s2 =  {9, 11, 13, 7}
s7 =  {1, 3, 5}
s8 =  {1, 3, 5}


In [48]:
s1 - s2 == s1 - (s1 & s2)

True

### 대칭차집합 (Symmetric Difference Set): symmetric_difference(), ^, symmetric_difference_update
- `set1.symmetric_difference(set2)` : set1에서 set2을 뺀 대칭차집합을 반환. 두 세트는 변화 없음.
- `set1.symmetric_difference_update(set2) `: set2는 변화가 없고, set1이 두 세트의 대칭차집합이 됨

In [49]:
s1 = {1, 3, 5, 7, 9}
s2 = {7, 9, 11, 13}
print("Before symmetric_difference operation")
print("s1 = ", s1)
print("s2 = ", s2)
# pspmisc.plot_venn_diagram(s1, s2)
s9 = s1.symmetric_difference(s2)
s10 = s1 ^ s2
print("After s1.difference(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s9 = ", s9)
print("s10 = ", s10)
s1.symmetric_difference_update(s2)
print("After s1.symmetric_difference_update(s2)")
print("s1 = ", s1)
print("s2 = ", s2)
print("s9 = ", s9)
print("s10 = ", s10)

Before symmetric_difference operation
s1 =  {1, 3, 5, 7, 9}
s2 =  {9, 11, 13, 7}
After s1.difference(s2)
s1 =  {1, 3, 5, 7, 9}
s2 =  {9, 11, 13, 7}
s9 =  {1, 3, 5, 11, 13}
s10 =  {1, 3, 5, 11, 13}
After s1.symmetric_difference_update(s2)
s1 =  {1, 3, 5, 11, 13}
s2 =  {9, 11, 13, 7}
s9 =  {1, 3, 5, 11, 13}
s10 =  {1, 3, 5, 11, 13}


### 부분집합과 진부분집합 확인
- 부분집합 (subset) 확인: `issubset()`, `<=`
- 진부분집합 (proper subset) 확인: `<`

In [50]:
ss1 = {1, 3, 5, 7}
ss2 = {1, 3, 5, 7}
ss3 = {1, 3, 5, 7, 9, 11, 13}
print("ss1 < ss2 : ", ss1 < ss2)
print("ss1 <= ss2 : ", ss1 <= ss2)
print("ss1 < ss3 : ", ss1 < ss3)
print("ss1 <= ss3 : ", ss1 <= ss3)
print("ss1.issubset(ss2) :", ss1.issubset(ss2))
print("ss1.issubset(ss3) :", ss1.issubset(ss3))

ss1 < ss2 :  False
ss1 <= ss2 :  True
ss1 < ss3 :  True
ss1 <= ss3 :  True
ss1.issubset(ss2) : True
ss1.issubset(ss3) : True


### 상위집합과 진상위집합 확인
- 상위집합 (superset) 확인: `issuperset()` , `>=`
- 진상위집합 (proper superset) 확인: `>`

In [51]:
ss1 = {1, 3, 5, 7}
ss2 = {1, 3, 5, 7}
ss3 = {1, 3, 5, 7, 9, 11, 13}
print("ss2 > ss1 : ", ss2 > ss1)
print("ss3 > ss1 : ", ss3 > ss1)
print("ss2 >= ss1 : ", ss2 >= ss1)
print("ss3 >= ss1 : ", ss3 >= ss1)
print("ss2.issuperset(ss1) :", ss2.issuperset(ss1))
print("ss3.issuperset(ss1) :", ss3.issuperset(ss1))

ss2 > ss1 :  False
ss3 > ss1 :  True
ss2 >= ss1 :  True
ss3 >= ss1 :  True
ss2.issuperset(ss1) : True
ss3.issuperset(ss1) : True


### 서로소집합 확인: isdisjoint()
`set1.isdisjoint(set2)`: set1과 set2가 공통원소가 없는 서로소집합이면 True 반환, 그렇지 않으면 False 반환

In [52]:
a = {1, 3, 5}
b = {3, 5, 7}
c = {10, 11}
print(a.isdisjoint(b))
print(b.isdisjoint(a))
print(a.isdisjoint(c))
print(c.isdisjoint(a))

False
False
True
True


### Set 관련 메쏘드
- len(object): 컨테이너 내의 항목의 개수 반환
- sum(iterable, start=0): iterable의 합과 start의 합을 반환
- min(iterable): iterable 내의 최솟값을 반환
- max(iterable): iterable 내의 최댓값을 반환
- any(iterable): iterable 내의 어떤 x가 True이면 True를 반환
- all(iterable): iterable 내의 모든 x가 True이면 True를 반환
- sorted(sequence, key=None, reverse=False): sequence의 모든 값을 정렬하여 만든 리스트를 반환
- enumerate(iterable, start=0): start로 시작하는 카운트와 iterable 내의 value의 쌍을 가진 enumerate 객체를 반환
- filter(function, iterable): iterable의 항목 x 중에서 function(x)의 결과가 True인 x를 iterable로 반환

In [53]:
s = {1, 3, 9, 5}
print(len(s))
print(sum(s))
print(sum(s, 10))
print(min(s))
print(max(s))
print(any(s))
print(all(s))
print(sorted(s))
print(sorted(s, reverse=True))

4
18
28
1
9
True
True
[1, 3, 5, 9]
[9, 5, 3, 1]


In [55]:
a = {1, 5, 0, 3}
for n, v in enumerate(a):
    print(n, v)
for n, v in enumerate(a, 10):
    print(n, v)

0 0
1 1
2 3
3 5
10 0
11 1
12 3
13 5


In [56]:
a = {1, -3, 5, -7, 9}
y = filter(lambda x: x>0, a)
print(set(y))

{1, 5, 9}


### Frozen Sets
- Immutable 객체
- Set 메쏘드 중에서 연산 결과가 set에 영향을 미치지 않는 연산만 적용 가능

In [57]:
fs1 = frozenset([1, 5, 7, 3, 9])
fs2 = frozenset([7, 3, 5, 3, 5, 7, 14]) # 중복된 원소는 제거된다
print(fs1)
print(fs2)

frozenset({1, 3, 5, 7, 9})
frozenset({3, 5, 14, 7})


In [58]:
fs1.union(fs2)

frozenset({1, 3, 5, 7, 9, 14})

In [59]:
fs1.update(fs2)

AttributeError: 'frozenset' object has no attribute 'update'

In [60]:
fs3 = frozenset("abc")
print(fs3)

frozenset({'c', 'b', 'a'})


In [61]:
s5 = {'abc'}
s5

{'abc'}

### 1. List vs Set
- List는 동정 배열 dynamic array 구조로 구현되어 있음.

In [64]:
lst = []
print(id(lst), lst.__sizeof__())
for n in range(100):
    lst.append(n)
    print(id(lst), lst.__sizeof__())

140390669836800 40
140390669836800 72
140390669836800 72
140390669836800 72
140390669836800 72
140390669836800 104
140390669836800 104
140390669836800 104
140390669836800 104
140390669836800 168
140390669836800 168
140390669836800 168
140390669836800 168
140390669836800 168
140390669836800 168
140390669836800 168
140390669836800 168
140390669836800 232
140390669836800 232
140390669836800 232
140390669836800 232
140390669836800 232
140390669836800 232
140390669836800 232
140390669836800 232
140390669836800 296
140390669836800 296
140390669836800 296
140390669836800 296
140390669836800 296
140390669836800 296
140390669836800 296
140390669836800 296
140390669836800 360
140390669836800 360
140390669836800 360
140390669836800 360
140390669836800 360
140390669836800 360
140390669836800 360
140390669836800 360
140390669836800 456
140390669836800 456
140390669836800 456
140390669836800 456
140390669836800 456
140390669836800 456
140390669836800 456
140390669836800 456
140390669836800 456
14039

### Set응용 예

- 리스트에 중복된 원소가 있는지 확인하는 방법.

In [174]:
import random
lst = [random.randint(0, 100) for _ in range(30)]

for e in lst:
    print(e, end = " ")
    
if len(lst) == len(set(lst)):
    print("중복원소 없음", len(lst), "길이", len(set(lst)))
else:
    print("중복원소 있음", len(lst), "길이", len(set(lst)))


60 89 71 92 82 21 43 63 72 88 80 52 70 14 18 33 13 46 97 17 94 67 16 58 11 62 98 100 96 47 중복원소 없음 30 길이 30


중복원소 있음 30 길이 28
