## 집합(Set)
- set은 파이썬에서 고유한 값들의 집합을 다루는 자료구조
- **이를 활용하면 데이터 중복을 제거하고 유일한 값들을 효과적으로 관리할 수 있다**

### Set 자료구조
set은 한마디로 **순서가 없는 중복되지 않은 데이터 집합**이다. (리스트와의 차이점을 이해하는 것이 중요) <br> <br>
리스트는 데이터를 순서가 있게 저장한다. 그래서 인텍스(index)를 통해서 특정 위치에 저장되어 있는 데이터에 접근이 가능하다. <br>
그리고 리스트에는 동일한 값을 여러번 저장할 수 있다. 값이 동일하더라도 인텍스가 틀리기 때문에 데이터의 중복이 문제되지 않는다. <br><br>
반면, set은 데이터를 순서없이 저장한다. 따라서 리스트처럼 **인덱스를 통해서 접근할 수 없다.** <br>
그리고 set은 중복된 데이터를 허용하지 않는다.<br>
즉, 기존에 set에 있는 값을 또 추가해도 아무 효력이 발생하지 않는다.
 

#### set 생성
- set은 **set() 혹은 중괄호({})로 생성할 수 있다.**
- 단, **빈 set을 생성할 때는 {}이 불가능**하다. (because, dictionary로 인식되기 때문에)

In [1]:
{'A','B','C'}

{'A', 'B', 'C'}

In [3]:
# dict
empty = {}
type(empty)

dict

In [4]:
# 빈 set을 생성할 때는 set() 내장 클래스를 사용해야 한다
empty = set()
type(empty)

set

#### 값 추가
- 새로운 값을 추가할 때는 **add()** 메서드를 사용한다.

In [5]:
num_set = set()

num_set.add(1)
num_set.add(2)
num_set.add(3)

num_set

{1, 2, 3}

#### 값 삭제
- **remove()** 메서드를 사용하면 특정 값을 삭제할 수 있다.

In [9]:
num_set = {1,2,3}

num_set.remove(1)
num_set

{2, 3}

In [10]:
num_set.remove(3)
num_set

{2}

In [11]:
# 존재하지 않는 값을 넣으면 오류 발생
num_set.remove(1)
num_set

KeyError: 1

- **discard()** 메서드를 사용하면 값이 set에 존재하지 않아도 오류가 발생하지 않는다.
- 대신 아무일도 일어나지 않는다.

In [12]:
num_set.discard(1)
num_set

{2}

#### 값 존재 여부 확인
- **in** 연산자를 사용하면 특정 값이 세트에 존재하는지 쉽게 확인할 수 있다.

In [15]:
char_set = {'A','B','C'}

print('B' in char_set)
print('D' in char_set)
print('D' not in char_set)


True
False
True


#### 모든 값 제거
- set에 저장된 모든 값을 제거하려면 **clear()** 메서드를 호출한다

In [16]:
char_set = {'A','B','C'}

char_set.clear()

char_set

set()

#### set 순회
- set에 저장되어 있는 모든 값을 순회하고 싶을 때는 for loop 안에서 in 연산자를 사용하면 된다.
- 단, set은 값을 순서없이 저장하기 때문에 **반복문 안에서 어떤 값이 먼저 나올지는 예측할 수 없다.**
- 값의 순서가 중요하다면 set 대신 list를 써야 한다.

In [18]:
char_set = {'A','B','C'}

for char in char_set:
    print(char)

B
C
A


#### set의 동등성
- 값이 순서가 다르더라도 같은 값을 담고 있다면 동일한 set으로 취급 된다.

In [19]:
{'A','B','C'} == {'A','C','B'}

True

In [20]:
# 중복된 값도 무시되어 비교된다!
{'A','B'} == {'A','A','B','B'}

True

#### List -> Set

In [22]:
# 중복 값이 모두 제거되어 set로!!
nums = [1,2,2,3,3,3]
num_set = set(nums)
num_set

{1, 2, 3}

#### Set -> List

In [23]:
num_set = {1,2,3}
nums = list(num_set)
nums

[1, 2, 3]

#### 리스트에서 중복 값 제거
- set는 중복 값을 허용하지 않기 때문에, 리스트에서 중복된 값을 제거하는 데에 매우 유용하게 활용된다.

In [24]:
numbers = [1,2,2,3,4,4,5]
unique_numbers  = list(set(numbers))
unique_numbers

[1, 2, 3, 4, 5]

#### 문자열에서 중복 문자 제거

In [26]:
chars = 'AAABBC'
unique_chars = "".join(set(chars))
unique_chars # 역시 문자의 순서는 예측할 수 없다.

'BCA'

#### 집합 연산
- 합집합, 교집찹, 차집합을 구할 수 있다.

In [27]:
set1 = {1,2,3,4,5}
set2 = {4,5,6,7,8}

In [28]:
# 합집합 ( or )
union = set1 | set2
union 

{1, 2, 3, 4, 5, 6, 7, 8}

In [29]:
# 교집합 ( and )
intersection = set1 & set2
intersection

{4, 5}

In [30]:
# 차집합 ( sub )
difference = set1 - set2
difference

{1, 2, 3}