# 4.집합


### 파이썬에서의 집합(set) 자료형
- ① 집합 자료는 키만 모아 놓은 딕셔너리의 특수한 형태
- ② 딕셔너리의 키는 중복되면 안 되므로 세트에 들어 있는 값은 항상 유일
- ③ 중복된 키는 자동으로 하나만 남음


In [None]:
# 파이썬에서 여러 데이터를 담을 수 있는 자료형

l = list()
t = tuple()
d = dict({'key':'value'})
s = set({1,2,3,4,5})

type(l), type(t), type(d), type(s)

(list, tuple, dict, set)

### 집합의 정의와 사용

In [3]:
mySet = set()      # 공집합
print(type(mySet))

mySet = {1,2,3,4,5}
print(type(mySet))

mySet = {1,2,2,3,3,4,4,4,}  # 고유성: unique한 값만 갖는다.
print(mySet)

<class 'set'>
<class 'set'>
{1, 2, 3, 4}


In [2]:
mySet = set('Hello')   # 고유성: unique한 값만 갖는다.
print(mySet)

{'H', 'e', 'o', 'l'}


### [집합의 응용] 데이터 분류

In [41]:
# 간단한 분류 예제: 여러 클래스 집합에 속하는지 확인
def classify(data_point, class_sets):
    for class_name, class_set in class_sets.items():
        if data_point in class_set:
            return f"{data_point}는 {class_name}에 속합니다."
    return f"{data_point}는 어느 클래스에도 속하지 않습니다."

# 클래스 집합 정의
class_sets = {
    "Class A": {1, 2, 3, 4},
    "Class B": {5, 6, 7, 8},
    "Class C": {9, 10, 11, 12}
}

# 테스트할 데이터 포인트
data_point1 = 5
data_point2 = 11
data_point3 = 13

# 테스트 실행
print(classify(data_point1, class_sets))  # Class B에 속할 것
print(classify(data_point2, class_sets))  # Class C에 속할 것
print(classify(data_point3, class_sets))  # 어느 클래스에도 속하지 않을 것


5는 Class B에 속합니다.
11는 Class C에 속합니다.
13는 어느 클래스에도 속하지 않습니다.


### [집합의 응용] 데이터 군집화(clustering)

In [43]:
from sklearn.cluster import KMeans
import numpy as np

# 임의의 데이터 생성 (2D 공간에서 10개의 데이터 포인트)
data = np.array([
    [1, 2], [2, 3], [3, 4], [8, 8], [7, 7], [9, 9],
    [20, 20], [21, 19], [19, 21], [22, 22]
])

# K-평균 군집화 모델 생성 (3개의 군집으로 나눔)
kmeans = KMeans(n_clusters=3)
kmeans.fit(data)

# 각 데이터 포인트의 군집 라벨 출력
labels = kmeans.labels_

# 각 군집을 집합으로 표현
clusters = {}
for i, label in enumerate(labels):
    if label not in clusters:
        clusters[label] = set()
    clusters[label].add(tuple(data[i]))

# 결과 출력
for cluster_id, cluster_data in clusters.items():
    print(f"군집 {cluster_id}: {cluster_data}")


군집 2: {(2, 3), (1, 2), (3, 4)}
군집 1: {(8, 8), (7, 7), (9, 9)}
군집 0: {(21, 19), (19, 21), (20, 20), (22, 22)}


### [집합의 응용] 문장의 유사도 측정

In [44]:
import re

# 텍스트 전처리 함수 (단어 토큰화 및 소문자 변환)
def preprocess_text(text):
    # 소문자로 변환 및 단어 토큰화
    words = re.findall(r'\w+', text.lower())
    return set(words)  # 집합으로 변환하여 중복 단어 제거

# 두 문장 간의 유사성 계산 (교집합 크기를 기반으로)
def calculate_similarity(sentence1, sentence2):
    # 문장을 전처리하여 단어 집합 생성
    set1 = preprocess_text(sentence1)
    set2 = preprocess_text(sentence2)

    # 교집합 계산
    common_words = set1 & set2
    union_words = set1 | set2

    # 유사도 계산: Jaccard similarity
    similarity = len(common_words) / len(union_words)
    return similarity, common_words

# 테스트 문장
sentence1 = "Artificial intelligence and machine learning are closely related."
sentence2 = "Machine learning is a subset of artificial intelligence."

# 유사성 계산
similarity, common_words = calculate_similarity(sentence1, sentence2)

# 결과 출력
print(f"두 문장의 유사도: {similarity:.2f}")
print(f"공통 단어: {common_words}")


두 문장의 유사도: 0.33
공통 단어: {'artificial', 'machine', 'learning', 'intelligence'}




---



## 4-1. 집합의 개념

### [예제 4-1] 집합의 원소

In [14]:
# 집합 정의
S = {2, 4, 6, 8}

# 원소가 집합에 속하는지 확인할 요소
N = {4, 5, 6}

# 원소가 집합에 속하는지 여부 판단
for n in N :
    if n  in S:
        print(f"{n}는 집합{S}의 원소입니다.")
    else:
        print(f"{n}는 집합{S}의 원소가 아닙니다.")

4는 집합{8, 2, 4, 6}의 원소입니다.
5는 집합{8, 2, 4, 6}의 원소가 아닙니다.
6는 집합{8, 2, 4, 6}의 원소입니다.


### [예제 4-2] 집합의 표시

In [15]:
string = 'Python'

# 원소나열별
print(f'원소나열법: {set(string)}')

# 조건제시법
print(f'조건제시법: { { s for s in string } }')


원소나열법: {'o', 'P', 'y', 'n', 't', 'h'}
조건제시법: {'o', 'P', 'y', 'n', 't', 'h'}


### [Quiz] : 원소나열법과 조건제시법으로 표시
- 10보다 작거나 같은 자연수의 모임

In [29]:
S = {1,2,3,4,5,6,7,8,9,10}    # 원소나열별
S = {n for n in range(1,11)}  # 조건제시법
S = {n for n in range(1,11)}
S = set(range(1,11))

evens = { 2 * n for x in S if n%2==0 }   # 짝수
powers = { 2 ** n for x in S }           # 집합은 순서가 없다.
print('집합 S : ', S)
print('evens  : ', evens)
print('powers : ', powers)

집합 S :  {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
evens  :  {12}
powers :  {64}


### 집합의 크기(Cardinality) : 집합의 길이

In [27]:
S = {n for n in range(1,11)} # 10보다 작은 자연수의 모임
print(f'집합의 원소들: {S}')
print(f'집합의 크기  : {len(S)}')

집합의 원소들: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
집합의 크기  : 10


### [예제 4-3] 집합의 크기

In [28]:
S = set('Python')
print(f'집합 S{S}의 크기 : {len(S)}')  # 길이=크기

집합 S{'o', 'P', 'y', 'n', 't', 'h'}의 크기 : 6


In [12]:
mySet = {1,2,2,3,4,3,4,5}
print(mySet)
print('mySet의 크기 : ', len(mySet))  # 길이=크기

{1, 2, 3, 4, 5}
mySet의 크기 :  5


In [9]:
mySet = {'사과','포도','오렌지','포도','포도'}
print(f'집합의 길이={len(mySet)}, 원소={mySet}')

집합의 길이=3, 원소={'사과', '포도', '오렌지'}


### 집합의 종류

### [예제 4-7] 두 집합의 같음

In [30]:
A = {1, 2, 3, 4, 5}
B = {x for x in range(1,30) if x**2 < 30}

if A == B:
    print('집합 A와 집합 B는 같다.')
else:
    print('집합 A와 집합 B는 같지 않다.')

집합 A와 집합 B는 같다.


### [예제 4-8] 두 집합의 같음

In [31]:
A = {'C','C++','JAVA','파이썬'}
B = {'파이썬','C++','JAVA','C'}

if A == B:
    print('집합 A와 집합 B는 같다.')
else:
    print('집합 A와 집합 B는 같지 않다.')

집합 A와 집합 B는 같다.


### 부분집합
- 파이썬에서의 부분집합 관계 표시
    * 부등호 사용
    * 함수 사용: issubset(), issuperset()

In [32]:
A = {1,2,3,4,5,6,}
B = {2,4,6}
C = {1,3,4,5}

print(f'{A>B}, {B.issubset(A)}')

True, True


### [예제 4-10] 부분집합 관계 표시

In [34]:
# 집합 관계를 구분하는 함수
def classify_sets(A, B):
    # 공집합 확인
    if not A:
        print("A는 공집합입니다.")
    if not B:
        print("B는 공집합입니다.")

    # 동등 집합 확인
    if A == B:
        print("A와 B는 동등한 집합입니다.")

    # 부분집합 확인
    elif A.issubset(B):
        if A < B:  # 진부분집합 확인
            print("A는 B의 진부분집합입니다.")
        else:
            print("A는 B의 부분집합입니다.")

    # 상위집합 확인
    elif B.issubset(A):
        if B < A:  # B가 A의 진부분집합인지 확인
            print("B는 A의 진부분집합입니다.")
        else:
            print("B는 A의 부분집합입니다.")

    # 공집합이 아닌 교집합이 없는 경우 확인
    elif A.isdisjoint(B):
        print("A와 B는 서로소(교집합이 없음)입니다.")
    else:
        print("A와 B는 교집합이 있는 서로 다른 집합입니다.")

A = {1,2,3,4,5,6,}
B = {2,4,6}
C = {1,3,4,5}

classify_sets(A, B)
classify_sets(B, C)
classify_sets(A, C)

B는 A의 진부분집합입니다.
A와 B는 교집합이 있는 서로 다른 집합입니다.
B는 A의 진부분집합입니다.


### [예제 4-11] 부분집합 : 집합을 다른 집합의 원소로 사용하기

In [42]:
# A = {1,2,3,4,5}
# S = {A, {A}}     # 오류 발생: 집합 원소는 hashable(변경불가능)해야한다.
A = frozenset({1,2,3,4,5})
S = {A, frozenset({A})}

classify_sets(A, S)
classify_sets({A}, S)
classify_sets(frozenset({frozenset({A})}), S)

A와 B는 서로소(교집합이 없음)입니다.
A는 B의 진부분집합입니다.
A는 B의 진부분집합입니다.


### [예제 4-13] 부분집합 :  

In [43]:
U = set(range(-2,3))
A = {-2,-1,0,1}

classify_sets(U, A)

B는 A의 진부분집합입니다.


### 파이썬에서 멱집합 출력하기
- 멱집합의 길이: $2^n$
- itertools의 combinations() 함수 사용
- 반복문과 리스트 사용

### [예제 4-15] 멱집합

In [10]:
import itertools

def power_set(s):
    # 집합 s의 모든 부분집합을 구함
    power_set_list = []
    for r in range(len(s) + 1):
        # 각 크기에 대해 부분집합 생성
        # power_set_list += itertools.combinations(s, r)
        subsets = itertools.combinations(s, r)
        power_set_list.extend(subsets)

    return power_set_list

# 멱집합 출력
def print_power_set(A, result):
    print(f'{A}의 멱집합:\n------------------------')
    for subset in result:
        print(set(subset))

A = {1, 2, 3}
result = power_set(A)   # 멱집합 구하기
print_power_set(A, result) # 멱집합 출력하기
print(f'멱집합 원소 개수: {len(result)}') # 멱집합 원소 개수


{1, 2, 3}의 멱집합:
------------------------
set()
{1}
{2}
{3}
{1, 2}
{1, 3}
{2, 3}
{1, 2, 3}
멱집합 원소 개수: 8


### [실습] - 멱집합 만들기
N값을 입력 받아서 N의 멱집합을 구하는 프로그램을 만들어 보시오

In [11]:
N = int(input('양의 정수를 입력하세요: '))
A = set(range(1,N+1))

result = power_set(A)   # 멱집합 구하기
print_power_set(A, result) # 멱집합 출력하기
print(f'멱집합 원소 개수: {len(result)}') # 멱집합 원소 개수

양의 정수를 입력하세요: 5
{1, 2, 3, 4, 5}의 멱집합:
------------------------
set()
{1}
{2}
{3}
{4}
{5}
{1, 2}
{1, 3}
{1, 4}
{1, 5}
{2, 3}
{2, 4}
{2, 5}
{3, 4}
{3, 5}
{4, 5}
{1, 2, 3}
{1, 2, 4}
{1, 2, 5}
{1, 3, 4}
{1, 3, 5}
{1, 4, 5}
{2, 3, 4}
{2, 3, 5}
{2, 4, 5}
{3, 4, 5}
{1, 2, 3, 4}
{1, 2, 3, 5}
{1, 2, 4, 5}
{1, 3, 4, 5}
{2, 3, 4, 5}
{1, 2, 3, 4, 5}
멱집합 원소 개수: 32


------------------------------------------

## 4-2. 집합의 연산

- **합집합**: A | B, B.union(A)
- **교집합**: A & B, A.intersection(B)
- **차집합**: A - B, A.difference(B)
- **대칭차집합**: A ^ B

In [13]:
A = {1, 2, 3}
B = {3, 4, 5}
C = {1, 2}
D = {1, 2, 3}
E = {3, 2, 1}

# 합집합
union_set = A | B
print("A와 B의 합집합:", union_set)

# 교집합
intersection_set = A & B
print("A와 B의 교집합:", intersection_set)

# 차집합
difference_set = A - B
print("A와 B의 차집합:", difference_set)

# 대칭 차집합
symmetric_difference_set = A ^ B
print("A와 B의 대칭 차집합:", symmetric_difference_set)

# 부분집합 여부
is_subset = C <= A
print("C는 A의 부분집합인가?", is_subset)

# 상위집합 여부
is_superset = A >= C
print("A는 C의 상위집합인가?", is_superset)

# 집합의 동등성
are_equal = D == E
print("D와 E는 동일한 집합인가?", are_equal)

A와 B의 합집합: {1, 2, 3, 4, 5}
A와 B의 교집합: {3}
A와 B의 차집합: {1, 2}
A와 B의 대칭 차집합: {1, 2, 4, 5}
C는 A의 부분집합인가? True
A는 C의 상위집합인가? True
D와 E는 동일한 집합인가? True


### [예제 4-16] 합집합 연산 : |, union()

In [14]:
A = {'a', 'c', 'e', 'f'}
B = {'b', 'd', 'e', 'g'}

print(f'A∪B: {A | B}')
print(f'A∪B: {B.union(A)}')
print(f'A∪B: {A.union(B)}')

print(sorted(A | B))   # sorted() 함수는 리스트로 출력된다.
print(sorted(B.union(A)))

A∪B: {'a', 'f', 'g', 'd', 'b', 'e', 'c'}
A∪B: {'a', 'f', 'g', 'd', 'b', 'e', 'c'}
A∪B: {'a', 'f', 'g', 'd', 'b', 'e', 'c'}
['a', 'b', 'c', 'd', 'e', 'f', 'g']
['a', 'b', 'c', 'd', 'e', 'f', 'g']


### [예제 4-17] 합집합 연산

In [15]:
A1 = {1,2,3}
A2 = {2,3,4}
A3 = {1,2,4,5}

print(sorted(A1 | A2 | A3))
print(sorted(A3.union(A2.union(A1)) ))

[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]


### [예제 4-18] 교집합 연산 : &, intersection()

In [17]:
A = {'a', 'b', 'c', 'd'}
B = {'b', 'd', 'e', 'f'}
C = {'a', 'c', 'g', 'h'}

print(f'A∩B: {A & B}')
print(f'A∩C: {A & C}')
print(f'B∩C: {B & C}')

print(f'A∩B: {A.intersection(B)}')
print(f'A∩C: {A.intersection(C)}')
print(f'B∩C: {B.intersection(C)}')

A∩B: {'d', 'b'}
A∩C: {'c', 'a'}
B∩C: set()
A∩B: {'d', 'b'}
A∩C: {'c', 'a'}
B∩C: set()


### 서로소 집합(disjoint set)

In [None]:
A1 = {1,2}
A2 = {3,4}

print(f'A1{A1}과 A2{A2}는' )
if A1 & A2 == set():
    print('서로소이다')
else:
    print('서로소가 아니다')

A1{1, 2}과 A2{3, 4}는
서로소이다


### 분할
A ∩ B = ∅ (배반인 두 집합에 대하여 : 교집합이 공집합)

### [예제 4-19] 분할 판별

In [21]:
S = {1,2,3,4,5,6,7,8}
A1= {1,2,3,4}
A2= {1,3,5,6,7,8}
A3= {1,3,5,7}
A4= {2,4}
A5= {6,8}

print(f'A1 ∪ A5 :{sorted(A1 | A5)}는 ')
if (A1 & A5) == {} and (A1 | A5) == S:
    print(f'S{S}의 분할이다')
else:
    print(f'S{S}의 분할이 아니다')


print(f'A3 ∪ A4 ∪ A5 :{sorted(A3 | A4 | A5)}는 ')
if A3&A4==set() and A4&A5==set() and A3&A5==set() and (A3 | A4 | A5) == S:
    print(f'S{S}의 분할이다')
else:
    print(f'S{S}의 분할이 아니다')


A1 ∪ A5 :[1, 2, 3, 4, 6, 8]는 
S{1, 2, 3, 4, 5, 6, 7, 8}의 분할이 아니다
A3 ∪ A4 ∪ A5 :[1, 2, 3, 4, 5, 6, 7, 8]는 
S{1, 2, 3, 4, 5, 6, 7, 8}의 분할이다


### [예제 4-21] 차집합 연산 : -, difference()

In [24]:
A = {1,2,3,4,5,6}
B = {2,4,7,8}

print(f'A-B : {A-B}')
print(f'B-A : {B-A}')

print(f'A-B : {A.difference(B)}')
print(f'B-A : {B.difference(A)}')

A-B : {1, 3, 5, 6}
B-A : {8, 7}
A-B : {1, 3, 5, 6}
B-A : {8, 7}


### 여집합(complement)

In [27]:
U = {1,2,3,4,5,6,7,8,9,10}
A = {2, 4, 6, 8, 10}

if A.issubset(U):
    print(f'A는 U의 부분집합이며 U - A={U - A}')
else:
    print(f'A는 U의 부분집합이 아니다.')


A는 U의 부분집합이며 U - A={1, 3, 5, 7, 9}


### 대칭차집합(symmetric difference): ^
- (A - B) ∪ (B - A)
- (A ∪ B) - (B ∩ A)

### [예제 4-23] 대칭 차집합 연산

In [28]:
# A⊕B ＝ (A-B) ∪ (B-A)
A = {1,2,3,4,5,6}
B = {2,4,7,8}

print(f'A ^ B : {A ^ B}')

A ^ B : {1, 3, 5, 6, 7, 8}


### 파이썬 집합의 함수:
- element add & remove

In [30]:
help(set())

Help on set object:

class set(object)
 |  set() -> new empty set object
 |  set(iterable) -> new set object
 |  
 |  Build an unordered collection of unique elements.
 |  
 |  Methods defined here:
 |  
 |  __and__(self, value, /)
 |      Return self&value.
 |  
 |  __contains__(...)
 |      x.__contains__(y) <==> y in x.
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __iand__(self, value, /)
 |      Return self&=value.
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __ior__(self, value, /)
 |      Return self|=value.
 |  
 |  __isub__(self, value, /)
 |      Return self-=value.
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __ixor__(self, value, /)
 |      Return self^=value.


In [31]:
# 요소 한개 추가하기
A = {1, 2, 3, 4, 5}
A.add(10)
print(A)

{1, 2, 3, 4, 5, 10}


In [33]:
# 요소 여러 개 추가하기
A = {1, 2, 3, 4, 5}
A.update({6,7,8})
print(A)

{1, 2, 3, 4, 5, 6, 7, 8}


In [36]:
# 요소 한 개 제거하기
A = {1, 2, 3, 4, 5}
A.remove(3)  # 여러 개 삭제 안됨
print(A)

{1, 2, 4, 5}


-----------------

## 4.3 집합의 대수적 성질

#### 진리표를 이용하는 방법

In [37]:
A = [False, False, True, True]
B = [False, True, False, True]

print(f'A\t B\t A∪B\t not(A∪B)\t notA\t notB\t notA∩notB')
for a, b in zip(A, B):
    print(f'{a}\t {b}\t {a|b}\t {not(a|b)}\t\t {not a}\t {not b}\t {(not a)&(not b)}  ')

A	 B	 A∪B	 not(A∪B)	 notA	 notB	 notA∩notB
False	 False	 False	 True		 True	 True	 True  
False	 True	 True	 False		 True	 False	 False  
True	 False	 True	 False		 False	 True	 False  
True	 True	 True	 False		 False	 False	 False  


### [예제 4-24] 포함배제의 원리

In [40]:

S = 154          # 전체 회원수
T = 55           # 테니스 회원수
B = 79           # 베드민턴 회원수
P = 34           # 탁구 회원수
T_B = 20        # 테니스와 베드민턴을 치는 회원수
P_T = 12        # 탁구와 테니스를 치는 수
P_B = 8         # 탁구와 베드민턴을 치는 회원수
T_B_P = 4      # 테니스와 베드민터과 탁구를 모두 치는 회원 수

# 모든 운동을 하는 회원수
TBP =  T + B + P - T_B - P_T - P_B + T_B_P

# 아무 운동도 하지 않는 회원수
result = S - TBP
print(f'아무 운동도 하지 않는 회원수(S - TBP) = {S - TBP}')

아무 운동도 하지 않는 회원수(S - TBP) = 22
