# 집합 (set)
집합은 서로 구별 가능한 객체들의 모임입니다. 이 객체들을 집합의 '원소' 또는 '멤버'라고 부릅니다. 집합은 일반적으로 중괄호 {}를 사용하여 표현하며, 원소들은 쉼표로 구분됩니다. 예를 들어, {1, 2, 3}은 1, 2, 3을 원소로 갖는 집합입니다.

집합의 특징은 다음과 같습니다:

순서가 없음: 집합 내의 원소들은 순서를 갖지 않습니다. 예를 들어, {1, 2, 3}과 {3, 2, 1}은 동일한 집합입니다.

중복이 없음: 집합은 같은 원소를 두 번 이상 포함하지 않습니다. 예를 들어, {1, 2, 2, 3}는 {1, 2, 3}과 동일한 집합입니다.

집합은 수학의 여러 분야에서 기본적인 개념으로 사용되며, 집합론은 수학의 여러 분야에 걸쳐 광범위하게 응용됩니다. 집합을 사용하여 교집합, 합집합, 차집합, 여집합 등 다양한 연산을 정의할 수 있습니다.

## 집합 생성

- `set` 내장 함수를 이용한 집합 생성

In [1]:
s1 = set([1, 1.5, 3, 4])
s1

{1, 1.5, 3, 4}

- `{}`를 이용한 집합 생성

In [2]:
s2 = {'a', 'b', 'c'}
s2

{'a', 'b', 'c'}

- 집합의 카디널리티(cardinality) - 집합 구성원의 수

In [3]:
len(s1)

4

- 대상 집합에 숫자가 존재하는지 여부 확인

In [4]:
5 in s1

False

- 집합은 구성원의 중복을 무시한다.

In [5]:
members = {1, 2, 3, 2}
members

{1, 2, 3}

- 집합의 구성원은 순서가 없다(unordered). 따라서  indexing 을 허용 않는다.

In [6]:
s = {3, 4, 5}
t = {5, 4, 3}
s == t

True

In [7]:
s[0]

TypeError: 'set' object is not subscriptable

- 공집합 - 구성 요소가 없는 집합

In [8]:
empty = set({})
empty

set()

## 부분집합, 초집합, 파워집합

### 부분 집합 

- 집합 A의 모든 구성원이 B의 구성원일 경우 A는 B의 부분집합이다.  
- 공집합은 모든 집합의 부분집합이다.  
- 모든 집합은 자기 자신의 부분 집합이다.

In [9]:
A = {1, 2, 3}
B = {1, 2, 3, 4, 5}

# A가 B의 부분집합인지 확인
is_subset = A.issubset(B)
is_subset

True

In [10]:
empty.issubset(A)

True

In [11]:
A.issubset(A)

True

### 초집합 
집합 B가 집합 A의 모든 구성원을 포함하고 있다면 집합 B는 A의 초집합이 된다.

In [12]:
is_superset = B.issuperset(A)
is_superset

True

### 파워집합
파워집합(power set)은 어떤 집합의 모든 부분집합으로 구성된 집합입니다. 원래 집합의 모든 가능한 조합을 포함합니다.   
예를 들어, 집합 A={1,2}의 파워집합은 {{},{1},{2},{1,2}}입니다. 여기서 {}는 공집합을 나타냅니다.  

파워집합의 개수는 $2^{n}$개입니다. (여기서 $n$은 집합 구성원의 수)

In [13]:
import itertools

def power_set(s):
    # 집합 s의 모든 부분집합을 포함하는 파워집합을 생성
    s_list = list(s)
    power_set = []
    
    for r in range(len(s_list) + 1):
        # 각 길이에 대해 가능한 모든 조합을 추가
        for subset in itertools.combinations(s_list, r):
            power_set.append(set(subset))

    return power_set

# 예제 집합
s = {1, 2, 3}

# 파워집합 구하기
p_set = power_set(s)

# 결과 출력
print(p_set)

[set(), {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}]


In [14]:
len(p_set)

8

## 집합 연산

### 교집합 / 합집합 / 차집합

In [15]:
s1 = set([1, 2, 3, 4, 5, 6])
s2 = set([4, 5, 6, 7, 8, 9])

- 교집합

In [16]:
s1 & s2

{4, 5, 6}

In [17]:
s1.intersection(s2)

{4, 5, 6}

- 합집합

In [18]:
s1 | s2

{1, 2, 3, 4, 5, 6, 7, 8, 9}

In [19]:
s1.union(s2)

{1, 2, 3, 4, 5, 6, 7, 8, 9}

- 차집합

In [20]:
s1 - s2

{1, 2, 3}

In [21]:
s1.difference(s2)

{1, 2, 3}

- 세개 집합의 교집합 연산

In [22]:
s3 = {4, 5, 10, 11, 12}

s1 & s2 & s3

{4, 5}

In [23]:
s1.intersection(s2).intersection(s3)

{4, 5}

### 여집합

In [24]:
A = {1, 2}
B = {3, 4, 5}
Union = A | B
 
AC = Union.difference(A)
 
print(AC)

{3, 4, 5}


### 카르테지안 곱 (Cartesian Product)

두 집합 A와 B의 카르테지안 곱(Cartesian product)은 A의 모든 원소와 B의 모든 원소로 이루어진 모든 가능한 순서쌍을 포함하는 집합이 됩니다.  
카르테지안 곱(Cartesian product)의 개수는 두 집합에 있는 원소의 개수를 곱한 것과 같습니다. 따라서 집합 A와 B가 각각 n개와 m개의 원소를 갖고 있다면, 그들의 카르테지안 곱은 총 n×m개의 순서쌍을 갖게 됩니다.

In [25]:
import itertools

# 집합 A와 B 정의
A = {1, 2}
B = {3, 4, 5}

# A와 B의 카르테지안 곱 계산
cartesian_product = set(itertools.product(A, B))

# 결과 출력
print(cartesian_product)

{(2, 4), (1, 5), (1, 4), (2, 3), (2, 5), (1, 3)}


In [26]:
len(cartesian_product) == len(A) * len(B)

True

## 연습문제
### 자카드유사도 (Jaccard Similarity)

$$J(A, B) = \frac{|A\cap B|}{|A\cup B|} = \frac{|A\cap B|}{|A|+|B|-|A\cap B|}$$

- 자카드 유사도 공식을 이용한 두개의 문서간의 유사도
$$J(doc1, doc2) = \frac{doc1\cap doc2}{doc1\cup doc2} $$

In [27]:
doc1 = "apple banana everyone like likely watch card holder"
doc2 = "apple banana coupon passport love you"

tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

print(tokenized_doc1)
print(tokenized_doc2)

['apple', 'banana', 'everyone', 'like', 'likely', 'watch', 'card', 'holder']
['apple', 'banana', 'coupon', 'passport', 'love', 'you']


**두 문서의 전체 단어 집합**

In [28]:
union = set(tokenized_doc1) | set(tokenized_doc2)
print(union)
print(len(union))

{'everyone', 'watch', 'like', 'coupon', 'love', 'passport', 'holder', 'apple', 'likely', 'card', 'banana', 'you'}
12


**두 문서에 공통으로 나오는 단어**

In [29]:
inter = set(tokenized_doc1) & set(tokenized_doc2)
print(inter)

{'banana', 'apple'}


In [30]:
print("두 문서간의 Jaccard 유사도 : {:.2f} ".format(len(inter)/len(union)))

두 문서간의 Jaccard 유사도 : 0.17 
