# 집합 (Set)

## 학습 목표
- 집합의 개념과 특징을 이해한다
- 집합 연산을 활용한다
- 집합을 이용한 실용적인 문제 해결을 한다

## 1. 집합이란?

집합은 중복되지 않는 요소들의 모음입니다.
- 중괄호 { }를 사용하여 표현 (빈 집합은 set())
- **중복 불허**: 같은 값은 하나만 저장
- **순서 없음**: 인덱스로 접근 불가
- 변경 가능한(mutable) 자료형

In [4]:
# 집합 생성 방법들

# 빈 집합
empty_set = set()
print("빈 집합:", empty_set)
print("타입:", type(empty_set))

# 직접 생성
fruits = {'사과', '바나나', '오렌지'}
print("과일 집합:", fruits)

# 리스트에서 집합 생성 (중복 자동 제거)
numbers_list = [1, 2, 3, 2, 4, 3, 5, 1]
numbers_set = set(numbers_list)
print("원본 리스트:", numbers_list)
print("집합으로 변환:", numbers_set)

# 문자열에서 집합 생성
char_set = set("hello")
print("문자 집합:", char_set)

빈 집합: set()
타입: <class 'set'>
과일 집합: {'오렌지', '바나나', '사과'}
원본 리스트: [1, 2, 3, 2, 4, 3, 5, 1]
집합으로 변환: {1, 2, 3, 4, 5}
문자 집합: {'h', 'l', 'o', 'e'}


## 2. 집합의 기본 연산

집합에 요소를 추가하거나 제거할 수 있습니다.

In [7]:
animals = {'고양이', '강아지', '토끼'}
print("초기 집합:", animals)

# 요소 추가
animals.add('햄스터')
print("add() 후:", animals)

# 이미 있는 요소 추가 (변화 없음)
animals.add('고양이')
print("중복 add() 후:", animals)

# 여러 요소 추가
animals.update(['거북이', '금붕어'])
print("update() 후:", animals)

# 문자열로 update (문자열의 각 문자가 요소가 됨)
letters = set()
letters.update('hello')
print("문자열 update:", letters)

초기 집합: {'고양이', '강아지', '토끼'}
add() 후: {'고양이', '강아지', '햄스터', '토끼'}
중복 add() 후: {'고양이', '강아지', '햄스터', '토끼'}
update() 후: {'금붕어', '강아지', '햄스터', '토끼', '거북이', '고양이'}
문자열 update: {'h', 'l', 'o', 'e'}


In [8]:
# 요소 제거
colors = {'빨강', '파랑', '노랑', '초록', '보라'}
print("초기 집합:", colors)

# remove(): 요소 제거 (없으면 에러)
colors.remove('보라')
print("remove() 후:", colors)

# discard(): 요소 제거 (없어도 에러 없음)
colors.discard('검정')  # 없는 요소여도 에러 없음
colors.discard('파랑')
print("discard() 후:", colors)

# pop(): 임의의 요소 제거하고 반환
removed_color = colors.pop()
print(f"pop() 후: {colors}, 제거된 색: {removed_color}")

# clear(): 모든 요소 제거
colors.clear()
print("clear() 후:", colors)

초기 집합: {'보라', '노랑', '파랑', '초록', '빨강'}
remove() 후: {'노랑', '파랑', '초록', '빨강'}
discard() 후: {'노랑', '초록', '빨강'}
pop() 후: {'초록', '빨강'}, 제거된 색: 노랑
clear() 후: set()


## 3. 집합 연산

수학의 집합 연산을 파이썬에서도 사용할 수 있습니다.

In [10]:
# 두 집합 준비
A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}
print("집합 A:", A)
print("집합 B:", B)

# 합집합 (union): A ∪ B
union1 = A | B
union2 = A.union(B)
print("합집합 A | B:", union1)
print("합집합 A.union(B):", union2)

# 교집합 (intersection): A ∩ B
intersection1 = A & B
intersection2 = A.intersection(B)
print("교집합 A & B:", intersection1)
print("교집합 A.intersection(B):", intersection2)

# 차집합 (difference): A - B
difference1 = A - B
difference2 = A.difference(B)
print("차집합 A - B:", difference1)
print("차집합 A.difference(B):", difference2)
print("차집합 B - A:", B - A)

# 대칭차집합 (symmetric difference): A △ B
sym_diff1 = A ^ B
sym_diff2 = A.symmetric_difference(B)
print("대칭차집합 A ^ B:", sym_diff1)
print("대칭차집합 A.symmetric_difference(B):", sym_diff2)

집합 A: {1, 2, 3, 4, 5}
집합 B: {4, 5, 6, 7, 8}
합집합 A | B: {1, 2, 3, 4, 5, 6, 7, 8}
합집합 A.union(B): {1, 2, 3, 4, 5, 6, 7, 8}
교집합 A & B: {4, 5}
교집합 A.intersection(B): {4, 5}
차집합 A - B: {1, 2, 3}
차집합 A.difference(B): {1, 2, 3}
차집합 B - A: {8, 6, 7}
대칭차집합 A ^ B: {1, 2, 3, 6, 7, 8}
대칭차집합 A.symmetric_difference(B): {1, 2, 3, 6, 7, 8}


## 4. 집합의 관계 연산

집합 간의 포함 관계를 확인할 수 있습니다.

In [None]:
# 집합들 준비
numbers = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
even_numbers = {2, 4, 6, 8, 10}
small_numbers = {1, 2, 3}
other_numbers = {11, 12, 13}

print("전체 숫자:", numbers)  # 전체 숫자: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
print("짝수:", even_numbers)  # 짝수: {2, 4, 6, 8, 10}
print("작은 숫자:", small_numbers)  # 작은 숫자: {1, 2, 3}
print("다른 숫자:", other_numbers)  # 다른 숫자: {11, 12, 13}

# 부분집합 확인 (subset)
print("\n=== 부분집합 확인 ===")
print("짝수 ⊆ 전체?", even_numbers <= numbers)  # 짝수 ⊆ 전체? True
print("짝수 ⊆ 전체?", even_numbers.issubset(numbers))  # 짝수 ⊆ 전체? True
print("작은 숫자 ⊆ 전체?", small_numbers <= numbers)  # 작은 숫자 ⊆ 전체? True
print("다른 숫자 ⊆ 전체?", other_numbers <= numbers)  # 다른 숫자 ⊆ 전체? False

# 진부분집합 확인 (proper subset)
print("\n=== 진부분집합 확인 ===")
print("짝수 ⊂ 전체?", even_numbers < numbers)  # 짝수 ⊂ 전체? True
print("전체 ⊂ 전체?", numbers < numbers)  # 전체 ⊂ 전체? False

# 상위집합 확인 (superset)
print("\n=== 상위집합 확인 ===")
print("전체 ⊇ 짝수?", numbers >= even_numbers)  # 전체 ⊇ 짝수? True
print("전체 ⊇ 짝수?", numbers.issuperset(even_numbers))  # 전체 ⊇ 짝수? True

# 서로소(disjoint) 확인: 두 집합이 공통된 원소를 하나도 가지고 있지 않은 경우
print("\n=== 서로소 확인 ===")
print("짝수와 다른 숫자가 서로소?", even_numbers.isdisjoint(other_numbers))  # 짝수와 다른 숫자가 서로소? True
print("짝수와 작은 숫자가 서로소?", even_numbers.isdisjoint(small_numbers))  # 짝수와 작은 숫자가 서로소? False

## 5. 집합 컴프리헨션

리스트, 딕셔너리처럼 집합도 컴프리헨션을 사용할 수 있습니다.

In [11]:
# 기본 집합 컴프리헨션
squares = {x**2 for x in range(1, 11)}
print("1-10의 제곱 집합:", squares)

# 조건부 집합 컴프리헨션
even_squares = {x**2 for x in range(1, 11) if x % 2 == 0}
print("짝수의 제곱 집합:", even_squares)

# 리스트에서 고유한 길이들
words = ['python', 'java', 'c', 'javascript', 'go', 'rust']
word_lengths = {len(word) for word in words}
print("단어 길이들:", word_lengths)

1-10의 제곱 집합: {64, 1, 4, 36, 100, 9, 16, 49, 81, 25}
짝수의 제곱 집합: {64, 100, 4, 36, 16}
텍스트의 모음들: {'a', 'i', 'o', 'e'}
단어 길이들: {1, 2, 4, 6, 10}


## 6. 실용적인 집합 활용

### 6.1 중복 제거

In [12]:
def remove_duplicates(items):
    """리스트에서 중복을 제거하되 순서는 유지"""
    seen = set()
    result = []
    for item in items:
        if item not in seen:
            seen.add(item)
            result.append(item)
    return result

# 테스트
numbers = [1, 2, 3, 2, 4, 1, 5, 3, 6]
print("원본:", numbers)
print("중복 제거 (순서 유지):", remove_duplicates(numbers))
print("중복 제거 (순서 무관):", list(set(numbers)))

# 문자열에서 고유 문자들
text = "programming"
unique_chars = ''.join(remove_duplicates(list(text)))
print(f"'{text}'의 고유 문자들: '{unique_chars}'")

원본: [1, 2, 3, 2, 4, 1, 5, 3, 6]
중복 제거 (순서 유지): [1, 2, 3, 4, 5, 6]
중복 제거 (순서 무관): [1, 2, 3, 4, 5, 6]
'programming'의 고유 문자들: 'progamin'


### 6.2 공통 관심사 찾기

In [22]:
# 친구들의 관심사
friends_interests = {
    "철수": {"영화", "음악", "독서", "게임"},
    "영희": {"음악", "요리", "독서", "여행"},
    "민수": {"게임", "독서", "운동", "영화"},
    "지연": {"요리", "독서", "여행", "음악"}
}

# 모든 사람의 공통 관심사
all_interests = list(friends_interests.values())
# 첫 번째 사람의 관심사로 시작
common_interests = all_interests[0]
# 나머지 사람들의 관심사와 하나씩 교집합 연산
for interests in all_interests[1:]:
    common_interests = common_interests & interests

print("모든 친구의 공통 관심사:", common_interests)

# 각 관심사별 관심 있는 사람 수
all_unique_interests = set()
for interests in friends_interests.values():
    # 합집합도, update도 가능
    # all_unique_interests = all_unique_interests | interests
    all_unique_interests.update(interests)

print("\n관심사별 인원수:")
for interest in sorted(all_unique_interests):

    # 제너레이터 표현식은 메모리를 효율적으로 사용하는 반복자로 리스트나 튜플처럼 모든 값을 한 번에 메모리에 저장하지 않고, 
    # 필요할 때마다 값을 하나씩 생성
    count = sum(1 for interests in friends_interests.values() if interest in interests)  
    people = [name for name, interests in friends_interests.items() if interest in interests]
    print(f"{interest}: {count}명 ({', '.join(people)})")

# 철수와 영희의 공통 관심사
common_cs_yh = friends_interests["철수"] & friends_interests["영희"]
print(f"\n철수와 영희의 공통 관심사: {common_cs_yh}")

모든 친구의 공통 관심사: {'독서'}

관심사별 인원수:
게임: 2명 (철수, 민수)
독서: 4명 (철수, 영희, 민수, 지연)
여행: 2명 (영희, 지연)
영화: 2명 (철수, 민수)
요리: 2명 (영희, 지연)
운동: 1명 (민수)
음악: 3명 (철수, 영희, 지연)

철수와 영희의 공통 관심사: {'음악', '독서'}


### 6.3 집합을 이용한 필터링

In [14]:
# 금지된 단어 필터링
banned_words = {'바보', '멍청이', '짜증', '화남'}
allowed_words = {'좋아', '예쁘다', '멋지다', '훌륭하다'}

def filter_text(text, banned_set):
    """텍스트에서 금지된 단어들을 *** 로 대체"""
    words = text.split()
    filtered_words = []
    
    for word in words:
        if word in banned_set:
            filtered_words.append('***')
        else:
            filtered_words.append(word)
    
    return ' '.join(filtered_words)

# 테스트
comment = "정말 바보 같은 멍청이 영화였어 짜증나"
filtered_comment = filter_text(comment, banned_words)
print("원본 댓글:", comment)
print("필터링 후:", filtered_comment)

# 허용된 단어만 포함하는지 확인
positive_comment = "정말 좋아 예쁘다 멋지다"
comment_words = set(positive_comment.split())
print(f"\n긍정 댓글: {positive_comment}")
print(f"허용된 단어만 사용? {comment_words <= allowed_words}")

원본 댓글: 정말 바보 같은 멍청이 영화였어 짜증나
필터링 후: 정말 *** 같은 *** 영화였어 짜증나

긍정 댓글: 정말 좋아 예쁘다 멋지다
허용된 단어만 사용? False


## 7. 실습 문제

In [15]:
# 문제 1: 두 리스트에서 공통 요소를 찾으세요
list1 = [1, 2, 3, 4, 5, 6]
list2 = [4, 5, 6, 7, 8, 9]
# 여기에 코드를 작성하세요
common_elements = list(set(list1) & set(list2))
print("공통 요소:", common_elements)

공통 요소: [4, 5, 6]


In [16]:
# 문제 2: 문자열에서 각 단어가 몇 개의 고유한 문자를 가지는지 계산하세요
words = ["python", "programming", "language", "computer"]
# 여기에 코드를 작성하세요
for word in words:
    unique_chars = len(set(word))
    print(f"{word}: {unique_chars}개의 고유 문자")

python: 6개의 고유 문자
programming: 8개의 고유 문자
language: 6개의 고유 문자
computer: 8개의 고유 문자


In [17]:
# 문제 3: 학생들이 수강하는 과목에서 모든 학생이 공통으로 듣는 과목을 찾으세요
student_subjects = {
    "김철수": {"수학", "영어", "물리", "화학"},
    "이영희": {"수학", "영어", "생물", "화학"},
    "박민수": {"수학", "국어", "화학", "지리"},
    "최지연": {"수학", "영어", "화학", "역사"}
}

# 여기에 코드를 작성하세요
all_subjects = list(student_subjects.values())
common_subjects = all_subjects[0]
for subjects in all_subjects[1:]:
    common_subjects = common_subjects & subjects

print("모든 학생이 공통으로 듣는 과목:", common_subjects)

# 각 과목을 듣는 학생 수도 계산해보세요
all_unique_subjects = set()
for subjects in student_subjects.values():
    all_unique_subjects |= subjects

print("\n과목별 수강 학생 수:")
for subject in sorted(all_unique_subjects):
    count = sum(1 for subjects in student_subjects.values() if subject in subjects)
    students = [name for name, subjects in student_subjects.items() if subject in subjects]
    print(f"{subject}: {count}명 ({', '.join(students)})")

모든 학생이 공통으로 듣는 과목: {'수학', '화학'}

과목별 수강 학생 수:
국어: 1명 (박민수)
물리: 1명 (김철수)
생물: 1명 (이영희)
수학: 4명 (김철수, 이영희, 박민수, 최지연)
역사: 1명 (최지연)
영어: 3명 (김철수, 이영희, 최지연)
지리: 1명 (박민수)
화학: 4명 (김철수, 이영희, 박민수, 최지연)


## 정리

이번 장에서 배운 내용:
1. **집합의 특징**: 중복 불허, 순서 없음, 변경 가능
2. **집합 생성**: { }, set(), 다른 자료형에서 변환
3. **기본 연산**: add, remove, discard, pop, clear
4. **집합 연산**: 합집합(|), 교집합(&), 차집합(-), 대칭차집합(^)
5. **관계 연산**: 부분집합(<=), 상위집합(>=), 서로소(isdisjoint)
6. **집합 컴프리헨션**: 간결한 집합 생성
7. **실용적 활용**: 중복 제거, 공통 요소 찾기, 필터링

**집합 활용 분야:**
- 중복 데이터 제거
- 공통 요소나 차이점 분석
- 멤버십 테스트 (빠른 검색)
- 수학적 집합 연산
- 데이터 필터링

다음은 미니프로젝트로 학생 성적 관리 시스템을 만들어보겠습니다!

---
## 리스트, 튜플, 딕셔너리, 집합 비교 정리

| 자료형      | 기호/생성법         | 순서 | 중복 | 변경 가능 | 인덱싱/슬라이싱 | 키-값 구조 | 주요 메서드/연산 |
|-------------|---------------------|------|------|----------|-----------------|------------|------------------|
| 리스트      | [ ] 또는 list()      | O    | O    | O        | O               | X          | append, pop, sort, +, * 등 |
| 튜플        | ( ) 또는 tuple()     | O    | O    | X        | O               | X          | count, index     |
| 딕셔너리    | { } 또는 dict()      | X    | 키: X, 값: O | O    | X               | O          | keys, values, items, get, pop 등 |
| 집합        | { } 또는 set()       | X    | X    | O        | X               | X          | add, update, union, intersection 등 |

---

### 공통점
- 모두 여러 개의 값을 저장할 수 있는 자료구조입니다.
- 모두 for문 등 반복문으로 순회(iteration)할 수 있습니다.
- 모두 내장 함수(len, in 등) 사용 가능

---

### 차이점
1. **순서(Ordered)**
   - 리스트, 튜플: 순서가 있음(인덱스 사용 가능)
   - 딕셔너리, 집합: 순서 없음(파이썬 3.7+에서는 딕셔너리 입력 순서 유지, 하지만 인덱싱 불가)

2. **중복 허용**
   - 리스트, 튜플: 중복된 값 저장 가능
   - 집합: 중복 불가(자동으로 중복 제거)
   - 딕셔너리: 키는 중복 불가, 값은 중복 가능

3. **변경 가능성(Mutability)**
   - 리스트, 딕셔너리, 집합: 변경 가능(mutable)
   - 튜플: 변경 불가(immutable)

4. **인덱싱/슬라이싱**
   - 리스트, 튜플: 인덱싱/슬라이싱 가능
   - 딕셔너리, 집합: 불가(딕셔너리는 키로 접근)

5. **키-값 구조**
   - 딕셔너리만 키-값 쌍으로 데이터 저장

6. **주요 사용 목적**
   - 리스트: 순서 있는 데이터, 변경/추가/삭제가 잦은 경우
   - 튜플: 순서 있지만 변경하지 않을 데이터(예: 좌표, 고정된 정보)
   - 딕셔너리: 키로 값을 빠르게 찾고 싶을 때(예: 전화번호부)
   - 집합: 중복 없는 데이터, 집합 연산(합집합, 교집합 등) 필요할 때

---

### 예시 코드

```python
# 리스트
a = [1, 2, 3, 2]
# 튜플
b = (1, 2, 3, 2)
# 딕셔너리
c = {'이름': '철수', '나이': 20}
# 집합
d = {1, 2, 3, 2}
```

---

### 한눈에 보는 요약

- **리스트**: 순서 O, 중복 O, 변경 O, 인덱싱 O
- **튜플**: 순서 O, 중복 O, 변경 X, 인덱싱 O
- **딕셔너리**: 순서 X, 중복(키 X, 값 O), 변경 O, 키-값 구조
- **집합**: 순서 X, 중복 X, 변경 O, 집합 연산
