# 집합 (Set)

## 학습 목표
- 집합의 개념과 특징을 이해한다
- 집합 연산을 활용한다
- 집합을 이용한 실용적인 문제 해결을 한다

## 1. 집합이란?

집합은 중복되지 않는 요소들의 모음입니다.
- 중괄호 { }를 사용하여 표현 (빈 집합은 set())
- **중복 불허**: 같은 값은 하나만 저장
- **순서 없음**: 인덱스로 접근 불가
- 변경 가능한(mutable) 자료형

In [None]:
# 집합 생성 방법들

# 빈 집합
empty_set = set()
print("빈 집합:", empty_set)
print("타입:", type(empty_set))

# 직접 생성
fruits = {'사과', '바나나', '오렌지'}
print("과일 집합:", fruits)

# 리스트에서 집합 생성 (중복 자동 제거)
numbers_list = [1, 2, 3, 2, 4, 3, 5, 1]
numbers_set = set(numbers_list)
print("원본 리스트:", numbers_list)
print("집합으로 변환:", numbers_set)

# 문자열에서 집합 생성
char_set = set("hello")
print("문자 집합:", char_set)

## 2. 집합의 기본 연산

집합에 요소를 추가하거나 제거할 수 있습니다.

In [None]:
animals = {'고양이', '강아지', '토끼'}
print("초기 집합:", animals)

# 요소 추가
animals.add('햄스터')
print("add() 후:", animals)

# 이미 있는 요소 추가 (변화 없음)
animals.add('고양이')
print("중복 add() 후:", animals)

# 여러 요소 추가
animals.update(['거북이', '금붕어'])
print("update() 후:", animals)

# 문자열로 update (각 문자가 요소가 됨)
letters = set()
letters.update('hello')
print("문자열 update:", letters)

In [None]:
# 요소 제거
colors = {'빨강', '파랑', '노랑', '초록', '보라'}
print("초기 집합:", colors)

# remove(): 요소 제거 (없으면 에러)
colors.remove('보라')
print("remove() 후:", colors)

# discard(): 요소 제거 (없어도 에러 없음)
colors.discard('검정')  # 없는 요소여도 에러 없음
colors.discard('파랑')
print("discard() 후:", colors)

# pop(): 임의의 요소 제거하고 반환
removed_color = colors.pop()
print(f"pop() 후: {colors}, 제거된 색: {removed_color}")

# clear(): 모든 요소 제거
colors.clear()
print("clear() 후:", colors)

## 3. 집합 연산

수학의 집합 연산을 파이썬에서도 사용할 수 있습니다.

In [None]:
# 두 집합 준비
A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}
print("집합 A:", A)
print("집합 B:", B)

# 합집합 (union): A ∪ B
union1 = A | B
union2 = A.union(B)
print("합집합 A | B:", union1)
print("합집합 A.union(B):", union2)

# 교집합 (intersection): A ∩ B
intersection1 = A & B
intersection2 = A.intersection(B)
print("교집합 A & B:", intersection1)
print("교집합 A.intersection(B):", intersection2)

# 차집합 (difference): A - B
difference1 = A - B
difference2 = A.difference(B)
print("차집합 A - B:", difference1)
print("차집합 B - A:", B - A)

# 대칭차집합 (symmetric difference): A △ B
sym_diff1 = A ^ B
sym_diff2 = A.symmetric_difference(B)
print("대칭차집합 A ^ B:", sym_diff1)
print("대칭차집합 A.symmetric_difference(B):", sym_diff2)

## 4. 집합의 관계 연산

집합 간의 포함 관계를 확인할 수 있습니다.

In [None]:
# 집합들 준비
numbers = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
even_numbers = {2, 4, 6, 8, 10}
small_numbers = {1, 2, 3}
other_numbers = {11, 12, 13}

print("전체 숫자:", numbers)
print("짝수:", even_numbers)
print("작은 숫자:", small_numbers)
print("다른 숫자:", other_numbers)

# 부분집합 확인 (subset)
print("\n=== 부분집합 확인 ===")
print("짝수 ⊆ 전체?", even_numbers <= numbers)
print("짝수 ⊆ 전체?", even_numbers.issubset(numbers))
print("작은 숫자 ⊆ 전체?", small_numbers <= numbers)
print("다른 숫자 ⊆ 전체?", other_numbers <= numbers)

# 진부분집합 확인 (proper subset)
print("\n=== 진부분집합 확인 ===")
print("짝수 ⊂ 전체?", even_numbers < numbers)
print("전체 ⊂ 전체?", numbers < numbers)

# 상위집합 확인 (superset)
print("\n=== 상위집합 확인 ===")
print("전체 ⊇ 짝수?", numbers >= even_numbers)
print("전체 ⊇ 짝수?", numbers.issuperset(even_numbers))

# 서로소 확인 (disjoint)
print("\n=== 서로소 확인 ===")
print("짝수와 다른 숫자가 서로소?", even_numbers.isdisjoint(other_numbers))
print("짝수와 작은 숫자가 서로소?", even_numbers.isdisjoint(small_numbers))

## 5. 집합 컴프리헨션

리스트, 딕셔너리처럼 집합도 컴프리헨션을 사용할 수 있습니다.

In [None]:
# 기본 집합 컴프리헨션
squares = {x**2 for x in range(1, 11)}
print("1-10의 제곱 집합:", squares)

# 조건부 집합 컴프리헨션
even_squares = {x**2 for x in range(1, 11) if x % 2 == 0}
print("짝수의 제곱 집합:", even_squares)

# 문자열에서 모음 추출
text = "Hello World Python Programming"
vowels = {char.lower() for char in text if char.lower() in 'aeiou'}
print("텍스트의 모음들:", vowels)

# 리스트에서 고유한 길이들
words = ['python', 'java', 'c', 'javascript', 'go', 'rust']
word_lengths = {len(word) for word in words}
print("단어 길이들:", word_lengths)

## 6. 실용적인 집합 활용

### 6.1 중복 제거

In [None]:
def remove_duplicates(items):
    """리스트에서 중복을 제거하되 순서는 유지"""
    seen = set()
    result = []
    for item in items:
        if item not in seen:
            seen.add(item)
            result.append(item)
    return result

# 테스트
numbers = [1, 2, 3, 2, 4, 1, 5, 3, 6]
print("원본:", numbers)
print("중복 제거 (순서 유지):", remove_duplicates(numbers))
print("중복 제거 (순서 무관):", list(set(numbers)))

# 문자열에서 고유 문자들
text = "programming"
unique_chars = ''.join(remove_duplicates(list(text)))
print(f"'{text}'의 고유 문자들: '{unique_chars}'")

### 6.2 공통 관심사 찾기

In [None]:
# 친구들의 관심사
friends_interests = {
    "철수": {"영화", "음악", "독서", "게임"},
    "영희": {"음악", "요리", "독서", "여행"},
    "민수": {"게임", "독서", "운동", "영화"},
    "지연": {"요리", "독서", "여행", "음악"}
}

# 모든 사람의 공통 관심사
all_interests = list(friends_interests.values())
common_interests = all_interests[0]
for interests in all_interests[1:]:
    common_interests = common_interests & interests

print("모든 친구의 공통 관심사:", common_interests)

# 각 관심사별 관심 있는 사람 수
all_unique_interests = set()
for interests in friends_interests.values():
    all_unique_interests = all_unique_interests | interests

print("\n관심사별 인원수:")
for interest in sorted(all_unique_interests):
    count = sum(1 for interests in friends_interests.values() if interest in interests)
    people = [name for name, interests in friends_interests.items() if interest in interests]
    print(f"{interest}: {count}명 ({', '.join(people)})")

# 철수와 영희의 공통 관심사
common_cs_yh = friends_interests["철수"] & friends_interests["영희"]
print(f"\n철수와 영희의 공통 관심사: {common_cs_yh}")

### 6.3 집합을 이용한 필터링

In [None]:
# 금지된 단어 필터링
banned_words = {'바보', '멍청이', '짜증', '화남'}
allowed_words = {'좋아', '예쁘다', '멋지다', '훌륭하다'}

def filter_text(text, banned_set):
    """텍스트에서 금지된 단어들을 *** 로 대체"""
    words = text.split()
    filtered_words = []
    
    for word in words:
        if word in banned_set:
            filtered_words.append('***')
        else:
            filtered_words.append(word)
    
    return ' '.join(filtered_words)

# 테스트
comment = "정말 바보 같은 멍청이 영화였어 짜증나"
filtered_comment = filter_text(comment, banned_words)
print("원본 댓글:", comment)
print("필터링 후:", filtered_comment)

# 허용된 단어만 포함하는지 확인
positive_comment = "정말 좋아 예쁘다 멋지다"
comment_words = set(positive_comment.split())
print(f"\n긍정 댓글: {positive_comment}")
print(f"허용된 단어만 사용? {comment_words <= allowed_words}")

## 7. 실습 문제

In [None]:
# 문제 1: 두 리스트에서 공통 요소를 찾으세요
list1 = [1, 2, 3, 4, 5, 6]
list2 = [4, 5, 6, 7, 8, 9]
# 여기에 코드를 작성하세요
common_elements = list(set(list1) & set(list2))
print("공통 요소:", common_elements)

In [None]:
# 문제 2: 문자열에서 각 단어가 몇 개의 고유한 문자를 가지는지 계산하세요
words = ["python", "programming", "language", "computer"]
# 여기에 코드를 작성하세요
for word in words:
    unique_chars = len(set(word))
    print(f"{word}: {unique_chars}개의 고유 문자")

In [None]:
# 문제 3: 학생들이 수강하는 과목에서 모든 학생이 공통으로 듣는 과목을 찾으세요
student_subjects = {
    "김철수": {"수학", "영어", "물리", "화학"},
    "이영희": {"수학", "영어", "생물", "화학"},
    "박민수": {"수학", "국어", "화학", "지리"},
    "최지연": {"수학", "영어", "화학", "역사"}
}

# 여기에 코드를 작성하세요
all_subjects = list(student_subjects.values())
common_subjects = all_subjects[0]
for subjects in all_subjects[1:]:
    common_subjects = common_subjects & subjects

print("모든 학생이 공통으로 듣는 과목:", common_subjects)

# 각 과목을 듣는 학생 수도 계산해보세요
all_unique_subjects = set()
for subjects in student_subjects.values():
    all_unique_subjects |= subjects

print("\n과목별 수강 학생 수:")
for subject in sorted(all_unique_subjects):
    count = sum(1 for subjects in student_subjects.values() if subject in subjects)
    students = [name for name, subjects in student_subjects.items() if subject in subjects]
    print(f"{subject}: {count}명 ({', '.join(students)})")

## 정리

이번 장에서 배운 내용:
1. **집합의 특징**: 중복 불허, 순서 없음, 변경 가능
2. **집합 생성**: { }, set(), 다른 자료형에서 변환
3. **기본 연산**: add, remove, discard, pop, clear
4. **집합 연산**: 합집합(|), 교집합(&), 차집합(-), 대칭차집합(^)
5. **관계 연산**: 부분집합(<=), 상위집합(>=), 서로소(isdisjoint)
6. **집합 컴프리헨션**: 간결한 집합 생성
7. **실용적 활용**: 중복 제거, 공통 요소 찾기, 필터링

**집합 활용 분야:**
- 중복 데이터 제거
- 공통 요소나 차이점 분석
- 멤버십 테스트 (빠른 검색)
- 수학적 집합 연산
- 데이터 필터링

다음은 미니프로젝트로 학생 성적 관리 시스템을 만들어보겠습니다!