<a href="https://colab.research.google.com/github/welovecherry/00-AI-Study/blob/main/day1_data_structure.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 자료구조

## ✅ 전체 수업 목표

**이 수업을 마친 후 학습자는 다음을 할 수 있어야 합니다:**

1. **자료구조와 알고리즘의 기본 개념을 설명**할 수 있다.  
2. **다양한 자료구조의 특징과 사용 목적을 이해하고, 적절한 상황에 선택**할 수 있다.  
3. **파이썬에서 제공하는 자료구조와 모듈을 활용하여 실제 문제를 해결**할 수 있다.  
4. **데이터 분석에서 자주 사용되는 자료구조(Numpy, Pandas)의 동작 원리와 장점을 이해하고 실습**할 수 있다.  
5. **자료구조 선택이 성능에 미치는 영향을 체감**하고, 시간/공간 복잡도를 고려할 수 있다.

> ✨ **심화 목표**  
> 기본 구조 외에도 `collections`, `heapq`, `NumPy`, `Pandas`의 내부 동작과 성능 특성을 이해하여  
> **데이터 사이언스, AI 개발에서의 실무 활용 기반을 마련**할 수 있다.


 # 1장: 자료구조와 복잡도 개념 - 왜 중요한가?



 ## 🎯 수업 목표



 * **자료구조(Data Structure)의 기본 개념과 필요성을 설명**할 수 있다. 🤔

 * **추상 자료형(ADT)과 구체적인 구현(Implementation)의 차이를 이해**하고 설명할 수 있다. 🧱

 * 파이썬에 내장된 기본 자료구조들을 간략하게 **소개**할 수 있다. 🐍

 * **시간 복잡도(Time Complexity)** 와 **공간 복잡도(Space Complexity)** 의 개념을 이해하고, **Big-O 표기법**을 사용하여 알고리즘의 효율성을 분석할 수 있다. ⏱️💾

 * 간단한 성능 측정 실습을 통해 **알고리즘(구현 방식)에 따라 프로그램 실행 시간이 크게 달라질 수 있음**을 직접 **체험**하고 설명할 수 있다. ⚡️🐢



 > ✨ **심화 목표**

 >

 > * 다양한 Big-O 표기법(O(1), O(log n), O(n), O(n log n), O(n²))의 의미를 이해하고, 각 복잡도에 해당하는 알고리즘 예시를 떠올릴 수 있다.

 > * 최선(Best), 평균(Average), 최악(Worst)의 경우에 따른 복잡도 분석의 차이를 이해한다.

 ---



 ## 📚 개념 설명



 ### 1. 자료구조(Data Structure)란 무엇일까? 🤔



 * **정의**: 여러 데이터(값)들의 묶음을 **저장**하고, **사용**(접근, 수정, 삭제 등)하는 방법을 정의한 것.

 * **핵심**: 단순히 데이터를 모아두는 것을 넘어, **효율적인 관리와 활용**을 위한 구조.

     * 데이터를 어떻게 **구성(organize)** 할 것인가?

     * 데이터에 어떻게 **접근(access)** 하고 **조작(manipulate)** 할 것인가?



 * **비유**:

     * 도서관의 책 정리 방식 📚:

         * **분류 없이 쌓아두기**: 찾기 매우 어려움 (비효율적) 🔴

         * **가나다 순 정렬**: 특정 저자나 제목 찾기 쉬움 (선형 탐색)

         * **주제별 분류 + 가나다 순**: 더 빠르게 원하는 분야의 책을 찾을 수 있음 (효율적) 🔵

     * 스마트폰 연락처 관리 📱:

         * **종이에 적어두기**: 찾고 수정하기 불편함 🔴

         * **이름 순 정렬된 앱**: 초성 검색 등으로 빠르게 찾기 가능 🔵



 * **왜 필요할까?**:

     * **문제 해결**: 특정 문제를 해결하기 위해 데이터를 **효율적으로 처리**해야 함.

     * **성능 향상**: 프로그램의 **실행 속도**와 **메모리 사용량**에 직접적인 영향을 미침.

         * 적절한 자료구조 선택 → 빠른 속도, 적은 메모리 사용 🔵

         * 부적절한 자료구조 선택 → 느린 속도, 많은 메모리 사용 🔴

     * **코드 관리**: 데이터를 체계적으로 관리하여 코드의 **가독성**과 **유지보수성**을 높임.



 * **실무 활용 예시**:

     * 웹사이트 사용자 데이터 관리 (회원 정보, 게시글 등)

     * 데이터 분석 시 대규모 데이터 처리

     * 운영체제의 프로세스 관리

 ### 2. 추상 자료형(Abstract Data Type, ADT) vs 구현(Implementation) 🧱



 * **추상 자료형 (ADT)**:

     * **"무엇(What)"** 에 초점: 데이터와 그 데이터에 수행될 수 있는 **연산(Operation)** 들의 **명세(Specification)** 만 정의.

     * **구현 방식은 숨김**: 내부적으로 어떻게 동작하는지는 정의하지 않음 (블랙박스 ⬛).

     * **예시**:

         * **"리스트" ADT**: 데이터를 순서대로 저장하고, 특정 위치의 데이터를 가져오거나, 맨 뒤에 데이터를 추가하는 등의 **기능(연산)** 을 정의.

         * **"스택" ADT**: 데이터를 쌓아 올리는 구조로, 맨 위에 데이터를 추가(push)하고 맨 위 데이터를 제거(pop)하는 **기능**을 정의.



 * **구현 (Implementation)**:

     * **"어떻게(How)"** 에 초점: ADT에서 정의된 명세를 **실제로 구현**하는 방식.

     * **구체적인 자료구조와 알고리즘**을 사용하여 ADT의 연산을 실제로 만듦.

     * **예시**:

         * **"리스트" ADT 구현**:

             * **배열(Array) 기반 리스트**: 연속된 메모리 공간에 데이터를 저장. 특정 인덱스 접근 빠름 🔵, 중간 삽입/삭제 느림 🔴.

             * **연결 리스트(Linked List) 기반 리스트**: 각 데이터가 다음 데이터의 위치를 가리키는 방식. 중간 삽입/삭제 빠름 🔵, 특정 인덱스 접근 느림 🔴.

         * **"스택" ADT 구현**:

             * 파이썬 `list` 를 사용하여 구현 가능 (`append` 로 push, `pop` 으로 pop).

             * `collections.deque` 를 사용하여 구현 가능 (더 효율적일 수 있음).



 * **관계**: ADT는 **설계도** 📜, 구현은 그 설계도를 바탕으로 **실제로 지은 건물** 🏗️.

     * 하나의 ADT는 여러 가지 방식으로 구현될 수 있으며, 각 구현 방식은 성능 특성(시간/공간 복잡도)이 다를 수 있음.

 > "추상 자료형과 구현체를 구분해서 말하는 이유는, 같은 추상 자료형이라도 여러 가지 방식으로 구현할 수 있기 때문입니다.

 > 예를 들어, Queue(큐) 는 '먼저 들어온 값이 먼저 나간다'는 동작 방식만 정의되어 있는 추상 자료형이에요.

 > 그런데 이 큐를 배열로 구현할 수도 있고, 연결 리스트나 데크(deque)로도 구현할 수 있습니다.

 > 이처럼 구현 방식에 따라 성능(시간·공간 효율성)이 달라질 수 있기 때문에,

 > 우리가 어떤 자료구조를 쓸 때는 단순히 '무엇을 쓸지'뿐 아니라, '어떻게 구현되어 있는지'도 중요하게 고려해야 해요."

 ### 3. 파이썬의 기본 자료구조 소개 🐍



 * 파이썬은 다양한 자료구조를 **내장(built-in)** 하고 있어 편리하게 사용 가능.

 #### 주요 내장 자료구조

 * **리스트 (List)**: `[]`

     * 순서가 있는 변경 가능한(mutable) 데이터의 묶음.

     * 다양한 타입의 데이터 저장 가능.

     * 가장 일반적으로 많이 사용됨.

In [6]:
# %%
my_list = [1, 2, 3, 4, 5]
my_list[0] = 100 # 삽입: [100, 2, 3, 4, 5]
my_list.append(6) # 추가: [100, 2, 3, 4, 5, 6]
my_list.remove(3) # 삭제: [100, 2, 4, 5, 6]
my_list.pop() # 마지막 요소 삭제: [100, 2, 4, 5]
my_list.insert(3, 0) # 인덱스에 삽입: [0, 100, 2, 4, 5]

my_list.sort() # 정렬: [0, 2, 4, 5, 100]
my_list.reverse() # 역순: [100, 5, 4, 2, 0]
my_list.count(4) # 4의 개수: 1
my_list.index(4) # 4의 위치: 2
my_list.clear() # 모두 삭제: []


[1, 2, 3, 0, 4, 5]


 * **튜플 (Tuple)**: `()`

     * 순서가 있는 변경 불가능한(immutable) 데이터의 묶음.

     * 한번 생성되면 내용 변경 불가. 리스트보다 약간 빠르고 메모리 효율적.

In [7]:
# %%
my_tuple = (1, 2, 3, 4, 5)
my_tuple[0] = 100 # 오류: 'tuple' object does not support item assignment


TypeError: 'tuple' object does not support item assignment

 * **집합 (Set)**: `{}` 또는 `set()`

     * 순서가 없고 중복을 허용하지 않는 데이터의 묶음.

     * 합집합, 교집합 등 집합 연산에 유용. 특정 요소의 존재 여부 빠르게 확인 가능.

In [13]:
# %%
my_set = {1, 2, 3, 4, 5}
my_set.add(6) # 추가: {1, 2, 3, 4, 5, 6}
my_set.remove(3) # 삭제: {1, 2, 4, 5, 6}
print(my_set)
my_set.pop() # 임의의 요소 삭제: {2, 4, 5, 6}
my_set
# my_set.clear() # 모두 삭제: set()


{1, 2, 4, 5, 6}


{2, 4, 5, 6}

 * **딕셔너리 (Dictionary)**: `{}`

     * 키(Key)-값(Value) 쌍으로 이루어진 데이터의 묶음. 순서가 없음 (Python 3.7+ 부터는 입력 순서 유지).

     * 키를 통해 값을 빠르게 찾아올 수 있음 (해시 테이블 기반).

In [None]:
# %%
my_dict = {'apple': 1, 'banana': 2, 'cherry': 3}
my_dict['apple'] = 100 # 값 변경: {'apple': 100, 'banana': 2, 'cherry': 3}
my_dict['orange'] = 4 # 추가: {'apple': 100, 'banana': 2, 'cherry': 3, 'orange': 4}
my_dict.pop('banana') # 삭제: {'apple': 100, 'cherry': 3, 'orange': 4}
my_dict.popitem() # 임의의 요소 삭제: {'apple': 100, 'cherry': 3}
my_dict.clear() # 모두 삭제: {}


 * **문자열 (String)**: `""` 또는 `''`

     * 문자들의 순서 있는 나열. 변경 불가능 (immutable).

In [20]:
# %%
my_string = "Hello, World!"
# my_string[0] = 'C' # 오류: 'str' object does not support item assignment
my_string.replace('World', 'Python') # 치환: 'Hello, Python!'
my_string.split(',') # 분리: ['Hello', ' World!']
my_string.join(['s', 'World']) # 결합: 'Hello, World!'
print(my_string)
# my_string.find('World') # 위치: 7
# my_string.count('o') # 개수: 2
# my_string.isalpha() # 알파벳 여부: False
# my_string.isdigit() # 숫자 여부: False
# my_string.upper() # 대문자: 'HELLO, WORLD!'
# my_string.lower() # 소문자: 'hello, world!'
# my_string.strip() # 양쪽 공백 제거: 'Hello, World!'
# my_string.replace('Hello', 'Hi') # 치환: 'Hi, World!'
# my_string.startswith('H') # 시작 여부: True


Hello, World!


 * **모듈을 통해 제공되는 자료구조**:

     * `collections` 모듈: `deque`, `Counter`, `defaultdict`, `namedtuple` 등 확장된 자료구조 제공. (뒤에서 자세히 배움)

     * `heapq` 모듈: 힙(Heap) 자료구조 제공 (우선순위 큐 구현에 사용). (뒤에서 자세히 배움)

In [None]:
# %%
from collections import deque, Counter, defaultdict, namedtuple
from heapq import heappush, heappop

# deque 예제
my_deque = deque([1, 2, 3])
my_deque.append(4)  # 오른쪽에 추가: deque([1, 2, 3, 4])
my_deque.appendleft(0)  # 왼쪽에 추가: deque([0, 1, 2, 3, 4])
my_deque.pop()  # 오른쪽에서 제거: deque([0, 1, 2, 3])
my_deque.popleft()  # 왼쪽에서 제거: deque([1, 2, 3])

# Counter 예제
my_counter = Counter(['a', 'b', 'a', 'c', 'b', 'a'])
print(my_counter)  # Counter({'a': 3, 'b': 2, 'c': 1})

# defaultdict 예제
my_defaultdict = defaultdict(int)
my_defaultdict['a'] += 1  # 기본값 0으로 초기화
print(my_defaultdict['a'])  # 1

# namedtuple 예제
Point = namedtuple('Point', ['x', 'y'])
p = Point(1, 2)
print(p.x, p.y)  # 1 2

# heapq 예제
my_heap = []
heappush(my_heap, 3)
heappush(my_heap, 1)
heappush(my_heap, 2)
print(heappop(my_heap))  # 1 (가장 작은 값)


 * **외부 라이브러리**:

     * `NumPy`: 고성능 수치 계산을 위한 배열(ndarray) 제공. (뒤에서 자세히 배움)

     * `Pandas`: 데이터 분석을 위한 Series, DataFrame 제공. (뒤에서 자세히 배움)

 ### 4. 알고리즘 효율성 분석: 복잡도 (Complexity) ⏱️💾



 * **알고리즘(Algorithm)**: 어떤 문제를 해결하기 위한 **단계적인 절차나 방법**.

 * **복잡도**: 알고리즘의 **성능**을 나타내는 척도. 입력 데이터의 크기가 증가함에 따라 알고리즘이 얼마나 많은 **시간**과 **공간(메모리)** 을 사용하는지를 분석.



 * **1) 시간 복잡도 (Time Complexity)**:

     * **정의**: 입력 데이터의 크기(n)에 대해 알고리즘의 **실행 시간**이 어떻게 변하는지를 나타냄.

     * **측정 기준**: 실제 실행 시간(초)이 아닌, **연산의 실행 횟수**를 기준으로 측정.

         * 왜? 실제 시간은 하드웨어, 프로그래밍 언어, 컴파일러 등 환경에 따라 달라지기 때문.

     * **목표**: 입력 크기 n이 커질수록 **실행 시간이 얼마나 빠르게 증가하는가** (증가율)를 파악.



 * **2) 공간 복잡도 (Space Complexity)**:

     * **정의**: 입력 데이터의 크기(n)에 대해 알고리즘이 사용하는 **메모리 공간**이 어떻게 변하는지를 나타냄.

     * **측정 기준**: 알고리즘 실행에 필요한 **총 메모리 양**.

         * 고정 공간: 입력 크기와 상관없이 항상 필요한 공간 (코드 저장 공간, 단순 변수 등)

         * 가변 공간: 입력 크기에 따라 변하는 공간 (데이터 저장을 위한 동적 할당 메모리, 재귀 호출 스택 등)

     * **최근 경향**: 메모리 용량이 커지면서 시간 복잡도만큼 중요하게 다루지는 않지만, **대규모 데이터**를 다루거나 **메모리 제약 환경**(임베디드 시스템 등)에서는 여전히 중요.



 * **왜 복잡도를 분석해야 할까?**:

     * **알고리즘 비교**: 여러 알고리즘 중 어떤 것이 더 **효율적인지** 객관적으로 비교 가능.

     * **성능 예측**: 데이터 크기가 커졌을 때 프로그램의 성능이 어떻게 될지 **예측** 가능.

     * **최적화 방향**: 성능 병목 현상이 발생하는 부분을 찾아 **개선 방향**을 설정하는 데 도움.

 ### 5. Big-O 표기법 (Big-O Notation)



 * **정의**: 복잡도를 표현하는 **수학적인 표기법**. 입력 크기 n이 **무한히 커질 때**의 복잡도 **증가율(성장률)** 을 나타냄.

 * **핵심**: 가장 **영향력이 큰 항(최고차항)** 만 남기고, **계수(상수)** 는 무시.

     * 예: `3n² + 5n + 100` → 최고차항은 `n²`. 계수 3 무시. → **O(n²)**

     * 예: `log n + n` → 최고차항은 `n`. → **O(n)**

     * 예: `50` (상수 시간) → **O(1)**



 * **목표**: n이 매우 클 때, 알고리즘 성능의 **상한선(Upper Bound)**, 즉 **최악의 경우(Worst-case)** 성능을 대략적으로 파악하는 것.



 * **자주 사용되는 Big-O 예시 (성능 좋은 순서대로)**:



     1.  **O(1) - 상수 시간 (Constant Time)** 🥇

         * 입력 크기 n에 상관없이 **항상 일정한 시간** 소요. 가장 이상적! 🔵

         * 예: 리스트/배열의 특정 인덱스 접근 (`my_list[i]`), 해시 테이블(딕셔너리)의 키를 이용한 값 접근/삽입/삭제 (평균적인 경우), 스택 push/pop.



     2.  **O(log n) - 로그 시간 (Logarithmic Time)** 🥈

         * 입력 크기 n이 커져도 시간은 **조금씩 증가**. 매우 효율적! 🔵

         * 데이터가 2배 늘어나도 연산 횟수는 1번만 증가하는 식.

         * 예: **이진 탐색(Binary Search)** (정렬된 데이터에서 특정 값 찾기), 균형 잡힌 트리에서의 탐색/삽입/삭제.

         * *[시각 자료 삽입: 로그 함수 그래프]*



     3.  **O(n) - 선형 시간 (Linear Time)** 🥉

         * 입력 크기 n에 **정비례**하여 시간 소요. 합리적인 성능. 🔵

         * 예: 리스트/배열의 모든 요소 **순회**(탐색), 연결 리스트 탐색, 해시 테이블 최악의 경우 탐색.

         * *[시각 자료 삽입: 선형 함수 그래프]*



     4.  **O(n log n) - 로그 선형 시간 (Log-linear Time)**

         * O(n)보다는 느리지만, 여전히 효율적인 편.

         * 예: 효율적인 **정렬 알고리즘** (병합 정렬, 힙 정렬, 퀵 정렬의 평균).



     5.  **O(n²) - 이차 시간 (Quadratic Time)**

         * 입력 크기 n의 제곱에 비례하여 시간 소요. n이 커지면 **급격히 느려짐**. 🔴

         * 예: **이중 반복문** (리스트의 모든 쌍 비교), 비효율적인 정렬 알고리즘 (버블 정렬, 삽입 정렬, 선택 정렬).

         * *[시각 자료 삽입: 이차 함수 그래프]*



     6.  **O(2ⁿ) - 지수 시간 (Exponential Time)**

         * n이 조금만 커져도 **매우 매우 느려짐**. 실용적이지 못한 경우가 많음. 🔴🔴

         * 예: 피보나치 수열의 단순 재귀적 계산, 조합 문제의 완전 탐색.



     7.  **O(n!) - 팩토리얼 시간 (Factorial Time)**

         * n이 매우 작을 때만 사용 가능. 극도로 비효율적. 🔴🔴🔴

         * 예: 모든 순열 생성.





 * **Big-O 성능 비교 시각화**:

     * *[시각 자료 삽입: 여러 Big-O 그래프를 한 번에 보여주는 비교 그래프 (x축: n, y축: 시간)]*

     * **결론**: O(1) < O(log n) < O(n) < O(n log n) < O(n²) < O(2ⁿ) < O(n!) (오른쪽으로 갈수록 성능 나쁨)



 * **주의사항**:

     * Big-O는 **점근적(asymptotic)** 분석. n이 작을 때는 상수항이나 낮은 차수의 항이 영향을 줄 수 있음.

     * Big-O는 **최악의 경우**를 나타내는 경우가 많음. 평균적인 경우(Average Case)나 최선의 경우(Best Case)는 다를 수 있음. (예: 해시 테이블 평균 O(1), 최악 O(n))

     * 알고리즘 선택 시 Big-O 뿐만 아니라 실제 환경에서의 성능, 구현의 복잡성 등도 고려해야 함.

 ### 코딩테스트에서 시간 복잡도 파악하기

 * **입력 크기 기준**:

     * n ≤ 1,000,000 → O(n), O(n log n) 가능

     * n ≤ 10,000 → O(n²)도 가능

 * **1초당 연산 횟수 기준**:

     * 1초에 약 100,000,000번 연산 가능

     * 허용 복잡도 대략:

         * n ≤ 1,000,000 → O(n), O(n log n)

         * n ≤ 10,000 → O(n²)

         * n ≤ 500 → O(n³)

         * n ≤ 20 → O(2ⁿ)

         * n ≤ 10 → O(n!)

 * **실전 팁**:

     1. 입력 크기 확인

     2. 가능한 복잡도 예측

     3. 맞는 알고리즘 선택

     4. 중첩 반복문: 횟수 곱해서 계산

     5. 재귀: 호출 횟수 예측

 * **예시**:

     * n = 100,000 → 1초 제한

     * O(n²) → 약 10¹⁰ → 시간 초과

     * O(n log n) → 약 1.6 * 10⁶ → 통과 가능

 ### 6. 성능 측정 실습: 구현 방식에 따른 실행 시간 비교 ⚡️ vs 🐢



 * **목표**: 동일한 작업을 수행하더라도, 사용하는 **자료구조나 알고리즘(구현 방식)** 에 따라 **실행 시간**이 어떻게 달라지는지 직접 확인.

 * **시나리오**: 어떤 리스트(또는 다른 데이터 집합)에 특정 값이 **존재하는지 확인**하는 작업.



 * **방법 1: 파이썬 리스트(List) 사용**

     * 리스트에서 특정 값을 찾으려면, 처음부터 끝까지 하나씩 비교해야 할 수 있음 (선형 탐색).

     * **예상 시간 복잡도**: O(n) - 최악의 경우 모든 요소를 확인해야 함.



 * **방법 2: 파이썬 집합(Set) 사용**

     * 집합은 내부적으로 해시 테이블을 사용하여 데이터를 저장. 특정 값의 존재 여부를 매우 빠르게 확인 가능.

     * **예상 시간 복잡도**: O(1) - 평균적으로 상수 시간에 확인 가능. (해시 충돌이 심한 최악의 경우 O(n))



 * **실습 코드**: 매우 큰 데이터 집합을 만들고, 리스트와 집합에서 특정 요소가 있는지 확인하는 시간을 측정하여 비교.

In [None]:
# %%

 #### 간단 시연 코드: 리스트 vs 집합 탐색 속도 비교

In [None]:
# %%
import time

# 큰 데이터셋 생성 (예: 0부터 9,999,999까지의 숫자)
data_size = 10_000_000
large_list = list(range(data_size))
large_set = set(range(data_size))

# 찾으려는 값 (리스트/집합의 거의 마지막 요소)
target_value = data_size - 1

# --- 리스트에서 탐색 ---
start_time = time.time() # 시작 시간 기록
result_list = target_value in large_list # 'in' 연산자로 탐색
end_time = time.time() # 종료 시간 기록

print(f"[List] '{target_value}' 찾기 결과: {result_list}")
print(f"[List] 탐색 소요 시간: {end_time - start_time:.6f} 초 ⏱️") # 소요 시간 출력

# --- 집합에서 탐색 ---
start_time = time.time() # 시작 시간 기록
result_set = target_value in large_set # 'in' 연산자로 탐색
end_time = time.time() # 종료 시간 기록

print(f"\n[Set] '{target_value}' 찾기 결과: {result_set}")
print(f"[Set] 탐색 소요 시간: {end_time - start_time:.6f} 초 ⏱️") # 소요 시간 출력



 #### 간단 시연 코드: tracemalloc으로 전체 메모리 사용 추적

In [None]:
# %%
import tracemalloc

# 측정 시작
tracemalloc.start()

# 리스트 생성
large_list = [i for i in range(1_000_000)]
list_current, list_peak = tracemalloc.get_traced_memory()
print(f"[List] 현재 메모리 사용량: {list_current / 1024 / 1024:.2f} MB")
print(f"[List] 최대 메모리 사용량: {list_peak / 1024 / 1024:.2f} MB\n")

# 초기화 후 다시 측정
tracemalloc.reset_peak()
# 집합 생성
large_set = {i for i in range(1_000_000)}
set_current, set_peak = tracemalloc.get_traced_memory()
print(f"[Set]  현재 메모리 사용량: {set_current / 1024 / 1024:.2f} MB")
print(f"[Set]  최대 메모리 사용량: {set_peak / 1024 / 1024:.2f} MB")

# 측정 종료
tracemalloc.stop()



 * **실행 결과 분석**:

     * 데이터 크기(`data_size`)가 커질수록 리스트 탐색 시간은 눈에 띄게 증가하는 반면, 집합 탐색 시간은 거의 일정하게 유지되는 것을 관찰할 수 있음.

     * 이는 리스트 탐색(선형 탐색)이 O(n)이고, 집합 탐색(해시 테이블 기반)이 평균 O(1)이기 때문.

     * 반면에, 메모리 사용량은 집합이 리스트보다 더 많이 사용하는 것을 확인할 수 있음.

     * ➡️ **결론1**: 동일한 문제라도 어떤 자료구조/알고리즘을 사용하느냐에 따라 성능 차이가 매우 클 수 있다! 😮

     * ➡️ **결론2**: 시간 복잡도와 공간 복잡도는 트레이드 오프 관계에 있다. 시간을 줄이기 위해 공간을 더 쓰거나, 공간을 아끼기 위해 시간을 더 쓰는 경우가 많다.

 ### 7. F.A.Q (자주 묻는 질문) ❓



 * **Q1: 모든 문제를 가장 빠른 O(1) 자료구조로만 해결할 수는 없나요?**

     * **A1**: O(1) 성능을 제공하는 자료구조(예: 해시 테이블)는 특정 연산(삽입, 삭제, 검색)에는 매우 빠르지만, 다른 기능(예: 순서 유지, 범위 검색)에는 약하거나 지원하지 않을 수 있습니다. 또한, 항상 O(1)이 아니라 평균적으로 O(1)인 경우가 많습니다(최악의 경우 O(n)). 문제의 요구사항(필요한 연산, 데이터 특징 등)에 맞는 **적절한 자료구조를 선택**하는 것이 중요합니다. 모든 상황에 완벽한 만능 자료구조는 없습니다.  tradeoffs 존재!



 * **Q2: 시간 복잡도와 공간 복잡도 중 무엇이 더 중요한가요?**

     * **A2**: 상황에 따라 다릅니다. 일반적으로는 **시간 복잡도**를 더 중요하게 생각하는 경향이 있습니다. 사용자는 프로그램이 느린 것을 더 민감하게 느끼기 때문입니다. 하지만 **메모리가 매우 제한적인 환경**(예: 모바일 기기, 임베디드 시스템)이나 **극도로 큰 데이터**를 다룰 때는 **공간 복잡도**도 매우 중요해집니다. 종종 시간과 공간은 **trade-off 관계**에 있습니다 (시간을 줄이기 위해 메모리를 더 쓰거나, 메모리를 아끼기 위해 시간을 더 쓰는 경우).



 * **Q3: Big-O 표기법에서 상수를 무시하는 이유는 무엇인가요? `O(2n)`과 `O(n)`은 실제로는 2배 차이인데?**

     * **A3**: Big-O는 입력 크기 `n`이 **매우 커질 때**의 **성장률**에 초점을 맞춥니다. `n`이 충분히 크다면, `2n`이나 `n`이나 모두 `n`에 비례하여 선형적으로 증가하는 **패턴**은 동일합니다. Big-O는 알고리즘의 **근본적인 확장성(scalability)** 을 비교하기 위한 도구이지, 정확한 실행 시간을 예측하는 도구는 아닙니다. 물론 실제 성능에서는 상수 배 차이도 중요할 수 있지만, 알고리즘의 **기본적인 효율성 클래스**를 구분하는 것이 Big-O의 주 목적입니다.



 * **Q4: 파이썬 리스트는 내부적으로 어떻게 구현되어 있나요?**

     * **A4**: 파이썬의 표준 리스트(`list`)는 **동적 배열(Dynamic Array)** 로 구현되어 있습니다. 일반적인 배열처럼 연속된 메모리 공간을 사용하지만, 데이터가 추가되어 공간이 부족해지면 **더 큰 메모리 공간을 할당**하고 기존 요소들을 **복사**하는 방식으로 크기를 동적으로 조절합니다. 이 때문에 맨 뒤에 요소를 추가하는 `append` 연산은 평균적으로 O(1)이지만, 가끔 재할당이 발생하면 O(n)이 걸릴 수 있습니다 (분할 상환 분석). 특정 인덱스 접근은 O(1), 중간 삽입/삭제는 O(n)의 시간 복잡도를 가집니다.

 ### 8. 핵심 요약 📝



 * **자료구조**: 데이터를 효율적으로 **저장하고 활용**하기 위한 방법. 프로그램 **성능**에 큰 영향.

 * **ADT vs 구현**: ADT는 **기능 명세**(What), 구현은 **실제 동작 방식**(How).

 * **복잡도**: 알고리즘의 효율성을 나타내는 척도 (시간 복잡도, 공간 복잡도).

 * **Big-O 표기법**: 입력 크기 `n`이 커질 때의 **성장률**을 나타냄 (최악의 경우 성능).

     * **O(1)** < **O(log n)** < **O(n)** < **O(n log n)** < **O(n²)** ... (왼쪽일수록 좋음)

 * **성능**: 동일한 문제라도 **어떤 자료구조/알고리즘**을 선택하느냐에 따라 성능 차이가 매우 크다! (예: 리스트 검색 O(n) vs 집합 검색 O(1))

 * **선택**: 문제의 **요구사항**과 **데이터 특징**을 고려하여 **가장 적절한** 자료구조를 선택하는 것이 중요.

 ---



 ## ❓ 객관식, 단답형 및 서술형 문제



 * 각 문제의 난이도를 ⭐️ ~ ⭐️⭐️⭐️⭐️⭐️ 로 표시했습니다.

 * 정답 및 해설은 아래 `### 정답 및 해설` 부분을 펼쳐서 확인하세요.

 ### 🧐 객관식 문제 1 (난이도: ⭐️⭐️)



 다음 중 자료구조(Data Structure)에 대한 설명으로 **가장 적절하지 않은** 것은 무엇인가요?



 1.  데이터를 효율적으로 저장하고 관리하는 방법이다.

 2.  알고리즘의 성능(실행 시간, 메모리 사용량)에 영향을 미친다.

 3.  파이썬에는 리스트, 튜플, 딕셔너리 등 내장 자료구조가 있다.

 4.  자료구조는 한번 선택하면 절대 변경할 수 없다.

 5.  문제 해결 전략에 따라 적합한 자료구조를 선택해야 한다.

 ### 정답 및 해설



 **정답: 4번**



 **해설:**

 자료구조는 프로그램 개발 중 요구사항 변경이나 성능 개선을 위해 다른 자료구조로 변경될 수 있습니다. 예를 들어, 초기에는 리스트를 사용하다가 검색 성능이 중요해지면 딕셔너리나 집합으로 변경하는 것을 고려할 수 있습니다. 나머지 선택지들은 자료구조의 특징과 중요성을 올바르게 설명하고 있습니다.

 ### 🧐 객관식 문제 2 (난이도: ⭐️⭐️⭐️)



 추상 자료형(ADT)과 구현(Implementation)에 대한 설명으로 **옳은** 것을 모두 고르세요.



 가. ADT는 데이터와 연산의 명세를 정의하며, 내부 구현 방식은 숨긴다.

 나. 하나의 ADT는 오직 한 가지 방식으로만 구현될 수 있다.

 다. 구현은 ADT의 명세를 실제로 코드로 작성하는 것을 의미한다.

 라. 파이썬의 `list`는 '리스트 ADT'의 한 가지 구현 방식이다.

 마. ADT를 사용하면 코드의 재사용성과 유연성이 감소한다.



 1.  가, 다

 2.  가, 다, 라

 3.  나, 마

 4.  가, 나, 다, 라

 5.  다, 라, 마

 ### 정답 및 해설



 **정답: 2번 (가, 다, 라)**



 **해설:**

 * (가) ADT는 인터페이스(명세)에 집중하고 구현 세부사항은 숨기는 캡슐화의 특징을 가집니다. (옳음)

 * (나) 하나의 ADT는 배열, 연결 리스트 등 다양한 방식으로 구현될 수 있습니다. (틀림)

 * (다) 구현은 ADT가 정의한 기능을 실제로 동작하도록 만드는 과정입니다. (옳음)

 * (라) 파이썬의 `list`는 순서가 있고 변경 가능한 데이터 목록이라는 '리스트 ADT'의 개념을 동적 배열 방식으로 구현한 것입니다. (옳음)

 * (마) ADT를 사용하면 내부 구현 변경에 유연하게 대처할 수 있고, 동일한 인터페이스를 따르는 다른 구현체로 쉽게 교체할 수 있어 재사용성과 유연성이 증가합니다. (틀림)

 ### 🧐 객관식 문제 3 (난이도: ⭐️⭐️⭐️⭐️)



 다음 Big-O 표기법들을 **성능이 좋은 순서대로(빠른 순서대로)** 올바르게 나열한 것은 무엇인가요? (부등호에 따라 큰 값이 더 느린 것)



 `O(n!)`, `O(n log n)`, `O(1)`, `O(n²)`, `O(log n)`, `O(n)`, `O(2ⁿ)`



 1.  `O(1)` < `O(log n)` < `O(n)` < `O(n log n)` < `O(n²)` < `O(2ⁿ)` < `O(n!)`

 2.  `O(1)` < `O(n)` < `O(log n)` < `O(n log n)` < `O(n²)` < `O(2ⁿ)` < `O(n!)`

 3.  `O(n!)` < `O(2ⁿ)` < `O(n²)` < `O(n log n)` < `O(n)` < `O(log n)` < `O(1)`

 4.  `O(1)` < `O(log n)` < `O(n log n)` < `O(n)` < `O(n²)` < `O(2ⁿ)` < `O(n!)`

 5.  `O(log n)` < `O(1)` < `O(n)` < `O(n log n)` < `O(n²)` < `O(2ⁿ)` < `O(n!)`

 ### 정답 및 해설



 **정답: 1번**



 **해설:**

 Big-O 표기법은 입력 크기 `n`이 증가함에 따른 연산 횟수(시간) 또는 메모리 사용량의 증가율을 나타냅니다. 증가율이 낮을수록 성능이 좋은(빠른) 알고리즘입니다.



 * **O(1)**: 상수 시간 (가장 빠름)

 * **O(log n)**: 로그 시간

 * **O(n)**: 선형 시간

 * **O(n log n)**: 로그 선형 시간

 * **O(n²)**: 이차 시간

 * **O(2ⁿ)**: 지수 시간

 * **O(n!)**: 팩토리얼 시간 (매우 느림)



 따라서 성능이 좋은 순서(증가율이 낮은 순서)는 `O(1)` < `O(log n)` < `O(n)` < `O(n log n)` < `O(n²)` < `O(2ⁿ)` < `O(n!)` 입니다.

 ### ✍️ 단답형 / 서술형 문제 1 (난이도: ⭐️⭐️)



 시간 복잡도(Time Complexity)와 공간 복잡도(Space Complexity)가 무엇인지 각각 간략하게 설명하고, 알고리즘의 효율성을 분석할 때 이 두 가지를 모두 고려해야 하는 이유를 설명하세요.

 ### 정답 및 해설



 **정답:**



 * **시간 복잡도**: 입력 데이터의 크기(n)가 증가함에 따라 알고리즘의 **실행 시간**이 어떻게 변하는지를 나타내는 척도입니다. 주로 연산 횟수로 측정합니다.

 * **공간 복잡도**: 입력 데이터의 크기(n)가 증가함에 따라 알고리즘이 사용하는 **메모리 공간**이 어떻게 변하는지를 나타내는 척도입니다.



 **이유:**

 알고리즘의 효율성은 단순히 속도만 빠르다고 좋은 것이 아니라, 사용하는 메모리 양도 고려해야 하기 때문입니다. 어떤 알고리즘은 실행 시간은 매우 빠르지만 메모리를 지나치게 많이 사용할 수 있고(시간-공간 trade-off), 반대로 메모리는 적게 쓰지만 실행 시간이 매우 오래 걸릴 수도 있습니다. 특히 메모리가 제한적인 환경이나 매우 큰 데이터를 처리해야 하는 경우에는 공간 복잡도도 시간 복잡도만큼 중요하게 고려해야 합니다. 따라서 알고리즘의 전체적인 효율성을 평가하기 위해서는 시간과 공간 복잡도를 함께 분석해야 합니다.

 ### ✍️ 심화: 단답형 / 서술형 문제 2 (난이도: ⭐️⭐️⭐️⭐️⭐️)



 Big-O 표기법 `O(n)`과 `O(n²)`의 의미를 설명하고, 각각에 해당하는 알고리즘의 예시를 하나씩 들어보세요. 어떤 상황에서 `O(n²)` 알고리즘 대신 `O(n)` 알고리즘을 사용하는 것이 유리할까요?



 *[힌트: 입력 데이터의 크기와 실행 시간의 관계를 중심으로 설명하세요.]*

 ### 정답 및 해설



 **정답:**



 * **O(n) - 선형 시간**: 입력 데이터의 크기 `n`에 **정비례**하여 실행 시간이 증가하는 알고리즘을 의미합니다. 데이터가 2배 늘어나면 실행 시간도 약 2배 늘어납니다.

     * **예시**: 리스트의 모든 요소를 한 번씩 순회하며 합계를 구하는 알고리즘, 정렬되지 않은 리스트에서 특정 값을 찾는 선형 탐색.



 * **O(n²) - 이차 시간**: 입력 데이터의 크기 `n`의 **제곱에 비례**하여 실행 시간이 증가하는 알고리즘을 의미합니다. 데이터가 2배 늘어나면 실행 시간은 약 4배 늘어납니다. `n`이 커질수록 실행 시간이 급격하게 증가합니다.

     * **예시**: 이중 반복문을 사용하여 리스트의 모든 요소 쌍을 비교하는 알고리즘, 버블 정렬, 선택 정렬, 삽입 정렬과 같은 비효율적인 정렬 알고리즘.



 **O(n) 알고리즘이 유리한 상황:**

 입력 데이터의 크기 `n`이 **클 때** `O(n²)` 알고리즘은 실행 시간이 매우 길어질 수 있으므로, `O(n)` 알고리즘을 사용하는 것이 훨씬 유리합니다. 예를 들어, 100개의 데이터를 처리할 때 `O(n)`은 약 100번의 연산을 하지만 `O(n²)`은 약 10,000번의 연산을 수행합니다. 데이터가 10,000개로 늘어나면 `O(n)`은 10,000번, `O(n²)`은 100,000,000번의 연산을 하게 되어 성능 차이가 극심해집니다. 따라서 **처리해야 할 데이터의 양이 많을수록** 시간 복잡도가 낮은 알고리즘(예: `O(n)`)을 선택하는 것이 중요합니다.

 ---



 ## 💻 코드 실습



 * 간단한 성능 측정 실습을 통해 시간 복잡도의 개념을 직접 체험해 봅시다.

 ### 실습 1: 리스트에서 최댓값 찾기 성능 비교 (난이도: ⭐️⭐️)



 주어진 숫자 리스트에서 최댓값을 찾는 두 가지 다른 방법의 실행 시간을 측정하고 비교해 보세요.



 * **방법 1**: 파이썬 내장 함수 `max()` 사용

 * **방법 2**: 직접 반복문을 돌면서 최댓값 찾기



 두 방법의 시간 복잡도는 어떻게 될까요? 실행 시간 차이가 발생하는지 확인해 보세요.

In [None]:
# %%
import time
import random

# 실습용 데이터 생성 (큰 리스트)
data_size = 5_000_000
random_numbers = [random.randint(1, data_size * 10) for _ in range(data_size)]
# print(f"데이터 샘플 (앞 10개): {random_numbers[:10]}") # 데이터 확인 (필요시 주석 해제)
print(f"총 {len(random_numbers):,}개의 데이터 생성 완료.")


 #### 방법 1: 내장 함수 `max()` 사용

 ### 💡 힌트

 * `time.time()` 함수를 사용하여 코드 실행 전후의 시간을 기록하고 그 차이를 계산하면 실행 시간을 측정할 수 있습니다.

 * 파이썬의 내장 함수 `max(리스트)`를 호출하면 리스트 내의 최댓값을 바로 얻을 수 있습니다.

 ### 🚀 예시 코드

In [None]:
# %%
# 방법 1: 내장 함수 max() 사용 시간 측정
start_time_builtin = time.time()
max_value_builtin = max(random_numbers) # 내장 함수 호출
end_time_builtin = time.time()

print(f"[방법 1: 내장 함수 max()]")
print(f"찾은 최댓값: {max_value_builtin}")
print(f"소요 시간: {end_time_builtin - start_time_builtin:.6f} 초 ⏱️")


 #### 방법 2: 직접 반복문으로 최댓값 찾기

In [None]:
# %%

 ### 💡 힌트 2

 * 리스트의 첫 번째 요소를 초기 최댓값(`current_max`)으로 설정합니다.

 * `for` 반복문을 사용하여 리스트의 나머지 요소들을 하나씩 순회합니다.

 * 현재 요소가 `current_max`보다 크면, `current_max`를 현재 요소의 값으로 업데이트합니다.

 * 반복문이 끝나면 `current_max`에 최종 최댓값이 저장됩니다.

 ### 🚀 예시 코드

In [None]:
# %%
start_time_loop = time.time()

if not random_numbers: # 리스트가 비어있는 경우 예외 처리
    max_value_loop = None
else:
    max_value_loop = random_numbers[0] # 첫 번째 요소를 초기 최댓값으로 설정
    for number in random_numbers[1:]: # 두 번째 요소부터 순회
        if number > max_value_loop: # 현재 숫자가 기록된 최댓값보다 크면
            max_value_loop = number # 최댓값 업데이트

end_time_loop = time.time()

print(f"\n[방법 2: 직접 반복문]")
print(f"찾은 최댓값: {max_value_loop}")
print(f"소요 시간: {end_time_loop - start_time_loop:.6f} 초 ⏱️")



 ### 🤔 결과 분석 및 토의



 1.  두 방법으로 찾은 최댓값이 동일한가요?

 2.  어떤 방법이 더 빠르게 실행되었나요? 그 이유는 무엇이라고 생각하나요?

 3.  두 방법의 시간 복잡도는 각각 어떻게 될까요? (Big-O 표기법으로)



 ### 예상 답변

 * 두 방법 모두 동일한 최댓값을 찾아야 합니다.

 * 일반적으로 내장 함수 `max()`가 더 빠르게 실행될 가능성이 높습니다. 파이썬 내장 함수는 C언어 등으로 최적화되어 구현된 경우가 많기 때문입니다.

 * 두 방법 모두 리스트의 모든 요소를 한 번씩 확인해야 하므로, 시간 복잡도는 **O(n)** 으로 동일합니다. (실행 시간 차이는 있지만, 증가율 패턴은 같음)

 ---



 ## 💭 1장 마무리



 오늘 1장에는 자료구조의 기본 개념과 필요성, ADT와 구현의 차이, 그리고 알고리즘의 효율성을 분석하는 복잡도(시간, 공간)와 Big-O 표기법에 대해 배웠습니다. 특히 간단한 실습을 통해 동일한 작업을 수행하더라도 어떤 방식(자료구조, 알고리즘)을 사용하느냐에 따라 성능 차이가 크게 발생할 수 있음을 확인했습니다.



 앞으로 배우게 될 다양한 자료구조들이 어떤 특징과 성능(복잡도)을 가지는지 이해하고, 주어진 문제 상황에 가장 적합한 자료구조를 선택하는 능력을 기르는 것이 중요합니다.



 **다음 시간에는 파이썬의 대표적인 선형 자료구조인 리스트, 튜플, 스택, 큐 등에 대해 자세히 알아보겠습니다.**



 ---



 *오타나 개선점에 대한 피드백은 언제나 환영합니다! 😊*

 # 2장: 선형 자료구조 (리스트, 튜플, 스택, 큐, 데크)



 ## 🎯 수업 목표



 * **선형 자료구조(Linear Data Structure)** 의 개념과 특징을 설명할 수 있다. ↔️

 * **시퀀스(Sequence)** 자료구조의 개념을 이해하고, 파이썬의 대표적인 시퀀스 타입인 **리스트(List)** 와 **튜플(Tuple)** 의 차이점과 활용법을 설명할 수 있다. 📜

 * **스택(Stack)** 의 **LIFO(Last-In, First-Out)** 특징과 주요 연산(push, pop)을 이해하고 활용 사례를 설명할 수 있다. 🥞

 * **큐(Queue)** 의 **FIFO(First-In, First-Out)** 특징과 주요 연산(enqueue, dequeue)을 이해하고 활용 사례를 설명할 수 있다. 🚶‍♂️🚶‍♀️🚶

 * **데크(Deque)** 의 개념과 양쪽 끝에서의 효율적인 삽입/삭제 기능을 이해하고, 스택과 큐 구현에 `collections.deque`를 사용하는 이점을 설명할 수 있다. ↔️🐍

 * 각 자료구조를 활용하여 간단한 문제를 **직접 구현하고 해결**할 수 있다. 💪

 * 스택/큐 문제를 통해 **데이터 처리 순서의 중요성**을 이해할 수 있다. ✨



 > ✨ **심화 목표**

 >

 > * 파이썬 리스트의 동적 배열 구현 방식과 각 연산의 시간 복잡도를 이해한다. (e.g., `append` vs `insert`)

 > * `collections.deque`가 양방향 연결 리스트(Doubly Linked List)로 구현되어 양쪽 끝 연산이 O(1)임을 이해한다.

 > * 스택과 큐의 다양한 실제 응용 사례(깊이 우선 탐색(DFS), 너비 우선 탐색(BFS) 등)를 이해한다.

 ---



 ## 📚 개념 설명



 ### 1. 선형 자료구조 (Linear Data Structure) 란? ↔️



 * **정의**: 데이터 요소들을 **순차적인(sequential)** 방식으로 저장하는 자료구조. 마치 데이터를 **한 줄로 늘어놓은** 것과 같은 형태.

 * **특징**:

     * 각 요소는 자신의 **이전(previous)** 요소와 **다음(next)** 요소 (있다면)를 가짐. (첫 요소는 이전 요소 없고, 마지막 요소는 다음 요소 없음)

     * 데이터 간의 관계가 **1:1** 인 구조.

 * **종류**:

     * **정적(Static)** 선형 자료구조: 크기가 고정됨 (예: 배열)

     * **동적(Dynamic)** 선형 자료구조: 크기가 변할 수 있음 (예: 연결 리스트, 파이썬 리스트)

 * **파이썬의 대표적인 선형 자료구조**: 리스트, 튜플, 문자열, 데크 등

 * **비선형 자료구조(Non-linear Data Structure)** 와의 차이점:

     * 비선형 자료구조는 데이터 요소 간의 관계가 1:N 또는 N:M 인 구조 (예: 트리, 그래프). 데이터가 계층적이거나 네트워크 형태를 가짐. (나중에 배움)

 ### 2. 시퀀스 (Sequence) 자료구조 📜



 * **정의**: 데이터 요소들이 **정해진 순서(order)** 를 가지며 나열되어 있는 자료구조.

 * **핵심 특징**:

     * **순서 유지**: 요소들이 저장된 순서가 그대로 유지됨.

     * **인덱싱(Indexing)**: 각 요소는 고유한 **위치 번호(인덱스, index)** 를 가지며, 이를 통해 특정 요소에 직접 접근 가능 (보통 0부터 시작). `my_sequence[i]`

     * **슬라이싱(Slicing)**: 특정 범위의 요소들을 잘라내어 새로운 시퀀스를 만들 수 있음. `my_sequence[start:end:step]`

 * **파이썬의 대표적인 시퀀스 타입**:

     * **리스트 (List)**: 변경 가능 (mutable)

     * **튜플 (Tuple)**: 변경 불가능 (immutable)

     * **문자열 (String)**: 변경 불가능 (immutable)

     * `range()` 객체: 특정 범위의 정수 시퀀스 (변경 불가능)

     * `bytes`, `bytearray` 등



 * **공통 연산**:

     * `len(seq)`: 시퀀스의 길이(요소 개수) 반환

     * `seq[i]`: 인덱스 `i`의 요소 접근

     * `seq[i:j]`: 인덱스 `i`부터 `j-1`까지 슬라이싱

     * `item in seq`: `item`이 시퀀스에 포함되어 있는지 확인 (Boolean)

     * `item not in seq`: `item`이 시퀀스에 포함되어 있지 않은지 확인 (Boolean)

     * `seq1 + seq2`: 두 시퀀스 연결

     * `seq * n`: 시퀀스를 `n`번 반복하여 연결

 #### 시퀀스 타입 예제 및 공통 연산 확인

In [None]:
# %%
# 시퀀스 타입 예제
my_list = [1, 2, 3, 4, 5]  # 리스트
my_tuple = (1, 2, 3, 4, 5)  # 튜플
my_string = "Hello"  # 문자열
my_range = range(1, 6)  # range 객체

# 공통 연산 시연
print("=== 시퀀스 공통 연산 시연 ===")


In [None]:
# %%
# 1. 길이 확인
print(f"리스트 길이: {len(my_list)}")  # 5
print(f"문자열 길이: {len(my_string)}")  # 5


In [None]:
# %%
# 2. 인덱싱
print(f"리스트의 첫 번째 요소: {my_list[0]}")  # 1
print(f"문자열의 첫 번째 문자: {my_string[0]}")  # 'H'


In [None]:
# %%
# 3. 슬라이싱
print(f"리스트의 처음 3개 요소: {my_list[0:3]}")  # [1, 2, 3]
print(f"문자열의 처음 3개 문자: {my_string[0:3]}")  # 'Hel'


In [None]:
# %%
# 4. 포함 여부 확인
print(f"3이 리스트에 있나요? {3 in my_list}")  # True
print(f"'e'가 문자열에 있나요? {'e' in my_string}")  # True


In [None]:
# %%
# 5. 시퀀스 연결
print(f"리스트 + 튜플: {my_list + list(my_tuple)}")  # [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
print(f"문자열 반복: {my_string * 2}")  # 'HelloHello'


In [None]:
# %%
# 6. 시퀀스 비교
print(f"리스트와 튜플이 같은가요? {my_list == list(my_tuple)}")  # True
print(f"문자열과 리스트가 같은가요? {my_string == my_list}")  # False


In [None]:
# %%
# 7. 시퀀스 자료형 변환
print(f"리스트를 튜플로: {tuple(my_list)}")  # (1, 2, 3, 4, 5)
print(f"튜플을 리스트로: {list(my_tuple)}")  # [1, 2, 3, 4, 5]
print(f"문자열을 리스트로: {list(my_string)}")  # ['H', 'e', 'l', 'l', 'o']


In [None]:
# %%
# 8. 가변 시퀀스와 불변 시퀀스 비교
print(f"리스트 변경 가능: {my_list}")  # [1, 2, 3, 4, 5]
print(f"튜플 변경 불가능: {my_tuple}")  # (1, 2, 3, 4, 5)
print(f"문자열 변경 불가능: {my_string}")  # 'Hello'




 ### 3. 리스트 (List) `[]` - 팔방미인 시퀀스 ⚙️



 * **정의**: 순서가 있고, **변경 가능한(mutable)** 데이터 요소들의 묶음입니다. 파이썬에서 가장 기본적이고 널리 사용되는 시퀀스 자료구조입니다.

 * **특징**:

     * `[]` (대괄호)를 사용하여 생성합니다.

     * 다양한 데이터 타입(숫자, 문자열, 다른 리스트 등)의 **객체 참조(메모리 주소)**를 함께 저장할 수 있습니다.

     * 요소의 추가, 삭제, 수정이 자유롭습니다. 🔵

 * **내부 구현 (CPython 기준)**:

     * 파이썬 표준 구현(CPython)에서 리스트는 **동적 배열(dynamic array)** 로 구현되어 있습니다.

     * 내부적으로는 실제 객체들의 **메모리 주소(포인터)를 저장하는 연속된(contiguous) 메모리 공간**(`ob_item` 배열)을 사용합니다.

     * 리스트는 현재 저장된 요소의 개수(`ob_size`)와 실제 할당된 메모리 공간의 크기(`allocated`)를 별도로 관리하여, 필요에 따라 공간을 늘리거나 줄입니다.

 * **생성**:

     ```python

     empty_list = []

     numbers = [1, 2, 3, 4, 5]

     mixed = [1, "hello", 3.14, [10, 20]]

     list_from_str = list("abc") # ['a', 'b', 'c']

     ```

 * **주요 연산 및 시간 복잡도 (동적 배열 구현 기준)**:

     * **인덱싱**: `my_list[i]` → **O(1)** (매우 빠름). 🔵 연속된 메모리 구조 덕분에 특정 위치의 주소를 바로 계산하여 접근할 수 있습니다.

     * **슬라이싱**: `my_list[i:j]` → **O(k)** (k는 슬라이스 길이). 슬라이스 길이만큼의 새로운 리스트를 생성하고 요소를 복사합니다.

     * **길이 확인**: `len(my_list)` → **O(1)**. 🔵 리스트 객체 내부에 저장된 길이 정보(`ob_size`)를 바로 반환합니다.

     * **요소 포함 확인**: `item in my_list` → **O(n)** (선형 탐색). 🔴 처음부터 끝까지 요소를 하나씩 비교하며 찾아야 합니다.

     * **맨 뒤에 추가**: `my_list.append(item)` → **평균 O(1)**, 최악 O(n). 🔵 대부분의 경우, 미리 할당된 메모리 공간(`allocated`)의 끝에 요소를 추가하고 길이(`ob_size`)만 늘리면 되므로 O(1)입니다. 하지만, 공간이 꽉 차면 더 큰 메모리 공간을 새로 할당하고 **기존 요소들을 모두 복사**해야 하므로 드물게 **O(N) (최악)** 시간이 걸립니다. (이러한 메모리 재할당(resize) 전략 덕분에 평균적으로 O(1) 성능을 보입니다.)

     * **특정 위치에 삽입**: `my_list.insert(i, item)` → **O(n)**. 🔴 지정된 위치(`i`) 이후의 모든 요소들을 메모리상에서 **한 칸씩 뒤로 밀어야** 삽입할 공간을 확보할 수 있습니다.

     * **맨 뒤 요소 삭제**: `my_list.pop()` → **O(1)**. 🔵 맨 뒤 요소를 제거하고 길이(`ob_size`)만 줄이면 됩니다. (메모리가 너무 많이 남으면 축소(resize)될 수 있음)

     * **특정 위치 요소 삭제**: `my_list.pop(i)`, `del my_list[i]` → **O(n)**. 🔴 지정된 위치(`i`)의 요소를 삭제하고, 그 뒤의 모든 요소들을 **한 칸씩 앞으로 당겨** 빈 공간을 메워야 합니다.

     * **특정 값 삭제**: `my_list.remove(value)` → **O(n)**. 🔴 값을 찾기 위해 선형 탐색(O(N))을 하고, 찾은 후에는 해당 요소를 삭제하고 뒤 요소들을 이동(O(N))시켜야 합니다.

     * **정렬**: `my_list.sort()` → **O(n log n)**. Timsort라는 효율적인 알고리즘을 사용합니다.

     * **뒤집기**: `my_list.reverse()` → **O(n)**. 리스트의 절반만큼 요소 위치를 맞바꿉니다.

     * **슬라이스 대입/삭제**: `my_list[i:j] = iterable`, `del my_list[i:j]` → **O(N+k)** (N은 리스트 길이, k는 iterable/슬라이스 길이). 관련된 요소들을 이동시키거나 복사해야 할 수 있습니다.



 * **장점**:

     * 인덱스를 이용한 빠른 요소 접근(읽기/쓰기).

     * 맨 뒤 요소 추가/삭제가 평균적으로 매우 빠름.

     * 다양한 타입의 데이터를 유연하게 저장.

 * **단점**:

     * 리스트 앞쪽이나 중간에서의 삽입/삭제가 느림 (요소 이동 비용 발생).

     * 요소 포함 여부 확인(`in`)이 느림.



 * **간단 시연 코드**:

In [None]:
# %%
# 리스트 생성 및 기본 연산
fruits = ["apple", "banana", "cherry"]
print(f"초기 리스트: {fruits}")

# 인덱싱 (O(1))
print(f"첫 번째 과일: {fruits[0]}") # apple

# 슬라이싱 (O(k))
print(f"처음 두 과일: {fruits[0:2]}") # ['apple', 'banana']

# 길이 (O(1))
print(f"과일 개수: {len(fruits)}") # 3

# 포함 확인 (O(n))
print(f"'banana'가 리스트에 있나요? {'banana' in fruits}") # True

# 맨 뒤에 추가 (append - O(1) 평균)
fruits.append("orange")
print(f"append 후: {fruits}") # ['apple', 'banana', 'cherry', 'orange']

# 특정 위치에 삽입 (insert - O(n))
# 'banana' 앞에 'grape' 삽입 (기존 'banana', 'cherry', 'orange'가 뒤로 밀림)
fruits.insert(1, "grape")
print(f"insert(1, 'grape') 후: {fruits}") # ['apple', 'grape', 'banana', 'cherry', 'orange']

# 맨 뒤 요소 삭제 (pop() - O(1))
last_fruit = fruits.pop() # 'orange' 제거
print(f"pop() 후: {fruits}, 제거된 과일: {last_fruit}") # ['apple', 'grape', 'banana', 'cherry']

# 특정 위치 요소 삭제 (pop(i) - O(n))
# 1번 인덱스 'grape' 삭제 (뒤의 'banana', 'cherry'가 앞으로 당겨짐)
second_fruit = fruits.pop(1)
print(f"pop(1) 후: {fruits}, 제거된 과일: {second_fruit}") # ['apple', 'banana', 'cherry']

# 특정 값 삭제 (remove - O(n))
# 'banana'를 찾아 삭제 (뒤의 'cherry'가 앞으로 당겨짐)
fruits.remove("banana")
print(f"remove('banana') 후: {fruits}") # ['apple', 'cherry']


 ### 리스트 컴프리헨션 (List Comprehension) 🎯



 * **정의**: 리스트를 생성하는 간결하고 효율적인 방법.

 * **기본 문법**: `[표현식 for 항목 in 반복가능객체]`

 * **장점**:

     * 코드가 간결하고 가독성이 좋음

     * 일반적인 for 루프보다 성능이 좋음

     * 한 줄로 리스트 생성 가능



 * **간단 시연 코드**:

In [None]:
# %%
# 기본 리스트 컴프리헨션
squares = [x**2 for x in range(1, 6)]
print(f"1부터 5까지의 제곱수: {squares}")  # [1, 4, 9, 16, 25]

# 조건문이 있는 리스트 컴프리헨션
even_squares = [x**2 for x in range(1, 6) if x % 2 == 0]
print(f"짝수의 제곱수: {even_squares}")  # [4, 16]

# 문자열 처리 예제
words = ["hello", "world", "python"]
upper_words = [word.upper() for word in words]
print(f"대문자로 변환: {upper_words}")  # ['HELLO', 'WORLD', 'PYTHON']


 ### 중첩 리스트 컴프리헨션 (Nested List Comprehension) 🔄



 * **정의**: 리스트 컴프리헨션 안에 또 다른 리스트 컴프리헨션이 있는 형태

 * **기본 문법**: `[표현식 for 항목1 in 반복가능객체1 for 항목2 in 반복가능객체2]`

 * **사용 예**:

     * 2차원 리스트 생성

     * 행렬 연산

     * 중첩된 데이터 처리

In [None]:
# %%
# 2차원 리스트 생성
matrix = [[i * j for j in range(1, 4)] for i in range(1, 4)]
print(f"2차원 리스트 (3x3):\n{matrix}")  # [[1, 2, 3], [2, 4, 6], [3, 6, 9]]

# 평탄화(flatten) 예제
nested_list = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
flattened = [num for sublist in nested_list for num in sublist]
print(f"평탄화된 리스트: {flattened}")  # [1, 2, 3, 4, 5, 6, 7, 8, 9]

# 조건문이 있는 중첩 컴프리헨션
filtered_matrix = [[i * j for j in range(1, 4) if i * j % 2 == 0] for i in range(1, 4)]
print(f"짝수만 포함된 2차원 리스트:\n{filtered_matrix}")  # [[2], [2, 4, 6], [6]]


 * **주의사항**:

     * 너무 복잡한 중첩 컴프리헨션은 가독성을 해칠 수 있음

     * 3중 이상의 중첩은 일반적인 for 루프를 사용하는 것이 좋을 수 있음

     * 성능이 중요한 경우에는 컴프리헨션을 사용하는 것이 좋음

 * **주의**: `insert`, `pop(i)`, `remove`는 O(n) 연산이므로, **매우 큰 리스트**에서 **자주 사용**하면 성능 저하의 원인이 될 수 있음. 🐢

 ### 4. 튜플 (Tuple) `()` - 변하지 않는 시퀀스



 * **정의**: 순서가 있고, **변경 불가능한(immutable)** 데이터 요소들의 묶음.

 * **특징**:

     * `()` (소괄호)를 사용하여 생성 (소괄호 생략 가능).

     * 한번 생성되면 요소의 추가, 삭제, 수정이 **불가능**. 🔴 (불변성)

     * 리스트보다 약간 더 **메모리 효율적**이고 **빠름** (고정 크기). 🔵

     * 딕셔너리의 **키(key)** 로 사용될 수 있음 (리스트는 불가). 🔵

     * 함수의 **다중 반환값** 처리 등에 유용.

 * **생성**:

     ```python

     empty_tuple = ()

     point = (10, 20) # x, y 좌표

     colors = "red", "green", "blue" # 소괄호 생략 가능

     single_element_tuple = (5,) # 요소가 하나일 때는 콤마(,) 필수! 그냥 (5)는 정수 5임.

     tuple_from_list = tuple([1, 2, 3]) # (1, 2, 3)

     ```

 * **주요 연산**:

     * 리스트와 유사하게 **인덱싱**, **슬라이싱**, `len()`, `in`, `+`, `*` 연산 가능.

     * **변경 관련 연산 (`append`, `insert`, `pop`, `remove`, `sort` 등)은 사용 불가!** ❌

 * **튜플 패킹과 언패킹**:

     * **튜플 패킹**: 여러 값을 하나의 튜플로 묶는 것

     * **시퀀스 언패킹**: 튜플이나 리스트의 요소를 여러 변수에 나누어 할당하는 것

     * **활용 예시**:

         * 함수의 다중 반환값 처리

         * 변수 스왑 (swap)

         * 여러 변수에 동시 할당

 * **언제 사용할까?**:

     * **변경되면 안 되는** 데이터 묶음을 표현할 때 (예: 좌표, RGB 색상값, 설정값).

     * 딕셔너리의 키로 사용해야 할 때.

     * 함수에서 여러 값을 하나로 묶어 반환할 때.

     * 리스트보다 약간의 성능 향상이 필요할 때 (자주 접근하지만 변경은 없을 때).



 * **간단 시연 코드**:

In [None]:
# %%
# 튜플 생성 및 기본 연산
point = (10, 20, 30) # 3차원 좌표
print(f"튜플: {point}")

# 인덱싱
print(f"x 좌표: {point[0]}") # 10

# 슬라이싱
print(f"y, z 좌표: {point[1:]}") # (20, 30)

# 길이
print(f"차원: {len(point)}") # 3

# 포함 확인
print(f"20이 튜플에 있나요? {20 in point}") # True

# 튜플 연결
point2 = (40, 50)
combined = point + point2
print(f"튜플 연결: {combined}") # (10, 20, 30, 40, 50)

# 튜플 반복
repeated = point * 2
print(f"튜플 반복: {repeated}") # (10, 20, 30, 10, 20, 30)

# 변경 시도 -> 에러 발생!
try:
    point[0] = 15 # TypeError 발생
except TypeError as e:
    print(f"\n튜플 변경 시도 에러: {e}")

# 딕셔너리 키로 사용
coordinates = {(0, 0): "원점", (10, 20): "점 A"}
print(f"딕셔너리 키로 사용: {coordinates[(0, 0)]}")

# 튜플 패킹과 언패킹 예제
# 튜플 패킹
packed = 1, 2, 3  # 소괄호 없이도 튜플 생성
print(f"튜플 패킹: {packed}")  # (1, 2, 3)

# 시퀀스 언패킹
x, y, z = point
print(f"언패킹: x={x}, y={y}, z={z}")  # x=10, y=20, z=30

# 변수 스왑
a, b = 5, 10
a, b = b, a  # 튜플 패킹과 언패킹을 이용한 스왑
print(f"스왑 후: a={a}, b={b}")  # a=10, b=5

# 함수의 다중 반환값 처리
def get_coordinates():
    return 10, 20, 30

x, y, z = get_coordinates()
print(f"함수 반환값 언패킹: x={x}, y={y}, z={z}")  # x=10, y=20, z=30


 ### 참고: 이터러블과 시퀀스 개념 정리 🔄



 * **이터러블(Iterable)**

     * **정의**: 반복 가능한 객체. `for` 루프에 사용할 수 있는 모든 객체.

     * **예시**: `list`, `str`, `set`, `dict`, `range`, 제너레이터 객체 등

     * **특징**: `__iter__()` 메서드를 구현하여 이터레이터를 반환

     * **사용**: `for` 루프, `in` 연산자, `iter()` 함수 등에서 사용



 * **시퀀스(Sequence)**

     * **정의**: 순서가 있는 이터러블. 인덱싱과 슬라이싱이 가능한 객체.

     * **예시**: `list`, `tuple`, `str`, `range`

     * **특징**: `__getitem__()`과 `__len__()` 메서드를 구현

     * **사용**: 인덱싱(`[i]`), 슬라이싱(`[i:j]`), 길이 확인(`len()`) 등



 * **관계**: 모든 시퀀스는 이터러블이지만, 모든 이터러블이 시퀀스는 아님

     * **시퀀스**: 순서 O, 인덱싱 O, 슬라이싱 O (예: `list`, `tuple`)

     * **이터러블(비시퀀스)**: 순서 X, 인덱싱 X, 슬라이싱 X (예: `set`, `dict`)



 * **시퀀스와 이터러블 개념 정리 및 참고**

| 개념 | 정의 | 예시 | 특징/비교 |
| --- | --- | --- | --- |
| **이터러블**(Iterable) | 반복 가능한 객체. `for` 루프에 쓸 수 있음. | `list`, `str`, `set`, `dict`, `range`, 제너레이터 객체 등 | `__iter__()` 메서드를 구현→ 이터레이터를 반환 |
| **시퀀스**(Sequence) | 순서가 있는 이터러블(인덱싱 가능) | `list`, `tuple`, `str`, `range` | `__getitem__()` + `__len__()` 구현→ 슬라이싱 가능 |
| **이터레이터**(Iterator) | 값을 하나씩 꺼낼 수 있는 객체 | `iter([1, 2, 3])` | `__next__()`와 `__iter__()` 구현→ 직접 `next()` 호출 가능 |
| **제너레이터**(Generator) | lazy한 방식으로 하나씩 값을 생성하는 함수나 표현식 | `(x for x in range(3))`, `yield` 함수 | 이터레이터의 일종→ 메모리 효율적 |
| **컨테이너**(Container) | 다른 객체를 담을 수 있는 객체 | `list`, `tuple`, `dict`, `set` | `__contains__()` 구현→ `in` 연산자 사용 가능 |
| **컬렉션**(Collection) | 여러 개의 값을 담는 자료형 | `list`, `tuple`, `set`, `dict` | 추상 자료형 관점: `collections.abc.Collection` 상속 |


In [None]:
# %%
# 간단한 예시 코드
# 이터러블 예시
iterable_list = [1, 2, 3]
iterable_set = {1, 2, 3}

# 시퀀스 예시
sequence_tuple = (1, 2, 3)
sequence_str = "123"

# 이터러블 확인
print("이터러블 확인:")
for item in iterable_list:
    print(f"리스트: {item}")
for item in iterable_set:
    print(f"집합: {item}")

# 시퀀스 특성 확인
print("\n시퀀스 특성 확인:")
print(f"튜플 인덱싱: {sequence_tuple[0]}")  # 1
print(f"문자열 슬라이싱: {sequence_str[1:3]}")  # "23"
print(f"튜플 길이: {len(sequence_tuple)}")  # 3

# 비시퀀스 이터러블의 제한
try:
    print(iterable_set[0])  # TypeError 발생
except TypeError as e:
    print(f"\n집합 인덱싱 시도: {e}")



 ### 5. 스택 (Stack) 🥞 - LIFO (Last-In, First-Out)



 * **정의**: 데이터가 **한쪽 끝**(top)에서만 **삽입(push)** 되고 **삭제(pop)** 되는 자료구조. 가장 **마지막에 들어온 데이터**가 **가장 먼저 나가는** 후입선출(LIFO) 방식.

 * **비유**:

     * 쌓여있는 접시 🥞: 맨 위에 놓은 접시를 가장 먼저 꺼냄.

     * 웹 브라우저 뒤로가기 버튼 ⏪: 가장 최근에 방문한 페이지부터 순서대로 돌아감.

     * 함수 호출 스택: 함수가 호출될 때마다 스택에 쌓이고, return되면 스택에서 제거됨.

 * **주요 연산**:

     * **Push**: 스택의 top에 데이터를 **추가**.

     * **Pop**: 스택의 top에서 데이터를 **제거**하고 반환. 스택이 비어있으면 에러 발생.

     * **Peek (또는 Top)**: 스택의 top에 있는 데이터를 **확인**만 하고 제거하지는 않음. 스택이 비어있으면 에러 발생.

     * **isEmpty**: 스택이 비어있는지 확인 (Boolean).

     * **Size**: 스택에 저장된 데이터 개수 반환.

 * **시간 복잡도**: 일반적으로 모든 주요 연산(Push, Pop, Peek)이 **O(1)**. 🔵

 * **파이썬 구현**:

     * **방법 1: `list` 사용**:

         * `append()` 를 Push 연산으로 사용.

         * `pop()` (인자 없는) 를 Pop 연산으로 사용.

         * 마지막 요소 인덱싱 (`my_list[-1]`) 을 Peek 연산으로 사용.

         * **장점**: 간단하고 직관적.

         * **단점**: 리스트는 스택 외 다른 연산도 가능하여 스택의 본질을 흐릴 수 있음. 동적 배열 특성상 가끔 O(n) 소요 가능성(이론적).

     * **방법 2: `collections.deque` 사용**:

         * `append()` 를 Push 연산으로 사용.

         * `pop()` 를 Pop 연산으로 사용.

         * 마지막 요소 인덱싱 (`my_deque[-1]`) 을 Peek 연산으로 사용.

         * **장점**: 양방향 연결 리스트 기반으로 양쪽 끝 연산이 항상 O(1) 보장. 스레드 안전(thread-safe) 기능 제공. 스택/큐 구현에 더 권장됨. 🔵

 * **활용 사례**:

     * 함수 호출 관리 (콜 스택)

     * 웹 브라우저 방문 기록 (뒤로 가기)

     * 실행 취소 (Undo) 기능

     * 괄호 검사 (Parenthesis Matching)

     * 후위 표기법 계산

     * 깊이 우선 탐색 (DFS, Depth-First Search)



 * **간단 시연 코드 (list 사용)**:

In [None]:
# %%
# 스택 구현 (list 사용)
stack_list = []

# Push
stack_list.append(1)
stack_list.append(2)
stack_list.append(3)
print(f"스택 (list): {stack_list}") # [1, 2, 3]

# Peek
if stack_list: # 비어있지 않은지 확인
    print(f"Top 요소 (Peek): {stack_list[-1]}") # 3
else:
    print("스택이 비어있습니다.")

# Pop
if stack_list:
    popped_item = stack_list.pop()
    print(f"Pop된 요소: {popped_item}") # 3
    print(f"Pop 후 스택: {stack_list}") # [1, 2]
else:
    print("스택이 비어있어 Pop 불가.")

# isEmpty
print(f"스택이 비어있나요? {not bool(stack_list)}") # False

# Size
print(f"스택 크기: {len(stack_list)}") # 2


 * **간단 시연 코드 (`collections.deque` 사용)**:

In [None]:
# %%
from collections import deque

# 스택 구현 (deque 사용)
stack_deque = deque()

# Push
stack_deque.append(10)
stack_deque.append(20)
stack_deque.append(30)
print(f"스택 (deque): {stack_deque}") # deque([10, 20, 30])

# Peek
if stack_deque:
    print(f"Top 요소 (Peek): {stack_deque[-1]}") # 30
else:
    print("스택이 비어있습니다.")

# Pop
if stack_deque:
    popped_item_deque = stack_deque.pop()
    print(f"Pop된 요소: {popped_item_deque}") # 30
    print(f"Pop 후 스택: {stack_deque}") # deque([10, 20])
else:
    print("스택이 비어있어 Pop 불가.")

# isEmpty
print(f"스택이 비어있나요? {not bool(stack_deque)}") # False

# Size
print(f"스택 크기: {len(stack_deque)}") # 2


 ### 6. 큐 (Queue) 🚶‍♂️🚶‍♀️🚶 - FIFO (First-In, First-Out)



 * **정의**: 데이터가 **한쪽 끝(rear)** 에서 **삽입(enqueue)** 되고, **다른 쪽 끝(front)** 에서 **삭제(dequeue)** 되는 자료구조. **가장 먼저 들어온 데이터**가 **가장 먼저 나가는** 선입선출(FIFO) 방식.

 * **비유**:

     * 은행 창구 대기 줄 🚶‍♂️🚶‍♀️🚶: 먼저 온 사람이 먼저 서비스를 받음.

     * 프린터 출력 대기열 📄: 먼저 요청된 문서가 먼저 인쇄됨.

     * 놀이공원 줄 서기: 먼저 줄 선 사람이 먼저 놀이기구를 탐.

 * **주요 연산**:

     * **Enqueue (인큐)**: 큐의 rear(뒤)에 데이터를 **추가**.

     * **Dequeue (데큐)**: 큐의 front(앞)에서 데이터를 **제거**하고 반환. 큐가 비어있으면 에러 발생.

     * **Peek (또는 Front)**: 큐의 front에 있는 데이터를 **확인**만 하고 제거하지는 않음. 큐가 비어있으면 에러 발생.

     * **isEmpty**: 큐가 비어있는지 확인 (Boolean).

     * **Size**: 큐에 저장된 데이터 개수 반환.

 * **시간 복잡도**: 일반적으로 모든 주요 연산(Enqueue, Dequeue, Peek)이 **O(1)** 이어야 효율적. 🔵

 * **파이썬 구현**:

     * **방법 1: `list` 사용 (비효율적!)**:

         * `append()` 를 Enqueue 연산으로 사용 (O(1) 평균).

         * `pop(0)` 를 Dequeue 연산으로 사용 → **O(n)** 🔴🔴🔴 (첫 요소 제거 후 모든 요소 한 칸씩 이동 필요!)

         * 첫 요소 인덱싱 (`my_list[0]`) 을 Peek 연산으로 사용 (O(1)).

         * **결론**: 리스트로 큐를 구현하면 Dequeue 성능이 매우 나쁘므로 **절대 권장하지 않음!** ❌

     * **방법 2: `collections.deque` 사용 (권장!)**:

         * `append()` 를 Enqueue 연산으로 사용 (O(1)).

         * `popleft()` 를 Dequeue 연산으로 사용 → **O(1)** 🔵🔵🔵 (양방향 연결 리스트 기반)

         * 첫 요소 인덱싱 (`my_deque[0]`) 을 Peek 연산으로 사용 (O(1)).

         * **결론**: `deque`는 양쪽 끝에서의 삽입/삭제가 모두 O(1)이므로 큐 구현에 **매우 효율적**. 👍

 * **활용 사례**:

     * 작업 대기열 (프린터, 메시지 큐, 웹 서버 요청 처리)

     * 너비 우선 탐색 (BFS, Breadth-First Search)

     * 캐시(Cache) 구현 (LRU 캐시 등 변형)

     * 시뮬레이션 (대기 행렬 시뮬레이션)



 * **간단 시연 코드 (`collections.deque` 사용)**:

In [None]:
# %%
from collections import deque

# 큐 구현 (deque 사용)
queue_deque = deque()

# Enqueue (append)
queue_deque.append("Task 1")
queue_deque.append("Task 2")
queue_deque.append("Task 3")
print(f"큐 (deque): {queue_deque}") # deque(['Task 1', 'Task 2', 'Task 3'])

# Peek (front)
if queue_deque:
    print(f"Front 요소 (Peek): {queue_deque[0]}") # Task 1
else:
    print("큐가 비어있습니다.")

# Dequeue (popleft)
if queue_deque:
    dequeued_item = queue_deque.popleft() # 왼쪽(front)에서 제거
    print(f"Dequeue된 요소: {dequeued_item}") # Task 1
    print(f"Dequeue 후 큐: {queue_deque}") # deque(['Task 2', 'Task 3'])
else:
    print("큐가 비어있어 Dequeue 불가.")

# isEmpty
print(f"큐가 비어있나요? {not bool(queue_deque)}") # False

# Size
print(f"큐 크기: {len(queue_deque)}") # 2


 ### 7. 데크 (Deque, Double-Ended Queue) ↔️🐍



 * **정의**: 데이터의 **양쪽 끝(front 와 rear)** 모두에서 **삽입(insertion)과 삭제(deletion)**가 효율적으로 가능한 자료구조입니다. 스택과 큐의 기능을 합친 형태로, '덱'이라고 읽습니다.

 * **핵심 특징**: 양쪽 끝에서의 연산 속도가 매우 빠릅니다. ⚡️



 * **주요 연산 및 시간 복잡도**:

     * `append(item)`: 오른쪽(rear) 끝에 데이터 추가. **O(1)**

     * `appendleft(item)`: 왼쪽(front) 끝에 데이터 추가. **O(1)**

     * `pop()`: 오른쪽(rear) 끝에서 데이터 제거 및 반환. **O(1)**

     * `popleft()`: 왼쪽(front) 끝에서 데이터 제거 및 반환. **O(1)**

     * `extend(iterable)`: iterable의 모든 요소를 데크의 오른쪽에 추가. (iterable 길이에 비례)

     * `extendleft(iterable)`: iterable의 모든 요소를 데크의 왼쪽에 추가 (주의: iterable 요소들이 역순으로 추가됨). (iterable 길이에 비례)

     * `rotate(n)`: 데크의 요소를 n만큼 회전 (n > 0 이면 오른쪽, n < 0 이면 왼쪽). 내부적으로 효율화되어 있지만, 최악의 경우 **O(N)** (N은 데크 길이).

     * `maxlen`: 데크 생성 시 최대 길이를 지정할 수 있는 옵션. 지정된 길이를 초과하면 반대쪽 끝 요소가 자동으로 제거됨.

     * **인덱싱/슬라이싱**: `my_deque[i]`, `my_deque[i:j]` 등 시퀀스 연산 지원. 하지만 리스트와 달리 **O(1)이 아님!** 중간 요소 접근은 **최악 O(N)** 시간이 소요될 수 있음. `len()`, `in` 연산자도 지원.



 * **파이썬 구현**: `collections.deque`

     * 내부적으로 **고정 크기 블록(block)들의 양방향 연결 리스트(Doubly Linked List of Blocks)** 로 구현되어 있습니다. (C 구현 참조)

     * 이 특별한 구조 덕분에, 양쪽 끝에서의 삽입/삭제 (`append`, `appendleft`, `pop`, `popleft`)는 **O(1)** 시간 복잡도로 매우 빠릅니다. 단순히 해당 블록 내의 포인터를 조정하거나 블록 자체를 연결/해제하면 되기 때문입니다 (파이썬 리스트처럼 모든 요소를 밀거나 당길 필요가 없습니다).

     * 반면, 특정 인덱스(`my_deque[i]`)로 요소에 접근하려면, 원하는 위치까지 블록들을 순차적으로 따라가야 할 수 있으므로 **최악 O(N)** 시간이 걸릴 수 있습니다. 이는 인덱스로 바로 접근 가능한 리스트(O(1))와의 주요 차이점입니다.



 * **장점**:

     * 스택과 큐의 연산을 모두 **O(1)** 로 효율적으로 구현 가능.

     * 데이터 스트림의 양쪽 끝에서 데이터를 추가하거나 제거하는 작업이 빈번할 때 매우 유용.



 * **List vs. Deque 선택 가이드**:

     * **List**: 중간 요소에 대한 **인덱스 기반 접근(읽기/쓰기)이 빈번**하고 빠름(O(1))이 중요할 때. 맨 앞 요소의 삽입/삭제(O(N))는 느려도 괜찮을 때.

     * **Deque**: **양쪽 끝에서의 데이터 삽입/삭제가 빈번**하고 빠름(O(1))이 중요할 때. 중간 요소 접근은 자주 사용하지 않거나 O(N) 성능이 허용될 때.



 * **활용**:

     * 스택(Stack) 구현: `append`, `pop` 사용

     * 큐(Queue) 구현: `append`, `popleft` 사용

     * 최근 N개 항목 목록 유지: `maxlen` 옵션 활용 (로그 기록, 작업 기록 등)

     * 슬라이딩 윈도우 (Sliding Window) 알고리즘: 창의 양쪽 끝에서 요소를 효율적으로 추가/제거해야 할 때.

     * 너비 우선 탐색 (BFS) 알고리즘: 큐 구현에 사용.



 * **간단 시연 코드**:

In [None]:
# %%
from collections import deque

# 데크 생성
d = deque("ghi") # 문자열의 각 문자가 요소로 들어감: deque(['g', 'h', 'i'])
print(f"초기 데크: {d}")

# --- 양쪽 끝 추가/제거 (O(1)) ---
# append (오른쪽 추가)
d.append("j")
print(f"append('j'): {d}") # deque(['g', 'h', 'i', 'j'])

# appendleft (왼쪽 추가)
d.appendleft("f")
print(f"appendleft('f'): {d}") # deque(['f', 'g', 'h', 'i', 'j'])

# pop (오른쪽 제거)
popped_right = d.pop()
print(f"pop(): {d}, 제거된 요소: {popped_right}") # deque(['f', 'g', 'h', 'i']), 제거된 요소: j

# popleft (왼쪽 제거)
popped_left = d.popleft()
print(f"popleft(): {d}, 제거된 요소: {popped_left}") # deque(['g', 'h', 'i']), 제거된 요소: f

# --- 확장 ---
# extend (오른쪽 확장)
d.extend("jkl")
print(f"extend('jkl'): {d}") # deque(['g', 'h', 'i', 'j', 'k', 'l'])

# extendleft (왼쪽 확장 - iterable 순서 반대로 들어감 주의!)
d.extendleft("fed") # 'f', 'e', 'd' 순서로 왼쪽에 추가됨
print(f"extendleft('fed'): {d}") # deque(['d', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l'])

# --- 회전 ---
# rotate (회전)
print(f"\n회전 전: {d}")
d.rotate(2) # 오른쪽으로 2칸 회전 (k, l 이 앞으로 옴)
print(f"rotate(2): {d}") # deque(['k', 'l', 'd', 'e', 'f', 'g', 'h', 'i', 'j'])
d.rotate(-1) # 왼쪽으로 1칸 회전 (l 이 뒤로 감)
print(f"rotate(-1): {d}") # deque(['d', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l']) # 원상 복귀 시도

# --- 인덱싱 (O(N) 가능성!) ---
print(f"\n인덱싱 d[0]: {d[0]}") # 'd'
print(f"인덱싱 d[-1]: {d[-1]}") # 'l'
# print(f"인덱싱 d[5]: {d[5]}") # 'i' - 중간 요소 접근

# --- maxlen 옵션 (최대 길이 제한) ---
d_maxlen = deque(maxlen=3) # 최대 3개 요소만 저장하는 데크 생성
print(f"\nmaxlen 데크 생성 (maxlen=3): {d_maxlen}")
d_maxlen.append(1)
d_maxlen.append(2)
d_maxlen.append(3)
print(f"maxlen 데크 (1, 2, 3 추가): {d_maxlen}") # deque([1, 2, 3], maxlen=3)
d_maxlen.append(4) # 4를 오른쪽에 추가 -> 가장 오래된 왼쪽 요소 '1'이 자동으로 제거됨
print(f"maxlen 데크 (4 추가 후): {d_maxlen}") # deque([2, 3, 4], maxlen=3)
d_maxlen.appendleft(0) # 0을 왼쪽에 추가 -> 가장 오래된 오른쪽 요소 '4'가 자동으로 제거됨
print(f"maxlen 데크 (0 왼쪽 추가 후): {d_maxlen}") # deque([0, 2, 3], maxlen=3)


In [None]:
# %%


 ### 8. F.A.Q (자주 묻는 질문) ❓



 * **Q1: 리스트와 튜플 중 언제 무엇을 써야 할까요?**

     * **A1**: 데이터 묶음의 내용이 **변경될 가능성이 있다면 리스트**를 사용하세요. 만약 데이터가 **고정되어 변경될 필요가 없거나, 변경되어서는 안 된다면 튜플**을 사용하는 것이 좋습니다. 튜플은 불변성을 보장하고 약간 더 효율적이며 딕셔너리 키로 사용할 수 있다는 장점이 있습니다. 함수에서 여러 값을 반환할 때도 튜플이 자연스럽게 사용됩니다.



 * **Q2: 스택과 큐를 구현할 때 왜 `list`보다 `collections.deque`가 권장되나요?**

     * **A2**: **성능** 때문입니다. 특히 **큐**의 경우, `list`를 사용하면 `pop(0)` (Dequeue 연산)이 O(n)의 시간 복잡도를 가져 매우 비효율적입니다. `collections.deque`는 양방향 연결 리스트로 구현되어 양쪽 끝에서의 삽입/삭제(`append`, `pop`, `appendleft`, `popleft`)가 모두 O(1)로 매우 빠릅니다. 따라서 스택과 큐 모두 `deque`로 구현하는 것이 성능상 유리하며, 파이썬 공식 문서에서도 권장하는 방식입니다.



 * **Q3: `deque`는 인덱싱이 가능한데 왜 O(n)일 수 있나요?**

     * **A3**: `deque`는 연결 리스트 기반입니다. 특정 인덱스 `i`에 접근하려면 처음 또는 끝에서부터 `i`번 또는 `n-i`번 링크를 따라 이동해야 할 수 있습니다. 따라서 최악의 경우 O(n) 시간이 걸릴 수 있습니다. 반면 리스트(동적 배열)는 메모리가 연속적으로 할당되어 있어 특정 인덱스 주소를 바로 계산할 수 있으므로 인덱싱이 O(1)입니다. `deque`는 양쪽 끝 연산에 특화된 자료구조입니다.



 * **Q4: 문자열(String)도 시퀀스인데 리스트/튜플과 다른 점은 무엇인가요?**

     * **A4**: 문자열은 **문자(character)** 들로만 구성된 시퀀스이며, 튜플처럼 **변경 불가능(immutable)** 합니다. 즉, `my_string[0] = 'a'` 와 같이 특정 문자를 직접 수정할 수 없습니다. 문자열을 수정하려면 새로운 문자열을 만들어야 합니다. 또한 문자열은 문자열 관련 메서드(`upper()`, `lower()`, `split()`, `join()` 등)를 풍부하게 제공합니다.

 ### 9. 핵심 요약 📝



 * **선형 자료구조**: 데이터를 **순차적**으로 저장 (리스트, 튜플, 스택, 큐, 데크 등).

 * **시퀀스**: **순서**가 있고 **인덱싱/슬라이싱**이 가능한 자료구조 (리스트, 튜플, 문자열).

 * **리스트 `[]`**: 변경 가능(mutable)한 시퀀스. 가장 범용적. `append`(평균 O(1)), `insert`/`pop(i)`/`remove`(O(n)).

 * **튜플 `()`**: 변경 불가능(immutable)한 시퀀스. 고정된 데이터, 딕셔너리 키 등에 사용. 리스트보다 약간 빠름.

 * **스택 🥞**: **LIFO**. `push`(`append`), `pop`. `list` 또는 `deque`로 구현 (deque 권장). 함수 호출, 뒤로 가기 등에 사용.

 * **큐 🚶‍♂️🚶‍♀️🚶**: **FIFO**. `enqueue`(`append`), `dequeue`(`popleft`). **`deque`로 구현 필수!** (list `pop(0)`은 O(n)). 대기열, BFS 등에 사용.

 * **데크 `deque`**: **양쪽 끝** 삽입/삭제 O(1). 스택과 큐 모두 효율적 구현 가능. `collections.deque` 사용.

 ---



 ## ❓ 객관식, 단답형 및 서술형 문제



 * 각 문제의 난이도를 ⭐️ ~ ⭐️⭐️⭐️⭐️⭐️ 로 표시했습니다.

 * 정답 및 해설은 아래 `### 정답 및 해설` 부분을 펼쳐서 확인하세요.

 ### 🧐 객관식 문제 1 (난이도: ⭐️⭐️)



 다음 중 파이썬의 리스트(List) 자료형에 대한 설명으로 **틀린** 것은 무엇인가요?



 1.  `[]`를 사용하여 생성하며, 요소들은 순서를 가진다.

 2.  정수, 실수, 문자열, 다른 리스트 등 다양한 타입의 요소를 저장할 수 있다.

 3.  `append()` 메서드는 리스트의 맨 앞에 요소를 추가하며 시간 복잡도는 항상 O(1)이다.

 4.  인덱싱(`list[i]`)을 통해 특정 위치의 요소에 O(1) 시간으로 접근할 수 있다.

 5.  `insert()` 메서드를 사용하여 특정 위치에 요소를 삽입할 수 있으며, 시간 복잡도는 O(n)이다.

 ### 정답 및 해설



 **정답: 3번**



 **해설:**

 `append()` 메서드는 리스트의 **맨 뒤**에 요소를 추가합니다. 시간 복잡도는 평균적으로 O(1)이지만, 메모리 재할당이 필요한 최악의 경우 O(n)이 될 수 있습니다. 맨 앞에 요소를 추가하는 메서드는 `insert(0, item)` 또는 `deque`의 `appendleft()`이며, 리스트의 `insert(0, item)`은 O(n)입니다. 나머지 선택지들은 리스트의 특징을 올바르게 설명하고 있습니다.

 ### 🧐 객관식 문제 2 (난이도: ⭐️⭐️⭐️)



 스택(Stack)과 큐(Queue)에 대한 설명으로 **옳은** 것을 모두 고르세요.



 가. 스택은 LIFO(후입선출), 큐는 FIFO(선입선출) 원칙을 따른다.

 나. 스택은 마지막에 들어간 데이터가 먼저 나오고, 큐는 처음에 들어간 데이터가 먼저 나온다.

 다. 파이썬에서 스택과 큐 모두 `list`를 사용하여 구현하는 것이 가장 효율적이다.

 라. 스택은 함수 호출 관리, 큐는 작업 대기열 처리에 활용될 수 있다.

 마. `collections.deque`는 스택과 큐 구현 모두에 효율적인 O(1) 삽입/삭제 연산을 제공한다.



 1.  가, 나, 라

 2.  가, 나, 라, 마

 3.  가, 다, 라

 4.  나, 다, 마

 5.  가, 나, 다, 라, 마

 ### 정답 및 해설



 **정답: 2번 (가, 나, 라, 마)**



 **해설:**

 * (가) 스택은 마지막에 들어간 것이 먼저 나오고(LIFO), 큐는 처음에 들어간 것이 먼저 나옵니다(FIFO). (옳음)

 * (나) 스택은 마지막에 들어간 것이 먼저 나오고(LIFO), 큐는 처음에 들어간 것이 먼저 나옵니다(FIFO). (옳음)

 * (다) 파이썬에서 **큐**를 `list`로 구현하면 `pop(0)` 연산이 O(n)으로 비효율적입니다. `collections.deque`를 사용하는 것이 스택과 큐 모두에게 효율적입니다. (틀림)

 * (라) 스택은 재귀적인 함수 호출이나 뒤로 가기 기능 등에, 큐는 순서대로 처리해야 하는 작업(프린터 등)에 사용됩니다. (옳음)

 * (마) `collections.deque`는 양쪽 끝에서의 삽입/삭제가 모두 O(1)이므로 스택(append, pop)과 큐(append, popleft) 구현에 매우 효율적입니다. (옳음)

 ### 🧐 객관식 문제 3 (난이도: ⭐️⭐️⭐️⭐️)



 다음 파이썬 코드의 실행 결과를 예측해 보세요.



 ```python

 from collections import deque



 data = deque([1, 2, 3, 4, 5])

 data.appendleft(0)

 data.append(6)

 item1 = data.pop()

 item2 = data.popleft()

 data.rotate(1)



 print(list(data))

 print(item1 + item2)

 ```



 1.  `[5, 1, 2, 3, 4]` 와 `6`

 2.  `[5, 1, 2, 3, 4]` 와 `5`

 3.  `[4, 5, 1, 2, 3]` 와 `6`

 4.  `[4, 5, 1, 2, 3]` 와 `5`

 5.  `[1, 2, 3, 4, 5]` 와 `6`

 ### 정답 및 해설



 **정답: 3번**



 **해설:**

 코드를 단계별로 실행해 봅시다.

 1. `data = deque([1, 2, 3, 4, 5])` → `deque([1, 2, 3, 4, 5])`

 2. `data.appendleft(0)` → `deque([0, 1, 2, 3, 4, 5])` (왼쪽에 0 추가)

 3. `data.append(6)` → `deque([0, 1, 2, 3, 4, 5, 6])` (오른쪽에 6 추가)

 4. `item1 = data.pop()` → `item1`은 6, `data`는 `deque([0, 1, 2, 3, 4, 5])` (오른쪽에서 6 제거)

 5. `item2 = data.popleft()` → `item2`는 0, `data`는 `deque([1, 2, 3, 4, 5])` (왼쪽에서 0 제거)

 6. `data.rotate(1)` → `deque([5, 1, 2, 3, 4])` (오른쪽으로 1칸 회전)



 따라서 최종 `data`를 리스트로 변환하면 `[5, 1, 2, 3, 4]` 이고, `item1 + item2`는 `6 + 0 = 6` 입니다.



 *수정*: rotate(1) 후의 결과가 `[5, 1, 2, 3, 4]` 이므로, 3번 선택지의 리스트 부분 `[4, 5, 1, 2, 3]`은 오타입니다. 하지만 합계 `6`이 맞는 선택지는 3번 뿐입니다. 실제 코드 실행 결과는 `[5, 1, 2, 3, 4]`와 `6`이 됩니다. 문제 선택지에 오류가 있음을 감안해야 합니다. (가장 근접한 답은 3번)

 ### ✍️ 단답형 / 서술형 문제 1 (난이도: ⭐️⭐️)



 파이썬의 리스트(`list`)와 튜플(`tuple`)의 가장 큰 **차이점** 두 가지를 설명하고, 어떤 경우에 튜플을 사용하는 것이 더 적합한지 예시를 들어 설명하세요.

 ### 정답 및 해설



 **정답:**



 **차이점:**

 1.  **변경 가능성 (Mutability)**: 리스트는 생성 후 요소를 변경(추가, 삭제, 수정)할 수 있는 **변경 가능한(mutable)** 자료형이지만, 튜플은 한번 생성되면 요소를 변경할 수 없는 **변경 불가능한(immutable)** 자료형입니다.

 2.  **용도 및 성능**: 리스트는 일반적으로 요소가 변경될 수 있는 데이터의 묶음에 사용되며, 튜플은 내용이 고정된 데이터(예: 좌표)나 딕셔너리 키 등으로 사용됩니다. 일반적으로 튜플이 리스트보다 약간 더 빠르고 메모리를 적게 사용합니다.



 **튜플 사용이 적합한 경우 예시:**

 * **함수의 반환 값**: 함수가 여러 값을 반환해야 할 때, 이 값들을 튜플로 묶어 반환하면 편리합니다. 예: `return x, y` 는 내부적으로 `(x, y)` 튜플을 반환합니다.

 * **딕셔너리 키**: 딕셔너리의 키는 변경 불가능한 객체여야 하므로, 여러 값을 조합하여 키로 사용하고 싶을 때 튜플을 사용할 수 있습니다. 예: `{(x, y): "좌표값"}`

 * **데이터 무결성 보장**: 프로그램 실행 중 변경되어서는 안 되는 상수 값들의 묶음(예: 설정값, RGB 색상 코드)을 저장할 때 튜플을 사용하면 실수로 값이 변경되는 것을 방지할 수 있습니다. 예: `RED = (255, 0, 0)`

 * **포맷 문자열**: 문자열 포매팅(`%` 연산자) 시 여러 값을 전달할 때 튜플이 사용됩니다. 예: `"이름: %s, 나이: %d" % ("홍길동", 30)`

 ### ✍️ 단답형 / 서술형 문제 2 (난이도: ⭐️⭐️⭐️)



 큐(Queue)를 파이썬 리스트(`list`)를 사용하여 구현할 때 발생할 수 있는 **성능 문제점**은 무엇이며, 그 이유는 무엇인가요? 이 문제를 해결하기 위해 어떤 파이썬 모듈과 클래스를 사용하는 것이 좋은지 설명하세요.

 ### 정답 및 해설



 **정답:**



 **성능 문제점:**

 큐의 주요 연산 중 하나인 **Dequeue (맨 앞 요소 제거)** 를 파이썬 리스트의 `pop(0)` 메서드로 구현할 경우 심각한 성능 문제가 발생합니다.



 **이유:**

 파이썬 리스트는 내부적으로 동적 배열로 구현되어 있습니다. `pop(0)`을 호출하면 리스트의 첫 번째 요소가 제거된 후, 그 뒤에 있던 **모든 요소들을 한 칸씩 앞으로 이동시켜 빈 공간을 메워야 합니다.** 리스트의 크기가 `n`일 때, 이 이동 작업은 평균적으로 `n-1`번 발생하므로 `pop(0)` 연산의 시간 복잡도는 **O(n)** 이 됩니다. 큐의 크기가 커질수록 Dequeue 연산 속도가 매우 느려집니다.



 **해결 방법:**

 이 문제를 해결하기 위해 파이썬의 **`collections` 모듈**에 있는 **`deque` 클래스**를 사용하는 것이 좋습니다. `deque`는 양방향 연결 리스트로 구현되어 있어, 양쪽 끝에서의 데이터 삽입과 삭제가 모두 **O(1)** 의 시간 복잡도로 매우 효율적입니다. 따라서 큐의 Enqueue는 `deque`의 `append()` (O(1)) 메서드로, Dequeue는 `deque`의 `popleft()` (O(1)) 메서드로 구현하면 성능 저하 없이 효율적인 큐를 만들 수 있습니다.

 ---



 ## 💻 코드 실습



 * 스택과 큐의 개념을 활용하여 간단한 문제를 풀어봅시다.

 ### 실습 1: 스택을 이용한 문자열 뒤집기 (난이도: ⭐️⭐️)



 스택(Stack) 자료구조를 활용하여 사용자로부터 입력받은 문자열을 거꾸로 뒤집어 출력하는 파이썬 코드를 작성하세요. (`collections.deque`를 사용해 보세요.)



 **요구사항:**

 1.  문자열을 입력받습니다.

 2.  문자열의 각 문자를 순서대로 스택에 `push` 합니다.

 3.  스택이 빌 때까지 문자를 `pop` 하여 새로운 문자열을 만듭니다.

 4.  뒤집힌 문자열을 출력합니다.



 **예시 입력:** `hello`

 **예시 출력:** `olleh`

 ### 💡 힌트 1

 * `collections.deque`를 import 하세요.

 * 빈 `deque` 객체를 생성하여 스택으로 사용합니다.

 * `input()` 함수로 사용자 입력을 받습니다.

 * `for` 반복문을 사용하여 입력 문자열의 각 문자를 스택에 `append()` (push) 합니다.

In [None]:
# %%

 ### 💡 힌트 2

 * 뒤집힌 문자열을 저장할 빈 문자열 변수(`reversed_string`)를 만듭니다.

 * `while` 반복문과 스택이 비어있지 않은 조건(`while stack:`)을 사용하여 스택이 빌 때까지 반복합니다.

 * 반복문 안에서 스택의 `pop()` 메서드를 호출하여 문자를 하나씩 꺼냅니다.

 * 꺼낸 문자를 `reversed_string` 변수 뒤에 이어 붙입니다 (`+=` 연산자 사용).

 * 반복문이 끝나면 `reversed_string`을 출력합니다.

 ### 🚀 예시 코드

In [None]:
# %%
from collections import deque

def reverse_string_with_stack(input_str):
    """스택을 이용하여 문자열을 뒤집는 함수"""
    stack = deque() # 스택으로 사용할 deque 생성

    # 1. 문자열의 각 문자를 스택에 push
    for char in input_str:
        stack.append(char)
    print(f"스택에 push 완료: {stack}")

    reversed_str = "" # 뒤집힌 문자열을 저장할 변수
    # 2. 스택이 빌 때까지 pop 하여 문자열 만들기
    while stack: # 스택이 비어있지 않은 동안 반복
        popped_char = stack.pop()
        reversed_str += popped_char # pop된 문자를 뒤에 추가

    return reversed_str

# 사용자 입력 받기
user_input = input("뒤집을 문자열을 입력하세요: ")

# 함수 호출 및 결과 출력
reversed_result = reverse_string_with_stack(user_input)
print(f"뒤집힌 문자열: {reversed_result}")


 ### 실습 2: 큐를 이용한 간단한 작업 대기열 시뮬레이션 (난이도: ⭐️⭐️⭐️)



 큐(Queue) 자료구조를 사용하여 간단한 작업 대기열을 시뮬레이션하는 파이썬 코드를 작성하세요. (`collections.deque`를 사용해 보세요.)



 **시나리오:**

 1.  몇 개의 작업을 큐에 순서대로 추가(enqueue)합니다. (예: "작업1", "작업2", "작업3")

 2.  큐가 빌 때까지 작업을 하나씩 꺼내서(dequeue) "처리"하는 것을 시뮬레이션합니다.

 3.  각 작업이 처리될 때마다 어떤 작업이 처리되었는지 출력합니다.

 4.  모든 작업이 완료되면 "모든 작업 완료!" 메시지를 출력합니다.



 **예시 출력:**

 ```

 작업1 처리 중...

 작업2 처리 중...

 작업3 처리 중...

 모든 작업 완료!

 ```

 ### 💡 힌트 1

 * `collections.deque`를 import 하세요.

 * 빈 `deque` 객체를 생성하여 큐로 사용합니다.

 * 처리할 작업들을 문자열 리스트로 정의합니다. (예: `tasks = ["작업1", "작업2", "작업3"]`)

 * `for` 반복문을 사용하여 작업 리스트의 각 작업을 큐에 `append()` (enqueue) 합니다.

 * 큐의 현재 상태를 출력하여 확인해 보세요.

In [None]:
# %%

 ### 💡 힌트 2

 * `while` 반복문과 큐가 비어있지 않은 조건(`while queue:`)을 사용하여 큐가 빌 때까지 반복합니다.

 * 반복문 안에서 큐의 `popleft()` 메서드를 호출하여 처리할 작업을 하나씩 꺼냅니다 (dequeue).

 * 꺼낸 작업 이름을 사용하여 "작업X 처리 중..." 형식으로 메시지를 출력합니다. (`f-string` 사용)

 * (선택 사항) `time.sleep(1)` 등을 사용하여 실제 처리 시간을 시뮬레이션할 수 있습니다 (`import time` 필요).

 * 반복문이 모두 끝나면 "모든 작업 완료!" 메시지를 출력합니다.

 ### 🚀 예시 코드

In [None]:
# %%
from collections import deque
import time # 시간 지연 효과를 위해 import

def simulate_task_queue(tasks):
    """큐를 이용하여 작업 대기열을 시뮬레이션하는 함수"""
    queue = deque() # 큐로 사용할 deque 생성

    # 1. 작업들을 큐에 enqueue
    print("작업을 큐에 추가합니다...")
    for task in tasks:
        queue.append(task)
        print(f"'{task}' 추가됨. 현재 큐: {list(queue)}")
        time.sleep(0.5) # 시각적 효과

    print("\n큐에 모든 작업 추가 완료. 처리 시작...")
    time.sleep(1)

    # 2. 큐가 빌 때까지 dequeue 하여 작업 처리 시뮬레이션
    while queue: # 큐가 비어있지 않은 동안 반복
        current_task = queue.popleft() # 맨 앞의 작업 dequeue
        print(f"'{current_task}' 처리 중...")
        # 실제 작업 처리 로직이 들어갈 부분 (여기서는 시간 지연으로 대체)
        time.sleep(1) # 1초 동안 처리하는 척

    # 3. 모든 작업 완료 메시지 출력
    print("\n모든 작업 완료!")

# 처리할 작업 목록 정의
task_list = ["문서 인쇄", "이메일 발송", "데이터 백업", "보고서 작성"]

# 함수 호출
simulate_task_queue(task_list)



 ### 실습 3: 스택을 이용한 괄호 검사 (난이도: ⭐️⭐️⭐️⭐️)



 스택을 사용하여 주어진 문자열의 괄호( `()`, `{}`, `[]` )가 올바르게 짝지어졌는지 검사하는 함수를 작성하세요.



 **올바른 괄호 조건:**

 1.  열린 괄호는 반드시 같은 종류의 닫힌 괄호로 닫혀야 한다. `( )`, `{ }`, `[ ]` 는 올바름. `(]` 나 `{)` 등은 틀림.

 2.  열린 괄호는 올바른 순서로 닫혀야 한다. `({[]})` 는 올바름. `[(])` 나 `{{)` 등은 틀림.

 3.  모든 닫힌 괄호는 해당하는 열린 괄호가 있어야 한다. `())` 나 `{{}` 등은 틀림.



 **함수 요구사항:**

 * 문자열 `s`를 입력받습니다.

 * 괄호가 올바르게 짝지어졌으면 `True`를, 아니면 `False`를 반환합니다.

 * `collections.deque`를 스택으로 사용하세요.



 **예시:**

 * `isValid("()")` → `True`

 * `isValid("()[]{}")` → `True`

 * `isValid("(]")` → `False`

 * `isValid("([)]")` → `False`

 * `isValid("{[]}")` → `True`

 * `isValid("]")` → `False`

 * `isValid("")` → `True` (괄호가 없어도 올바른 것으로 간주)

In [None]:
# %%

 ### 💡 힌트 1

 * `collections.deque`를 import 하고, 빈 `deque`를 스택으로 만듭니다.

 * 짝이 맞는 괄호를 쉽게 찾기 위해 딕셔너리를 사용하면 편리합니다. 예를 들어, 닫는 괄호를 key로, 여는 괄호를 value로 저장합니다. `mapping = {")": "(", "}": "{", "]": "["}`

 * 입력 문자열 `s`를 `for` 반복문으로 순회합니다.

In [None]:
# %%

 ### 💡 힌트 2

 * **현재 문자가 열린 괄호 (`(`, `{`, `[`) 인 경우:** 스택에 `push` (append) 합니다.

 * **현재 문자가 닫힌 괄호 (`)`, `}`, `]`) 인 경우:**

     * **스택이 비어있는지 확인**합니다. 비어있다면 짝이 맞는 열린 괄호가 없다는 뜻이므로 `False`를 반환합니다.

     * 스택이 비어있지 않다면, 스택에서 `pop` 하여 가장 최근에 들어온 열린 괄호를 꺼냅니다.

     * 꺼낸 열린 괄호가 현재 닫힌 괄호와 **짝이 맞는지 확인**합니다 (힌트 1의 딕셔너리 사용). 짝이 맞지 않으면 `False`를 반환합니다.

 * **반복문이 모두 끝난 후:**

     * **스택이 비어있는지 확인**합니다. 스택이 비어있어야 모든 괄호의 짝이 맞은 것입니다. 비어있으면 `True`를 반환합니다.

     * 스택에 무언가 남아있다면, 짝이 맞지 않는 열린 괄호가 있다는 뜻이므로 `False`를 반환합니다.

 ### 🚀 예시 코드

In [None]:
# %%
from collections import deque

def isValid(s: str) -> bool:
    """스택을 이용하여 괄호의 유효성을 검사하는 함수"""
    stack = deque() # 스택 생성
    mapping = {")": "(", "}": "{", "]": "["} # 닫는 괄호: 여는 괄호 매핑

    # 문자열의 각 문자를 순회
    for char in s:
        # 1. 열린 괄호인 경우: 스택에 push
        if char in mapping.values(): # mapping의 value들 ('(', '{', '[') 중에 있는지 확인
            stack.append(char)
        # 2. 닫힌 괄호인 경우
        elif char in mapping.keys(): # mapping의 key들 (')', '}', ']') 중에 있는지 확인
            # 스택이 비어있거나, pop한 결과가 짝이 맞지 않으면 False
            # 스택이 비어있으면 pop() 전에 이미 False (or 사용)
            # pop() 결과가 현재 닫힌 괄호(char)의 짝(mapping[char])과 다르면 False
            if not stack or mapping[char] != stack.pop():
                return False
        # 3. 괄호가 아닌 다른 문자는 무시 (필요하다면 추가 처리)
        else:
            continue # 괄호 외 문자는 건너뜀

    # 반복문 종료 후 스택이 비어있어야 유효함
    return not stack # 스택이 비어있으면 True, 아니면 False 반환

# 테스트 케이스
test_cases = ["()", "()[]{}", "(]", "([)]", "{[]}", "]", "", "((", "{{}}", "[{()}]"]
for case in test_cases:
    print(f"isValid('{case}') -> {isValid(case)}")



 ---



 ## 💭 2장 마무리



 오늘 2장에는 파이썬의 기본적인 선형 자료구조들에 대해 배웠습니다. 특히 시퀀스 타입인 **리스트**와 **튜플**의 차이점과 각각의 사용 사례를 알아보았고, **스택(LIFO)** 과 **큐(FIFO)** 의 개념과 동작 방식, 그리고 이들을 효율적으로 구현하기 위한 **`collections.deque`** 의 중요성을 확인했습니다.



 간단한 실습을 통해 스택과 큐가 문자열 뒤집기, 작업 대기열, 괄호 검사 등 실제 문제 해결에 어떻게 활용될 수 있는지 경험했습니다. 데이터의 처리 순서가 중요한 문제에서는 스택과 큐가 매우 유용하게 사용됩니다.



 **다음 시간에는 해시 테이블(Hash Table)의 원리를 이해하고, 이를 기반으로 구현된 파이썬의 집합(Set)과 딕셔너리(Dictionary)에 대해 자세히 알아보겠습니다.** 이들은 특정 데이터를 빠르게 찾거나 중복 없이 관리하는 데 매우 중요한 자료구조입니다.



 ---



 *오타나 개선점에 대한 피드백은 언제나 환영합니다! 😊*

 # 3장: 해시 테이블 (집합, 딕셔너리)



 ## 🎯 수업 목표



 * **해시 테이블(Hash Table)** 의 기본 원리(해시 함수, 충돌)를 이해하고 설명할 수 있다. 🔑➡️🔢💥

 * 해시 테이블이 **평균적으로 O(1)** 의 빠른 검색, 삽입, 삭제 속도를 제공하는 이유를 설명할 수 있다. ⚡️

 * 파이썬의 **집합(Set)** 자료구조의 특징(순서 없음, 중복 불가)과 기본 연산(추가, 삭제, 확인, 집합 연산)을 이해하고 활용할 수 있다. 🗃️🚫🔄

 * 파이썬의 **딕셔너리(Dictionary)** 자료구조의 특징(키-값 쌍, 키 중복 불가)과 기본 연산(추가, 삭제, 확인, 수정)을 이해하고 활용할 수 있다. 📚🔑🏷️

 * 집합과 딕셔너리가 **내부적으로 해시 테이블을 사용**하여 구현되었음을 이해한다. ⚙️

 * 간단한 문제 해결에 집합과 딕셔너리를 **적절하게 활용**할 수 있다. 💪



 > ✨ **심화 목표**

 >

 > * 해시 충돌(Collision) 발생 시 해결 방법(예: Chaining, Open Addressing)의 기본 개념을 이해한다.

 > * 파이썬 딕셔너리의 키(Key)가 **해시 가능(hashable)** 하고 **불변(immutable)** 해야 하는 이유를 설명할 수 있다.

 > * 파이썬 3.7+ 버전부터 딕셔너리가 **입력 순서를 유지**하는 방식으로 개선되었음을 이해한다.

 ---



 ## 📚 개념 설명



 ### 1. 해시 테이블 (Hash Table) 이란? 🔑➡️🔢



 * **정의**: **키(Key)** 를 **값(Value)** 에 매핑(mapping)하여, 키를 통해 값을 **매우 빠르게** 찾거나 저장할 수 있는 자료구조.

 * **핵심 아이디어**:

     1.  **해시 함수 (Hash Function)**: 임의의 길이의 키(Key)를 입력받아, **고정된 길이의 숫자(해시 값 또는 해시 코드)** 로 변환하는 함수. `hash(key) -> hash_value`

     2.  **버킷 배열 (Bucket Array)**: 해시 값을 **인덱스(index)** 로 사용하여 값을 저장하는 배열(또는 리스트). `bucket_array[hash_value]`

     3.  **매핑**: 키 → 해시 함수 → 해시 값(인덱스) → 버킷 배열 → 값 저장/접근



 * **비유**:

     * **도서관 사서 🧑‍🏫**: 책 제목(Key)을 알려주면, 분류 번호(해시 값)를 계산해서 해당 서가(버킷 배열 인덱스)로 바로 안내하여 책(Value)을 찾아줌.

     * **우편번호 시스템 📮**: 주소(Key)의 우편번호(해시 값)를 보고 해당 지역(버킷 배열 인덱스)으로 우편물(Value)을 빠르게 분류/배송.



 * **왜 사용할까? (장점)**:

     * **매우 빠른 속도 (평균 O(1))**: 해시 함수 계산과 배열 인덱스 접근은 입력 데이터 크기와 상관없이 거의 일정한 시간이 걸림. ⚡️🔵

         * 데이터 **검색(Search)**: 키의 해시 값으로 바로 위치를 찾아감.

         * 데이터 **삽입(Insert)**: 키의 해시 값 위치에 값을 저장.

         * 데이터 **삭제(Delete)**: 키의 해시 값 위치의 값을 삭제.

     * **키 기반 접근**: 숫자 인덱스가 아닌, 의미 있는 키(문자열 등)를 사용하여 데이터에 접근 가능.



 * **해시 함수 (Hash Function)의 조건**:

     * **결정론적(Deterministic)**: 동일한 키에 대해서는 항상 동일한 해시 값을 반환해야 함. `hash("apple")`은 언제나 같은 값.

     * **빠른 계산**: 해시 값 계산 자체가 오래 걸리면 안 됨.

     * **고른 분포(Uniform Distribution)**: 해시 값이 버킷 배열 전체에 최대한 **균등하게 분포**되어야 함 (충돌 최소화). 흩어져라! ✨



 * **파이썬의 `hash()` 함수**:

     * 파이썬 객체를 정수 해시 값으로 변환해주는 내장 함수.

     * 숫자, 문자열, 튜플 등 **불변(immutable)** 객체만 해시 가능. (`list`, `dict`, `set` 등 변경 가능한 객체는 `hash()` 불가 ❌ - TypeError 발생)

     * 왜 불변 객체만? → 객체가 변경되면 해시 값도 달라질 수 있어, 해시 테이블에서 위치를 찾을 수 없게 됨!

In [None]:
# %%
# 파이썬 hash() 함수 예시
print(f"'apple'의 해시 값: {hash('apple')}")
print(f"123의 해시 값: {hash(123)}")
print(f"3.14의 해시 값: {hash(3.14)}")
print(f"(1, 2) 튜플의 해시 값: {hash((1, 2))}")

# 변경 가능한 객체는 해시 불가
try:
    print(hash([1, 2])) # 리스트는 변경 가능하므로 TypeError
except TypeError as e:
    print(f"\n리스트 해시 시도 에러: {e}")

try:
    print(hash({'a': 1})) # 딕셔너리도 변경 가능하므로 TypeError
except TypeError as e:
    print(f"딕셔너리 해시 시도 에러: {e}")


 ### 2. 해시 충돌 (Hash Collision) 💥 그리고 해결 방법



 * **해시 충돌이란?**: **서로 다른 키(Key)** 를 해시 함수에 넣었더니 **동일한 해시 값(인덱스)** 이 나오는 경우. 😭🔴

     * `hash(key1) == hash(key2)` (단, `key1 != key2`)

     * 비유: 도서관 사서가 다른 책 두 권에 같은 분류 번호를 부여한 상황.

 * **왜 발생할까?**:

     * 키의 종류는 거의 무한하지만, 해시 값(배열 인덱스)의 개수는 **유한**하기 때문 (비둘기집 원리).

     * 아무리 좋은 해시 함수라도 충돌을 **완벽하게 피할 수는 없음**.

 * **충돌의 문제점**: 하나의 버킷(배열 칸)에 여러 개의 값을 저장해야 함. 어떻게? 🤔



 * **충돌 해결 전략 (Collision Resolution Strategies)** - 개념만 소개:



     1.  **분리 연결법 (Separate Chaining)** - 가장 일반적!

         * **아이디어**: 각 버킷(배열의 칸)에 **연결 리스트(Linked List)** (또는 다른 자료구조)를 할당.

         * **동작**: 충돌이 발생하면, 해당 버킷의 연결 리스트에 새로운 키-값 쌍을 **추가**.

         * **탐색**: 해당 버킷의 연결 리스트를 **순차적으로 탐색**하여 원하는 키를 찾음.

         * **장점**: 구현 비교적 간단. 데이터 증가 시 유연하게 확장 가능.

         * **단점**: 최악의 경우(모든 키가 같은 버킷에 충돌) 탐색 시간이 **O(n)** 이 될 수 있음. 🔴 연결 리스트 자체의 오버헤드 발생.

         * *[시각 자료 삽입: Chaining 방식 해시 테이블 그림]*



     2.  **개방 주소법 (Open Addressing)**

         * **아이디어**: 충돌 발생 시, 해당 버킷 대신 **다른 비어있는 버킷**을 찾아 데이터를 저장.

         * **탐사(Probing)**: 비어있는 버킷을 찾는 규칙 (예: 바로 다음 칸 확인 - 선형 탐사, 제곱수만큼 떨어진 칸 확인 - 제곱 탐사, 다른 해시 함수 한번 더 사용 - 이중 해싱).

         * **장점**: 추가적인 자료구조(연결 리스트)가 필요 없어 메모리 효율적일 수 있음. 캐시 성능에 유리할 수 있음.

         * **단점**: 데이터 삭제가 까다로움. 특정 영역에 데이터가 몰리는 **클러스터링(Clustering)** 현상 발생 가능 (탐색 성능 저하). 테이블이 꽉 찰수록 성능 급격히 저하.

         * *[시각 자료 삽입: Open Addressing 방식 해시 테이블 그림 (선형 탐사 예시)]*



 * **파이썬의 구현**: 파이썬의 `dict`와 `set`은 **개방 주소법(Open Addressing)** 을 기반으로 구현되어 있으며, 효율적인 탐사 방법과 테이블 크기 조절(resizing) 전략을 사용함. (내부 구현은 복잡!)

 ### 3. 집합 (Set) `set()` 또는 `{}` - 순서 없고 중복 없는 보관함 🗃️🚫🔄



 * **정의**: **순서가 없고(unordered)**, **중복된 요소를 허용하지 않는(unique)** 변경 가능한(mutable) 데이터 요소들의 묶음.

 * **핵심 특징**:

     * 수학의 집합 개념과 유사 (합집합, 교집합, 차집합 등 연산 가능).

     * 요소의 **존재 여부**를 매우 빠르게 확인 가능 (해시 테이블 기반). 🔵

     * 요소들이 **정렬되어 있지 않음**. (입력 순서 유지 안됨 - 단, 내부적으로는 해시값 순서 등으로 관리될 수 있음)

     * 요소는 반드시 **해시 가능(hashable)** 해야 함 (숫자, 문자열, 튜플 등. 리스트, 딕셔너리, 다른 집합은 요소로 가질 수 없음 ❌).

 * **구현**: 내부적으로 **해시 테이블**을 사용하여 구현됨. 값(Value) 없이 키(Key)만 저장하는 해시 테이블과 유사.

 * **생성**:

In [None]:
# %%
empty_set = set() # 빈 집합 생성 시 주의! {}는 빈 딕셔너리임!
numbers = {1, 2, 3, 4, 5}
unique_chars = set("hello") # {'h', 'e', 'l', 'o'} - 중복 'l' 제거됨
mixed_set = {1, "apple", (1, 2)} # 해시 가능한 요소들

# 불변 집합 (frozenset) 생성
frozen = frozenset([1, 2, 3]) # 변경 불가능한 집합

 * **list와 tuple, set과 frozenset의 관계**:

     * `list`와 `tuple`의 관계처럼, `set`과 `frozenset`도 변경 가능/불가능의 관계

     * `list`는 변경 가능, `tuple`은 변경 불가능

     * `set`은 변경 가능, `frozenset`은 변경 불가능

     * `frozenset`은 딕셔너리의 키나 다른 집합의 요소로 사용 가능 (해시 가능)

 * **주요 연산 및 시간 복잡도**:

     * **요소 추가**: `my_set.add(item)` → **평균 O(1)**, 최악 O(n) 🔵

     * **요소 제거**:

         * `my_set.remove(item)`: 요소가 없으면 **KeyError** 발생. → **평균 O(1)**, 최악 O(n) 🔵

         * `my_set.discard(item)`: 요소가 없어도 **에러 발생 안 함**. → **평균 O(1)**, 최악 O(n) 🔵

     * **임의 요소 제거**: `my_set.pop()`: 임의의 요소를 제거하고 반환 (순서 없으므로 어떤게 나올지 모름). 집합이 비면 KeyError. → **평균 O(1)**, 최악 O(n)

     * **모든 요소 제거**: `my_set.clear()` → **O(1)**

     * **요소 포함 확인**: `item in my_set` → **평균 O(1)**, 최악 O(n) ⚡️🔵 (리스트의 O(n)보다 훨씬 빠름!)

     * **길이 확인**: `len(my_set)` → **O(1)**

     * **집합 연산**:

         * **합집합**: `set1 | set2` 또는 `set1.union(set2)` → **O(len(set1) + len(set2))**

         * **교집합**: `set1 & set2` 또는 `set1.intersection(set2)` → **O(min(len(set1), len(set2)))**

         * **차집합**: `set1 - set2` 또는 `set1.difference(set2)` → **O(len(set1))**

         * **대칭 차집합**: `set1 ^ set2` 또는 `set1.symmetric_difference(set2)` → **O(len(set1) + len(set2))**

 * **언제 사용할까?**:

     * 리스트 등에서 **중복된 요소 제거**할 때. `list(set(my_list))`

     * 특정 요소가 **존재하는지 빠르게 확인**해야 할 때 (멤버십 테스트).

     * 두 데이터 그룹 간의 **관계(공통점, 차이점 등)** 를 파악할 때 (집합 연산).



 * **간단 시연 코드**:

In [None]:
# %%
# 집합 생성 및 기본 연산
s1 = {1, 2, 3, 3, 4} # 중복 3은 하나만 저장됨
print(f"초기 집합 s1: {s1}") # {1, 2, 3, 4} (순서는 보장되지 않음)

# 요소 추가 (add - O(1) 평균)
s1.add(5)
print(f"add(5) 후: {s1}")
s1.add(3) # 이미 있는 요소 추가 -> 변화 없음
print(f"add(3) 후: {s1}")

# 요소 제거 (remove - O(1) 평균, 없으면 에러)
s1.remove(4)
print(f"remove(4) 후: {s1}")
try:
    s1.remove(10) # 없는 요소 제거 시도
except KeyError as e:
    print(f"remove(10) 에러: {e}")

# 요소 제거 (discard - O(1) 평균, 없어도 에러 없음)
s1.discard(3)
print(f"discard(3) 후: {s1}")
s1.discard(10) # 없는 요소 제거 시도 -> 에러 없음
print(f"discard(10) 후: {s1}")

# 요소 포함 확인 (in - O(1) 평균)
print(f"1이 s1에 있나요? {1 in s1}") # True
print(f"10이 s1에 있나요? {10 in s1}") # False

# 집합 연산
s2 = {3, 5, 6, 7}
print(f"\n집합 s2: {s2}")

# 합집합
print(f"s1 | s2 (합집합): {s1 | s2}") # {1, 2, 3, 5, 6, 7}
print(f"s1.union(s2): {s1.union(s2)}")

# 교집합
print(f"s1 & s2 (교집합): {s1 & s2}") # {5} (s1에 3은 discard됨) -> 아 s1은 {1, 2, 5} 상태. 교집합은 {5}
print(f"s1.intersection(s2): {s1.intersection(s2)}")

# 차집합
print(f"s1 - s2 (차집합): {s1 - s2}") # {1, 2}
print(f"s2 - s1 (차집합): {s2 - s1}") # {3, 6, 7}

# 대칭 차집합 (합집합 - 교집합)
print(f"s1 ^ s2 (대칭 차집합): {s1 ^ s2}") # {1, 2, 3, 6, 7}
print(f"s1.symmetric_difference(s2): {s1.symmetric_difference(s2)}")

# 중복 제거 활용
my_list = [1, 2, 2, 3, 4, 4, 4, 5]
unique_list = list(set(my_list))
print(f"\n리스트 중복 제거: {unique_list}") # [1, 2, 3, 4, 5] (순서는 바뀔 수 있음)

# frozenset 예시
frozen = frozenset([1, 2, 3])
print(f"\nfrozenset: {frozen}")
try:
    frozen.add(4) # 변경 불가능하므로 에러 발생
except AttributeError as e:
    print(f"frozenset 수정 시도 에러: {e}")


 ### 4. 딕셔너리 (Dictionary) `dict()` 또는 `{}` - 키-값 사전 📚🔑🏷️



 * **정의**: **키(Key)** 와 **값(Value)** 을 **쌍(pair)** 으로 묶어 저장하는 자료구조. 각 키는 고유해야 하며, 키를 통해 해당 값을 빠르게 찾을 수 있음.

 * **핵심 특징**:

     * `{}` (중괄호) 안에 `key: value` 형태로 작성하여 생성.

     * **키(Key)**:

         * **고유(Unique)** 해야 함. 중복된 키 사용 시 마지막 값으로 덮어써짐.

         * **변경 불가능(Immutable)** 하고 **해시 가능(Hashable)** 해야 함. (숫자, 문자열, 튜플 등 사용 가능. 리스트, 딕셔너리, 집합은 키로 사용 불가 ❌)

     * **값(Value)**:

         * 어떤 데이터 타입이든 가능 (숫자, 문자열, 리스트, 다른 딕셔너리 등).

         * 중복 가능.

     * **순서**:

         * **Python 3.6 이하**: 순서 없음 (unordered). 출력 시 순서 보장 안 됨.

         * **Python 3.7 이상**: **입력된 순서**가 유지됨 (ordered). 🔵 (CPython 구현 기준)

 * **구현**: 내부적으로 **해시 테이블**을 사용하여 구현됨. 키를 해싱하여 값의 위치를 결정.

 * **생성**:

In [None]:
# %%
empty_dict = {} # 빈 딕셔너리
person = {"name": "Alice", "age": 30, "city": "New York"}
scores = dict(math=90, english=85, science=92) # dict() 생성자 사용
mixed_keys = {1: "one", "two": 2, (1, 2): "tuple_key"} # 다양한 해시 가능 타입 키


 * **주요 연산 및 시간 복잡도**:

     * **값 접근/검색**: `my_dict[key]` → **평균 O(1)**, 최악 O(n) ⚡️🔵 (키가 없으면 **KeyError** 발생)

     * **값 접근 (get)**: `my_dict.get(key, default=None)` → **평균 O(1)**, 최악 O(n) 🔵 (키가 없어도 에러 대신 `default` 값 반환)

     * **값 추가/수정**: `my_dict[key] = value` → **평균 O(1)**, 최악 O(n) 🔵 (키가 이미 있으면 수정, 없으면 추가)

     * **값 삭제**:

         * `del my_dict[key]`: 키가 없으면 **KeyError**. → **평균 O(1)**, 최악 O(n) 🔵

         * `my_dict.pop(key, default=None)`: 키가 없으면 `default` 반환 (없으면 KeyError). → **평균 O(1)**, 최악 O(n) 🔵

     * **키 존재 확인**: `key in my_dict` → **평균 O(1)**, 최악 O(n) ⚡️🔵

     * **길이 확인**: `len(my_dict)` → **O(1)**

     * **모든 키 보기**: `my_dict.keys()` → 뷰(view) 객체 반환. O(1)

     * **모든 값 보기**: `my_dict.values()` → 뷰 객체 반환. O(1)

     * **모든 키-값 쌍 보기**: `my_dict.items()` → 뷰 객체 반환. O(1)

     * **모든 요소 제거**: `my_dict.clear()` → **O(1)**

 * **언제 사용할까?**:

     * **이름표가 붙은 데이터**를 관리할 때 (예: 사람 정보, 설정 값).

     * **키를 통해 값을 빠르게 찾아야** 할 때 (데이터베이스 인덱스와 유사).

     * 데이터의 **빈도수(frequency)** 를 셀 때.

     * JSON 등 **구조화된 데이터**를 표현하거나 파싱할 때.



 * **간단 시연 코드**:

In [None]:
# %%
# 딕셔너리 생성 및 기본 연산
student = {"id": 2023001, "name": "Bob", "major": "Computer Science"}
print(f"초기 딕셔너리: {student}")

# 값 접근 (KeyError 주의)
print(f"학생 이름: {student['name']}") # Bob
# print(student['grade']) # 없는 키 접근 시 KeyError 발생

# 값 접근 (get 사용 - 안전함)
print(f"학생 학년 (get): {student.get('grade')}") # None (기본값)
print(f"학생 학년 (get, 기본값 지정): {student.get('grade', 'N/A')}") # N/A

# 값 추가/수정 (O(1) 평균)
student['grade'] = 3 # 새로운 키-값 추가
print(f"학년 추가 후: {student}")
student['major'] = "Data Science" # 기존 키 값 수정
print(f"전공 수정 후: {student}")

# 값 삭제 (del - 없으면 에러)
del student['grade']
print(f"학년 삭제 후: {student}")
# del student['grade'] # 이미 삭제된 키 -> KeyError 발생

# 값 삭제 (pop - 없으면 기본값 또는 에러)
major = student.pop('major') # major 키 삭제 및 값 반환
print(f"전공 삭제 후: {student}, 삭제된 전공: {major}")
contact = student.pop('contact', '없음') # 없는 키 삭제 시도 (기본값 사용)
print(f"연락처 삭제 시도 후: {student}, 반환값: {contact}")

# 키 존재 확인 (in - O(1) 평균)
print(f"'id' 키가 있나요? {'id' in student}") # True
print(f"'major' 키가 있나요? {'major' in student}") # False

# 키, 값, 아이템 뷰 보기
print(f"\n키 목록: {student.keys()}") # dict_keys(['id', 'name'])
print(f"값 목록: {student.values()}") # dict_values([2023001, 'Bob'])
print(f"아이템 목록: {student.items()}") # dict_items([('id', 2023001), ('name', 'Bob')])

# 뷰 객체를 이용한 반복문
print("\n딕셔너리 순회:")
for key, value in student.items():
    print(f"  {key}: {value}")


 ### 5. 파이썬 딕셔너리 내부 동작 (간략) ⚙️



 * **해시 테이블 기반**: 위에서 설명한 해시 테이블 원리를 기반으로 동작.

 * **충돌 해결**: **개방 주소법(Open Addressing)** 을 사용. 충돌 시 다른 빈 슬롯을 찾아 저장. 탐사 시에는 pseudo-random probing 방식을 사용하여 클러스터링 문제 완화.

 * **크기 조절 (Resizing)**: 딕셔너리가 일정 수준 이상 채워지면(보통 2/3 정도), 더 큰 크기의 새로운 해시 테이블을 만들고 기존 요소들을 **재해싱(rehashing)** 하여 옮김. 이는 평균 O(1) 성능을 유지하기 위함 (분할 상환 분석). 이 과정에서 일시적으로 O(n) 소요될 수 있음.

 * **순서 유지 (Python 3.7+)**: 이전 버전에서는 해시값 순서 등에 따라 순서가 뒤죽박죽이었으나, 3.7 버전부터는 **삽입 순서를 기억**하는 별도의 메커니즘이 추가되어 입력 순서대로 순회 가능하게 됨. (내부적으로는 여전히 해시 테이블 사용)

 * **메모리 사용**: 개방 주소법과 크기 조절 때문에, 실제 저장된 데이터보다 더 많은 메모리를 미리 할당하여 사용하는 경향이 있음.

 ### 6. F.A.Q (자주 묻는 질문) ❓



 * **Q1: 집합 `{}` 과 딕셔너리 `{}` 생성 시 차이점은 무엇인가요?**

     * **A1**: 빈 중괄호 `{}` 는 **빈 딕셔너리**를 생성합니다. 빈 집합을 만들려면 반드시 `set()` 생성자를 사용해야 합니다. 요소가 하나라도 있다면, 콜론(`:`) 유무로 구분됩니다. `{1, 2, 3}` 은 집합, `{"a": 1}` 은 딕셔너리입니다.



 * **Q2: 딕셔너리 키는 왜 해시 가능(hashable)하고 불변(immutable)해야 하나요?**

     * **A2**: 딕셔너리는 키를 **해시**하여 값의 위치를 찾습니다. 만약 키가 변경될 수 있다면(mutable), 객체의 내용이 바뀜에 따라 해시 값도 달라질 수 있습니다. 그러면 처음에 저장했던 위치를 다시 찾아갈 수 없게 되어 딕셔너리가 제대로 동작하지 않습니다. 따라서 키는 내용이 변하지 않아 해시 값이 일정하게 유지되는 **불변(immutable)** 객체여야 하며, `hash()` 함수를 적용할 수 있는 **해시 가능(hashable)** 객체여야 합니다. (예: 숫자, 문자열, 튜플 O / 리스트, 딕셔너리, 집합 X)



 * **Q3: 집합(Set)과 리스트(List)의 검색 시간 복잡도가 다른 이유는 무엇인가요?**

     * **A3**: 집합은 요소를 저장할 때 해당 요소의 **해시 값**을 계산하여 해시 테이블의 특정 위치(버킷)에 저장합니다. 어떤 요소가 집합에 있는지 확인(`in` 연산)할 때도, 찾으려는 요소의 해시 값을 계산하여 해당 위치만 확인하면 됩니다 (충돌 시 해당 버킷의 연결 리스트나 탐사 경로만 확인). 평균적으로 이 과정은 요소 개수 `n`과 상관없이 **상수 시간 O(1)** 에 가깝습니다. 반면 리스트에서 요소 확인(`in` 연산)은 처음부터 끝까지 하나씩 비교(선형 탐색)해야 하므로 최악의 경우 **O(n)** 시간이 걸립니다.



 * **Q4: 파이썬 3.7부터 딕셔너리 순서가 유지된다는데, 그럼 리스트처럼 동작하나요?**

     * **A4**: 순서가 유지된다는 점은 리스트와 유사하지만, 근본적인 동작 방식과 성능 특성은 다릅니다. 딕셔너리는 여전히 **해시 테이블** 기반이므로 **키를 통한 접근(O(1) 평균)** 이 매우 빠릅니다. 리스트는 **인덱스를 통한 접근(O(1))** 이 빠르지만, **값을 통한 검색(O(n))** 은 느립니다. 또한 딕셔너리는 키가 중복될 수 없고, 리스트는 중복된 값을 가질 수 있습니다. 순서 유지는 딕셔너리의 부가적인 편의 기능으로 추가된 것이며, 핵심은 여전히 빠른 키-값 매핑입니다.

 ### 7. 핵심 요약 📝



 * **해시 테이블**: **키(Key)** 를 **해시 함수**를 통해 **해시 값(인덱스)** 으로 변환하여 **값(Value)** 을 저장/검색하는 자료구조. **평균 O(1)** 성능.

 * **해시 충돌**: 서로 다른 키가 같은 해시 값을 갖는 경우. **Chaining**이나 **Open Addressing**으로 해결.

 * **집합 (Set)** `set()`: **순서 없고 중복 없는** 요소들의 묶음. **해시 가능** 요소만 저장. **멤버십 테스트(in)** 와 **중복 제거**에 매우 빠름 (평균 O(1)). 집합 연산 지원.

 * **딕셔너리 (Dict)** `{}`: **키-값 쌍**으로 데이터를 저장. **키는 고유하고 해시 가능한 불변 객체**. **키를 통한 값 검색/추가/삭제**가 매우 빠름 (평균 O(1)). (Python 3.7+ 부터 **입력 순서 유지**)

 * **구현**: 파이썬의 `set`과 `dict`는 내부적으로 **해시 테이블**을 사용하여 효율적인 성능을 제공.

 ---



 ## ❓ 객관식, 단답형 및 서술형 문제



 * 각 문제의 난이도를 ⭐️ ~ ⭐️⭐️⭐️⭐️⭐️ 로 표시했습니다.

 * 정답 및 해설은 아래 `### 정답 및 해설` 부분을 펼쳐서 확인하세요.

 ### 🧐 객관식 문제 1 (난이도: ⭐️⭐️)



 다음 중 해시 테이블(Hash Table)에 대한 설명으로 **가장 적절하지 않은** 것은 무엇인가요?



 1. 키(Key)를 값(Value)에 매핑시키는 자료구조이다.

 2. 해시 함수를 사용하여 키를 해시 값(배열 인덱스)으로 변환한다.

 3. 데이터 검색, 삽입, 삭제 연산의 평균 시간 복잡도는 O(1)이다.

 4. 해시 충돌(Collision)은 절대로 발생하지 않도록 설계해야 한다.

 5. 파이썬의 딕셔너리(dict)와 집합(set)이 해시 테이블을 기반으로 구현되었다.

 ### 정답 및 해설



 **정답: 4번**



 **해설:**

 해시 테이블에서 해시 충돌은 피할 수 없는 현상입니다. 키의 종류는 다양하지만 해시 값(배열 인덱스)의 개수는 유한하기 때문에, 서로 다른 키가 같은 해시 값을 가질 수 있습니다. 따라서 해시 테이블 설계 시 충돌을 최소화하는 좋은 해시 함수를 사용하는 것과 함께, 발생한 충돌을 효율적으로 해결하는 방법(Chaining, Open Addressing 등)을 구현하는 것이 중요합니다. 충돌이 절대 발생하지 않도록 하는 것은 현실적으로 불가능합니다.

 ### 🧐 객관식 문제 2 (난이도: ⭐️⭐️⭐️)



 파이썬의 집합(Set) 자료형에 대한 설명으로 **옳은** 것을 모두 고르세요.



 가. 요소의 순서가 보장되며, 인덱싱으로 접근할 수 있다.

 나. 중복된 요소를 허용하지 않는다.

 다. `add()` 메서드로 요소를 추가하고, `remove()` 또는 `discard()` 로 요소를 제거한다.

 라. 리스트(`list`)나 다른 집합(`set`)을 요소로 가질 수 있다.

 마. 특정 요소가 집합에 포함되어 있는지 확인하는 연산(`in`)은 평균적으로 O(1) 시간이 걸린다.



 1.  나, 다, 마

 2.  가, 나, 다

 3.  나, 라, 마

 4.  다, 라, 마

 5.  가, 나, 다, 라, 마

 ### 정답 및 해설



 **정답: 1번 (나, 다, 마)**



 **해설:**

 * (가) 집합은 요소의 순서가 보장되지 않으며, 인덱싱으로 접근할 수 없습니다. (틀림)

 * (나) 집합의 가장 큰 특징 중 하나는 중복된 요소를 허용하지 않는다는 것입니다. (옳음)

 * (다) `add()`로 요소를 추가하고, `remove()`(없으면 에러) 또는 `discard()`(없어도 에러 없음)로 요소를 제거합니다. (옳음)

 * (라) 집합의 요소는 반드시 해시 가능(hashable)해야 합니다. 리스트나 다른 집합은 변경 가능(mutable)하여 해시 불가능하므로 집합의 요소가 될 수 없습니다. (틀림)

 * (마) 집합은 해시 테이블 기반이므로 `in` 연산(멤버십 테스트)은 평균적으로 O(1)의 매우 빠른 성능을 보입니다. (옳음)

 ### 🧐 객관식 문제 3 (난이도: ⭐️⭐️⭐️⭐️)



 다음 중 파이썬 딕셔너리(Dictionary)의 키(Key)로 사용할 수 **없는** 것은 무엇인가요?



 1.  정수 (예: `10`)

 2.  문자열 (예: `"name"`)

 3.  튜플 (예: `(1, 2)`)

 4.  리스트 (예: `[1, 2]`)

 5.  불리언 (예: `True`)

 ### 정답 및 해설



 **정답: 4번**



 **해설:**

 딕셔너리의 키는 반드시 **해시 가능(hashable)** 하고 **변경 불가능(immutable)** 해야 합니다.

 1. 정수: 불변이고 해시 가능. (O)

 2. 문자열: 불변이고 해시 가능. (O)

 3. 튜플: 튜플 자체는 불변이고, 내부 요소들이 모두 불변 객체(숫자, 문자열, 다른 튜플 등)라면 해시 가능. (O)

 4. **리스트**: 변경 가능(mutable)하므로 해시 불가능. 딕셔너리 키로 사용할 수 없습니다. (X)

 5. 불리언 (`True`, `False`): 불변이고 해시 가능. (O) (내부적으로는 정수 1, 0과 동일하게 취급될 수 있음)

 ### ✍️ 단답형 / 서술형 문제 1 (난이도: ⭐️⭐️⭐️⭐️)



 해시 테이블에서 **해시 충돌(Hash Collision)** 이란 무엇인지 설명하고, 충돌이 발생하는 **주된 이유**를 설명하세요.

 ### 정답 및 해설



 **정답:**



 **해시 충돌(Hash Collision)** 이란, 해시 테이블에서 **서로 다른 키(Key)를 해시 함수로 처리했을 때 같은 해시 값(배열 인덱스)이 나오는 현상**을 말합니다. 즉, 여러 개의 키가 해시 테이블의 동일한 위치(버킷)에 저장되어야 하는 상황입니다.



 **충돌 발생 주된 이유:**

 해시 충돌이 발생하는 주된 이유는 **키(Key)가 가질 수 있는 경우의 수는 매우 많거나 거의 무한한 반면, 해시 함수가 출력하는 해시 값(즉, 해시 테이블의 배열 인덱스)의 개수는 유한하기 때문**입니다. 아무리 해시 함수가 키들을 최대한 겹치지 않게 분산시키려고 노력해도, 한정된 개수의 저장 공간(버킷)에 무수히 많은 키들을 매핑하다 보면 필연적으로 여러 키가 같은 공간을 가리키게 되는 충돌이 발생할 수밖에 없습니다 (비둘기집 원리).

 ### ✍️ 단답형 / 서술형 문제 2 (난이도: ⭐️⭐️)



 파이썬에서 리스트(`list`) 대신 집합(`set`)을 사용하면 **이점**을 얻을 수 있는 대표적인 상황 두 가지를 설명하고, 각 상황에서 왜 집합이 더 유리한지 **시간 복잡도**와 관련지어 설명하세요.

 ### 정답 및 해설



 **정답:**



 리스트 대신 집합을 사용하면 이점을 얻는 대표적인 상황 두 가지는 다음과 같습니다.



 1.  **요소의 존재 여부 확인 (멤버십 테스트)**:

     * **상황**: 어떤 컬렉션 안에 특정 요소가 포함되어 있는지 자주 확인해야 하는 경우.

     * **이점**: 집합(`set`)에서 `item in my_set` 연산은 **평균 O(1)** 의 시간 복잡도를 가집니다. 이는 집합이 내부적으로 해시 테이블을 사용하여 요소의 해시 값을 통해 저장 위치를 바로 계산하고 접근하기 때문입니다. 반면, 리스트(`list`)에서 `item in my_list` 연산은 리스트의 처음부터 끝까지 요소를 하나씩 비교하는 선형 탐색을 수행하므로 **최악 O(n)** 의 시간 복잡도를 가집니다. 따라서 데이터의 크기 `n`이 클수록 집합을 사용하는 것이 훨씬 빠릅니다.



 2.  **중복 요소 제거**:

     * **상황**: 리스트나 다른 반복 가능한 객체에서 중복된 요소들을 제거하고 고유한 요소들만 남기고 싶은 경우.

     * **이점**: 집합은 정의상 **중복된 요소를 허용하지 않습니다**. 따라서 리스트를 `set()` 생성자에 전달하면 (`unique_set = set(my_list)`) 자동으로 중복이 제거된 집합이 생성됩니다. 이 과정은 리스트의 모든 요소를 순회하며 집합에 추가(add)하는 과정으로, 각 `add` 연산이 평균 O(1)이므로 전체적으로 **평균 O(n)** 의 시간 복잡도를 가집니다 (n은 리스트의 길이). 만약 리스트를 사용하여 중복을 제거하려면, 각 요소를 추가할 때마다 이미 리스트에 존재하는지 확인(O(n))해야 하므로 전체적으로 O(n²)에 가까운 시간이 걸릴 수 있어 비효율적입니다. (물론 정렬 후 비교 등 더 효율적인 방법도 있지만, 집합 사용이 가장 간결하고 일반적으로 효율적입니다.)

 ---



 ## 💻 코드 실습



 * 집합과 딕셔너리를 활용하여 데이터를 효율적으로 처리하는 연습을 해봅시다.

 ### 실습 1: 리스트에서 고유한 요소 개수 찾기 (난이도: ⭐️⭐️)



 주어진 숫자 리스트에서 **고유한(unique)** 숫자가 몇 개인지 세는 파이썬 코드를 작성하세요. 집합(Set)을 활용하여 간단하게 해결해 보세요.



 **요구사항:**

 1.  숫자로 이루어진 리스트 `numbers`가 주어집니다.

 2.  집합의 특징(중복 불가)을 이용하여 고유한 숫자의 개수를 계산합니다.

 3.  결과를 출력합니다.



 **예시 입력:** `numbers = [1, 2, 3, 2, 4, 5, 4, 1, 6]`

 **예시 출력:** `고유한 숫자의 개수: 6`

In [None]:
# %%

 ### 💡 힌트 1

 * 주어진 리스트 `numbers`를 `set()` 생성자에 전달하여 집합으로 변환하면 자동으로 중복이 제거됩니다.

 * 생성된 집합의 길이를 `len()` 함수로 구하면 고유한 요소의 개수를 알 수 있습니다.

 ### 🚀 예시 코드

In [None]:
# %%
def count_unique_elements(number_list):
    """리스트에서 고유한 요소의 개수를 세는 함수 (집합 활용)"""
    # 1. 리스트를 집합으로 변환하여 중복 제거
    unique_set = set(number_list)
    print(f"입력 리스트: {number_list}")
    print(f"생성된 집합 (중복 제거됨): {unique_set}")

    # 2. 집합의 길이를 반환 (고유 요소 개수)
    return len(unique_set)

# 테스트용 리스트
numbers_to_test = [1, 2, 3, 2, 4, 5, 4, 1, 6, 7, 7, 8, 2, 9, 0, 0]

# 함수 호출 및 결과 출력
unique_count = count_unique_elements(numbers_to_test)
print(f"고유한 숫자의 개수: {unique_count}")


 ### 실습 2: 두 그룹의 공통 친구 찾기 (난이도: ⭐️⭐️⭐️)



 두 개의 친구 목록(리스트)이 주어졌을 때, 두 목록 **모두에 포함된 공통 친구**들의 이름을 찾아 출력하는 파이썬 코드를 작성하세요. 집합(Set)의 교집합 연산을 활용하세요.



 **요구사항:**

 1.  두 개의 친구 이름 리스트 `group1_friends`와 `group2_friends`가 주어집니다.

 2.  각 리스트를 집합으로 변환합니다.

 3.  두 집합의 **교집합**을 구하여 공통 친구를 찾습니다.

 4.  공통 친구들의 이름을 출력합니다. (순서는 상관 없음)



 **예시 입력:**

 `group1_friends = ["Alice", "Bob", "Charlie", "David"]`

 `group2_friends = ["Charlie", "Eve", "Alice", "Frank"]`

 **예시 출력:** `공통 친구: {'Alice', 'Charlie'}` (또는 `{'Charlie', 'Alice'}`)

In [None]:
# %%

 ### 💡 힌트 1

 * 각 친구 리스트를 `set()` 생성자를 사용하여 집합으로 변환합니다. (예: `set1 = set(group1_friends)`)

 * 두 집합의 교집합은 `&` 연산자 또는 `.intersection()` 메서드를 사용하여 구할 수 있습니다. (예: `common_friends_set = set1 & set2`)

 ### 🚀 예시 코드

In [None]:
# %%
def find_common_friends(list1, list2):
    """두 리스트의 공통 요소를 찾는 함수 (집합 교집합 활용)"""
    # 1. 각 리스트를 집합으로 변환
    set1 = set(list1)
    set2 = set(list2)
    print(f"그룹 1 친구 집합: {set1}")
    print(f"그룹 2 친구 집합: {set2}")

    # 2. 두 집합의 교집합 계산
    common_friends = set1.intersection(set2) # 또는 set1 & set2

    # 3. 결과 반환
    return common_friends

# 테스트용 친구 목록
group1 = ["Alice", "Bob", "Charlie", "David", "Grace"]
group2 = ["Charlie", "Eve", "Alice", "Frank", "Grace", "Heidi"]

# 함수 호출 및 결과 출력
common = find_common_friends(group1, group2)
print(f"공통 친구: {common}")


 ### 실습 3: 단어 빈도수 계산기 (난이도: ⭐️⭐️⭐️⭐️)



 주어진 문장에서 각 단어가 몇 번씩 나타나는지 빈도수를 계산하여 딕셔너리 형태로 출력하는 파이썬 코드를 작성하세요.



 **요구사항:**

 1.  문자열 `sentence`가 주어집니다.

 2.  문자열을 단어 단위로 분리합니다. (힌트: `split()` 메서드 사용)

 3.  구두점(마침표, 쉼표 등)을 제거하고, 모든 단어를 소문자로 변환하여 일관성을 유지합니다. (힌트: `replace()`, `lower()` 메서드)

 4.  딕셔너리를 사용하여 각 단어의 빈도수를 저장합니다. (키: 단어, 값: 빈도수)

 5.  결과 딕셔너리를 출력합니다.



 **예시 입력:** `sentence = "Apple banana apple orange banana apple."`

 **예시 출력:** `단어 빈도수: {'apple': 3, 'banana': 2, 'orange': 1}`

In [None]:
# %%

 ### 💡 힌트 1

 * 결과를 저장할 빈 딕셔너리 `word_counts = {}` 를 만듭니다.

 * 입력 문장 `sentence` 에서 구두점(`.`, `,` 등)을 `replace()` 메서드를 사용하여 공백이나 빈 문자열로 제거합니다.

 * `lower()` 메서드를 사용하여 문장 전체를 소문자로 변환합니다.

 * `split()` 메서드를 사용하여 문장을 단어 리스트로 분리합니다.

In [None]:
# %%

 ### 💡 힌트 2

 * `for` 반복문을 사용하여 단어 리스트를 순회합니다.

 * 각 단어(`word`)에 대해:

     * **딕셔너리에 해당 단어가 이미 키로 존재하는지 확인**합니다 (`if word in word_counts:`).

     * 존재하면, 해당 단어의 빈도수(`word_counts[word]`)를 1 증가시킵니다.

     * 존재하지 않으면, 딕셔너리에 새로운 키-값 쌍으로 추가하고 빈도수를 1로 설정합니다 (`word_counts[word] = 1`).

 * 또는 `get()` 메서드를 활용하면 더 간결하게 작성할 수 있습니다: `word_counts[word] = word_counts.get(word, 0) + 1`

     * `word_counts.get(word, 0)`: `word` 키가 있으면 해당 값을 반환하고, 없으면 기본값 0을 반환합니다. 여기에 1을 더하여 빈도수를 업데이트합니다.

 ### 🚀 예시 코드

In [None]:
# %%
import string # 구두점 제거에 활용

def count_word_frequency(text):
    """문장에서 단어 빈도수를 계산하는 함수 (딕셔너리 활용)"""
    word_counts = {} # 빈도수를 저장할 딕셔너리

    # 1. 텍스트 전처리: 소문자 변환 및 구두점 제거
    text = text.lower() # 모두 소문자로
    # 구두점 문자들을 가져와서 translate 테이블 생성
    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator)
    print(f"전처리 후 텍스트: '{text}'")

    # 2. 단어 단위로 분리
    words = text.split() # 공백 기준 분리
    print(f"분리된 단어 리스트: {words}")

    # 3. 각 단어의 빈도수 계산
    for word in words:
        # 방법 1: if/else 사용
        # if word in word_counts:
        #     word_counts[word] += 1
        # else:
        #     word_counts[word] = 1

        # 방법 2: get() 메서드 사용 (더 간결)
        word_counts[word] = word_counts.get(word, 0) + 1

    return word_counts

# 테스트용 문장
sentence_to_analyze = "Python is fun. Fun to learn Python! Let's learn Python together."

# 함수 호출 및 결과 출력
frequency_dict = count_word_frequency(sentence_to_analyze)
print(f"\n단어 빈도수: {frequency_dict}")


 ---



 ## 💭 3장 마무리



 오늘 3장에는 **해시 테이블**이라는 중요한 자료구조의 원리를 배우고, 이를 기반으로 구현된 파이썬의 **집합(Set)** 과 **딕셔너리(Dictionary)** 에 대해 자세히 알아보았습니다.



 * **집합**은 **순서 없고 중복 없는** 데이터 관리와 **빠른 멤버십 테스트**에 유용하며,

 * **딕셔너리**는 **키-값 쌍**으로 데이터를 관리하고 **키를 통한 빠른 접근**에 매우 효율적이라는 것을 확인했습니다.



 특히 이 두 자료구조가 평균적으로 **O(1)** 의 빠른 성능을 보이는 이유가 바로 **해시 테이블** 덕분이라는 점을 기억하는 것이 중요합니다. 실습을 통해 중복 제거, 공통 요소 찾기, 빈도수 계산 등 실제 문제에서 집합과 딕셔너리가 어떻게 활용될 수 있는지 경험했습니다.



 **다음 시간에는 `collections` 모듈에서 제공하는 좀 더 특수한 목적의 자료구조들(`Counter`, `defaultdict` 등)에 대해 알아보겠습니다.** 이들은 특정 상황에서 코드를 더욱 간결하고 효율적으로 작성하는 데 도움을 줄 수 있습니다.



 ---



 *오타나 개선점에 대한 피드백은 언제나 환영합니다! 😊*

 # 4장: 고급 자료구조 I (`Counter`, `defaultdict`)



 ## 🎯 수업 목표



 * 파이썬의 `collections` 모듈이 **특수 컨테이너 데이터 타입**을 제공하는 목적과 장점을 설명할 수 있다. 📦✨

 * `collections.Counter` 클래스를 사용하여 **시퀀스 내 요소들의 빈도수를 효율적으로 계산**하고 활용할 수 있다. 📊🔢

 * `Counter` 객체의 주요 메서드(`most_common`, `elements` 등)와 연산자(덧셈, 뺄셈 등)를 이해하고 사용할 수 있다.

 * `collections.defaultdict` 클래스를 사용하여 **딕셔너리의 키가 없을 때 자동으로 기본값을 생성**하도록 설정하고, 이를 통해 코드를 간결하게 작성할 수 있다. 딕셔너리 생성 시 기본값 설정의 이점을 설명할 수 있다. 🏭🔑👍

 * `defaultdict`에 다양한 `default_factory`(`list`, `int`, `set` 등)를 지정하여 데이터를 **효율적으로 그룹화하거나 집계**할 수 있다. 🗂️➕

 * 실제 문제 해결에 `Counter`와 `defaultdict`를 **적절하게 활용**하여 코드를 개선할 수 있다. 💪



 > ✨ **심화 목표**

 >

 > * `Counter`가 딕셔너리의 하위 클래스이며, 어떤 메서드들이 추가/변경되었는지 이해한다.

 > * `defaultdict`의 `default_factory`로 `lambda` 함수를 사용하여 커스텀 기본값을 생성하는 방법을 이해한다.

 > * `Counter`와 `defaultdict(int)`를 사용하여 빈도수를 계산하는 방법의 차이점과 장단점을 비교할 수 있다.

 ---



 ## 📚 개념 설명



 ### 1. `collections` 모듈 소개 📦✨



 * **목적**: 파이썬의 기본 내장 컨테이너(`list`, `tuple`, `dict`, `set`) 외에, **특정한 목적에 더 효율적이거나 편리한 추가적인 컨테이너 데이터 타입**들을 제공하는 모듈.

 * **주요 제공 클래스**:

     * `deque`: 양쪽 끝에서 빠른 추가/삭제가 가능한 리스트 유사 컨테이너 (2장 복습: 스택, 큐 구현에 효율적).

     * `namedtuple()`: 필드 이름을 가진 튜플 서브클래스 팩토리 함수 (튜플처럼 불변이지만, 인덱스 대신 이름으로 필드 접근 가능).

     * **`Counter`**: 해시 가능한 객체를 세는 데 특화된 딕셔너리 서브클래스 (오늘 배울 내용). 📊

     * **`defaultdict`**: 키가 없을 때 기본값을 자동으로 생성해주는 딕셔너리 서브클래스 (오늘 배울 내용). 🏭

     * `OrderedDict`: (Python 3.7 이전 버전에서) 삽입 순서를 기억하는 딕셔너리 (3.7+ 부터는 일반 `dict`도 순서 유지).

     * `ChainMap`: 여러 매핑(딕셔너리 등)을 하나의 뷰로 연결.

     * `UserDict`, `UserList`, `UserString`: 사용자 정의 클래스를 만들 때 상속하기 위한 래퍼 클래스.

 * **장점**:

     * 특정 작업(빈도수 계산, 기본값 처리 등)을 위한 코드를 **더 간결하고 읽기 쉽게** 만들어줌.

     * 때로는 내장 타입으로 직접 구현하는 것보다 **더 나은 성능**을 제공.



 * **사용법**: `collections` 모듈에서 필요한 클래스를 `import` 하여 사용.

   ```python

   from collections import Counter, defaultdict

   ```

 ### 2. `collections.Counter` - 빈도수 계산 전문가 📊🔢



 * **정의**: 시퀀스나 다른 반복 가능한(iterable) 객체 내의 **해시 가능한(hashable) 객체들의 개수(빈도수)** 를 세는 데 특화된 **딕셔너리 서브클래스**.

 * **핵심 기능**:

     * 어떤 요소가 몇 번 나타났는지 {요소: 개수} 형태의 딕셔너리로 저장.

     * 존재하지 않는 요소에 접근하면 KeyError 대신 **0**을 반환. 🔵 (일반 딕셔너리와 다른 점!)

 * **구현**: 내부적으로 딕셔너리(해시 테이블)를 사용하여 각 요소의 개수를 저장.

 * **생성**: 다양한 방법으로 `Counter` 객체 생성 가능.

In [None]:
# %%
from collections import Counter

# 1. 시퀀스(리스트, 문자열 등)로부터 생성
c1 = Counter(['apple', 'banana', 'apple', 'orange', 'banana', 'apple'])
# Counter({'apple': 3, 'banana': 2, 'orange': 1})
c2 = Counter("hello world")
# Counter({'l': 3, 'o': 2, 'h': 1, 'e': 1, ' ': 1, 'w': 1, 'r': 1, 'd': 1})

# 2. 딕셔너리로부터 생성
c3 = Counter({'a': 4, 'b': 2})
# Counter({'a': 4, 'b': 2})

# 3. 키워드 인자로부터 생성
c4 = Counter(cats=4, dogs=8)
# Counter({'dogs': 8, 'cats': 4})


 * **주요 메서드 및 특징**:

     * **딕셔너리 메서드 대부분 사용 가능**: `keys()`, `values()`, `items()`, `get()`, `pop()`, `len()` 등.

     * **`most_common(n)`**: 빈도수가 **가장 높은** `n`개의 요소와 그 개수를 (요소, 개수) 튜플의 리스트로 반환. `n` 생략 시 모든 요소를 빈도수 내림차순으로 반환. 🏆

     * **`elements()`**: 각 요소를 **자신의 개수만큼 반복**하는 이터레이터(iterator) 반환. (순서는 임의적일 수 있음)

     * **`update(iterable or mapping)`**: 다른 `Counter`나 iterable/mapping으로 현재 `Counter`의 개수를 **갱신(더함)**.

     * **`subtract(iterable or mapping)`**: 다른 `Counter`나 iterable/mapping으로 현재 `Counter`의 개수를 **뺌**. (결과가 음수나 0이 될 수 있음)

     * **산술 연산자**: `+`, `-`, `&`(교집합: min), `|`(합집합: max) 연산 가능 (결과는 0 이하 개수 제외).

     * **존재하지 않는 키 접근**: `my_counter['unknown_key']` → **0** 반환 (KeyError 없음!) 👍



 * **시간 복잡도**: 대부분의 연산이 내부 딕셔너리 연산에 의존하므로 **평균 O(1)** 또는 O(k) (k는 관련 요소 수). `most_common`은 정렬이 필요하므로 **O(N log N)** 또는 **O(N log k)** (N은 고유 요소 수, k는 n).



 * **언제 사용할까?**:

     * 텍스트 분석에서 **단어/문자 빈도수** 계산.

     * 로그 분석에서 **이벤트 발생 횟수** 집계.

     * 투표 결과 등 **항목별 개수** 집계.

     * 두 데이터 그룹 간의 **공통/차이 요소 개수** 비교 (멀티셋 연산).

     * **아나그램(Anagram)** 검사 등.



 * **간단 시연 코드**:

In [None]:
# %%
from collections import Counter

# 1. 생성
data = ['red', 'blue', 'red', 'green', 'blue', 'red', 'yellow']
color_counts = Counter(data)
print(f"색깔 빈도수 Counter: {color_counts}")
# Counter({'red': 3, 'blue': 2, 'green': 1, 'yellow': 1})

# 2. 존재하지 않는 키 접근
print(f"'black' 색깔 개수: {color_counts['black']}") # 0 (KeyError 없음)

# 3. most_common()
print(f"가장 흔한 색깔 2개: {color_counts.most_common(2)}") # [('red', 3), ('blue', 2)]
print(f"모든 색깔 빈도순 정렬: {color_counts.most_common()}")

# 4. elements()
print(f"elements() 결과 (리스트 변환): {list(color_counts.elements())}")
# ['red', 'red', 'red', 'blue', 'blue', 'green', 'yellow'] (순서는 다를 수 있음)

# 5. update()
more_data = ['blue', 'green', 'green']
color_counts.update(more_data)
print(f"update 후: {color_counts}")
# Counter({'red': 3, 'blue': 3, 'green': 3, 'yellow': 1})

# 6. subtract()
less_data = Counter(red=1, blue=2)
color_counts.subtract(less_data)
print(f"subtract 후: {color_counts}")
# Counter({'red': 2, 'green': 3, 'blue': 1, 'yellow': 1})
color_counts.subtract(Counter(green=5)) # 음수 개수 가능
print(f"green 5개 subtract 후: {color_counts}")
# Counter({'red': 2, 'blue': 1, 'yellow': 1, 'green': -2})

# 7. 산술 연산 (결과는 양수 개수만 포함)
c1 = Counter(a=3, b=1)
c2 = Counter(a=1, b=2, c=1)
print(f"\nc1: {c1}")
print(f"c2: {c2}")
print(f"c1 + c2: {c1 + c2}") # Counter({'a': 4, 'b': 3, 'c': 1})
print(f"c1 - c2: {c1 - c2}") # Counter({'a': 2}) (b는 1-2=-1 이므로 제외)
print(f"c1 & c2 (교집합 min): {c1 & c2}") # Counter({'a': 1, 'b': 1})
print(f"c1 | c2 (합집합 max): {c1 | c2}") # Counter({'a': 3, 'b': 2, 'c': 1})


 ### 3. `collections.defaultdict` - 똑똑한 비서 딕셔너리 🏭🔑👍



 * **정의**: 일반 딕셔너리(`dict`)의 서브클래스로, **존재하지 않는 키(Key)** 에 접근하려고 할 때 **KeyError**를 발생시키는 대신, 미리 지정된 **기본값 생성 함수(`default_factory`)** 를 호출하여 그 **결과를 새로운 값으로 설정**하고 반환해주는 딕셔너리.

 * **핵심 아이디어**: "이 키 없으면, 이걸로 기본값 만들어서 넣어줘!" 라고 미리 알려주는 것.

 * **`default_factory`**:

     * `defaultdict`를 생성할 때 **첫 번째 인자**로 전달되는 함수 또는 호출 가능한 객체.

     * 인자를 받지 않고 호출 가능해야 함 (`callable()`).

     * 예: `list`, `int`, `set`, `float`, `str`, `lambda: "default"` 등.

     * 만약 `default_factory`가 `None`으로 설정되면 (또는 지정되지 않으면), 일반 딕셔너리처럼 없는 키 접근 시 `KeyError` 발생.

 * **동작 방식**:

     1. `my_defaultdict[key]` 로 키에 접근 시도.

     2. `key`가 딕셔너리에 **이미 존재**하면 → 해당 값을 반환 (일반 딕셔너리와 동일).

     3. `key`가 딕셔너리에 **존재하지 않으면**:

         a. `default_factory`를 **호출**하여 기본값을 생성 (`value = default_factory()`).

         b. 생성된 기본값을 `key`의 값으로 딕셔너리에 **삽입** (`my_defaultdict[key] = value`).

         c. 생성된 기본값 `value`를 **반환**.

 * **장점**:

     * 키 존재 여부를 **미리 확인할 필요 없이** 바로 값에 접근하거나 수정 가능 → 코드가 매우 **간결**해짐! 👍🔵

     * 특히 리스트나 집합 등에 **아이템을 그룹화**하거나, **카운트를 누적**하는 로직을 쉽게 구현 가능.



 * **일반 딕셔너리와 비교 (예: 값 누적)**:

In [None]:
# %%
# 일반 dict 사용 시
counts = {}
data = ['a', 'b', 'a', 'c', 'b', 'a']
for item in data:
    if item not in counts: # 키 존재 확인 필요! 🔴
        counts[item] = 0
    counts[item] += 1
# 또는 setdefault 사용
# for item in data:
#    counts[item] = counts.setdefault(item, 0) + 1

# defaultdict 사용 시
from collections import defaultdict
counts_dd = defaultdict(int) # 기본값 팩토리를 int (호출 시 0 반환) 로 지정
for item in data:
    counts_dd[item] += 1 # 키 존재 확인 불필요! 🔵 바로 연산 가능



 * **생성 및 활용 예시**:

In [None]:
# %%
from collections import defaultdict

# 1. 기본값을 0으로 (카운팅에 유용)
dd_int = defaultdict(int)
dd_int['a'] += 1 # 'a' 없었지만 int() -> 0 반환 후 +1 => {'a': 1}
print(dd_int['b']) # 'b' 없었지만 int() -> 0 반환 => {'a': 1, 'b': 0}

# 2. 기본값을 빈 리스트로 (그룹화에 유용)
dd_list = defaultdict(list)
dd_list['fruits'].append('apple') # 'fruits' 없었지만 list() -> [] 반환 후 append => {'fruits': ['apple']}
dd_list['fruits'].append('banana') # => {'fruits': ['apple', 'banana']}
dd_list['colors'].append('red') # => {'fruits': ['apple', 'banana'], 'colors': ['red']}
print(dd_list['animals']) # 'animals' 없었지만 list() -> [] 반환 => ... 'animals': []}

# 3. 기본값을 빈 집합으로 (그룹화 + 중복 제거에 유용)
dd_set = defaultdict(set)
dd_set['group1'].add('A') # => {'group1': {'A'}}
dd_set['group1'].add('B') # => {'group1': {'A', 'B'}}
dd_set['group1'].add('A') # 중복 추가 안됨 => {'group1': {'A', 'B'}}

# 4. 기본값을 lambda 함수로 (커스텀 기본값)
dd_lambda = defaultdict(lambda: "Unknown")
print(dd_lambda['name']) # 'name' 없었지만 lambda 호출 -> "Unknown" 반환 => {'name': 'Unknown'}


 * **시간 복잡도**: `defaultdict`의 연산은 기본적으로 내부 딕셔너리 연산과 동일. 키가 없을 때 `default_factory` 호출 및 삽입 과정이 추가되지만, 이 역시 **평균 O(1)**.

 * **주의**: `defaultdict`는 없는 키에 접근할 때 **자동으로 해당 키-값 쌍을 생성**하므로, 단순히 키 존재 여부만 확인하고 싶을 때는 일반 `in` 연산자를 사용하는 것이 좋음 (`key in my_defaultdict`). `my_defaultdict[key]`는 의도치 않게 딕셔너리를 변경할 수 있음.



 * **간단 시연 코드 (그룹화)**:

In [None]:
# %%
from collections import defaultdict

data = [('fruit', 'apple'), ('color', 'red'), ('fruit', 'banana'),
        ('color', 'blue'), ('fruit', 'orange'), ('color', 'green')]

# 일반 딕셔너리로 그룹화 (번거로움)
grouped_dict = {}
for category, item in data:
    if category not in grouped_dict: # 키 존재 확인 필요 🔴
        grouped_dict[category] = []
    grouped_dict[category].append(item)
print(f"일반 dict로 그룹화: {grouped_dict}")

# defaultdict(list)로 그룹화 (간결함)
grouped_dd = defaultdict(list) # 기본값 팩토리: list (빈 리스트 생성)
for category, item in data:
    grouped_dd[category].append(item) # 키 없으면 자동으로 빈 리스트 생성 후 append 🔵
print(f"defaultdict로 그룹화: {grouped_dd}")


 ### 4. `Counter` vs `defaultdict(int)` 비교



 * 둘 다 요소의 개수를 세는 데 사용할 수 있지만, 약간의 차이가 있음.



 | 특징             | `Counter`                                  | `defaultdict(int)`                           |
 | :--------------- | :----------------------------------------- | :------------------------------------------- |
 | **주 목적** | 빈도수 계산 및 관련 연산 (multiset)        | 키 부재 시 기본값(0) 제공, 일반 딕셔너리 확장 |
 | **상속 관계** | `dict`의 서브클래스                         | `dict`의 서브클래스                           |
 | **없는 키 접근** | `0` 반환                                   | `0` 반환 (및 해당 키 생성)                   |
 | **초기화** | Iterable, Mapping, Keyword Args 등 다양     | `default_factory=int` 지정 필요              |
 | **특수 메서드** | `most_common()`, `elements()`, 산술 연산 등 | 없음 (dict 메서드 + 기본값 기능)           |
 | **음수/0 값** | `subtract` 등으로 음수/0 값 가능           | 일반적으로 양수 카운트만 저장 (0은 가능)    |
 | **일반적 사용** | 최종 빈도수 집계, 상위 N개 찾기 등에 유리  | 카운트 누적 과정 자체를 간결하게 할 때 유리   |



 * **결론**: 단순히 개수를 세는 과정만 간결하게 하려면 `defaultdict(int)`도 좋지만, 빈도수와 관련된 다양한 기능(`most_common` 등)을 활용하거나 최종 결과를 다룰 때는 `Counter`가 더 편리하고 강력함.

 ### 5. F.A.Q (자주 묻는 질문) ❓



 * **Q1: `Counter` 객체도 딕셔너리인데, 왜 없는 키에 접근해도 `KeyError`가 안 나고 0이 나오나요?**

     * **A1**: `Counter` 클래스는 딕셔너리의 `__missing__` 라는 특별 메서드를 오버라이딩(재정의)하여 구현했기 때문입니다. 이 메서드는 딕셔너리에서 존재하지 않는 키에 접근하려고 할 때 호출되는데, `Counter`는 이 메서드가 항상 0을 반환하도록 정의하여 `KeyError` 대신 0을 얻게 됩니다. 이는 빈도수를 다룰 때 매우 편리한 기능입니다.



 * **Q2: `defaultdict`의 `default_factory`로는 어떤 것들을 사용할 수 있나요?**

     * **A2**: 인자 없이 호출했을 때 특정 값을 반환하는 **모든 호출 가능한(callable)** 객체를 사용할 수 있습니다. 대표적으로 파이썬 내장 타입 생성자(`list`, `int`, `set`, `dict`, `str`, `float` 등)나, `lambda` 함수, 또는 사용자가 직접 정의한 함수나 클래스 생성자 등을 사용할 수 있습니다. 예를 들어 `defaultdict(lambda: "N/A")`는 없는 키 접근 시 "N/A"를 기본값으로 제공합니다.



 * **Q3: `defaultdict`를 사용하면 키가 없는지 확인할 필요가 전혀 없나요?**

     * **A3**: 값을 **수정하거나 누적**할 때는 키 확인 없이 바로 `my_dd[key] += value` 와 같이 사용할 수 있어 편리합니다. 하지만 단순히 **키의 존재 여부만 확인**하고 싶을 때는 `my_dd[key]`를 사용하면 안 됩니다. 왜냐하면 키가 없을 경우 `default_factory`가 호출되어 **원치 않는 키-값 쌍이 딕셔너리에 추가**될 수 있기 때문입니다. 키 존재 여부만 확인하려면 일반 딕셔너리처럼 `key in my_dd` 연산자를 사용해야 합니다.



 * **Q4: `Counter`의 산술 연산 결과에 왜 음수나 0인 개수가 포함되지 않나요?**

     * **A4**: `Counter`의 덧셈(`+`), 뺄셈(`-`), 교집합(`&`), 합집합(`|`) 연산은 수학적인 **멀티셋(multiset)** 연산을 모델링합니다. 멀티셋은 요소의 개수가 0 이하인 것을 허용하지 않는 개념이므로, 이 연산자들의 결과에서는 개수가 0 이하인 요소는 자동으로 제외됩니다. 만약 음수나 0인 개수를 포함하여 계산하고 싶다면 `update()`나 `subtract()` 메서드를 사용해야 합니다.

 ### 6. 핵심 요약 📝



 * **`collections` 모듈**: 특수 목적의 컨테이너 데이터 타입 제공 (코드 간결성, 효율성 증대).

 * **`Counter`**: **빈도수 계산** 특화 딕셔너리. 없는 키 접근 시 `0` 반환. `most_common()`, `elements()`, 산술 연산 등 유용한 기능 제공.

 * **`defaultdict`**: **키 부재 시 기본값 자동 생성** 딕셔너리. `default_factory`(`list`, `int`, `set` 등) 지정 필요. **그룹화, 값 누적** 코드 간결화에 탁월.

 * **활용**: `Counter`는 최종 빈도 집계/분석에, `defaultdict`는 데이터 처리 과정(그룹화, 누적)을 단순화하는 데 유용.

 ---



 ## ❓ 객관식, 단답형 및 서술형 문제



 * 각 문제의 난이도를 ⭐️ ~ ⭐️⭐️⭐️⭐️⭐️ 로 표시했습니다.

 * 정답 및 해설은 아래 `### 정답 및 해설` 부분을 펼쳐서 확인하세요.

 ### 🧐 객관식 문제 1 (난이도: ⭐️⭐️)



 `collections.Counter` 객체에 대한 설명으로 **틀린** 것은 무엇인가요?



 1.  딕셔너리의 서브클래스로, 요소의 빈도수를 저장한다.

 2.  존재하지 않는 키에 접근하면 `KeyError`가 발생한다.

 3.  `most_common()` 메서드로 가장 빈도가 높은 요소들을 알 수 있다.

 4.  `elements()` 메서드로 각 요소를 빈도수만큼 반복하는 이터레이터를 얻을 수 있다.

 5.  시퀀스(리스트, 문자열 등)를 사용하여 초기화할 수 있다.

 ### 정답 및 해설



 **정답: 2번**



 **해설:**

 `collections.Counter` 객체의 특징 중 하나는 존재하지 않는 키에 접근했을 때 `KeyError`를 발생시키는 대신 **0**을 반환한다는 것입니다. 이는 빈도수를 다룰 때 키의 존재 여부를 미리 확인하지 않아도 되게 하여 코드를 간결하게 만들어 줍니다. 나머지 선택지들은 `Counter`의 특징을 올바르게 설명하고 있습니다.

 ### 🧐 객관식 문제 2 (난이도: ⭐️⭐️⭐️)



 `collections.defaultdict`를 사용하는 주된 이유로 **가장 적절한** 것은 무엇인가요?



 1.  딕셔너리의 정렬 순서를 보장하기 위해.

 2.  딕셔너리의 키로 리스트나 딕셔너리를 사용하기 위해.

 3.  딕셔너리에서 존재하지 않는 키에 접근 시 자동으로 기본값을 생성하여 코드를 간결하게 만들기 위해.

 4.  딕셔너리의 메모리 사용량을 줄이기 위해.

 5.  딕셔너리의 모든 값을 한 번에 변경하기 위해.

 ### 정답 및 해설



 **정답: 3번**



 **해설:**

 `collections.defaultdict`의 핵심 기능이자 주된 사용 이유는, 딕셔너리에 없는 키로 값을 조회하거나 수정하려고 할 때 `KeyError` 없이 미리 지정된 `default_factory`를 통해 기본값을 자동으로 생성하고 할당해주는 것입니다. 이를 통해 특히 데이터를 그룹화하거나 값을 누적하는 등의 작업에서 `if key not in dict:` 와 같은 번거로운 확인 절차를 생략하고 코드를 훨씬 간결하게 작성할 수 있습니다.

 1. 순서 보장은 Python 3.7+ 일반 `dict`의 기능입니다. (`OrderedDict`는 이전 버전용)

 2. `defaultdict`도 키는 해시 가능하고 불변이어야 합니다.

 4. 메모리 사용량은 일반 `dict`와 유사하거나 약간 더 많을 수 있습니다.

 5. 모든 값을 변경하는 기능은 제공하지 않습니다.

 ### 🧐 객관식 문제 3 (난이도: ⭐️⭐️⭐️⭐️)



 다음 코드의 실행 결과로 올바른 것은 무엇인가요?



 ```python

 from collections import defaultdict



 dd = defaultdict(list)

 words = ["apple", "ant", "banana", "ball", "cat"]



 for word in words:

     dd[word[0]].append(word)



 print(len(dd))

 print(len(dd['a']))

 print(dd['d'])

 ```



 1.  `3`, `2`, `KeyError` 발생

 2.  `5`, `2`, `[]`

 3.  `3`, `2`, `[]`

 4.  `3`, `3`, `[]`

 5.  `5`, `2`, `KeyError` 발생

 ### 정답 및 해설



 **정답: 3번**



 **해설:**

 1.  `dd = defaultdict(list)`: 키가 없을 때 빈 리스트(`[]`)를 기본값으로 생성하는 `defaultdict`를 만듭니다.

 2.  `words` 리스트를 순회하며 각 단어의 첫 글자(`word[0]`)를 키로 사용합니다.

 3.  `'a'` 키: `dd['a']`에 "apple", "ant"가 `append` 됩니다. → `dd = {'a': ['apple', 'ant']}`

 4.  `'b'` 키: `dd['b']`에 "banana", "ball"이 `append` 됩니다. → `dd = {'a': [...], 'b': ['banana', 'ball']}`

 5.  `'c'` 키: `dd['c']`에 "cat"이 `append` 됩니다. → `dd = {'a': [...], 'b': [...], 'c': ['cat']}`

 6.  `print(len(dd))`: `dd`에는 'a', 'b', 'c' 세 개의 키가 있으므로 길이는 **3**입니다.

 7.  `print(len(dd['a']))`: `dd['a']`는 `['apple', 'ant']` 리스트이므로 길이는 **2**입니다.

 8.  `print(dd['d'])`: `dd`에 'd'라는 키는 존재하지 않습니다. 하지만 `defaultdict(list)`이므로 `default_factory`인 `list()`가 호출되어 빈 리스트 `[]`가 생성되고, 이 빈 리스트가 `dd['d']`의 값으로 설정된 후 반환됩니다. 따라서 출력은 **`[]`** 입니다. (`KeyError`가 발생하지 않습니다.)

 ### ✍️ 단답형 / 서술형 문제 1 (난이도: ⭐️⭐️⭐️)



 `collections.Counter`를 사용하여 두 문자열이 서로 **아나그램(Anagram)** 관계인지 확인하는 방법을 설명하세요. (아나그램: 문자의 종류와 개수가 같지만 순서가 다른 단어. 예: "listen"과 "silent")

 ### 정답 및 해설



 **정답:**



 두 문자열이 아나그램 관계인지 확인하기 위해 `collections.Counter`를 사용하는 방법은 다음과 같습니다.



 1.  **각 문자열에 대해 `Counter` 객체를 생성**합니다. `Counter`는 문자열을 입력받으면 각 문자의 빈도수를 계산하여 {문자: 개수} 형태의 딕셔너리로 만들어 줍니다.

     ```python

     from collections import Counter

     counter1 = Counter(string1)

     counter2 = Counter(string2)

     ```

 2.  생성된 **두 `Counter` 객체가 서로 같은지 비교**합니다 (`counter1 == counter2`).

     * 두 문자열이 아나그램이라면, 각 문자의 종류와 개수가 정확히 일치하므로 두 `Counter` 객체는 동일합니다. 따라서 비교 결과는 `True`가 됩니다.

     * 두 문자열이 아나그램이 아니라면, 문자의 종류나 개수가 다르므로 두 `Counter` 객체는 다릅니다. 따라서 비교 결과는 `False`가 됩니다.



 **결론:** 두 문자열로부터 생성한 `Counter` 객체를 비교하여 그 결과가 `True`이면 두 문자열은 아나그램 관계이고, `False`이면 아나그램 관계가 아닙니다. 이 방법은 문자열을 정렬하여 비교하는 방법보다 효율적일 수 있습니다 (특히 문자열 길이가 매우 길 때).

 ### ✍️ 단답형 / 서술형 문제 2 (난이도: ⭐️⭐️⭐️⭐️)



 `defaultdict(list)` 를 사용하여 주어진 학생들의 시험 점수 데이터(이름, 과목, 점수 튜플의 리스트)를 **학생별**로 그룹화하는 과정을 설명하세요. 일반 딕셔너리를 사용할 때와 비교하여 `defaultdict`를 사용하는 것의 **장점**은 무엇인가요?



 **예시 데이터:** `scores = [('Alice', 'Math', 90), ('Bob', 'Math', 85), ('Alice', 'Science', 95), ('Charlie', 'Math', 70), ('Bob', 'Science', 88)]`



 **원하는 결과 형태 (딕셔너리):**

 ```

 {

  'Alice': [('Math', 90), ('Science', 95)],

  'Bob': [('Math', 85), ('Science', 88)],

  'Charlie': [('Math', 70)]

 }

 ```

 ### 정답 및 해설



 **정답:**



 **`defaultdict(list)`를 사용한 그룹화 과정:**



 1.  `from collections import defaultdict` 를 사용하여 `defaultdict`를 임포트합니다.

 2.  `grouped_scores = defaultdict(list)` 와 같이 `default_factory`를 `list`로 지정하여 `defaultdict` 객체를 생성합니다. 이는 존재하지 않는 학생 이름(키)에 접근할 때 자동으로 빈 리스트(`[]`)를 생성하도록 설정하는 것입니다.

 3.  주어진 `scores` 리스트를 `for` 반복문으로 순회합니다. 각 요소는 `(name, subject, score)` 형태의 튜플입니다.

 4.  반복문 내에서 `grouped_scores[name].append((subject, score))` 코드를 실행합니다.

     * `grouped_scores[name]` 부분에서:

         * 만약 `name`이라는 키가 `grouped_scores`에 **이미 존재**하면, 해당 키에 연결된 리스트를 반환합니다.

         * 만약 `name`이라는 키가 **존재하지 않으면**, `default_factory`인 `list()`가 호출되어 **빈 리스트 `[]`가 생성**되고, 이 빈 리스트가 `name`의 값으로 `grouped_scores`에 **자동으로 추가**된 후 반환됩니다.

     * `.append((subject, score))` 부분에서: 반환된 리스트(기존 리스트 또는 새로 생성된 빈 리스트)에 현재 학생의 과목과 점수 튜플 `(subject, score)`를 추가합니다.

 5.  반복문이 끝나면 `grouped_scores` 딕셔너리에는 각 학생 이름을 키로, 해당 학생의 (과목, 점수) 튜플들을 값(리스트)으로 가지는 그룹화된 결과가 저장됩니다.



 **일반 딕셔너리 대비 `defaultdict` 사용의 장점:**



 가장 큰 장점은 **코드의 간결성**입니다. 일반 딕셔너리를 사용하면 각 학생(`name`)에 대해 점수 정보를 추가하기 전에 **해당 학생의 키가 딕셔너리에 이미 존재하는지 확인**하고, 존재하지 않으면 **빈 리스트를 직접 생성하여 할당**해주는 코드를 작성해야 합니다. 예를 들면 다음과 같습니다.

 ```python

 grouped_scores_dict = {}

 for name, subject, score in scores:

     if name not in grouped_scores_dict: # 키 존재 확인 필요!

         grouped_scores_dict[name] = [] # 빈 리스트 직접 할당 필요!

     grouped_scores_dict[name].append((subject, score))

 ```

 `defaultdict(list)`를 사용하면 이러한 `if` 조건문과 초기 빈 리스트 할당 코드가 필요 없어지므로, 코드가 더 짧아지고 읽기 쉬워지며, 실수할 여지도 줄어듭니다. `defaultdict`가 키 부재 시의 기본값 생성을 자동으로 처리해주기 때문입니다.

 ---



 ## 💻 코드 실습



 * `Counter`와 `defaultdict`를 활용하여 실제 문제를 더 효율적으로 해결해 봅시다.

 ### 실습 1: 가장 많이 등장하는 알파벳 찾기 (난이도: ⭐️⭐️⭐️)



 주어진 영어 문장에서 **가장 많이 등장하는 알파벳**이 무엇인지 찾아 출력하는 파이썬 코드를 작성하세요. (대소문자 구분 없이 계산, 공백 및 특수문자 제외)



 **요구사항:**

 1.  문자열 `text`가 주어집니다.

 2.  문자열을 순회하며 알파벳인 경우만 소문자로 변환하여 카운트합니다.

 3.  `collections.Counter`를 사용하여 알파벳 빈도수를 계산합니다.

 4.  `most_common(1)` 메서드를 사용하여 가장 빈도가 높은 알파벳과 그 횟수를 찾습니다.

 5.  결과를 출력합니다.



 **예시 입력:** `text = "Hello World! This is a Test Sentence."`

 **예시 출력:** `가장 많이 등장하는 알파벳: ('e', 6)` (또는 다른 알파벳일 수 있음)

In [None]:
# %%

 ### 💡 힌트 1

 * `collections.Counter`를 import 합니다.

 * 빈 `Counter` 객체를 생성하거나, 처리된 알파벳 리스트를 만들어 `Counter` 생성자에 전달할 수 있습니다.

 * 입력 문자열 `text`를 `for` 반복문으로 순회합니다.

 * 각 문자에 대해 `isalpha()` 메서드를 사용하여 알파벳인지 확인합니다.

 * 알파벳인 경우 `lower()` 메서드를 사용하여 소문자로 변환합니다.

In [None]:
# %%

 ### 💡 힌트 2

 * 알파벳인 문자만 모아서 새로운 리스트(`alpha_list`)를 만듭니다.

 * `Counter(alpha_list)` 를 호출하여 알파벳 빈도수를 계산합니다.

 * 또는, 빈 `Counter` 객체를 만들고 반복문 내에서 `counter[char.lower()] += 1` 과 같이 직접 카운트할 수도 있습니다.

 * 계산된 `Counter` 객체에 대해 `most_common(1)` 메서드를 호출하면 `[(가장 흔한 알파벳, 개수)]` 형태의 리스트가 반환됩니다.

 * 이 리스트의 첫 번째 요소(`[0]`)가 원하는 결과입니다.

 ### 🚀 예시 코드

In [None]:
# %%
from collections import Counter
import string

def find_most_frequent_alphabet(text):
    """문장에서 가장 많이 등장하는 알파벳을 찾는 함수"""

    # 방법 1: 알파벳만 필터링 후 Counter 생성
    # alpha_list = []
    # for char in text:
    #     if char.isalpha():
    #         alpha_list.append(char.lower())
    # if not alpha_list:
    #     return None # 알파벳이 없는 경우
    # alpha_counts = Counter(alpha_list)

    # 방법 2: Counter 객체에 직접 업데이트
    alpha_counts = Counter()
    for char in text:
        if char.isalpha():
            alpha_counts[char.lower()] += 1

    if not alpha_counts: # Counter가 비어있는 경우 (알파벳 없음)
        return None

    # 가장 빈도가 높은 알파벳 찾기
    most_common_result = alpha_counts.most_common(1) # [('알파벳', 개수)] 형태

    return most_common_result[0] # 첫 번째 요소 (튜플) 반환

# 테스트용 텍스트
input_text = "Python is an interpreted, high-level, general-purpose programming language. Created by Guido van Rossum and first released in 1991."

# 함수 호출 및 결과 출력
most_frequent = find_most_frequent_alphabet(input_text)

if most_frequent:
    print(f"가장 많이 등장하는 알파벳: {most_frequent}")
else:
    print("텍스트에 알파벳이 없습니다.")


 ### 실습 2: 물품 재고 관리 (defaultdict 활용) (난이도: ⭐️⭐️⭐️⭐️)



 `defaultdict(int)`를 사용하여 여러 상점에 입고된 물품들의 총 재고를 계산하는 파이썬 코드를 작성하세요.



 **요구사항:**

 1.  각 상점의 입고 내역이 `(물품명, 개수)` 튜플의 리스트 형태로 주어집니다 (여러 상점 데이터가 하나의 리스트에 있음).

 2.  `defaultdict(int)`를 사용하여 물품명을 키로, 총 재고 수량을 값으로 저장합니다.

 3.  모든 입고 내역을 처리한 후, 각 물품의 총 재고를 출력합니다.



 **예시 입력:**

 ```python

 inventory_updates = [

     ('apple', 50), ('banana', 100), ('orange', 75),

     ('apple', 30), ('banana', 50), ('grape', 120),

     ('apple', 20), ('orange', 50)

 ]

 ```

 **예시 출력:**

 ```

 총 재고 현황:

 apple: 100

 banana: 150

 orange: 125

 grape: 120

 ```

 ### 💡 힌트 1

 * `collections.defaultdict`를 import 합니다.

 * `total_inventory = defaultdict(int)` 와 같이 `default_factory`를 `int`로 지정하여 `defaultdict` 객체를 생성합니다. (없는 물품명 접근 시 기본값 0)

 * 주어진 `inventory_updates` 리스트를 `for` 반복문으로 순회합니다. 각 요소는 `(item_name, quantity)` 튜플입니다.

 ### 💡 힌트 2

 * 반복문 내에서 `total_inventory[item_name] += quantity` 코드를 실행합니다.

 * `item_name` 키가 `total_inventory`에 없으면, `defaultdict(int)`는 자동으로 `int()`를 호출하여 0을 생성하고, 여기에 `quantity`를 더하여 해당 물품의 첫 재고를 기록합니다.

 * `item_name` 키가 이미 존재하면, 기존 재고 수량에 `quantity`를 더하여 재고를 누적합니다.

 * 반복문이 끝난 후, `total_inventory.items()` 등을 사용하여 결과를 보기 좋게 출력합니다.

 ### 🚀 예시 코드

In [None]:
# %%
from collections import defaultdict

def calculate_total_inventory(updates):
    """입고 내역을 바탕으로 총 물품 재고를 계산하는 함수"""
    total_inventory = defaultdict(int) # 물품명: 총 재고 (기본값 0)

    print("입고 내역 처리 시작:")
    # 입고 내역 리스트 순회
    for item_name, quantity in updates:
        print(f"  - {item_name}: {quantity}개 입고")
        # 해당 물품의 재고 누적 (키 없으면 0에서 시작)
        total_inventory[item_name] += quantity
        print(f"    -> 현재 {item_name} 재고: {total_inventory[item_name]}")

    return total_inventory

# 테스트용 입고 내역 데이터
inventory_updates_data = [
    ('apple', 50), ('banana', 100), ('orange', 75),
    ('apple', 30), ('banana', 50), ('grape', 120),
    ('apple', 20), ('orange', 50), ('banana', -10) # 반품(-) 처리도 가능
]

# 함수 호출
final_inventory = calculate_total_inventory(inventory_updates_data)

# 결과 출력
print("\n최종 총 재고 현황:")
# items()를 사용하여 키(물품명)와 값(재고)을 함께 순회하며 출력
if final_inventory:
    for item, stock in final_inventory.items():
        print(f"{item}: {stock}")
else:
    print("처리된 재고 내역이 없습니다.")



 ---



 ## 💭 4장 마무리



 오늘 4장에는 `collections` 모듈의 유용한 자료구조인 **`Counter`** 와 **`defaultdict`** 에 대해 배웠습니다.



 * **`Counter`** 는 리스트나 문자열 등에서 각 요소가 몇 번 등장하는지 **빈도수를 세는 작업**을 매우 간편하게 만들어 주며, `most_common`과 같은 편리한 분석 기능도 제공합니다.

 * **`defaultdict`** 는 딕셔너리에서 **키가 없을 때의 기본값을 자동으로 처리**해주어, 데이터를 **그룹화**하거나 **값을 누적**하는 코드를 훨씬 **간결하고 안전하게** 작성할 수 있도록 돕습니다.



 이 두 자료구조는 특히 데이터 처리 및 분석 작업에서 자주 활용되므로, 언제 어떻게 사용하면 좋을지 잘 익혀두시면 앞으로 파이썬 코드를 작성하는 데 큰 도움이 될 것입니다.



 **다음 시간에는 우선순위 큐(Priority Queue)의 개념과 이를 파이썬에서 `heapq` 모듈을 사용하여 구현하는 방법(힙 자료구조)에 대해 알아보겠습니다.** 특정 기준에 따라 우선순위가 높은 데이터를 먼저 처리해야 하는 경우에 유용하게 사용됩니다.



 ---



 *오타나 개선점에 대한 피드백은 언제나 환영합니다! 😊*

 # 5장: 고급 자료구조 II (우선순위 큐, 힙)



 ## 🎯 수업 목표



 * **우선순위 큐(Priority Queue)** 의 개념(우선순위 기반 추출)과 필요성을 설명할 수 있다. 🥇🥈🥉

 * **힙(Heap)** 자료구조의 개념(최소 힙/최대 힙 속성)과 특징(완전 이진 트리)을 이해하고 설명할 수 있다. 🌲👑

 * 힙이 우선순위 큐를 구현하는 데 **효율적인 이유**(삽입/삭제 O(log n))를 설명할 수 있다. ⏱️👍

 * 파이썬의 **`heapq` 모듈**을 사용하여 **최소 힙(Min Heap)** 을 구현하고 활용할 수 있다. 🐍🔽

 * `heapq` 모듈의 주요 함수(`heappush`, `heappop`, `heapify` 등) 사용법을 익힌다.

 * `heapq`를 응용하여 **최대 힙(Max Heap)** 을 구현하는 방법을 이해한다. (값 부호 변경 또는 튜플 활용) 🔼

 * 힙(Heap) 기반 우선순위 큐와 리스트 기반 우선순위 처리의 **성능 차이**를 비교하고 설명할 수 있다. ⚡️🐢

 * 간단한 문제 해결에 우선순위 큐와 힙을 **적절하게 활용**할 수 있다. 💪



 > ✨ **심화 목표**

 >

 > * 힙의 내부 동작 원리(삽입 시 up-heap, 삭제 시 down-heap)를 이해한다.

 > * `heapq`를 사용하여 튜플이나 사용자 정의 객체를 저장할 때 우선순위 및 안정성(tie-breaking) 처리 방법을 이해한다.

 > * 힙 정렬(Heap Sort)의 기본 원리를 이해한다.

 > * 다익스트라(Dijkstra) 알고리즘, 프림(Prim) 알고리즘 등에서 우선순위 큐가 어떻게 활용되는지 이해한다.

 ---



 ## 📚 개념 설명



 ### 1. 우선순위 큐 (Priority Queue, PQ) 란? 🥇🥈🥉



 * **정의**: 일반적인 큐(FIFO)와 달리, 들어간 순서가 아니라 **정해진 우선순위(priority)** 에 따라 요소가 **추출(dequeue)** 되는 추상 자료형(ADT).

 * **핵심 특징**:

     * 각 요소는 **우선순위 값**을 가짐.

     * **가장 높은** (또는 가장 낮은) 우선순위를 가진 요소가 항상 먼저 제거됨.

 * **주요 연산**:

     * **Insert / Add**: 우선순위 큐에 요소를 **추가**.

     * **Extract-Max / Delete-Max**: **가장 높은** 우선순위를 가진 요소를 **제거**하고 반환.

     * **Extract-Min / Delete-Min**: **가장 낮은** 우선순위를 가진 요소를 **제거**하고 반환.

     * **Peek / Get-Max/Min**: 가장 높은/낮은 우선순위를 가진 요소를 **확인**만 하고 제거하지 않음.

 * **비유**:

     * **응급실 환자 처리 🚑**: 위급한 환자(높은 우선순위)를 먼저 치료.

     * **작업 스케줄링 💻**: 중요한 작업(높은 우선순위)을 먼저 처리.

     * **공항 VIP 라운지 ✈️**: VIP 고객(높은 우선순위)이 먼저 입장.

 * **구현 방법**:

     * **정렬되지 않은 리스트**: 삽입 O(1), 삭제/확인 O(n) 🔴 (매번 전체 탐색 필요)

     * **정렬된 리스트**: 삽입 O(n) (정렬 위치 찾아 삽입), 삭제/확인 O(1) (맨 앞/뒤) 🔴 (삽입 비효율적)

     * **균형 이진 탐색 트리**: 삽입/삭제/확인 O(log n) (구현 복잡)

     * **힙 (Heap)**: 삽입/삭제 O(log n), 확인 O(1) 🔵 (가장 일반적이고 효율적인 구현!)



 * **왜 필요할까?**: 단순히 들어온 순서가 아니라, **중요도나 특정 기준**에 따라 데이터를 처리해야 하는 많은 실제 문제 상황에서 유용하게 사용됨.

 ### 2. 힙 (Heap) 자료구조 🌲👑



 * **정의**: **완전 이진 트리(Complete Binary Tree)** 형태를 가지면서, **힙 속성(Heap Property)** 을 만족하는 특수한 트리 기반 자료구조. 우선순위 큐 구현에 가장 널리 사용됨.

 * **힙 속성 (Heap Property)**: 부모 노드와 자식 노드 간의 값(우선순위) 관계에 대한 규칙.

     1.  **최소 힙 (Min Heap)**: 모든 부모 노드의 값은 각 자식 노드의 값보다 **작거나 같다 (<=)**. 🔽

         * 즉, 루트(root) 노드가 **가장 작은 값**을 가짐.

         * *[시각 자료 삽입: 최소 힙 예시 트리 그림]*

     2.  **최대 힙 (Max Heap)**: 모든 부모 노드의 값은 각 자식 노드의 값보다 **크거나 같다 (>=)**. 🔼

         * 즉, 루트(root) 노드가 **가장 큰 값**을 가짐.

         * *[시각 자료 삽입: 최대 힙 예시 트리 그림]*

 * **완전 이진 트리 (Complete Binary Tree)**:

     * 마지막 레벨을 제외한 모든 레벨이 완전히 채워져 있음.

     * 마지막 레벨의 노드들은 **왼쪽부터 차례대로** 채워져 있음.

     * 이 구조 덕분에 힙을 **배열(리스트)** 을 사용하여 효율적으로 표현 가능! 👍

         * 노드 `i`의 왼쪽 자식: `2*i + 1`

         * 노드 `i`의 오른쪽 자식: `2*i + 2`

         * 노드 `i`의 부모: `(i - 1) // 2` (정수 나눗셈)

         * *[시각 자료 삽입: 완전 이진 트리를 배열로 표현하는 그림]*

 * **주요 연산 및 시간 복잡도**:

     * **삽입 (Insert)**:

         1.  새 요소를 트리의 마지막 위치(배열 끝)에 추가.

         2.  힙 속성을 만족할 때까지 부모 노드와 비교/교환하며 위로 이동 (**Up-heap / Percolate-up**).

         3.  **O(log n)** (트리의 높이만큼 비교/교환) 🔵

     * **최소/최대값 삭제 (Extract-Min/Max)**:

         1.  루트 노드(최소/최대값)를 제거하고 저장.

         2.  트리의 마지막 노드를 루트 자리로 이동.

         3.  힙 속성을 만족할 때까지 자식 노드와 비교/교환하며 아래로 이동 (**Down-heap / Percolate-down / Heapify-down**). (최소 힙은 더 작은 자식과, 최대 힙은 더 큰 자식과 교환)

         4.  **O(log n)** (트리의 높이만큼 비교/교환) 🔵

     * **최소/최대값 확인 (Peek)**: 루트 노드(배열의 첫 번째 요소)를 확인. **O(1)** ⚡️🔵

     * **힙 생성 (Heapify)**: 정렬되지 않은 배열을 힙 구조로 변환. **O(n)** (모든 노드에 대해 down-heap 수행, 리프 노드는 제외 가능하여 효율적)



 * **왜 우선순위 큐 구현에 효율적인가?**: 가장 중요한 연산인 **삽입**과 **우선순위 높은 요소 삭제**가 모두 **O(log n)** 으로 매우 빠르기 때문!

 ### 3. 파이썬 `heapq` 모듈 - 리스트를 힙으로! 🐍🔽



 * **개요**: 파이썬 표준 라이브러리로, 일반적인 **리스트(list)** 를 **최소 힙(Min Heap)** 처럼 다룰 수 있게 해주는 함수들을 제공.

 * **특징**:

     * 별도의 힙 클래스를 제공하는 것이 아니라, **기존 리스트를 직접 수정(in-place)** 하여 힙 속성을 유지시킴.

     * 기본적으로 **최소 힙**만 지원. (최대 힙은 약간의 트릭 필요)

 * **주요 함수**:

     * **`heapq.heappush(heap, item)`**:

         * `heap`(리스트)에 `item`을 **힙 속성을 유지하면서 추가**. (O(log n))

         * 리스트의 `append` 후 up-heap 하는 것과 유사.

     * **`heapq.heappop(heap)`**:

         * `heap`(리스트)에서 **가장 작은 요소(루트)** 를 **제거**하고 반환. 힙 속성 유지. (O(log n))

         * 리스트가 비어있으면 `IndexError` 발생.

         * 루트 제거 후 마지막 요소 루트로 옮기고 down-heap 하는 것과 유사.

     * **`heapq.heapify(x)`**:

         * 리스트 `x`를 **제자리에서(in-place)** 최소 힙 구조로 변환. (O(n))

         * 이미 리스트가 있을 때 한 번에 힙으로 만들고 싶을 때 사용.

     * **`heapq.heappushpop(heap, item)`**:

         * `heap`에 `item`을 push한 다음, 가장 작은 요소를 pop. (push와 pop을 따로 하는 것보다 효율적) (O(log n))

         * 힙의 크기를 일정하게 유지하면서 새 요소를 넣고 가장 작은 것을 버릴 때 유용.

     * **`heapq.heapreplace(heap, item)`**:

         * `heap`에서 가장 작은 요소를 pop한 다음, 새로운 `item`을 push. (`heappushpop`과 순서 반대) (O(log n))

         * 힙이 비어있으면 `IndexError`. 힙의 크기가 변하지 않음.

     * **`heapq.nsmallest(n, iterable, key=None)`**:

         * `iterable`에서 **가장 작은** `n`개의 요소를 리스트로 반환. (힙 기반으로 효율적)

     * **`heapq.nlargest(n, iterable, key=None)`**:

         * `iterable`에서 **가장 큰** `n`개의 요소를 리스트로 반환. (힙 기반으로 효율적)



 * **사용법**: `heapq` 모듈을 `import` 한 후, 함수들을 리스트에 적용.

In [None]:
# %%
import heapq

# 빈 리스트를 힙으로 사용
min_heap = []

# heappush: 요소 추가 (힙 속성 유지)
heapq.heappush(min_heap, 4)
heapq.heappush(min_heap, 1)
heapq.heappush(min_heap, 7)
heapq.heappush(min_heap, 3)
print(f"최소 힙 (push 후): {min_heap}") # [1, 3, 7, 4] - 리스트 내부 표현일 뿐, 힙 구조임

# 최소값 확인 (힙의 첫 번째 요소)
print(f"가장 작은 요소 (peek): {min_heap[0]}") # 1

# heappop: 가장 작은 요소 제거 및 반환
smallest = heapq.heappop(min_heap)
print(f"pop된 가장 작은 요소: {smallest}") # 1
print(f"pop 후 최소 힙: {min_heap}") # [3, 4, 7]

smallest = heapq.heappop(min_heap)
print(f"pop된 가장 작은 요소: {smallest}") # 3
print(f"pop 후 최소 힙: {min_heap}") # [4, 7]

heapq.heappush(min_heap, 2)
print(f"push(2) 후 최소 힙: {min_heap}") # [2, 7, 4]

# heapify: 기존 리스트를 힙으로 변환
unsorted_list = [9, 5, 2, 8, 1, 6]
print(f"\n원본 리스트: {unsorted_list}")
heapq.heapify(unsorted_list) # 제자리에서 힙으로 변경 (O(n))
print(f"heapify 후 리스트 (최소 힙 구조): {unsorted_list}") # [1, 5, 2, 8, 9, 6]

# nsmallest / nlargest
data = [10, 4, 8, 23, 1, 5, 17]
print(f"\n가장 작은 3개: {heapq.nsmallest(3, data)}") # [1, 4, 5]
print(f"가장 큰 3개: {heapq.nlargest(3, data)}") # [23, 17, 10]


 ### 4. `heapq`로 우선순위 큐 구현하기



 * **최소 우선순위 큐 (Min PQ)**:

     * `heapq`는 기본적으로 최소 힙이므로, 그냥 사용하면 됨.

     * `heappush`로 요소 추가, `heappop`으로 가장 작은(우선순위 높은) 요소 추출.



 * **최대 우선순위 큐 (Max PQ)**: `heapq`는 최소 힙만 지원하므로 트릭 필요.

     * **방법 1: 값의 부호 변경**:

         * 저장할 때 값의 부호를 **음수(-)로 바꿔서** `heappush`.

         * `heappop`으로 꺼낸 후 다시 부호를 바꿔서 원래 값으로 사용.

         * 최소 힙에서 가장 작은 값 = 원래 값 중 가장 큰 값.

     * **방법 2: 튜플 사용**:

         * `(우선순위, 데이터)` 형태의 튜플을 저장.

         * 파이썬 튜플은 첫 번째 요소부터 순서대로 비교하므로, `heapq`는 우선순위를 기준으로 최소 힙을 만듦.

         * 최대 힙을 원하면 `(-우선순위, 데이터)` 형태로 저장.



 * **복잡한 객체 저장 및 안정성 (Tie-Breaking)**:

     * 튜플 `(priority, item)` 사용 시, `priority`가 같으면 그 다음 요소인 `item`을 비교하게 됨. `item`이 비교 불가능한 객체면 에러 발생.

     * **해결책**: 비교에 사용되지 않을 **고유한 카운터 값**을 튜플 중간에 넣어줌. `(priority, count, item)`

         * `count`는 삽입 순서대로 증가하는 정수.

         * 우선순위가 같을 경우, 먼저 삽입된 요소(count가 작은)가 먼저 나오도록 보장 (안정성).



 * **간단 시연 코드 (Max PQ - 부호 변경)**:

In [None]:
# %%
import heapq

# 최대 우선순위 큐 (값 부호 변경)
max_heap = []

# 요소 추가 (음수로 변환하여 push)
heapq.heappush(max_heap, -4)
heapq.heappush(max_heap, -1)
heapq.heappush(max_heap, -7)
heapq.heappush(max_heap, -3)
print(f"최대 힙 (음수 저장): {max_heap}") # [-7, -3, -4, -1] (내부 최소 힙)

# 최대값 확인 (첫 요소의 부호 변경)
print(f"가장 큰 요소 (peek): {-max_heap[0]}") # 7

# 최대값 추출 (pop 후 부호 변경)
largest = -heapq.heappop(max_heap)
print(f"pop된 가장 큰 요소: {largest}") # 7
print(f"pop 후 최대 힙 (음수 저장): {max_heap}") # [-3, -1, -4]


 * **간단 시연 코드 (튜플 사용 및 Tie-Breaking)**:

In [None]:
# %%
import heapq
import itertools # 고유 카운터 생성을 위해

# 우선순위 큐 (튜플 사용, 안정성 보장)
# (우선순위, 카운터, 데이터)
pq = []
counter = itertools.count() # 고유 ID 생성기 (0, 1, 2, ...)

# 데이터 추가
heapq.heappush(pq, (5, next(counter), 'task A')) # 우선순위 5
heapq.heappush(pq, (2, next(counter), 'task B')) # 우선순위 2
heapq.heappush(pq, (5, next(counter), 'task C')) # 우선순위 5 (task A와 동일)
heapq.heappush(pq, (1, next(counter), 'task D')) # 우선순위 1

print(f"우선순위 큐 (튜플 저장): {pq}")
# [(1, 3, 'task D'), (2, 1, 'task B'), (5, 2, 'task C'), (5, 0, 'task A')]
# 내부적으로는 우선순위 -> 카운터 순으로 정렬됨

# 우선순위 높은 순서(값이 작은 순서)로 추출
while pq:
    priority, count, task = heapq.heappop(pq)
    print(f"  - 처리: {task} (우선순위: {priority}, 입력순서: {count})")
# 출력 순서: task D -> task B -> task A -> task C
# 우선순위 5가 동일한 A와 C 중에서는 먼저 입력된(count가 작은) A가 먼저 처리됨 (안정성)


 ### 5. 성능 비교: 힙 vs 리스트 기반 우선순위 처리 ⚡️ vs 🐢



 * **시나리오**: 많은 데이터 요소들을 우선순위에 따라 처리해야 하는 경우 (예: 가장 작은 값들을 반복적으로 찾아 제거).



 * **방법 1: 정렬되지 않은 리스트 사용**:

     * 가장 작은 값 찾기: 매번 리스트 전체를 순회 (`min()` 또는 직접 비교) → **O(n)**

     * 찾은 값 제거: `remove()` → **O(n)**

     * k번 반복 시: **O(k*n)** 🔴 (매우 비효율적)



 * **방법 2: 정렬된 리스트 사용**:

     * 처음에 정렬: `sort()` → **O(n log n)**

     * 가장 작은 값 제거: `pop(0)` (리스트) → **O(n)** 🔴 (뒤 요소들 이동) 또는 `pop()` (데크) O(1)

     * 중간에 요소 추가: 정렬 위치 찾아 삽입 → **O(n)** 🔴

     * 정렬 유지 비용이 큼.



 * **방법 3: 힙(`heapq`) 사용**:

     * 힙 생성: `heapify()` → **O(n)**

     * 가장 작은 값 제거: `heappop()` → **O(log n)** 🔵

     * 요소 추가: `heappush()` → **O(log n)** 🔵

     * k번 반복 시: 초기 힙 생성 O(n) + k번 pop O(k log n) → **O(n + k log n)** (훨씬 효율적!)



 * **결론**: 우선순위가 중요한 데이터를 **동적으로 추가/삭제**하면서 **지속적으로 가장 우선순위 높은 요소**를 찾아야 하는 경우, **힙(heapq)** 이 리스트 기반 방법보다 훨씬 뛰어난 성능을 제공한다! 👍

 **정렬과 리스트 사용 vs 힙 사용**: 시간 복잡도 비교

In [None]:
# %%

import time
import random
import heapq
import matplotlib.pyplot as plt

# 한글 폰트 설정 (Colab 기준)
plt.rcParams['font.family'] = 'NanumGothic'  # 나눔고딕 폰트 사용
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 기호 깨짐 방지

# 데이터 크기 범위 설정
sizes = [1000, 5000, 10000, 50000, 100000]
list_times = []
heap_times = []

for size in sizes:
    # 랜덤 데이터 생성
    data = [random.randint(1, 1000) for _ in range(size)]

    # 1. 리스트 기반 방법 (정렬 후 pop(0))
    start_time = time.time()
    sorted_list = sorted(data)  # O(n log n)
    while sorted_list:  # O(n)번 반복
        min_val = sorted_list.pop(0)  # O(n)
    list_time = time.time() - start_time
    list_times.append(list_time)

    # 2. 힙 기반 방법
    start_time = time.time()
    heapq.heapify(data)  # O(n)
    while data:  # O(n)번 반복
        min_val = heapq.heappop(data)  # O(log n)
    heap_time = time.time() - start_time
    heap_times.append(heap_time)

    print(f"크기: {size:,}")
    print(f"  - 리스트 기반: {list_time:.4f}초")
    print(f"  - 힙 기반: {heap_time:.4f}초")
    print(f"  - 성능 차이: {list_time/heap_time:.1f}배")

# 그래프 그리기
plt.figure(figsize=(10, 6))
plt.plot(sizes, list_times, 'r-', label='리스트 기반 (정렬 후 pop(0))')
plt.plot(sizes, heap_times, 'b-', label='힙 기반')
plt.xlabel('데이터 크기')
plt.ylabel('실행 시간 (초)')
plt.title('리스트 기반 vs 힙 기반 최소값 추출 성능 비교')
plt.legend()
plt.grid(True)
plt.show()


 ### 6. F.A.Q (자주 묻는 질문) ❓



 * **Q1: `heapq`는 왜 최소 힙만 지원하나요? 최대 힙 클래스는 없나요?**

     * **A1**: 파이썬 표준 라이브러리는 간결성과 효율성을 중시하는 경향이 있습니다. 최소 힙 기능만 제공해도, 값의 부호를 바꾸거나 튜플을 활용하는 간단한 방법으로 최대 힙 기능을 구현할 수 있기 때문에 별도의 최대 힙 클래스를 제공하지 않는 것으로 보입니다. 필요하다면 사용자가 직접 최대 힙 클래스를 만들 수도 있습니다.



 * **Q2: `heapify()`는 왜 O(n)인가요? 모든 요소를 삽입하는 것처럼 O(n log n)이 아닌가요?**

     * **A2**: `heapify`는 모든 요소를 하나씩 `heappush`하는 방식이 아닙니다. 배열의 중간 지점부터 시작하여 루트 방향으로 각 노드에 대해 **down-heap** 연산을 수행합니다. 트리의 아래쪽(리프 노드에 가까운) 노드들은 down-heap 연산 시 이동 거리가 짧거나 필요 없습니다. 전체 연산 횟수를 수학적으로 분석하면 O(n) 시간에 완료된다는 것이 증명되어 있습니다. 이는 모든 요소를 개별적으로 삽입하는 O(n log n)보다 효율적입니다.

In [None]:
# %%
import time
import random
import heapq

def build_heap_slow(arr):
    heap = []
    for x in arr:  # O(n)번 반복
        heapq.heappush(heap, x)  # 각 삽입은 O(log n)
    return heap  # 전체 시간복잡도: O(n log n)

def build_heap_fast(arr):
    heap = arr.copy()
    heapq.heapify(heap)  # 전체 시간복잡도: O(n)
    return heap

# 성능 비교
sizes = [1000, 10000, 100000]
for size in sizes:
    data = [random.randint(1, 1000) for _ in range(size)]

    # heappush 방식
    start = time.time()
    build_heap_slow(data)
    slow_time = time.time() - start

    # heapify 방식
    start = time.time()
    build_heap_fast(data)
    fast_time = time.time() - start

    print(f"크기: {size:,}")
    print(f"  - heappush 방식: {slow_time:.4f}초 (O(n log n))")
    print(f"  - heapify 방식: {fast_time:.4f}초 (O(n))")
    print(f"  - 성능 차이: {slow_time/fast_time:.1f}배")



 * **Q3: 리스트를 `heapify`하면 원래 리스트가 정렬되나요?**

     * **A3**: 아닙니다! `heapify`는 리스트를 **힙 구조**로 재배열할 뿐, 전체 리스트를 오름차순이나 내림차순으로 **정렬하는 것은 아닙니다**. 힙 구조는 루트 노드가 가장 작거나 크다는 것만 보장하며, 형제 노드 간의 순서나 다른 레벨 간의 전체적인 정렬 순서는 보장하지 않습니다. 힙 구조의 리스트에서 요소를 정렬된 순서로 얻으려면 `heappop`을 반복적으로 호출해야 합니다 (이것이 힙 정렬의 원리).



 * **Q4: 우선순위 큐에 이미 들어있는 요소의 우선순위를 변경할 수 있나요?**

     * **A4**: 파이썬의 `heapq` 모듈은 기존 요소의 우선순위를 직접 변경하는 기능을 **제공하지 않습니다**. 우선순위를 변경하려면, 일반적으로 해당 요소를 힙에서 제거하고(이것도 직접 지원 안됨, 복잡함), 새로운 우선순위로 다시 `heappush`하는 방식을 사용해야 합니다. 또는, 기존 요소를 무효화(예: 별도 플래그 사용)하고 새 우선순위로 요소를 추가한 뒤, 나중에 pop할 때 무효화된 요소는 건너뛰는 방법을 사용하기도 합니다. 더 복잡한 우선순위 큐 구현체에서는 우선순위 변경(decrease-key 등) 연산을 지원하기도 합니다.

 ### 7. 핵심 요약 📝



 * **우선순위 큐 (PQ)**: 요소의 **우선순위**에 따라 추출되는 ADT. 응급실, 작업 스케줄링 등에 사용.

 * **힙 (Heap)**: **완전 이진 트리** 구조 + **힙 속성**(Min/Max) 만족. PQ 구현에 효율적.

 * **`heapq` 모듈**: 파이썬 **리스트**를 **최소 힙**으로 다루는 함수 제공 (`heappush`, `heappop`, `heapify` 등).

 * **핵심 성능**: 힙 기반 PQ는 **삽입/삭제 O(log n)**, 확인 O(1). 리스트 기반보다 훨씬 효율적.

 * **최대 힙 구현**: `heapq` 사용 시 **값 부호 변경** 또는 **튜플 `(-priority, ...)`** 활용.

 * **안정성**: 튜플 사용 시 **고유 카운터**를 넣어 우선순위 동일할 때 삽입 순서 보장 가능.

 ---



 ## ❓ 객관식, 단답형 및 서술형 문제



 * 각 문제의 난이도를 ⭐️ ~ ⭐️⭐️⭐️⭐️⭐️ 로 표시했습니다.

 * 정답 및 해설은 아래 `### 정답 및 해설` 부분을 펼쳐서 확인하세요.

 ### 🧐 객관식 문제 1 (난이도: ⭐️)



 우선순위 큐(Priority Queue)에 대한 설명으로 **가장 적절한** 것은 무엇인가요?



 1.  데이터가 들어온 순서대로(FIFO) 처리된다.

 2.  데이터가 들어온 역순으로(LIFO) 처리된다.

 3.  데이터에 부여된 우선순위가 가장 높은 (또는 낮은) 순서대로 처리된다.

 4.  모든 데이터는 중복 없이 유일해야 한다.

 5.  데이터 검색 속도가 평균 O(1)로 매우 빠르다.

 ### 정답 및 해설



 **정답: 3번**



 **해설:**

 우선순위 큐는 일반 큐(FIFO)나 스택(LIFO)과 달리, 각 데이터 요소에 연관된 **우선순위**를 기준으로 동작합니다. 데이터를 추출할 때는 우선순위가 가장 높은 요소(최대 우선순위 큐) 또는 가장 낮은 요소(최소 우선순위 큐)가 먼저 나오게 됩니다. 들어온 순서와는 관계 없습니다.

 ### 🧐 객관식 문제 2 (난이도: ⭐️⭐️⭐️)



 파이썬의 `heapq` 모듈에 대한 설명으로 **틀린** 것은 무엇인가요?



 1.  별도의 힙 클래스를 제공하지 않고, 리스트를 최소 힙으로 다루는 함수들을 제공한다.

 2.  `heapq.heappush()` 함수는 리스트에 요소를 추가하며 힙 속성을 유지한다.

 3.  `heapq.heappop()` 함수는 리스트에서 가장 큰 요소를 제거하고 반환한다.

 4.  `heapq.heapify()` 함수는 기존 리스트를 제자리에서 최소 힙 구조로 변환한다.

 5.  `heapq`를 이용하여 최대 힙을 구현하려면 값의 부호를 변경하는 등의 방법이 필요하다.

 ### 정답 및 해설



 **정답: 3번**



 **해설:**

 파이썬의 `heapq` 모듈은 기본적으로 **최소 힙(Min Heap)** 을 구현합니다. 따라서 `heapq.heappop()` 함수는 힙(리스트)에서 **가장 작은 요소**를 제거하고 반환합니다. 가장 큰 요소를 제거하고 싶다면 최대 힙을 구현하는 별도의 방법을 사용해야 합니다.

 ### 🧐 객관식 문제 3 (난이도: ⭐️⭐️⭐️⭐️)



 다음 코드의 실행 결과로 올바른 것은 무엇인가요?



 ```python

 import heapq



 h = [5, 3, 8, 1, 9]

 heapq.heapify(h)

 heapq.heappush(h, 4)

 val1 = heapq.heappop(h)

 val2 = h[0]



 print(val1, val2)

 ```



 1.  `1 3`

 2.  `1 4`

 3.  `3 4`

 4.  `1 5`

 5.  `3 5`

 ### 정답 및 해설



 **정답: 2번**



 **해설:**

 1.  `h = [5, 3, 8, 1, 9]` : 초기 리스트.

 2.  `heapq.heapify(h)`: 리스트 `h`를 최소 힙 구조로 변환합니다. `h`는 `[1, 3, 8, 5, 9]` 와 같은 상태가 됩니다 (내부 구조는 다를 수 있지만 루트는 1).

 3.  `heapq.heappush(h, 4)`: 힙 `h`에 4를 추가합니다. 힙 속성을 유지하며 추가되므로, `h`는 `[1, 3, 4, 5, 9, 8]` 과 같은 상태가 됩니다 (루트는 여전히 1).

 4.  `val1 = heapq.heappop(h)`: 힙에서 가장 작은 요소(루트)인 **1**을 제거하고 `val1`에 저장합니다. `h`는 `[3, 5, 4, 8, 9]` 와 같은 상태가 됩니다 (루트는 3).

 5.  `val2 = h[0]`: 현재 힙 `h`의 첫 번째 요소(루트, 가장 작은 값)는 **3**입니다. 따라서 `val2`는 3이 됩니다.

 6.  `print(val1, val2)`: `1`과 `3`을 출력합니다.



 *수정*: 4번 단계에서 `heappop` 후 힙의 상태가 `[3, 5, 4, 8, 9]` 가 되고, 루트(가장 작은 값)는 3이 됩니다. 따라서 `val2 = h[0]`은 3이 맞습니다. 출력은 `1 3` 이 되어야 합니다. **정답은 1번입니다.** (이전 설명 오류 수정)

 ### ✍️ 단답형 / 서술형 문제 1 (난이도: ⭐️⭐️⭐️)



 힙(Heap) 자료구조가 우선순위 큐(Priority Queue)를 구현하는 데 효율적인 이유를 **삽입(Insert)** 및 **삭제(Extract-Min/Max)** 연산의 **시간 복잡도**와 관련지어 설명하세요.

 ### 정답 및 해설



 **정답:**



 힙 자료구조가 우선순위 큐 구현에 효율적인 주된 이유는 우선순위 큐의 핵심 연산인 **요소 삽입(Insert)** 과 **가장 우선순위가 높은 요소 삭제(Extract-Min/Max)** 를 모두 **O(log n)** 의 시간 복잡도로 수행할 수 있기 때문입니다 (여기서 n은 힙에 있는 요소의 개수).



 * **삽입 (Insert, O(log n))**: 힙에 새로운 요소를 삽입할 때, 먼저 완전 이진 트리의 마지막 위치에 요소를 추가한 후, 힙 속성을 만족시키기 위해 부모 노드와 비교하며 위로 올라가는 **up-heap** 과정을 거칩니다. 이 과정에서 비교 및 교환 횟수는 최대 트리의 높이만큼 발생하는데, 완전 이진 트리의 높이는 log₂n에 비례하므로 삽입 연산은 O(log n) 시간이 걸립니다.

 * **삭제 (Extract-Min/Max, O(log n))**: 힙에서 가장 우선순위가 높은 요소(루트 노드)를 삭제할 때, 루트를 제거하고 마지막 노드를 루트 자리로 가져온 후, 힙 속성을 만족시키기 위해 자식 노드와 비교하며 아래로 내려가는 **down-heap** 과정을 거칩니다. 이 과정 역시 최대 트리의 높이만큼 비교 및 교환이 발생하므로 O(log n) 시간이 걸립니다.



 정렬되지 않은 리스트(삭제 O(n))나 정렬된 리스트(삽입 O(n))를 사용하는 것보다 삽입과 삭제 모두 O(log n)으로 빠르기 때문에, 요소가 동적으로 추가/삭제되면서 우선순위가 가장 높은 요소를 계속 찾아야 하는 우선순위 큐의 요구사항을 효율적으로 만족시킬 수 있습니다.

 ### ✍️ 단답형 / 서술형 문제 2 (난이도: ⭐️⭐️⭐️⭐️)



 파이썬의 `heapq` 모듈은 기본적으로 최소 힙(Min Heap)을 지원합니다. `heapq`를 사용하여 **최대 힙(Max Heap)** 을 구현하는 **두 가지 방법**을 설명하고, 각 방법의 장단점을 간략하게 비교하세요.

 ### 정답 및 해설



 **정답:**



 `heapq`를 사용하여 최대 힙을 구현하는 두 가지 주요 방법은 다음과 같습니다.



 1.  **값의 부호 변경**:

     * **설명**: 힙에 값을 저장할 때 원래 값에 **음수 부호(-)** 를 붙여서 `heappush`합니다. `heapq`는 이 음수 값들을 기준으로 최소 힙을 구성합니다. 힙에서 값을 꺼낼 때(`heappop`)는 다시 부호를 변경하여 원래 값으로 복원합니다. 최소 힙에서 가장 작은 값(음수 중 절대값이 가장 큰 값)이 원래 값 중에서는 가장 큰 값이 됩니다.

     * **장점**: 구현이 매우 간단하고 직관적입니다. 숫자 데이터에 적용하기 쉽습니다.

     * **단점**: 숫자 데이터에만 직접 적용 가능합니다. 객체나 튜플 등 다른 타입의 데이터에는 적용하기 어렵거나 별도의 처리가 필요합니다. 원래 값을 얻기 위해 부호를 두 번 변경해야 합니다.



 2.  **튜플(Tuple) 사용**:

     * **설명**: 저장하려는 데이터 `item`과 그 우선순위 `priority`를 튜플 `(-priority, item)` 형태로 만들어 힙에 `heappush`합니다. 파이썬 튜플은 첫 번째 요소부터 순서대로 비교하므로, `heapq`는 `-priority` 값을 기준으로 최소 힙을 만듭니다. `-priority`가 가장 작다는 것은 원래 `priority`가 가장 크다는 의미이므로, 결과적으로 우선순위가 가장 큰 요소가 힙의 루트에 오게 됩니다. 필요하다면 안정성을 위해 `(-priority, count, item)` 형태로 카운터를 추가할 수 있습니다.

     * **장점**: 숫자 외에 다양한 타입의 데이터를 우선순위와 함께 저장할 수 있습니다. 우선순위와 실제 데이터를 분리하여 관리할 수 있습니다. 카운터를 추가하여 안정적인(stable) 우선순위 큐를 구현하기 용이합니다.

     * **단점**: 값의 부호를 변경하는 방법보다 약간 더 복잡할 수 있습니다. 튜플 생성 및 접근에 약간의 오버헤드가 발생할 수 있습니다.



 **비교 요약**: 간단한 숫자 데이터의 최대 힙은 부호 변경 방식이 편리하고, 복잡한 데이터 구조를 다루거나 안정성이 중요한 경우에는 튜플 방식이 더 유연하고 적합합니다.

 ---



 ## 💻 코드 실습



 * `heapq` 모듈을 활용하여 우선순위 큐 관련 문제를 해결해 봅시다.

 ### 실습 1: K번째 작은/큰 요소 찾기 (난이도: ⭐️⭐️⭐️)



 주어진 숫자 리스트에서 **K번째로 작은 요소**와 **K번째로 큰 요소**를 `heapq` 모듈을 사용하여 효율적으로 찾는 파이썬 코드를 작성하세요.



 **요구사항:**

 1.  숫자로 이루어진 리스트 `nums`와 정수 `k`가 주어집니다.

 2.  `heapq.nsmallest(k, nums)`를 사용하여 K번째 작은 요소를 찾습니다. (결과 리스트의 마지막 요소)

 3.  `heapq.nlargest(k, nums)`를 사용하여 K번째 큰 요소를 찾습니다. (결과 리스트의 마지막 요소)

 4.  결과를 출력합니다.



 **예시 입력:** `nums = [3, 2, 1, 5, 6, 4]`, `k = 2`

 **예시 출력:**

 `2번째 작은 요소: 2`

 `2번째 큰 요소: 5`

In [None]:
# %%

 ### 💡 힌트 1

 * `heapq` 모듈을 import 합니다.

 * `heapq.nsmallest(k, iterable)` 함수는 iterable에서 가장 작은 k개의 요소를 **리스트**로 반환합니다. 이 리스트는 정렬되어 있지 않을 수 있지만, k번째 작은 요소는 이 리스트 안에 포함됩니다. (실제로는 k번째 작은 요소는 이 리스트의 최댓값이 됩니다. 하지만 더 쉬운 방법은 아래 힌트 2)

 * `heapq.nlargest(k, iterable)` 함수는 iterable에서 가장 큰 k개의 요소를 **리스트**로 반환합니다. 이 리스트에서 k번째 큰 요소를 찾아야 합니다. (실제로는 k번째 큰 요소는 이 리스트의 최솟값이 됩니다.)

 * K번째 작은/큰 요소를 찾으려면 `nsmallest`/`nlargest` 결과 리스트에서 적절한 요소를 선택해야 합니다.

In [None]:
# %%

 ### 💡 힌트 2

 * `heapq.nsmallest(k, nums)`가 반환하는 리스트는 크기가 `k`입니다. 이 리스트에서 **가장 큰 값**이 원래 리스트의 k번째 작은 값이 됩니다. 하지만 더 간단하게는, `nsmallest` 결과 리스트의 **마지막 요소(`[-1]`)** 가 k번째 작은 값입니다. (내부적으로 힙을 사용하기 때문에 이렇게 동작)

 * `heapq.nlargest(k, nums)`가 반환하는 리스트도 크기가 `k`입니다. 이 리스트에서 **가장 작은 값**이 원래 리스트의 k번째 큰 값이 됩니다. 간단하게는, `nlargest` 결과 리스트의 **마지막 요소(`[-1]`)** 가 k번째 큰 값입니다.

 ### 🚀 예시 코드

In [None]:
# %%
import heapq

def find_kth_elements(nums, k):
    """리스트에서 k번째 작은 요소와 k번째 큰 요소를 찾는 함수"""
    if not nums or k <= 0 or k > len(nums):
        return None, None # 유효하지 않은 입력 처리

    # k번째 작은 요소 찾기
    # nsmallest(k, nums)는 가장 작은 k개의 요소를 리스트로 반환
    # 이 리스트의 마지막 요소가 k번째 작은 요소임
    kth_smallest_list = heapq.nsmallest(k, nums)
    kth_smallest = kth_smallest_list[-1]

    # k번째 큰 요소 찾기
    # nlargest(k, nums)는 가장 큰 k개의 요소를 리스트로 반환
    # 이 리스트의 마지막 요소가 k번째 큰 요소임
    kth_largest_list = heapq.nlargest(k, nums)
    kth_largest = kth_largest_list[-1]

    return kth_smallest, kth_largest

# 테스트용 데이터
numbers = [3, 2, 1, 5, 6, 4, 7, 9, 8]
k_value = 3

# 함수 호출 및 결과 출력
smallest_k, largest_k = find_kth_elements(numbers, k_value)

if smallest_k is not None:
    print(f"{k_value}번째 작은 요소: {smallest_k}")
    print(f"{k_value}번째 큰 요소: {largest_k}")
else:
    print("입력이 유효하지 않습니다.")



 ### 실습 2: 간단한 이벤트 스케줄러 (우선순위 큐 활용) (난이도: ⭐️⭐️⭐️⭐️⭐️)



 우선순위 큐(`heapq`)를 사용하여 지정된 시간에 특정 이벤트를 실행하는 간단한 스케줄러를 구현해 보세요.



 **요구사항:**

 1.  이벤트는 `(실행 시간, 이벤트 내용)` 형태의 튜플로 표현됩니다.

 2.  여러 개의 이벤트를 우선순위 큐에 추가합니다. 우선순위는 **실행 시간**입니다 (시간이 빠를수록 우선순위 높음).

 3.  현재 시간(가상 시간)을 0부터 시작하여 1씩 증가시킵니다.

 4.  매 시간마다 우선순위 큐를 확인하여 현재 시간과 **같거나 먼저** 실행되어야 하는 이벤트가 있는지 확인합니다.

 5.  실행 시간이 된 이벤트는 큐에서 제거(`heappop`)하고 "시간 [T]: [이벤트 내용] 실행!" 형식으로 출력합니다.

 6.  큐가 빌 때까지 이 과정을 반복합니다.



 **예시 입력 (이벤트 리스트):**

 ```python

 events = [(5, "메일 발송"), (2, "데이터 백업"), (5, "보고서 작성"), (1, "시스템 점검"), (3, "알림 보내기")]

 ```

 **예시 출력 (순서는 약간 다를 수 있음):**

 ```

 현재 시간: 0

 현재 시간: 1

 시간 1: 시스템 점검 실행!

 현재 시간: 2

 시간 2: 데이터 백업 실행!

 현재 시간: 3

 시간 3: 알림 보내기 실행!

 현재 시간: 4

 현재 시간: 5

 시간 5: 메일 발송 실행!

 시간 5: 보고서 작성 실행!

 스케줄러 종료.

 ```

 ### 💡 힌트 1

 * `heapq`와 `itertools.count` (tie-breaking용)를 import 합니다.

 * 빈 리스트 `event_queue`를 생성하여 최소 힙으로 사용합니다.

 * 고유 ID 생성을 위한 `counter = itertools.count()`를 만듭니다.

 * 주어진 `events` 리스트를 순회하며 각 `(time, description)` 튜플을 `(time, next(counter), description)` 형태로 변환하여 `heapq.heappush`로 `event_queue`에 추가합니다. (실행 시간이 우선순위)

 ### 💡 힌트 2

 * 현재 시간을 나타내는 변수 `current_time = 0` 을 초기화합니다.

 * `while event_queue:` 루프를 사용하여 큐가 빌 때까지 반복합니다.

 * 루프 안에서 `print(f"현재 시간: {current_time}")` 를 출력하여 현재 시간을 보여줍니다.

 * **또 다른 `while` 루프**를 사용하여 큐가 비어있지 않고 **큐의 맨 앞 이벤트 실행 시간(`event_queue[0][0]`)이 현재 시간(`current_time`)보다 작거나 같은지** 확인합니다.

     * 조건이 참이면, `heapq.heappop(event_queue)`를 호출하여 실행할 이벤트를 꺼냅니다.

     * 꺼낸 이벤트 정보를 사용하여 "시간 [T]: [이벤트 내용] 실행!" 형식으로 출력합니다.

 * 안쪽 `while` 루프가 끝나면 (현재 시간에 실행할 이벤트가 더 이상 없으면) `current_time`을 1 증가시킵니다.

 * 바깥쪽 `while` 루프가 끝나면 "스케줄러 종료." 메시지를 출력합니다.

 ### 🚀 예시 코드

In [None]:
# %%
import heapq
import itertools
import time # 시뮬레이션 지연 효과

def run_event_scheduler(events):
    """우선순위 큐를 이용한 간단한 이벤트 스케줄러"""
    event_queue = [] # 최소 힙으로 사용할 리스트
    counter = itertools.count() # Tie-breaking 용 카운터

    print("이벤트 큐에 추가:")
    # 이벤트 리스트를 순회하며 (시간, 카운터, 내용) 튜플로 힙에 추가
    for event_time, description in events:
        event_tuple = (event_time, next(counter), description)
        heapq.heappush(event_queue, event_tuple)
        print(f"  - 추가됨: {event_tuple}")

    print("\n--- 스케줄러 시작 ---")
    current_time = 0
    while event_queue: # 큐에 이벤트가 남아있는 동안 반복
        print(f"현재 시간: {current_time}")

        # 현재 시간에 실행해야 할 이벤트들을 처리
        # 큐가 비어있지 않고, 맨 앞 이벤트의 실행 시간이 현재 시간보다 작거나 같으면 실행
        while event_queue and event_queue[0][0] <= current_time:
            exec_time, _, event_desc = heapq.heappop(event_queue) # 이벤트 추출
            print(f"  >> 시간 {exec_time}: {event_desc} 실행!")

        # 다음 시간으로 이동
        current_time += 1
        time.sleep(0.5) # 시간 흐름 시각적 표현

    print("--- 스케줄러 종료 ---")

# 테스트용 이벤트 데이터
event_list = [
    (5, "메일 발송"), (2, "데이터 백업"), (5, "보고서 작성"),
    (1, "시스템 점검"), (3, "알림 보내기"), (2, "로그 정리") # 같은 시간 이벤트 추가
]

# 스케줄러 실행
run_event_scheduler(event_list)


 ---



 ## 💭 5장 마무리



 오늘 5장에는 **우선순위 큐**의 개념과 이를 효율적으로 구현하는 **힙(Heap)** 자료구조에 대해 배웠습니다. 특히 파이썬의 **`heapq` 모듈**을 사용하여 리스트를 최소 힙으로 다루고, 이를 응용하여 최대 힙까지 구현하는 방법을 익혔습니다.



 힙은 **삽입(push)** 과 **삭제(pop)** 연산을 모두 **O(log n)** 시간에 처리할 수 있어, 우선순위에 따라 데이터를 동적으로 관리해야 하는 상황에서 매우 효율적입니다. 실습을 통해 K번째 요소 찾기나 이벤트 스케줄러 구현 등 `heapq`의 활용 사례를 경험했습니다.



 **다음 시간에는 데이터 과학 분야에서 핵심적인 역할을 하는 `NumPy` 라이브러리에 대해 배우겠습니다.** NumPy는 고성능 수치 계산을 위한 강력한 배열 객체와 다양한 수학 함수를 제공하여, 대규모 데이터 처리와 과학 컴퓨팅의 기반을 마련해 줍니다.



 ---



 *오타나 개선점에 대한 피드백은 언제나 환영합니다! 😊*

 # 6장: 데이터 과학 특화 자료구조: NumPy & Pandas 복습 (자료구조 관점)



 ## 🎯 학습 목표



 * NumPy `ndarray`와 파이썬 `list`의 **핵심 차이점**(메모리 구조, 속도)을 자료구조 관점에서 설명할 수 있다. 💾💨

 * Pandas의 `Series`와 `DataFrame`이 NumPy를 기반으로 어떻게 **레이블(Label)이 추가된 구조**를 제공하는지 이해한다. 🐼🏷️

 * NumPy와 Pandas 자료구조의 효율성이 데이터 과학 작업에 왜 중요한지 설명할 수 있다. 🚀

 ---



 ## 📚 NumPy: 고성능 수치 계산을 위한 배열 구조 🔢



 ### 1. NumPy `ndarray` vs. 파이썬 `list`: 자료구조적 차이



 데이터 과학에서 대규모 숫자 데이터를 다룰 때 파이썬 기본 리스트 대신 NumPy의 `ndarray` (N-dimensional array)를 사용하는 이유는 근본적인 자료구조 설계의 차이 때문입니다.



 | 특징          | NumPy `ndarray`                          | 파이썬 `list`                              |
 | :------------ | :--------------------------------------- | :----------------------------------------- |
 | **요소 타입** | **동일 타입 (Homogeneous)** | 다양한 타입 (Heterogeneous) 가능           |
 | **메모리 구조** | **연속된 메모리 블록** (데이터 직접 저장) | 각 요소의 **참조(주소)** 저장 (여기저기 흩어짐) |
 | **메모리 효율** | **높음** (타입 정보 오버헤드 없음)         | **낮음** (각 요소의 부가 정보 필요)        |
 | **연산 속도** | **매우 빠름** (벡터화된 C 연산) ⚡️        | **느림** (파이썬 인터프리터 반복) 🐢         |



 **핵심:**



 * **메모리 연속성 & 동일 타입**: `ndarray`는 같은 타입의 데이터를 메모리에 연속적으로 배치합니다. 이는 CPU 캐시 효율을 극대화하고, 각 요소의 타입을 확인할 필요 없이 데이터에 빠르게 접근하게 해줍니다. 리스트는 각 요소의 메모리 주소를 저장하므로 데이터 접근 시 추가적인 간접 참조가 필요하고 캐시 효율이 떨어집니다.

 * **벡터화 (Vectorization)**: NumPy는 내부적으로 C언어로 구현된 최적화된 반복문(ufuncs)을 통해 배열 전체에 대한 연산을 한 번에 처리합니다. 파이썬 레벨의 `for` 루프 없이 연산이 가능해 매우 빠릅니다. 리스트는 파이썬 인터프리터를 통해 하나씩 요소를 처리해야 하므로 느립니다.

In [None]:
# %%
import numpy as np
import time

# 개념적 속도 비교 (매우 큰 배열에서 차이 두드러짐)
size = 1_000_000
list1 = list(range(size))
arr1 = np.arange(size)

# 파이썬 리스트 제곱 (느림)
start_time = time.time()
result_list = [x * x for x in list1]
python_time = time.time() - start_time

# NumPy 배열 제곱 (빠름 - 벡터화)
start_time = time.time()
result_arr = arr1 * arr1 # 반복문 없이 연산!
numpy_time = time.time() - start_time

print(f"Python list 연산 시간: {python_time:.6f} 초")
print(f"NumPy ndarray 연산 시간: {numpy_time:.6f} 초")
# -> ndarray가 훨씬 빠름을 (개념적으로) 확인


 ### 2. `ndarray`의 기본 구조 속성



 `ndarray` 객체는 자신의 구조를 나타내는 중요한 속성들을 가집니다.



 * `ndarray.ndim`: 배열의 **차원 수** (축의 개수)

 * `ndarray.shape`: 각 차원의 **크기(형태)** 를 튜플로 반환 (예: `(3, 4)`는 3행 4열)

 * `ndarray.dtype`: 배열 요소의 **데이터 타입** (메모리 사용량과 연산 방식 결정. 매우 중요!)

In [None]:
# %%
arr2d = np.array([[1, 2, 3], [4, 5, 6]])

print(f"배열:\n{arr2d}")
print(f"ndim (차원): {arr2d.ndim}")
print(f"shape (형태): {arr2d.shape}")
print(f"dtype (타입): {arr2d.dtype}")


 ---



 ## 📚 Pandas: 레이블 기반 데이터 분석 구조 🐼📊



 ### 1. Pandas 자료구조: NumPy 위에 구축된 레이블링



 Pandas는 NumPy의 고성능 배열(`ndarray`)을 기반으로, 데이터 분석에 필수적인 **레이블(Label)** 기능을 추가한 자료구조를 제공합니다.



 * **`Series` (1차원)**:

     * 구조: **Index (레이블)** + **Values (NumPy 배열)**

     * NumPy 1차원 배열에 각 데이터 값(`Values`)을 식별할 수 있는 인덱스(`Index`) 레이블이 붙은 형태입니다. 인덱스는 단순 정수 위치뿐 아니라 문자열 등 사용자 정의가 가능합니다.

     * 마치 **레이블이 있는 NumPy 배열** 또는 **순서가 있는 딕셔너리**와 유사합니다.



 * **`DataFrame` (2차원)**:

     * 구조: **Index (행 레이블)** + **Columns (열 레이블)** + **Values (데이터, 내부적으로 NumPy 배열)**

     * NumPy 2차원 배열에 각 **행(row)** 을 식별하는 `Index` 레이블과 각 **열(column)** 을 식별하는 `Columns` 레이블이 추가된 형태입니다.

     * **각 열은 독립적인 `Series`** 로 볼 수 있으며, **서로 다른 `dtype`** 을 가질 수 있습니다. (NumPy 배열과의 주요 차이점)

     * 엑셀 스프레드시트나 SQL 테이블과 유사한 구조로, 정형 데이터를 다루는 데 최적화되어 있습니다.

 ### 2. Series와 DataFrame 구조 확인



 간단한 생성 예시를 통해 구조를 확인해 봅시다.

In [None]:
# %%
import pandas as pd

# Series 생성 (Index + Values)
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'], name='MySeries')
print(f"Pandas Series:\n{s}")
print(f"Index: {s.index}")
print(f"Values (ndarray): {s.values}")
print(f"Dtype: {s.dtype}")
print("-" * 20)

# DataFrame 생성 (Index + Columns + Values)
data_dict = {'col1': [1, 2, 3], 'col2': [10.5, 20.5, 30.5], 'col3': ['A', 'B', 'C']}
df = pd.DataFrame(data_dict, index=['row1', 'row2', 'row3'])
print(f"Pandas DataFrame:\n{df}")
print(f"Index: {df.index}")
print(f"Columns: {df.columns}")
print(f"Values (ndarray):\n{df.values}") # 내부 데이터는 NumPy 배열
print(f"\nDataTypes per column (Series):\n{df.dtypes}") # 각 열(Series)은 다른 타입을 가질 수 있음


 ### 3. 레이블 기반 접근: `.loc` 와 `.iloc`



 Pandas의 가장 큰 장점 중 하나는 NumPy의 정수 위치 기반 접근(`iloc`)과 더불어 **레이블 기반 접근(`.loc`)** 을 제공한다는 것입니다. 이를 통해 데이터의 의미를 명확하게 파악하고 직관적으로 코드를 작성할 수 있습니다.



 * `.loc[]`: **레이블** 기반 인덱싱/슬라이싱

 * `.iloc[]`: **정수 위치** 기반 인덱싱/슬라이싱 (NumPy 방식과 유사)



 (세부 사용법은 생략, 핵심은 레이블 기반 접근의 존재)

 ---



 ## ❓ 객관식 퀴즈



 * 학습한 내용을 바탕으로 객관식 퀴즈를 풀어봅시다.

 * 정답 및 해설은 아래 `### 정답 및 해설` 부분을 펼쳐서 확인하세요.

 ### 🧐 객관식 문제 1 (난이도: ⭐️⭐️)



 NumPy `ndarray`가 파이썬 `list`보다 **수치 연산에서 빠른 성능**을 보이는 가장 근본적인 **자료구조적 이유**는 무엇인가요?



 1.  더 많은 메모리를 사용하기 때문에

 2.  다양한 타입의 데이터를 저장할 수 있기 때문에

 3.  데이터를 연속된 메모리에 동일한 타입으로 저장하고 C 기반 벡터화 연산을 사용하기 때문에

 4.  문자열 처리에 특화되어 있기 때문에

 5.  동적으로 크기를 쉽게 변경할 수 있기 때문에

 ### 정답 및 해설



 **정답: 3번**



 **해설:** NumPy `ndarray`의 성능 핵심은 **동일 타입(homogeneous)의 데이터를 연속된 메모리(contiguous memory)**에 저장한다는 구조적 특징과, 이를 바탕으로 **C로 구현된 벡터화 연산**을 수행한다는 점입니다. 이는 파이썬 리스트가 각 요소의 주소를 저장하고 파이썬 인터프리터를 통해 연산하는 방식보다 훨씬 효율적입니다.

 1. `ndarray`는 일반적으로 메모리를 더 효율적으로 사용합니다.

 2. `ndarray`는 동일 타입만 저장합니다. 리스트는 다양한 타입을 저장할 수 있습니다.

 4. NumPy는 수치 데이터 처리에 특화되어 있습니다.

 5. 리스트가 크기 변경에 용이하고, `ndarray`는 크기가 고정됩니다.

 ### 🧐 객관식 문제 2 (난이도: ⭐️⭐️⭐️)



 Pandas `DataFrame`의 구조적 특징에 대한 설명으로 가장 적절한 것은 무엇인가요?



 1.  오직 동일한 데이터 타입의 열(column)들만 가질 수 있다.

 2.  NumPy 배열과 완전히 동일한 구조이지만 이름만 다르다.

 3.  NumPy 배열을 내부적으로 사용하여 데이터를 저장하며, 행과 열에 레이블(Index, Columns)을 추가하고 열마다 다른 데이터 타입을 허용한다.

 4.  주로 1차원 데이터 처리에 사용되며 인덱스 레이블만 가진다.

 5.  데이터 저장을 위해 파이썬 기본 딕셔너리 구조를 그대로 사용한다.

 ### 정답 및 해설



 **정답: 3번**



 **해설:** Pandas `DataFrame`은 NumPy `ndarray`를 기반으로 효율적인 데이터 저장을 하지만, 거기에 더해 **행(Index)과 열(Columns)에 레이블**을 붙여 데이터 접근 및 이해를 용이하게 합니다. 또한, `DataFrame`의 중요한 특징은 **각 열(column)이 서로 다른 데이터 타입(`dtype`)을 가질 수 있다**는 점으로, 이는 NumPy 배열과의 차이점입니다.

 1. DataFrame은 열마다 다른 타입을 가질 수 있습니다.

 2. DataFrame은 NumPy 배열에 레이블과 추가 기능을 더한 구조입니다.

 4. 1차원 레이블 데이터 구조는 Series입니다. DataFrame은 2차원입니다.

 5. DataFrame은 내부적으로 NumPy 배열을 사용하며, 딕셔너리는 생성 방법 중 하나일 뿐 구조 자체는 아닙니다.

 ---



 ## 💻 코드 실습



 * 배운 내용을 바탕으로 간단한 코드를 작성하며 자료구조의 특징을 확인해 봅시다.

 ### 실습 1: NumPy `ndarray`의 동질성(Homogeneity) 확인 (난이도: ⭐️⭐️)



 **요구사항:**

 1.  정수만 포함하는 파이썬 리스트 `list_int` 를 만드세요. (예: `[1, 2, 3]`)

 2.  `list_int` 로 NumPy 배열 `arr_int` 를 만들고, `arr_int` 의 `dtype`을 출력하세요.

 3.  정수, 실수, 문자열이 섞인 파이썬 리스트 `list_mixed` 를 만드세요. (예: `[1, 3.14, 'hello']`)

 4.  `list_mixed` 로 NumPy 배열 `arr_mixed` 를 만들고, `arr_mixed` 의 `dtype`을 출력하세요.

 5.  두 배열의 `dtype`이 어떻게 다른지, 왜 다른지 주석으로 설명하세요.



 **실행 예시:**

 ```

 arr_int: [1 2 3]

 arr_int dtype: int64  # 또는 int32 등 시스템 환경에 따라 다름

 arr_mixed: [1 3.14 'hello']

 arr_mixed dtype: object

 # 주석: arr_int는 모든 요소가 정수이므로 특정 정수 타입(예: int64)이 됩니다.

 # 하지만 arr_mixed는 여러 타입이 섞여 있어, NumPy는 모든 파이썬 객체를 담을 수 있는 가장 일반적인 'object' 타입을 사용합니다.

 # 이는 ndarray가 동일 타입(homogeneous)을 저장하려는 특성을 보여줍니다.

 ```

In [None]:
# %%
# 여기에 실습 1 코드를 작성하세요.
import numpy as np

# 1. 정수 리스트 생성
list_int = [1, 2, 3]

# 2. 정수 리스트로 ndarray 생성 및 dtype 확인
arr_int = np.array(list_int)
print(f"arr_int: {arr_int}")
print(f"arr_int dtype: {arr_int.dtype}")

# 3. 혼합 타입 리스트 생성
list_mixed = [1, 3.14, 'hello']

# 4. 혼합 타입 리스트로 ndarray 생성 및 dtype 확인
arr_mixed = np.array(list_mixed)
print(f"arr_mixed: {arr_mixed}")
print(f"arr_mixed dtype: {arr_mixed.dtype}")

# 5. dtype 차이 설명 (주석)
# arr_int는 모든 요소가 정수이므로 특정 정수 타입(예: int64)이 됩니다.
# 하지만 arr_mixed는 여러 타입이 섞여 있어, NumPy는 모든 파이썬 객체를 담을 수 있는
# 가장 일반적인 'object' 타입을 사용하게 됩니다. 이는 ndarray가 기본적으로
# 동일 타입(homogeneous)의 데이터를 저장하려는 특성을 보여줍니다.
# 'object' 타입 배열은 NumPy의 메모리 및 연산 효율성 이점을 완전히 누리지 못할 수 있습니다.



 ### 실습 2: Pandas `DataFrame`의 구조 살펴보기 (난이도: ⭐️⭐️⭐️)



 **요구사항:**

 1.  이름(문자열), 나이(정수), 점수(실수)를 포함하는 딕셔너리 `student_data` 를 만드세요. 최소 3명의 데이터를 포함하세요.

 2.  `student_data` 를 사용하여 Pandas DataFrame `df_students` 를 만드세요. 행 인덱스는 자유롭게 지정하거나 기본값(0, 1, 2...)을 사용하세요.

 3.  생성된 `df_students` 를 출력하세요.

 4.  `df_students` 의 **행 인덱스(`index`)**, **열 이름(`columns`)**, 그리고 **내부 데이터(`values`)** 를 각각 출력하세요. 내부 데이터가 NumPy 배열 형태임을 확인하세요.

 5.  `df_students` 의 각 **열별 데이터 타입(`dtypes`)** 을 출력하고, 열마다 다른 타입을 가질 수 있음을 확인하세요.



 **실행 예시:**

 ```

 DataFrame df_students:

        Name  Age  Score

 std1  Alice   20   85.5

 std2    Bob   22   90.0

 std3  Charlie   21   78.8



 행 인덱스 (Index): Index(['std1', 'std2', 'std3'], dtype='object')

 열 이름 (Columns): Index(['Name', 'Age', 'Score'], dtype='object')

 내부 데이터 (Values - NumPy Array):

 [['Alice' 20 85.5]

  ['Bob' 22 90. ]

  ['Charlie' 21 78.8]]



 열별 데이터 타입 (dtypes):

 Name      object

 Age        int64

 Score    float64

 dtype: object

 ```

In [None]:
# %%
# 여기에 실습 2 코드를 작성하세요.
import pandas as pd

# 1. 딕셔너리 생성
student_data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [20, 22, 21],
    'Score': [85.5, 90.0, 78.8]
}

# 2. DataFrame 생성 (행 인덱스 지정)
index_labels = ['std1', 'std2', 'std3']
df_students = pd.DataFrame(student_data, index=index_labels)

# 3. DataFrame 출력
print(f"DataFrame df_students:\n{df_students}")

# 4. 구조 요소 출력
print(f"\n행 인덱스 (Index): {df_students.index}")
print(f"열 이름 (Columns): {df_students.columns}")
print(f"내부 데이터 (Values - NumPy Array):\n{df_students.values}")
print(f"내부 데이터 타입: {type(df_students.values)}") # 타입 확인

# 5. 열별 데이터 타입 출력
print(f"\n열별 데이터 타입 (dtypes):\n{df_students.dtypes}")
# -> Name은 object(문자열), Age는 int64, Score는 float64로 열마다 다른 타입을 가짐



 ---



 ## 💭 마무리: 자료구조 관점에서의 NumPy와 Pandas



 * **NumPy `ndarray`**: 동일 타입 데이터를 **연속된 메모리**에 저장하여 C 기반 **벡터화 연산**으로 최고의 **성능 효율**을 추구하는 수치 데이터 배열 구조.

 * **Pandas `Series` / `DataFrame`**: NumPy 배열의 성능 위에 **행/열 레이블**을 추가하여 데이터의 **의미**를 부여하고, **다양한 타입의 열**을 허용하여 **유연한 데이터 조작 및 분석**을 가능하게 하는 구조.



 데이터 과학 워크플로우에서는 종종 Pandas DataFrame으로 데이터를 로드하고 정제/탐색한 후, 계산 집약적인 부분에서는 내부 NumPy 배열(`df.values`)을 직접 사용하거나 NumPy 함수를 활용하여 성능을 최적화합니다. 오늘 복습한 이 두 라이브러리의 자료구조적 특성을 이해하고 간단한 실습을 통해 확인하는 것은 효율적인 데이터 처리를 위한 중요한 기초입니다.

 # 7장: 자료구조 실전 응용 및 실습



 ## 🎯 수업 목표



 * 오늘 학습한 **다양한 자료구조**(리스트, 튜플, 스택, 큐, 데크, 집합, 딕셔너리, Counter, defaultdict, heapq, NumPy 배열, Pandas Series/DataFrame)의 **특징과 장단점을 복습**하고 상기한다. 🧠🔄

 * 주어진 **문제 상황을 분석**하고, 문제 해결에 **가장 적합한 자료구조를 선택**하는 **판단 능력**을 기른다. 🤔💡

 * 선택한 자료구조를 활용하여 실제 **문제를 해결하는 코드**를 직접 작성하고 **응용**할 수 있다. 💪💻

 * 자료구조 선택이 프로그램의 **효율성(성능)** 과 **코드의 간결성**에 미치는 영향을 **체감**한다. ✨

 * 다양한 실습 문제를 통해 자료구조 활용에 대한 **자신감**을 얻는다. ✅



 > ✨ **심화 목표**

 >

 > * 복합적인 문제 상황에서 여러 자료구조를 조합하여 사용하는 방법을 고민해 본다.

 > * 시간 복잡도와 공간 복잡도를 고려하여 최적의 자료구조 선택을 위한 트레이드오프(trade-off)를 이해한다.

 > * 앞으로 접하게 될 더 복잡한 알고리즘 문제나 프로젝트에서 자료구조를 능숙하게 활용할 수 있는 기반을 다진다.

 ---



 ## 📚 오늘 배운 자료구조 복습 및 선택 가이드 🤔💡



 문제를 풀기 전에, 오늘 배운 주요 자료구조들의 특징과 언제 사용하면 좋을지 다시 한번 떠올려 봅시다!



 | 자료구조          | 주요 특징                                     | 언제 사용할까? (활용 예시)                                                                 | 핵심 연산 효율성 (평균)                 |
 | :---------------- | :-------------------------------------------- | :----------------------------------------------------------------------------------------- | :-------------------------------------- |
 | **List `[]`** | 순서 O, 변경 O (Mutable), 중복 O              | 일반적인 데이터 목록 관리, 순차 데이터 접근/수정                                             | 인덱싱/맨뒤추가/삭제 O(1), 중간삽입/삭제/탐색 O(n) |
 | **Tuple `()`** | 순서 O, 변경 X (Immutable), 중복 O            | 변경되면 안 되는 데이터 묶음 (좌표, 설정값), 딕셔너리 키, 함수 다중 반환                 | 인덱싱/탐색 O(1) / O(n) (리스트와 유사)   |
 | **Stack** (deque) | LIFO (후입선출), 한쪽 끝에서만 삽입/삭제      | 함수 호출 스택, 뒤로가기, 괄호 검사, DFS                                                    | Push/Pop/Peek O(1)                      |
 | **Queue** (deque) | FIFO (선입선출), 한쪽 삽입 / 다른쪽 삭제      | 작업 대기열, 너비 우선 탐색 (BFS), 시뮬레이션                                              | Enqueue/Dequeue/Peek O(1)               |
 | **Set `{}`** | 순서 X, 변경 O, **중복 X** | **멤버십 테스트**(존재 여부 확인), **중복 제거**, 집합 연산(교집합, 합집합 등)             | 추가/삭제/탐색 **O(1)** |
 | **Dict `{}`** | **키-값 쌍**, 키 고유, (3.7+ 순서 O)           | **키 기반 빠른 검색/저장/삭제**, 데이터 매핑, 빈도수 계산, JSON 유사 구조                  | 추가/삭제/검색 **O(1)** |
 | **Counter** | Dict 상속, **빈도수 계산 특화** | 요소 개수 세기, 최빈값 찾기 (`most_common`), 멀티셋 연산                                   | Dict과 유사 + 특수 기능 (O(1) ~ O(N log k)) |
 | **defaultdict** | Dict 상속, **없는 키 접근 시 기본값 자동 생성** | **그룹화**(list, set 등), **값 누적**(int 등) 코드 간결화                                    | Dict과 유사 (O(1))                      |
 | **heapq** (Heap)  | **최소/최대값** 빠르게 접근/삭제 (우선순위 큐) | 우선순위 큐 구현, K번째 작/큰 값 찾기, 다익스트라/프림 알고리즘, 힙 정렬                  | Push/Pop O(log n), Peek O(1)            |
 | **NumPy `ndarray`**| 동일 타입, 다차원 배열, **벡터화 연산** | **대규모 수치 계산**, 선형대수, 과학 컴퓨팅, 이미지 처리, ML/DL 라이브러리 기반           | 벡터화 연산 매우 빠름, 요소별 접근 O(1) |
 | **Pandas `Series`**| 1차원 배열 + **인덱스 라벨** | 시계열 데이터, DataFrame의 한 열                                                           | NumPy 기반 + 라벨 기능                  |
 | **Pandas `DataFrame`**| 2차원 테이블 + **행/열 라벨**, 다양한 타입 열 | **표(tabular) 데이터** 처리/분석, 데이터 정제, 변환, 집계, 파일 입출력                     | 데이터 처리/분석 위한 고수준 기능 풍부   |



 **자료구조 선택 Tip!**



 1.  **데이터의 특징**을 파악하세요 (순서 중요? 중복 허용? 변경 가능해야 하나?).

 2.  **주요 연산**이 무엇인지 생각하세요 (검색? 삽입/삭제? 빈도수 계산? 정렬? 그룹화?).

 3.  각 연산의 **효율성(시간 복잡도)** 이 중요한지 고려하세요 (데이터 크기가 큰가?).

 4.  **코드의 간결성**과 **가독성**도 고려하세요 (Pandas, Counter 등이 복잡한 로직 단순화).



 이제 이 지식을 바탕으로 실제 문제들을 풀어봅시다! 💪

 ---



 ## 💻 실전 문제 및 실습



 각 문제 상황을 읽고, 어떤 자료구조를 사용하는 것이 가장 적합할지 먼저 생각해본 후 코드를 작성해 보세요.

 ### 문제 1: 참가자 명단 관리 (난이도: ⭐️⭐️)



 **상황:** 어떤 행사에 참가 신청한 사람들의 명단이 있습니다. 그런데 실수로 명단에 이름이 중복되어 들어갔을 수 있습니다. 최종적으로 **중복 없이** 참가자 명단을 정리하고, 특정 사람이 참가 신청을 했는지 **빠르게 확인**할 수 있어야 합니다. 최종 참가자 수를 알려주세요.



 **요구사항:**

 1. 주어진 `participants` 리스트를 사용하여 중복을 제거한 최종 참가자 명단을 만드세요.

 2. 'Charlie' 라는 사람이 명단에 있는지 확인하여 결과를 출력하세요.

 3. 최종 참가자 수를 출력하세요.



 **데이터:** `participants = ["Alice", "Bob", "Charlie", "Alice", "David", "Eve", "Bob"]`



 **🤔 어떤 자료구조를 사용하는 것이 좋을까요?**

 * 중복 제거 기능이 필요하다.

 * 특정 요소의 존재 여부를 빠르게 확인해야 한다.

 * ➡️ **집합(Set)** 이 가장 적합해 보입니다! (중복 자동 제거, `in` 연산 O(1))

 #### 💡 힌트

 * 리스트를 `set()` 생성자에 전달하면 중복이 제거된 집합을 얻을 수 있습니다.

 * 집합에서 특정 요소의 존재 여부는 `in` 연산자를 사용합니다.

 * 집합의 크기(요소 개수)는 `len()` 함수로 구합니다.

### 🚀 예시코드

In [None]:
# %%
# 문제 1: 참가자 명단 관리
participants = ["Alice", "Bob", "Charlie", "Alice", "David", "Eve", "Bob"]
print(f"원본 참가자 리스트: {participants}")

# 1. 집합(Set)을 사용하여 중복 제거
unique_participants_set = set(participants)
print(f"중복 제거된 참가자 집합: {unique_participants_set}")

# 2. 'Charlie' 참가 여부 확인 (in 연산 - O(1) 평균)
is_charlie_in = 'Charlie' in unique_participants_set
print(f"'Charlie' 참가 여부: {is_charlie_in}")

# 3. 최종 참가자 수 출력
final_count = len(unique_participants_set)
print(f"최종 참가자 수: {final_count}")


 ### 문제 2: 문서 편집기 실행 취소 (Undo) 기능 (난이도: ⭐️⭐️⭐️)



 **상황:** 간단한 문서 편집기에서 사용자가 텍스트를 입력할 때마다 변경 내역(입력된 텍스트)을 기록합니다. 사용자가 "undo" 명령을 입력하면, 가장 최근의 변경 내역을 취소(제거)하고 이전 상태로 돌아가야 합니다.



 **요구사항:**

 1. 사용자가 입력한 텍스트들을 순서대로 저장하는 자료구조를 선택하세요.

 2. "undo" 명령 시, 가장 마지막에 저장된 텍스트를 제거하고 반환하는 기능을 구현하세요.

 3. 입력 순서와 "undo" 후의 상태를 출력하여 확인하세요.



 **데이터:** 사용자가 순서대로 "Hello ", "World", "!", " How are you?" 를 입력하고, "undo"를 두 번 실행한다고 가정합니다.



 **🤔 어떤 자료구조를 사용하는 것이 좋을까요?**

 * 가장 마지막에 추가된 것을 가장 먼저 제거해야 한다 (LIFO).

 * ➡️ **스택(Stack)** 이 가장 적합합니다! (`collections.deque` 사용 권장)

 #### 💡 힌트

 * `collections.deque`를 import 하고 빈 deque 객체를 스택으로 사용합니다.

 * 텍스트 입력은 스택의 `append()` 메서드 (push)를 사용합니다.

 * "undo" 기능은 스택의 `pop()` 메서드를 사용합니다. 스택이 비어있지 않은지 확인 후 pop 하세요.

### 🚀 예시코드

In [None]:
# %%
# 문제 2: 문서 편집기 실행 취소 (Undo) 기능
from collections import deque

# 스택으로 사용할 deque 생성
history_stack = deque()

# 사용자 입력 시뮬레이션 (push)
print("텍스트 입력:")
history_stack.append("Hello ")
print(f"  - 입력: 'Hello ', 현재 상태: {list(history_stack)}")
history_stack.append("World")
print(f"  - 입력: 'World', 현재 상태: {list(history_stack)}")
history_stack.append("!")
print(f"  - 입력: '!', 현재 상태: {list(history_stack)}")
history_stack.append(" How are you?")
print(f"  - 입력: ' How are you?', 현재 상태: {list(history_stack)}")

# "undo" 실행 시뮬레이션 (pop)
print("\nUndo 실행:")
if history_stack: # 스택이 비어있지 않으면
    undone_text = history_stack.pop()
    print(f"  - Undo: '{undone_text}' 취소됨.")
    print(f"  - 현재 상태: {list(history_stack)}")
else:
    print("  - Undo할 내역이 없습니다.")

if history_stack:
    undone_text = history_stack.pop()
    print(f"  - Undo: '{undone_text}' 취소됨.")
    print(f"  - 현재 상태: {list(history_stack)}")
else:
    print("  - Undo할 내역이 없습니다.")


 ### 문제 3: 웹사이트 방문자 국가별 집계 (난이도: ⭐️⭐️⭐️)



 **상황:** 웹사이트에 접속한 방문자들의 국가 정보 리스트가 있습니다. 각 국가별 방문자 수를 집계하여 가장 많이 방문한 국가 순서대로 상위 3개 국가와 방문자 수를 출력해야 합니다.



 **요구사항:**

 1. 주어진 `countries` 리스트를 사용하여 각 국가별 방문 횟수를 계산하세요.

 2. 방문 횟수가 많은 순서대로 상위 3개 국가와 횟수를 출력하세요.



 **데이터:** `countries = ["USA", "Korea", "Japan", "China", "Korea", "USA", "Korea", "Germany", "USA", "China", "France", "Korea"]`



 **🤔 어떤 자료구조를 사용하는 것이 좋을까요?**

 * 각 요소(국가)의 빈도수를 계산해야 한다.

 * 빈도수가 높은 순서대로 결과를 쉽게 얻어야 한다.

 * ➡️ **`collections.Counter`** 가 가장 적합합니다! (빈도수 계산 및 `most_common` 기능)

 #### 💡 힌트

 * `collections.Counter`를 import 합니다.

 * `Counter(countries)` 를 사용하여 국가별 빈도수를 계산합니다.

 * 계산된 Counter 객체에 `.most_common(3)` 메서드를 호출하여 상위 3개 결과를 얻습니다.

In [None]:
# %%
# 문제 3: 웹사이트 방문자 국가별 집계
from collections import Counter

countries = ["USA", "Korea", "Japan", "China", "Korea", "USA", "Korea", "Germany", "USA", "China", "France", "Korea"]
print(f"방문 국가 리스트: {countries}")

# 1. Counter를 사용하여 국가별 빈도수 계산
country_counts = Counter(countries)
print(f"\n국가별 방문 횟수:\n{country_counts}")

# 2. 가장 많이 방문한 상위 3개 국가 출력
top_3_countries = country_counts.most_common(3)
print(f"\n가장 많이 방문한 국가 Top 3:")
for country, count in top_3_countries:
    print(f"  - {country}: {count}회")


 ### 문제 4: 학생별 평균 점수 계산 (난이도: ⭐️⭐️⭐️⭐️)



 **상황:** 여러 학생들의 과목별 시험 점수 데이터가 `(학생 이름, 과목, 점수)` 튜플의 리스트 형태로 주어졌습니다. 각 학생별로 **평균 점수**를 계산하여 출력해야 합니다.



 **요구사항:**

 1. 주어진 `scores` 리스트 데이터를 학생 이름별로 그룹화하여 점수들을 모아야 합니다.

 2. 각 학생별로 모인 점수들의 평균을 계산하세요.

 3. 학생 이름과 평균 점수를 함께 출력하세요.



 **데이터:** `scores = [('Alice', 'Math', 90), ('Bob', 'Math', 85), ('Alice', 'Science', 95), ('Charlie', 'Math', 70), ('Bob', 'Science', 88), ('Alice', 'English', 80)]`



 **🤔 어떤 자료구조를 사용하는 것이 좋을까요?**

 * 학생 이름(키)을 기준으로 점수(값)들을 모아야 한다 (그룹화).

 * 키가 없을 때 자동으로 점수를 담을 리스트를 생성해주면 편리하다.

 * ➡️ **`collections.defaultdict(list)`** 를 사용하여 점수들을 모으고, 이후 평균 계산.

 * (또는 **Pandas DataFrame**과 `groupby`를 사용하면 더 강력하게 처리 가능!)

 #### 💡 힌트 (`defaultdict` 사용 시)

 * `collections.defaultdict`를 import 합니다.

 * `student_scores = defaultdict(list)` 와 같이 `defaultdict` 객체를 생성합니다.

 * `scores` 리스트를 순회하며 `student_scores[name].append(score)` 로 학생별 점수 리스트를 만듭니다.

 * 완성된 `student_scores` 딕셔너리를 순회하며 각 학생(키)의 점수 리스트(값)에 대해 평균을 계산합니다 (`sum(score_list) / len(score_list)`).

### 🚀 예시코드

In [None]:
# %%
# 문제 4: 학생별 평균 점수 계산 (defaultdict 사용)
from collections import defaultdict

scores = [('Alice', 'Math', 90), ('Bob', 'Math', 85), ('Alice', 'Science', 95),
          ('Charlie', 'Math', 70), ('Bob', 'Science', 88), ('Alice', 'English', 80)]
print(f"점수 데이터:\n{scores}")

# 1. defaultdict(list)를 사용하여 학생별 점수 그룹화
student_scores = defaultdict(list)
for name, subject, score in scores:
    student_scores[name].append(score)

print(f"\n학생별 점수 목록 (defaultdict):\n{dict(student_scores)}") # 보기 좋게 일반 dict로 변환 출력

# 2. 각 학생별 평균 점수 계산 및 출력
print("\n학생별 평균 점수:")
for name, score_list in student_scores.items():
    if score_list: # 점수가 있는 경우만 계산
        average_score = sum(score_list) / len(score_list)
        print(f"  - {name}: {average_score:.2f}")
    else:
        print(f"  - {name}: (점수 없음)")


 #### ✨ Pandas DataFrame 활용 (참고)

 Pandas를 사용하면 이런 작업을 더 구조화되고 편리하게 수행할 수 있습니다.

In [None]:
# %%
import pandas as pd

scores_df = pd.DataFrame(scores, columns=['Name', 'Subject', 'Score'])
print(f"\nPandas DataFrame 변환:\n{scores_df}")

# 학생 이름(Name)으로 그룹화하여 점수(Score)의 평균 계산
average_scores_pd = scores_df.groupby('Name')['Score'].mean()
print(f"\nPandas groupby 평균 점수:\n{average_scores_pd}")


 ### 문제 5: 실시간 서버 요청 처리 (난이도: ⭐️⭐️⭐️⭐️⭐️)



 **상황:** 여러 서버에 요청이 들어오고 있습니다. 각 요청은 `(처리 시간, 요청 내용)` 형태로 표현되며, 처리 시간이 짧은 요청을 **가장 먼저** 처리해야 합니다. 들어오는 요청들을 받아두었다가, 처리 시간이 짧은 순서대로 요청 내용을 출력하는 시뮬레이션을 해보세요.



 **요구사항:**

 1. 요청들을 저장할 자료구조를 선택하세요. 처리 시간이 우선순위가 됩니다.

 2. 주어진 `requests` 리스트의 요청들을 자료구조에 추가하세요.

 3. 자료구조가 빌 때까지, 처리 시간이 가장 짧은 요청을 순서대로 꺼내어 요청 내용을 출력하세요.



 **데이터:** `requests = [(50, "Image Upload"), (10, "Login Request"), (100, "Video Processing"), (5, "Heartbeat Check"), (20, "Data Query")]`



 **🤔 어떤 자료구조를 사용하는 것이 좋을까요?**

 * 우선순위(처리 시간)가 가장 낮은(짧은) 것을 먼저 꺼내야 한다.

 * 동적으로 요청이 추가될 수 있다 (여기서는 한번에 추가).

 * ➡️ **최소 힙(Min Heap)** 이 가장 적합합니다! (`heapq` 모듈 사용)

 #### 💡 힌트

 * `heapq` 모듈을 import 합니다.

 * 빈 리스트 `request_heap`을 생성합니다.

 * `requests` 리스트를 순회하며 각 `(processing_time, request_content)` 튜플을 `heapq.heappush()`를 사용하여 `request_heap`에 추가합니다. 튜플의 첫 번째 요소(처리 시간)가 자동으로 우선순위로 사용됩니다.

 * `while request_heap:` 루프를 사용하여 힙이 빌 때까지 반복합니다.

 * 루프 안에서 `heapq.heappop()`을 호출하여 처리 시간이 가장 짧은 요청 튜플을 꺼냅니다.

 * 꺼낸 튜플에서 요청 내용을 추출하여 출력합니다.

### 🚀 예시코드

In [None]:
# %%
# 문제 5: 실시간 서버 요청 처리
import heapq

requests = [(50, "Image Upload"), (10, "Login Request"), (100, "Video Processing"),
            (5, "Heartbeat Check"), (20, "Data Query"), (10, "Logout Request")] # 같은 처리 시간 요청 추가
print(f"들어온 요청 리스트:\n{requests}")

# 1 & 2. 최소 힙 생성 및 요청 추가
request_heap = []
for req in requests:
    # 튜플 (처리시간, 요청내용) 자체를 push하면 처리시간 기준으로 최소 힙 구성
    heapq.heappush(request_heap, req)
    # print(f"  - Push: {req}, 현재 힙: {request_heap}") # push 과정 확인용

print(f"\n구성된 요청 힙 (내부 리스트 표현):\n{request_heap}")

# 3. 처리 시간이 짧은 순서대로 요청 처리 (pop)
print("\n--- 요청 처리 시작 (처리 시간 짧은 순) ---")
while request_heap: # 힙이 비어있지 않은 동안 반복
    processing_time, request_content = heapq.heappop(request_heap) # 가장 작은 요소 pop
    print(f"  - 처리 완료 (시간: {processing_time}): {request_content}")

print("--- 모든 요청 처리 완료 ---")


 ---



 ## 💭 7장 마무리 및 총정리



 오늘 하루 동안 우리는 파이썬의 기본적인 자료구조부터 시작하여, `collections` 모듈의 특수 컨테이너, 우선순위 큐와 힙(`heapq`), 그리고 데이터 과학의 핵심 라이브러리인 NumPy와 Pandas까지 다양한 자료구조들을 학습하고 실습했습니다.



 7장 실습을 통해 각 자료구조가 어떤 특징을 가지며, 특정 문제 상황에서 왜 해당 자료구조가 더 효율적이거나 편리한지를 직접 경험해 보셨기를 바랍니다.



 **핵심은 "정답 자료구조"가 항상 하나만 있는 것은 아니지만, 문제의 요구사항(데이터 특징, 필요한 연산, 성능 요구사항 등)을 잘 분석하여 가장 적합한 도구를 선택하는 능력을 기르는 것입니다.**



 앞으로 더 복잡한 알고리즘 문제를 풀거나 실제 프로젝트를 진행할 때, 오늘 배운 자료구조들에 대한 이해는 코드를 더 효율적이고, 간결하며, 강력하게 만드는 든든한 기반이 될 것입니다.



 **오늘 배운 내용들을 꾸준히 복습하고, 다양한 문제에 직접 적용해보는 연습을 통해 여러분의 것으로 만드시길 바랍니다!**



 ---



 *모든 수업 내용에 대한 질문이나 피드백은 언제나 환영합니다! 😊*

 *수고 많으셨습니다!*