# Chapter 3  컬렉션 자료구조
- 컬렉션 자료구조는 시퀀스 자료구조와 달리 데이터를 서로 연관시키지 않고 모아두는 컨테이너
- 세가지 속성
    * 멤버십 연산자: in
    * 크기 함수: len(seq)
    * 반복성
- 파이썬 내장 컬렉션 데이터 타입으로는 set과 dict이 존재

# 3.1 Set
- 반복 가능, 가변적, 중복 요소 없고, 정렬되지 않은 컬렉션 데이터 타입
- 인덱스 연산 불가
- 멤버십 테스트 및 중복 항목 제거에 사용
- 삽입 시간복잡도는 O(1)이고, 합집합의 시간복잡도는 O(m+n)
- 교집합 시간복잡도는 더 작은 셋에 대해서만 계산하면 되므로 시간복잡도는 O(n)

In [1]:
dir(set())

['__and__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__iand__',
 '__init__',
 '__init_subclass__',
 '__ior__',
 '__isub__',
 '__iter__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__or__',
 '__rand__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__ror__',
 '__rsub__',
 '__rxor__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__xor__',
 'add',
 'clear',
 'copy',
 'difference',
 'difference_update',
 'discard',
 'intersection',
 'intersection_update',
 'isdisjoint',
 'issubset',
 'issuperset',
 'pop',
 'remove',
 'symmetric_difference',
 'symmetric_difference_update',
 'union',
 'update']

In [2]:
dir(frozenset())  # frozenset은 불변 객체

['__and__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__or__',
 '__rand__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__ror__',
 '__rsub__',
 '__rxor__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__xor__',
 'copy',
 'difference',
 'intersection',
 'isdisjoint',
 'issubset',
 'issuperset',
 'symmetric_difference',
 'union']

In [3]:
fs = frozenset((0, 1, 2, 3, 4))
2 in fs

True

In [4]:
len(fs)

5

## 3.1.1 셋 메서드

In [5]:
# A.add(x): 셋 A에 x가 없는 경우 x를 추가
people = {"버피", "에인절", "자일스"}
people.add("윌로")
people

{'버피', '에인절', '윌로', '자일스'}

In [6]:
# A.update(B) 혹은 A |= B는 A를 B에 추가한다(합집합)
people = {"버피", "에인절", "자일스"}
people.update({"로미오", "줄리엣", "에인절"})
people

{'로미오', '버피', '에인절', '자일스', '줄리엣'}

In [7]:
people |= {"리키", "유진"}
people

{'로미오', '리키', '버피', '에인절', '유진', '자일스', '줄리엣'}

In [8]:
# A.union(B)와 A | B는 앞에서 본 update() 메서드와 같지만, 연산 결과를 복사본으로 반환한다.
people = {"버피", "에인절", "자일스"}
people.union({"로미오", "줄리엣"})

{'로미오', '버피', '에인절', '자일스', '줄리엣'}

In [9]:
people   # people은 원형 그대로 유지

{'버피', '에인절', '자일스'}

In [10]:
people | {"브라이언"}

{'버피', '브라이언', '에인절', '자일스'}

In [11]:
people   # people은 원형 그대로 유지

{'버피', '에인절', '자일스'}

In [12]:
# A.intersection(B)와 A & B는 A와 B의 교집합의 복사본을 반환
people = {"버피", "에인절", "자일스", "이안"}
vampires = {"에인절", "자일스", "윌로"}
people.intersection(vampires)

{'에인절', '자일스'}

In [13]:
people & vampires

{'에인절', '자일스'}

In [14]:
# A.difference(B)와 A - B는 A와 B의 차집합의 복사본을 반환
people = {"버피", "에인절", "자일스", "아영"}
vampires = {"스파이크", "에인절", "상민"}
people.difference(vampires)

{'버피', '아영', '자일스'}

In [15]:
people - vampires

{'버피', '아영', '자일스'}

In [16]:
# A.clear()는 A의 모든 항목을 제거
people = {"버피", "에인절", "자일스", "아영"}
people.clear()
people

set()

In [17]:
# A.discard(x)는 A의 항목 x를 제거하며 반환값은 없음
# A.remove()는 A.discard()와 같지만 항목 x가 없을 경우 KeyError 예외 발생
# A.pop()은 A에서 한 항목을 무작위로 제거하고 그 항목을 반환, 셋이 비어 있으면 KeyError 예외 발생
countries = {"프랑스", "스페인", "영국"}
countries.discard("한국")

In [18]:
countries.remove("일본")

KeyError: '일본'

In [19]:
countries.pop()  # 무작위

'스페인'

In [20]:
countries

{'영국', '프랑스'}

In [21]:
countries.discard("프랑스")

In [22]:
countries.remove("영국")

In [1]:
countries.pop()

NameError: name 'countries' is not defined

## 3.1.2 셋과 리스트
- 리스트 타입은 셋 타입으로 변환 가능

In [4]:
def remove_dup(l1):
    '''리스트의 중복된 항목 제거 후 반환'''
    return list(set(l1))

def intersection(l1, l2):
    '''교집합 결과를 반환'''
    return list(set(l1) & set(l2))

def union(l1, l2):
    '''합집합 결과를 반환'''
    return list(set(l1) | set(l2))

l1 = [1, 2, 3, 4, 5, 5, 9, 11, 11, 15]
l2 = [4, 5, 6, 7, 8]
l3 = []
assert(remove_dup(l1) == [1, 2, 3, 4, 5, 9, 11, 15])
assert(intersection(l1, l2) == [4, 5])
assert(union(l1, l2) == [1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 15])
assert(remove_dup(l3) == [])
assert(intersection(l3, l2) == l3)
assert(sorted(union(l3, l2)) == sorted(l2))
print('테스트 통과!')

테스트 통과!


In [5]:
# 딕셔너리에서도 셋 속성 사용 가능
def set_operations_with_dict():
    pairs = [("a", 1), ("b", 2), ("c", 3)]
    d1 = dict(pairs)
    print("딕셔너리1\t: {0}".format(d1))
    
    d2 = {"a": 1, "c": 2, "d": 3, "e": 4}
    print("딕셔너리2\t: {0}".format(d2))
    
    intersection = d1.keys() & d2.keys()
    print("d1 합집합 d2 (키)\t: {0}".format(intersection))
    
    intersection_items = d1.items() & d2.items()
    print("d1 합집합 d2 (키,값)\t: {0}".format(intersection_items))
    
    subtraction1 = d1.keys() - d2.keys()
    print("d1 - d2 (키)\t: {0}".format(subtraction1))
    
    subtraction2 = d2.keys() - d1.keys()
    print("d2 - d1 (키)\t: {0}".format(subtraction2))
    
    subtraction_items = d1.items() - d2.items()
    print("d1 - d2 (키, 값)\t {0}".format(subtraction_items))
    
    '''딕셔너리의 특정 키를 제외한다.'''
    d3 = {key: d2[key] for key in d2.keys() - {"c", "d"}}
    print("d2 - {{c, d}}\t {0}".format(d3))
    
set_operations_with_dict()

딕셔너리1	: {'a': 1, 'b': 2, 'c': 3}
딕셔너리2	: {'a': 1, 'c': 2, 'd': 3, 'e': 4}
d1 합집합 d2 (키)	: {'a', 'c'}
d1 합집합 d2 (키,값)	: {('a', 1)}
d1 - d2 (키)	: {'b'}
d2 - d1 (키)	: {'d', 'e'}
d1 - d2 (키, 값)	 {('b', 2), ('c', 3)}
d2 - {c, d}	 {'a': 1, 'e': 4}


# 3.2 딕셔너리
- 파이썬 딕셔너리는 해시 테이블로 구현
- 해시 함수는 특정 객체에 해당하는 임의의 정수 값을 상수 시간 내에 계산(?)

In [24]:
hash(42)

42

In [25]:
hash("hello")

3068040838128048813

- 컬렉션 매핑 타입인 딕셔너리는 반복 가능
- 멤버십 연산자 in과 len() 함수 지원
- 매핑은 key-value 항목의 컬렉션

- 딕셔너리의 항목은 고유하므로, 항목에 접근하는 시간복잡도는 O(1)
- 딕셔너리는 변경 가능하므로 항목의 추가 및 제거 가능
- 딕셔너리는 항목의 삽입 순서를 기억하지 않으며, 인덱스 위치 사용 불가

In [26]:
tarantino = {}
tarantino['name'] = '쿠엔틴 타란티노'
tarantino['job'] = '감독'
tarantino

{'name': '쿠엔틴 타란티노', 'job': '감독'}

In [11]:
sunnydale = dict({"name":"버피", "age":16, "hobby":"게임"})
sunnydale

{'name': '버피', 'age': 16, 'hobby': '게임'}

In [12]:
sunnydale = {"name":"버피", "age":16, "hobby":"게임"}
sunnydale

{'name': '버피', 'age': 16, 'hobby': '게임'}

In [7]:
sunnydale = dict(name="자일스", age=45, hobby="영화감상")
sunnydale

{'name': '자일스', 'age': 45, 'hobby': '영화감상'}

In [9]:
sunnydale = dict([("name", "윌로"), ("age", 15), ("hobby", "개발")])
sunnydale

{'name': '윌로', 'age': 15, 'hobby': '개발'}

## 3.2.1 딕셔너리 메서드

In [13]:
# setdefault(): 딕셔너리에서 키의 존재 여부를 모른 채 접근할 때 사용
# A.setdefault(key, default)를 사용하면 딕셔너리 A에 key가 존재할 경우 키에 해당하는 값 얻을 수 있고,
# key가 존재하지 않는다면 새 키와 기본값 default가 딕셔너리에 저장

def usual_dict(dict_data):
    '''dict[key] 사용'''
    newdata = {}
    for k, v in dict_data:
        if k in newdata:
            newdata[k].append(v)
        else:
            newdata[k] = [v]
    return newdata

def setdefault_dict(dict_data):
    '''setdefault() 메서드 사용'''
    newdata = {}
    for k, v in dict_data:
        newdata.setdefault(k, []).append(v)
    return newdata

dict_data = (("key1", "value1"),
             ("key1", "value2"),
             ("key2", "value3"),
             ("key2", "value4"),
             ("key2", "value5"),)

print(usual_dict(dict_data))
print(setdefault_dict(dict_data))

{'key1': ['value1', 'value2'], 'key2': ['value3', 'value4', 'value5']}
{'key1': ['value1', 'value2'], 'key2': ['value3', 'value4', 'value5']}


In [14]:
# A.update(B): 딕셔너리 A에 딕셔너리 B의 키가 존재한다면, 기존 A의 (키,값)을 B의 (키,값)으로 갱신
# B의 키가 A에 존재하지 않는다면, B의 (키,값)을 A에 추가

d = {'a': 1, 'b': 2}
d.update({'b': 10})
d

{'a': 1, 'b': 10}

In [15]:
d.update({'c': 100})
d

{'a': 1, 'b': 10, 'c': 100}

### get()

In [16]:
# A.get(key)는 딕셔너리 A의 key값을 반환, key가 존재하지 않으면 아무것도 반환하지 않음
sunnydale = dict(name='잰더', age=17, hobby='게임')
sunnydale.get("hobby")

'게임'

In [17]:
sunnydale['hobby']

'게임'

In [18]:
sunnydale.get('hello')

In [19]:
sunnydale['hello']

KeyError: 'hello'

### items(), values(), keys()
- items(), keys(), values() 메서드는 딕셔너리 뷰
- 딕셔너리 뷰란 딕셔너리의 항목(키 또는 값)을 조회하는 읽기 전용의 반복 가능한 객체

In [20]:
sunnydale = dict(name='잰더', age=17, hobby='게임')
sunnydale.items()

dict_items([('name', '잰더'), ('age', 17), ('hobby', '게임')])

In [21]:
sunnydale.values()

dict_values(['잰더', 17, '게임'])

In [22]:
sunnydale.keys()

dict_keys(['name', 'age', 'hobby'])

In [23]:
sunnydale_copy = sunnydale.items()
sunnydale_copy['address'] = '서울'

TypeError: 'dict_items' object does not support item assignment

In [24]:
sunnydale['address'] = '서울'
sunnydale

{'name': '잰더', 'age': 17, 'hobby': '게임', 'address': '서울'}

### pop(), popitem()
- A.pop(key): 딕셔너리 A의 key 항목을 제거한 후, 그 값을 반환
- A.popitem(): 딕셔너리 A에서 항목(키와 값)을 제거한 후, 그 키와 항목을 반환

In [25]:
sunnydale = dict(name="잰더", age=17, hobby="게임", address="서울")
sunnydale.pop("age")

17

In [26]:
sunnydale

{'name': '잰더', 'hobby': '게임', 'address': '서울'}

In [27]:
sunnydale.popitem()

('address', '서울')

In [28]:
sunnydale

{'name': '잰더', 'hobby': '게임'}

### clear()
- 딕셔너리의 모든 항목을 제거

In [29]:
sunnydale.clear()
sunnydale

{}

## 3.2.2 딕셔너리 성능 측정
- 멤버십 연산에 대한 시간복잡도
    * 리스트: O(n)
    * 딕셔너리: O(1)

In [36]:
import timeit
import random

for i in range(10000, 1000001, 20000):
    t = timeit.Timer("random.randrange(%d) in x" % i,
                     "from __main__ import random, x")
    x = list(range(i))
    lst_time = t.timeit(number=1000)
    x = {j: None for j in range(i)}  # 딕셔너리
    d_time = t.timeit(number=1000)
    print("%d, %10.3f, %10.3f" % (i, lst_time, d_time))
    
# timer 함수 관련 : https://brownbears.tistory.com/456
# random.randrange(a, b): a <= x < b 사이의 랜덤한 정수(https://blockdmask.tistory.com/383)

10000,      0.120,      0.002
30000,      0.310,      0.002
50000,      0.467,      0.002
70000,      0.715,      0.002
90000,      0.817,      0.002
110000,      1.001,      0.002
130000,      1.310,      0.002
150000,      1.525,      0.002
170000,      1.661,      0.002
190000,      1.913,      0.002
210000,      2.133,      0.002
230000,      2.230,      0.002
250000,      2.434,      0.002
270000,      2.568,      0.002
290000,      2.926,      0.002
310000,      4.242,      0.002
330000,      3.446,      0.007
350000,      3.823,      0.004
370000,      6.028,      0.002
390000,      3.790,      0.002
410000,      4.289,      0.002
430000,      7.760,      0.003
450000,      5.060,      0.002
470000,      6.399,      0.002
490000,      7.387,      0.002
510000,      5.553,      0.002
530000,      7.718,      0.002
550000,      5.326,      0.004
570000,      5.900,      0.002
590000,      5.770,      0.003
610000,      5.792,      0.003
630000,      5.990,      0.002
650000,      

In [34]:
for i in range(1, 10, 3):
    print(i)

1
4
7


### 딕셔너리 메서드의 시간복잡도
- 복사 : O(n)
- 항목 조회 : O(1)
- 항목 할당 : O(1)
- 항목 삭제 : O(1)
- 멤버십 테스트 in : O(1)
- 반복 : O(n)

## 3.2.3 딕셔너리 순회
- 딕셔너리 순회시 기본적으로 키를 사용
- sorted() 사용하면 정렬된 상태로 순회 가능
- sorted() 함수는 keys(), values(), items()에 대해 사용 가능

In [37]:
d = dict(c="!", b="world", a="hello")
for key in sorted(d.keys()):
    print(key, d[key])

a hello
b world
c !


## 3.2.4 딕셔너리 분기

In [38]:
def hello():
    print("hello")
    
def world():
    print("world")

In [39]:
# 일반적으로 if문을 사용하여 분기문 작성
action = "h"

if action == "h":
    hello()
elif action == "w":
    world()

hello


In [40]:
# 딕셔너리 사용하면 더 효율적으로 분기 가능
functions = dict(h=hello, w=world)
functions[action]()

hello
