컬렉션 자료구조는 시퀀스 자료구조와 달리, 데이터를 서로 연관시키지 않고 모아두는 컨테이너다.
다음과 같은 속성을 가진다.
- 멤버십 연산자 : in
- 크기 함수 : len(seq)
- 반복성 : 반복문의 데이터를 순회한다.

파이썬의 내장 컬렉션 데이터 타입에는 셋과 딕셔너리가 있다.

# 셋

셋은 반복 가능하고, 가변적이며, 중복 요소가 없고, 정렬되지 않은 컬렉션 데이터 타입이다.

인덱스 연산은 할 수 없다. 셋은 멤버십 테스트 및 중복 항목 제거에 사용된다. 셋의 삽입 시간복잡도는 O(1)이고, 합집합의 시간복잡도는 O(m+n)이다. 교집합의경우 두 셋 중에서 더 작은 셋에 대해서만 계산하면 되므로, 시간복잡도는 O(n)이다.

In [None]:
# 프로즌 셋은 셋과 달리 불변 객체이다.
fs = frozenset((0, 1, 2, 3, 4))
print(2 in fs)
print(len(fs))

True
5


In [None]:
# add
people = {"버피", "에인절", "자일스"}
print(people)
people.add("윌로")
print(people)

{'버피', '자일스', '에인절'}
{'버피', '윌로', '자일스', '에인절'}


In [None]:
# update() 와 |=연산자
people = {"버피", "에인절", "자일스"}
people.update({"로미오", "줄리엣", "에인절"})
print(people)
people |= {"리키", "유진"}
print(people)

{'줄리엣', '로미오', '에인절', '버피', '자일스'}
{'리키', '줄리엣', '로미오', '에인절', '버피', '자일스', '유진'}


In [None]:
# union()과 |연산자
people = {"버피", "에인절", "자일스"}
print(people.union({"로미오", "줄리엣"})) # union은 복사본을 반환한다.
print(people) # 따라서 people 자체에 추가는 아니다.
# |연산자도 마찬가지
print(people|{"브라이언"}) 
print(people)

{'줄리엣', '로미오', '에인절', '버피', '자일스'}
{'버피', '자일스', '에인절'}
{'버피', '자일스', '에인절', '브라이언'}
{'버피', '자일스', '에인절'}


In [None]:
# intersection()과 &연산자  ( 교집합 )
people = {"버피", "에인절", "자일스", "이안"}
vampires = {"에인절", "자일스", "윌로"}
print(people.intersection(vampires)) # union()과 마찬가지로 복사본을 반환
print(people & vampires)
print(people)

{'자일스', '에인절'}
{'자일스', '에인절'}
{'버피', '이안', '자일스', '에인절'}


In [None]:
# difference()와 - 연산자
people = {"버피", "에인절", "자일스", "아영"}
vampires = {"스파이크", "에인절", "상민"}
print(people.difference(vampires)) # 차집합의 복사본을 반환
print(people - vampires)

{'버피', '자일스', '아영'}
{'버피', '자일스', '아영'}


In [None]:
# clear()
people={"버피", "자일스", "에인절"}
people.clear() # 모든 항목을 제거한다.
print(people)

set()


discard(x)는 셋의 항목 x을 제거하며 반환값은 없다.

remove(x)는 같으나, 항목 x가 없는 경우 KeyError예외를 발생시킨다.

pop()은 셋에서 한 항목을 무작위로 제거하고, 그 항목을 반환한다. 셋이 비어있으면 KeyError예외를 발생시킨다.

In [None]:
# discard(), remove(), pop()
countries = {"프랑스", "스페인", "영국"}
print(countries.discard("한국")) # None
# print(countries.remove("일본")) 에러가 난다
print(countries.pop())
print(countries)

None
스페인
{'영국', '프랑스'}


In [None]:
#print(countries.remove("영국"))
print(countries)
countries.pop()

{'프랑스'}


'프랑스'

In [None]:
# 리스트를 셋으로 캐스팅(casting)해서 사용하기
def remove_dup(l1):
    """ 리스트의 중복된 항목을 제거한 후 반환한다. """
    return list(set(l1))


def intersection(l1, l2):
    """ 교집합 결과를 반환한다. """
    return list(set(l1) & set(l2))


def union(l1, l2):
    """ 합집합 결과를 반환한다. """
    return list(set(l1) | set(l2))


def test_sets_operations_with_lists():
    l1 = [1, 2, 3, 4, 5, 5, 9, 11, 11, 15]
    l2 = [4, 5, 6, 7, 8]
    l3 = []
    assert(remove_dup(l1) == [1, 2, 3, 4, 5, 9, 11, 15])
    assert(intersection(l1, l2) == [4, 5])
    assert(union(l1, l2) == [1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 15])
    assert(remove_dup(l3) == [])
    assert(intersection(l3, l2) == l3)
    assert(sorted(union(l3, l2)) == sorted(l2))
    print("테스트 통과!")


if __name__ == "__main__":
    test_sets_operations_with_lists()

테스트 통과!


In [None]:
# 딕셔너리도 셋 속성 사용 가능, 단 items()와 values()에서만.
def set_operations_with_dict():
    pairs = [("a", 1), ("b", 2), ("c", 3)]
    d1 = dict(pairs)
    print("딕셔너리1\t: {0}".format(d1))

    d2 = {"a": 1, "c": 2, "d": 3, "e": 4}
    print("딕셔너리2\t: {0}".format(d2))

    intersection = d1.keys() & d2.keys()
    print("d1 ∩ d2 (키)\t: {0}".format(intersection))

    intersection_items = d1.items() & d2.items()
    print("d1 ∩ d2 (키,값)\t: {0}".format(intersection_items))

    subtraction1 = d1.keys() - d2.keys()
    print("d1 - d2 (키)\t: {0}".format(subtraction1))

    subtraction2 = d2.keys() - d1.keys()
    print("d2 - d1 (키)\t: {0}".format(subtraction2))

    subtraction_items = d1.items() - d2.items()
    print("d1 - d2 (키,값)\t: {0}".format(subtraction_items))

    """ 딕셔너리의 특정 키를 제외한다. """
    d3 = {key: d2[key] for key in d2.keys() - {"c", "d"}}
    print("d2 - {{c, d}}\t: {0}".format(d3))


if __name__ == "__main__":
    set_operations_with_dict()

딕셔너리1	: {'a': 1, 'b': 2, 'c': 3}
딕셔너리2	: {'a': 1, 'c': 2, 'd': 3, 'e': 4}
d1 ∩ d2 (키)	: {'a', 'c'}
d1 ∩ d2 (키,값)	: {('a', 1)}
d1 - d2 (키)	: {'b'}
d2 - d1 (키)	: {'d', 'e'}
d1 - d2 (키,값)	: {('c', 3), ('b', 2)}
d2 - {c, d}	: {'a': 1, 'e': 4}


# 딕셔너리

파이썬 딕셔너리는 해시 테이블로 구현되어 있다.

매핑 타입인 딕셔너리는 반복 가능, in과 길이를 구하는 len()함수도 지원

In [None]:
hash(42)

42

In [None]:
hash("hello")

-4065836263633853492

딕셔너리의 항목은 고유하므로, 항목에 접근하느 시간복잡도는 O(1)이다.

딕셔너리는 변경 가능하고, 항목의 추가 및 제거가 가능하다.

In [None]:
tarantino = {}
tarantino['name'] = '쿠엔틴 타란티노'
tarantino['job'] = '감독'
tarantino

{'job': '감독', 'name': '쿠엔틴 타란티노'}

In [None]:
sunnydale = dict({"name":"버피", "age":16, "hobby":"게임"})
sunnydale

{'age': 16, 'hobby': '게임', 'name': '버피'}

In [None]:
sunnydale = dict(name = "자일스", age = 45, hobby="영화감상")
sunnydale

{'age': 45, 'hobby': '영화감상', 'name': '자일스'}

In [None]:
sunnydale = dict([("name","윌로"), ("age", 15)])
sunnydale

{'age': 15, 'name': '윌로'}

In [None]:
# 딕셔너리에 키의 존재 여부를 모른 채 접근할때, setdefault() 메서드 사용
def usual_dict(dict_data):
    """ dict[key] 사용 """
    newdata = {}
    for k, v in dict_data:
        if k in newdata:
            newdata[k].append(v)
        else:
            newdata[k] = [v]
    return newdata


def setdefault_dict(dict_data):
    """ setdefault() 메서드 사용 """
    newdata = {}
    for k, v in dict_data:
        newdata.setdefault(k, []).append(v)
    return newdata


def test_setdef():
    dict_data = (("key1", "value1"),
                 ("key1", "value2"),
                 ("key2", "value3"),
                 ("key2", "value4"),
                 ("key2", "value5"),)
    print(usual_dict(dict_data))
    print(setdefault_dict(dict_data))


if __name__ == "__main__":
    test_setdef()

{'key1': ['value1', 'value2'], 'key2': ['value3', 'value4', 'value5']}
{'key1': ['value1', 'value2'], 'key2': ['value3', 'value4', 'value5']}


In [None]:
# update()를 통해 딕셔너리의 값 갱신 가능
d = {'a':1, 'b':2}
d.update({'b':10})
print(d)
d.update({'c':100})
print(d)

{'a': 1, 'b': 10}
{'a': 1, 'b': 10, 'c': 100}


In [None]:
# get(key)은 딕셔너리의 key에 해당하는 value를 반환한다.
sunnydale = dict(name='gender', age = 17, hobby='게임')
print(sunnydale)
print(sunnydale.get('hobby'))

{'name': 'gender', 'age': 17, 'hobby': '게임'}
게임


In [None]:
# items(), values(), keys() 메서드는 딕셔너리 view다. 딕셔너리 view란 딕셔너리의 항목(키 또는 값)을
# 조회하는 '읽기 전용'의 반복 가능한 객체다.

sunnydale = dict(name='젠더', age=17, hobby='게임')
print(sunnydale.items())
print(sunnydale.values())
print(sunnydale.keys())

dict_items([('name', '젠더'), ('age', 17), ('hobby', '게임')])
dict_values(['젠더', 17, '게임'])
dict_keys(['name', 'age', 'hobby'])


In [None]:
sunnydale_copy = sunnydale.items()
print(sunnydale_copy)
print(type(sunnydale_copy)) # 딕셔너리가 아닌 dict_items
# sunnydale_copy['address'] = "서울" 같은 방식으로 추가되는게 아니다.
# 읽기 전용이라는 점에 유의 

dict_items([('name', '젠더'), ('age', 17), ('hobby', '게임')])
<class 'dict_items'>


In [None]:
# pop(), popitem()
sunnydale = dict(name = '젠더', age = 17, hobby = "게임", address="서울")
print(sunnydale.pop('age')) # age에 해당하는 key값을 지운 후 value를 반환
print(sunnydale)
print(sunnydale.popitem()) # 키와 값을 제거한 후, 그 키와 항목을 반환
print(sunnydale)

17
{'name': '젠더', 'hobby': '게임', 'address': '서울'}
('address', '서울')
{'name': '젠더', 'hobby': '게임'}


In [None]:
# 딕셔너리 성능 측정
import timeit
import random

for i in range(10000, 1000001, 20000):
    t = timeit.Timer("random.randrange(%d) in x" % i,
                     "from __main__ import random, x")
    x = list(range(i))  # 리스트
    # 멤버십 연산에 대한 시간복잡도는 O(n)
    lst_time = t.timeit(number=1000)
    x = {j: None for j in range(i)}  # 딕셔너리
    # 멤버십 연산에 대한 시간복잡도는 O(1)
    d_time = t.timeit(number=1000)
    print("%d,%10.3f,%10.3f" % (i, lst_time, d_time))

10000,     0.079,     0.001
30000,     0.232,     0.001
50000,     0.393,     0.001
70000,     0.539,     0.001
90000,     0.743,     0.001
110000,     0.834,     0.001
130000,     1.031,     0.001
150000,     1.193,     0.001
170000,     1.313,     0.001
190000,     1.523,     0.001
210000,     1.597,     0.001
230000,     1.804,     0.001
250000,     1.916,     0.001
270000,     2.146,     0.001
290000,     2.246,     0.001
310000,     2.470,     0.001
330000,     2.581,     0.001
350000,     2.601,     0.001
370000,     2.912,     0.001
390000,     3.015,     0.001
410000,     3.113,     0.001
430000,     3.424,     0.001
450000,     3.474,     0.001
470000,     3.614,     0.001
490000,     3.838,     0.001
510000,     3.906,     0.001
530000,     4.118,     0.001
550000,     4.238,     0.001
570000,     4.485,     0.001
590000,     4.648,     0.001
610000,     4.665,     0.001
630000,     4.800,     0.001
650000,     5.057,     0.001
670000,     5.190,     0.001
690000,     5.477, 

In [None]:
d = dict(c="!", b ="world", a="hello")
for key in sorted(d.keys()):
    print(key, d[key])

a hello
b world
c !


In [None]:
# 딕셔너리 분기
def hello():
    print("hello")

def world():
    print("world")

action = "h"

if action == "h":
    hello()
elif action == "W":
    world()

hello


In [None]:
functions = dict(h=hello, w = world)
functions[action]()

hello


# 컬렉션 데이터 타입

collections 라이브러리는 다양한 딕셔나리 타입을 제공한다.

In [None]:
# default dictionary , 기본 딕셔너리 기능 + 누락된 값 처리 가능
from collections import defaultdict

def defaultdict_example():
    pairs ={("a",1),("b", 2), ("c",3)}

    # 일반 딕셔너리
    d1 = {}
    for key, value in pairs:
        if key not in d1:
            d1[key] = []
        d1[key].append(value)
    print(d1)

    #defaultdict
    d2 = defaultdict(list)
    for key, value in pairs:
        d2[key].append(value)
    print(d2)

if __name__ == "__main__":
    defaultdict_example()

{'c': [3], 'b': [2], 'a': [1]}
defaultdict(<class 'list'>, {'c': [3], 'b': [2], 'a': [1]})
