컬렉션 자료구조는 시퀀스 자료구조와 달리, 데이터를 서로 연관시키지 않고 모아두는 컨테이너다.
다음과 같은 속성을 가진다.
- 멤버십 연산자 : in
- 크기 함수 : len(seq)
- 반복성 : 반복문의 데이터를 순회한다.

파이썬의 내장 컬렉션 데이터 타입에는 셋과 딕셔너리가 있다.

# 셋

셋은 반복 가능하고, 가변적이며, 중복 요소가 없고, 정렬되지 않은 컬렉션 데이터 타입이다.

인덱스 연산은 할 수 없다. 셋은 멤버십 테스트 및 중복 항목 제거에 사용된다. 셋의 삽입 시간복잡도는 O(1)이고, 합집합의 시간복잡도는 O(m+n)이다. 교집합의경우 두 셋 중에서 더 작은 셋에 대해서만 계산하면 되므로, 시간복잡도는 O(n)이다.

In [None]:
# 프로즌 셋은 셋과 달리 불변 객체이다.
fs = frozenset((0, 1, 2, 3, 4))
print(2 in fs)
print(len(fs))

True
5


In [None]:
# add
people = {"버피", "에인절", "자일스"}
print(people)
people.add("윌로")
print(people)

{'버피', '자일스', '에인절'}
{'버피', '윌로', '자일스', '에인절'}


In [None]:
# update() 와 |=연산자
people = {"버피", "에인절", "자일스"}
people.update({"로미오", "줄리엣", "에인절"})
print(people)
people |= {"리키", "유진"}
print(people)

{'줄리엣', '로미오', '에인절', '버피', '자일스'}
{'리키', '줄리엣', '로미오', '에인절', '버피', '자일스', '유진'}


In [None]:
# union()과 |연산자
people = {"버피", "에인절", "자일스"}
print(people.union({"로미오", "줄리엣"})) # union은 복사본을 반환한다.
print(people) # 따라서 people 자체에 추가는 아니다.
# |연산자도 마찬가지
print(people|{"브라이언"}) 
print(people)

{'줄리엣', '로미오', '에인절', '버피', '자일스'}
{'버피', '자일스', '에인절'}
{'버피', '자일스', '에인절', '브라이언'}
{'버피', '자일스', '에인절'}


In [None]:
# intersection()과 &연산자  ( 교집합 )
people = {"버피", "에인절", "자일스", "이안"}
vampires = {"에인절", "자일스", "윌로"}
print(people.intersection(vampires)) # union()과 마찬가지로 복사본을 반환
print(people & vampires)
print(people)

{'자일스', '에인절'}
{'자일스', '에인절'}
{'버피', '이안', '자일스', '에인절'}


In [None]:
# difference()와 - 연산자
people = {"버피", "에인절", "자일스", "아영"}
vampires = {"스파이크", "에인절", "상민"}
print(people.difference(vampires)) # 차집합의 복사본을 반환
print(people - vampires)

{'버피', '자일스', '아영'}
{'버피', '자일스', '아영'}


In [None]:
# clear()
people={"버피", "자일스", "에인절"}
people.clear() # 모든 항목을 제거한다.
print(people)

set()


discard(x)는 셋의 항목 x을 제거하며 반환값은 없다.

remove(x)는 같으나, 항목 x가 없는 경우 KeyError예외를 발생시킨다.

pop()은 셋에서 한 항목을 무작위로 제거하고, 그 항목을 반환한다. 셋이 비어있으면 KeyError예외를 발생시킨다.

In [None]:
# discard(), remove(), pop()
countries = {"프랑스", "스페인", "영국"}
print(countries.discard("한국")) # None
# print(countries.remove("일본")) 에러가 난다
print(countries.pop())
print(countries)

None
스페인
{'영국', '프랑스'}


In [None]:
#print(countries.remove("영국"))
print(countries)
countries.pop()

{'프랑스'}


'프랑스'

In [None]:
# 리스트를 셋으로 캐스팅(casting)해서 사용하기
def remove_dup(l1):
    """ 리스트의 중복된 항목을 제거한 후 반환한다. """
    return list(set(l1))


def intersection(l1, l2):
    """ 교집합 결과를 반환한다. """
    return list(set(l1) & set(l2))


def union(l1, l2):
    """ 합집합 결과를 반환한다. """
    return list(set(l1) | set(l2))


def test_sets_operations_with_lists():
    l1 = [1, 2, 3, 4, 5, 5, 9, 11, 11, 15]
    l2 = [4, 5, 6, 7, 8]
    l3 = []
    assert(remove_dup(l1) == [1, 2, 3, 4, 5, 9, 11, 15])
    assert(intersection(l1, l2) == [4, 5])
    assert(union(l1, l2) == [1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 15])
    assert(remove_dup(l3) == [])
    assert(intersection(l3, l2) == l3)
    assert(sorted(union(l3, l2)) == sorted(l2))
    print("테스트 통과!")


if __name__ == "__main__":
    test_sets_operations_with_lists()

테스트 통과!


In [3]:
# 딕셔너리도 셋 속성 사용 가능, 단 items()와 values()에서만.
def set_operations_with_dict():
    pairs = [("a", 1), ("b", 2), ("c", 3)]
    d1 = dict(pairs)
    print("딕셔너리1\t: {0}".format(d1))

    d2 = {"a": 1, "c": 2, "d": 3, "e": 4}
    print("딕셔너리2\t: {0}".format(d2))

    intersection = d1.keys() & d2.keys()
    print("d1 ∩ d2 (키)\t: {0}".format(intersection))

    intersection_items = d1.items() & d2.items()
    print("d1 ∩ d2 (키,값)\t: {0}".format(intersection_items))

    subtraction1 = d1.keys() - d2.keys()
    print("d1 - d2 (키)\t: {0}".format(subtraction1))

    subtraction2 = d2.keys() - d1.keys()
    print("d2 - d1 (키)\t: {0}".format(subtraction2))

    subtraction_items = d1.items() - d2.items()
    print("d1 - d2 (키,값)\t: {0}".format(subtraction_items))

    """ 딕셔너리의 특정 키를 제외한다. """
    d3 = {key: d2[key] for key in d2.keys() - {"c", "d"}}
    print("d2 - {{c, d}}\t: {0}".format(d3))


if __name__ == "__main__":
    set_operations_with_dict()

딕셔너리1	: {'a': 1, 'b': 2, 'c': 3}
딕셔너리2	: {'a': 1, 'c': 2, 'd': 3, 'e': 4}
d1 ∩ d2 (키)	: {'a', 'c'}
d1 ∩ d2 (키,값)	: {('a', 1)}
d1 - d2 (키)	: {'b'}
d2 - d1 (키)	: {'d', 'e'}
d1 - d2 (키,값)	: {('c', 3), ('b', 2)}
d2 - {c, d}	: {'a': 1, 'e': 4}


# 딕셔너리

파이썬 딕셔너리는 해시 테이블로 구현되어 있다.

매핑 타입인 딕셔너리는 반복 가능, in과 길이를 구하는 len()함수도 지원

In [4]:
hash(42)

42

In [5]:
hash("hello")

-4065836263633853492

딕셔너리의 항목은 고유하므로, 항목에 접근하느 시간복잡도는 O(1)이다.

딕셔너리는 변경 가능하고, 항목의 추가 및 제거가 가능하다.

In [9]:
tarantino = {}
tarantino['name'] = '쿠엔틴 타란티노'
tarantino['job'] = '감독'
tarantino

{'job': '감독', 'name': '쿠엔틴 타란티노'}

In [10]:
sunnydale = dict({"name":"버피", "age":16, "hobby":"게임"})
sunnydale

{'age': 16, 'hobby': '게임', 'name': '버피'}

In [11]:
sunnydale = dict(name = "자일스", age = 45, hobby="영화감상")
sunnydale

{'age': 45, 'hobby': '영화감상', 'name': '자일스'}

In [13]:
sunnydale = dict([("name","윌로"), ("age", 15)])
sunnydale

{'age': 15, 'name': '윌로'}

In [43]:
# 딕셔너리에 키의 존재 여부를 모른 채 접근할때, setdefault() 메서드 사용
def usual_dict(dict_data):
    """ dict[key] 사용 """
    newdata = {}
    for k, v in dict_data:
        if k in newdata:
            newdata[k].append(v)
        else:
            newdata[k] = [v]
    return newdata


def setdefault_dict(dict_data):
    """ setdefault() 메서드 사용 """
    newdata = {}
    for k, v in dict_data:
        newdata.setdefault(k, []).append(v)
    return newdata


def test_setdef():
    dict_data = (("key1", "value1"),
                 ("key1", "value2"),
                 ("key2", "value3"),
                 ("key2", "value4"),
                 ("key2", "value5"),)
    print(usual_dict(dict_data))
    print(setdefault_dict(dict_data))


if __name__ == "__main__":
    test_setdef()

{'key1': ['value1', 'value2'], 'key2': ['value3', 'value4', 'value5']}
{'key1': ['value1', 'value2'], 'key2': ['value3', 'value4', 'value5']}


In [44]:
# update()를 통해 딕셔너리의 값 갱신 가능
d = {'a':1, 'b':2}
d.update({'b':10})
print(d)
d.update({'c':100})
print(d)

{'a': 1, 'b': 10}
{'a': 1, 'b': 10, 'c': 100}


In [45]:
# get(key)은 딕셔너리의 key에 해당하는 value를 반환한다.
sunnydale = dict(name='gender', age = 17, hobby='게임')
print(sunnydale)
print(sunnydale.get('hobby'))

{'name': 'gender', 'age': 17, 'hobby': '게임'}
게임


In [49]:
# items(), values(), keys() 메서드는 딕셔너리 view다. 딕셔너리 view란 딕셔너리의 항목(키 또는 값)을
# 조회하는 '읽기 전용'의 반복 가능한 객체다.

sunnydale = dict(name='젠더', age=17, hobby='게임')
print(sunnydale.items())
print(sunnydale.values())
print(sunnydale.keys())

dict_items([('name', '젠더'), ('age', 17), ('hobby', '게임')])
dict_values(['젠더', 17, '게임'])
dict_keys(['name', 'age', 'hobby'])


In [51]:
sunnydale_copy = sunnydale.items()
print(sunnydale_copy)
print(type(sunnydale_copy)) # 딕셔너리가 아닌 dict_items
# sunnydale_copy['address'] = "서울" 같은 방식으로 추가되는게 아니다.
# 읽기 전용이라는 점에 유의 

dict_items([('name', '젠더'), ('age', 17), ('hobby', '게임')])
<class 'dict_items'>


In [55]:
# pop(), popitem()
sunnydale = dict(name = '젠더', age = 17, hobby = "게임", address="서울")
print(sunnydale.pop('age')) # age에 해당하는 key값을 지운 후 value를 반환
print(sunnydale)
print(sunnydale.popitem()) # 키와 값을 제거한 후, 그 키와 항목을 반환
print(sunnydale)

17
{'name': '젠더', 'hobby': '게임', 'address': '서울'}
('address', '서울')
{'name': '젠더', 'hobby': '게임'}


In [56]:
# 딕셔너리 성능 측정
import timeit
import random

for i in range(10000, 1000001, 20000):
    t = timeit.Timer("random.randrange(%d) in x" % i,
                     "from __main__ import random, x")
    x = list(range(i))  # 리스트
    # 멤버십 연산에 대한 시간복잡도는 O(n)
    lst_time = t.timeit(number=1000)
    x = {j: None for j in range(i)}  # 딕셔너리
    # 멤버십 연산에 대한 시간복잡도는 O(1)
    d_time = t.timeit(number=1000)
    print("%d,%10.3f,%10.3f" % (i, lst_time, d_time))

10000,     0.079,     0.001
30000,     0.232,     0.001
50000,     0.393,     0.001
70000,     0.539,     0.001
90000,     0.743,     0.001
110000,     0.834,     0.001
130000,     1.031,     0.001
150000,     1.193,     0.001
170000,     1.313,     0.001
190000,     1.523,     0.001
210000,     1.597,     0.001
230000,     1.804,     0.001
250000,     1.916,     0.001
270000,     2.146,     0.001
290000,     2.246,     0.001
310000,     2.470,     0.001
330000,     2.581,     0.001
350000,     2.601,     0.001
370000,     2.912,     0.001
390000,     3.015,     0.001
410000,     3.113,     0.001
430000,     3.424,     0.001
450000,     3.474,     0.001
470000,     3.614,     0.001
490000,     3.838,     0.001
510000,     3.906,     0.001
530000,     4.118,     0.001
550000,     4.238,     0.001
570000,     4.485,     0.001
590000,     4.648,     0.001
610000,     4.665,     0.001
630000,     4.800,     0.001
650000,     5.057,     0.001
670000,     5.190,     0.001
690000,     5.477, 

In [57]:
d = dict(c="!", b ="world", a="hello")
for key in sorted(d.keys()):
    print(key, d[key])

a hello
b world
c !


In [58]:
# 딕셔너리 분기
def hello():
    print("hello")

def world():
    print("world")

action = "h"

if action == "h":
    hello()
elif action == "W":
    world()

hello


In [60]:
functions = dict(h=hello, w = world)
functions[action]()

hello


# 컬렉션 데이터 타입

collections 라이브러리는 다양한 dictionary 타입을 제공한다.

In [1]:
# default dictionary , 기본 딕셔너리 기능 + 누락된 값 처리 가능
from collections import defaultdict

def defaultdict_example():
    pairs ={("a",1),("b", 2), ("c",3)}

    # 일반 딕셔너리
    d1 = {}
    for key, value in pairs:
        if key not in d1:
            d1[key] = [] #d1[key] 는 list 형태로 바뀌고
        d1[key].append(value) # append 사용가능
    print(d1)

    #defaultdict
    d2 = defaultdict(list)
    for key, value in pairs:
        d2[key].append(value) # list를 defaultdict로 캐스팅해서 바로 append사용 가능
    print(d2)

if __name__ == "__main__":
    defaultdict_example()

{'c': [3], 'b': [2], 'a': [1]}
defaultdict(<class 'list'>, {'c': [3], 'b': [2], 'a': [1]})


In [26]:
# OrderedDict, 정렬된 딕셔너리
from collections import OrderedDict


def orderedDict_example():
    pairs = [("c", 1), ("b", 2), ("a", 3)]

    # 일반 딕셔너리
    d1 = {}
    for key, value in pairs:
        if key not in d1:
            d1[key] = []
        d1[key].append(value)
    for key in d1:
        print(key, d1[key])

    # OrderedDict
    d2 = OrderedDict(pairs)
    for key in d2:
        print(key, d2[key])


if __name__ == "__main__":
    orderedDict_example()

c [1]
b [2]
a [3]
c 1
b 2
a 3


In [27]:
# 카운터 딕셔너리, Counter 타입은 hashable한 객체를 카운팅하는 서브클래스다.
from collections import Counter


def counter_example():
    """ 항목의 발생 횟수를 매핑하는 딕셔너리를 생성한다. """
    seq1 = [1, 2, 3, 5, 1, 2, 5, 5, 2, 5, 1, 4]
    seq_counts = Counter(seq1)
    print(seq_counts)

    """ 항목의 발생 횟수를 수동으로 갱신하거나, update() 메서드를 사용할 수 있다. """
    seq2 = [1, 2, 3]
    seq_counts.update(seq2)
    print(seq_counts)

    seq3 = [1, 4, 3]
    for key in seq3:
        seq_counts[key] += 1
    print(seq_counts)

    """ a+b, a-b와 같은 셋 연산을 사용할 수 있다. """
    seq_counts_2 = Counter(seq3)
    print(seq_counts_2)
    print(seq_counts + seq_counts_2)
    print(seq_counts - seq_counts_2)


if __name__ == "__main__":
    counter_example()

Counter({5: 4, 1: 3, 2: 3, 3: 1, 4: 1})
Counter({1: 4, 2: 4, 5: 4, 3: 2, 4: 1})
Counter({1: 5, 2: 4, 5: 4, 3: 3, 4: 2})
Counter({1: 1, 4: 1, 3: 1})
Counter({1: 6, 2: 4, 3: 4, 5: 4, 4: 3})
Counter({1: 4, 2: 4, 5: 4, 3: 2, 4: 1})


# 연습 문제

In [28]:
# Counter타입을 사용해 문자열에서 가장 많이 나오는 단어와 횟수 출력
from collections import Counter


def find_top_N_recurring_words(seq, N):
    dcounter = Counter()
    for word in seq.split():
        dcounter[word] += 1
    return dcounter.most_common(N)


def test_find_top_N_recurring_words():
    seq = "버피 에인절 몬스터 잰더 윌로우 버피 몬스터 슈퍼 버피 에인절"
    N = 3
    assert(find_top_N_recurring_words(seq, N) ==
           [("버피", 3), ("에인절", 2), ("몬스터", 2)])
    print("테스트 통과!")


if __name__ == "__main__":
    test_find_top_N_recurring_words()

테스트 통과!


In [34]:
seq = "버피 에인절 몬스터 잰더 윌로우 버피 몬스터 슈퍼 버피 에인절"
seq_list = seq.split()
print(seq_list)

dcounter = Counter()
for word in seq_list:
    dcounter[word] += 1

print(dcounter)
n=1 # 가장 많이 나오는 단어 출력, n = 2일시 가장 많이 나온 순으로 두번째 까지
print(dcounter.most_common(n)) 

['버피', '에인절', '몬스터', '잰더', '윌로우', '버피', '몬스터', '슈퍼', '버피', '에인절']
Counter({'버피': 3, '에인절': 2, '몬스터': 2, '잰더': 1, '윌로우': 1, '슈퍼': 1})
[('버피', 3)]


In [35]:
# Counter 타입을 사용해 문자열의 문자 발생 횟수 카운팅 후 비교
from collections import Counter


def is_anagram(s1, s2):
    counter = Counter()
    for c in s1:
        counter[c] += 1
    for c in s2:
        counter[c] -= 1
    for i in counter.values():
        if i:
            return False
    return True


def test_is_anagram():
    s1 = "marina"
    s2 = "aniram"
    assert(is_anagram(s1, s2) is True) # s1, s2의 문자열 속 문자 발생 횟수는 같다.
    s1 = "google"
    s2 = "gouglo"
    assert(is_anagram(s1, s2) is False) # s1, s2는 문자열 속 문자 발생 횟수는 다르다.
    print("테스트 통과!")


if __name__ == "__main__":
    test_is_anagram()

테스트 통과!


In [39]:
counter = Counter()
s1 = "marina"
s2 = "ramnai"
for c in s1:
    counter[c] += 1

print(counter)

for c in s2:
    counter[c] -= 1

print(counter) # s1, s2에 속한 단어의 갯수가 같기에 모두 0으로 출력
print(counter.values())

Counter({'a': 2, 'm': 1, 'r': 1, 'i': 1, 'n': 1})
Counter({'m': 0, 'a': 0, 'r': 0, 'i': 0, 'n': 0})
dict_values([0, 0, 0, 0, 0])


In [45]:
# 두 문자열에 속하는 문장, 단어 철자의 횟수가 같은지 확인하는 다른 방법
# 해시 함수의 속성 이용, 반례가 존재해서 유용하진 못하다고 판단
import string


def hash_func(astring):
    s = 0
    for one in astring:
        if one in string.whitespace:
            continue
        s = s + ord(one)
    return s


def find_anagram_hash_function(word1, word2):
    return hash_func(word1) == hash_func(word2)


def test_find_anagram_hash_function():
    word1 = "buffy"
    word2 = "ZZZZZZ"
    word3 = "bffya"
    assert(find_anagram_hash_function(word1, word2) is True)
    assert(find_anagram_hash_function(word1, word3) is False)
    print("테스트 통과!")


if __name__ == "__main__":
    test_find_anagram_hash_function()

테스트 통과!


In [44]:
word1 = "buffy"
s = hash_func(word1)
print(s)
word2 = "ZZZZZZ" # Z의 ASCII 코드 값 90
s2 = hash_func(word2)
print(s2)

540
540


In [46]:
# 주사위를 두번 던져서 합계가 특정 수가 나오는 경우의 수와 경로를 구해보기
from collections import Counter, defaultdict


def find_dice_probabilities(S, n_faces=6):
    if S > 2 * n_faces or S < 2:
        return None

    cdict = Counter()
    ddict = defaultdict(list)

    # 두 주사위의 합을 모두 더해서 딕셔너리에 넣는다.
    for dice1 in range(1, n_faces+1):
        for dice2 in range(1, n_faces+1):
            t = [dice1, dice2]
            cdict[dice1+dice2] += 1
            ddict[dice1+dice2].append(t)

    return [cdict[S], ddict[S]]


def test_find_dice_probabilities():
    n_faces = 6
    S = 5
    results = find_dice_probabilities(S, n_faces)
    print(results)
    assert(results[0] == len(results[1]))
    print("테스트 통과!")


if __name__ == "__main__":
    test_find_dice_probabilities()

[4, [[1, 4], [2, 3], [3, 2], [4, 1]]]
테스트 통과!


In [48]:
# 단어의 중복 문자 제거
import string


def delete_unique_word(str1):
    table_c = {key: 0 for key in string.ascii_lowercase}
    for i in str1:
        table_c[i] += 1
    for key, value in table_c.items():
        if value > 1:
            str1 = str1.replace(key, "")
    return str1


def test_delete_unique_word():
    str1 = "google"
    print(delete_unique_word(str1))
    assert(delete_unique_word(str1) == "le")
    print("테스트 통과!")


if __name__ == "__main__":
    test_delete_unique_word()

le
테스트 통과!
