# CHAPTER 03
##컬렉션 자료구조

컬렉션 자료구조 = 데이터를 서로 연관시키지 않고 모아두는 컨테이너(container)

3.1 셋 (set) :
######반복 가능하고, 가변적이며, 중복 요소가 없고, 정렬되지 않은 컬렉션 데이터 타입

In [None]:
dir(set())

In [None]:
dir(frozenset()) # frozenset : 불변 객체

In [None]:
fs = frozenset((1,2,3))
2 in fs

In [None]:
people = {"버피","에인절","자일스"}
people.add("윌로") # A.add(x): x가 A에 없으면 추가
print(people)

people.update({"로미오", "줄리엣", "에인절"})
print(people)

people |= {"리키","유진"}
people
        # update 또는 '|='연산자: 합집합 개념

In [None]:
people = {"버피","에인절","자일스"}
print(people.union({"로미오","줄리엣"})) # A.union() 또는 '|'연산자: A의 복사본을 반환 (update()메서드와 같음)
print(people | {"브라이언"})
people

In [None]:
people = {"버피","에인절","자일스","이안"}
vampires = {"에인절","자일스","윌로"}
people.intersection(vampires), people & vampires # A.intersection(B) 또는 '&'연산자: 교집합 개념 (복사본 반환)

In [None]:
people = {"버피","에인절","자일스","이안"}
vampires = {"에인절","자일스","윌로"}
people.difference(vampires), people-vampires # A.difference(B) 또는 A-B : 차집합 개념 (복사본 반환)

In [None]:
people = {"버피","에인절","자일스"}
people.clear() # A.clear(): A의 모든 항목을 제거
people

In [None]:
countries = {"프랑스","스페인","영국"}
countries.discard("한국")
countries.remove("일본") # remove(X) -> X가 집합에 없으면 오류발생, but discard(X)는 오류 안 남

In [None]:
countries = {"프랑스","스페인","영국"}
countries.pop() # A.pop(): A에서 한 항목을 무작위로 제거 // A가 비어 있으면 오류발생

In [None]:
def remove_dup(l1):
    # 리스트의 중복된 항목을 제거한 후 반환
    return list(set(l1))

def intersection(l1,l2):
    # 교집합의 결과를 반환
    return list(set(l1) & set(l2))

def union(l1,l2):
    # 합집합의 결과를 반환
    return list(set(l1) | set(l2))

def test_sets_operations_with_lists():
    l1 = [1,2,3,4,5,5,9,11,11,15]
    l2 = [4,5,6,7,8]
    l3 = []
    assert(remove_dup(l1)) == [1,2,3,4,5,9,11,15]
    assert(intersection(l1,l2) == [4,5])
    assert(union(l1,l2) == [1,2,3,4,5,6,7,8,9,11,15])
    assert(remove_dup(l3) == [])
    assert(intersection(l3,l2) == l3)
    assert(sorted(union(l3,l2)) == sorted(l2))
    print("테스트 통과!")

if __name__ == "__main__":
    test_sets_operations_with_lists()  

In [None]:
def set_operations_with_dict():
    pairs = [("a",1),("b",2),("c",3)]
    d1 = dict(pairs)
    print("딕셔너리1\t: {0}".format(d1))

    d2 = {"a":1, "c":2, "d":3, "e":4}
    print("딕셔너리2\t: {0}".format(d2))
    
    intersection = d1.keys() & d2.keys()
    print("d1∩d2 (키)\t: {0}".format(intersection))

    intersection_items = d1.items() & d2.items()
    print("d1∩d2 (키,값)\t: {0}".format(intersection_items))

    subtraction1 = d1.keys() - d2.keys()
    print("d1-d2 (키)\t: {0}".format(subtraction1))

    subtraction2 = d2.keys() & d1.keys()
    print("d2-d1 (키)\t: {0}".format(subtraction2))

    subtraction_items = d1.items() - d2.items()
    print("d1-d2 (키,값)\t: {0}".format(subtraction_items))

    # 딕셔너리의 특정 키를 제외한다.
    d3 = {key: d2[key] for key in d2.keys() - {"c","d"}}
    print("d2 - {{c,d}}\t: {0}".format(d3))

if __name__ == "__main__":
    set_operations_with_dict()

In [None]:
d = {'a':1, 'b':2}
d.items()

####3.2 딕셔너리
######매핑: 키-값이고, 반복 가능하며, 가변객체이며, 인덱스 위치 사용불가 (슬라이스 불가)

In [None]:
# 해쉬 함수 : 특정 객체에 해당하는 임의의 정수 값을 상수 시간 내에 계산한다.
hash('hello')

In [None]:
tarantino = {}
tarantino['name'] = '쿠엔틴 타란티노'
tarantino['job'] = '감독'
print(tarantino)

sunnydale = dict({"name":"버피", "age":16, "hobby":"게임"})
print(sunnydale)

sunnydale = dict(name="자일스", age=45, hobby="영화감상")
print(sunnydale)

sunnydale = dict([("name","윌로"),("age",15),("hobby","개발")])
print(sunnydale)

In [None]:
def usual_dict(dict_data):
    # dict[key] 사용
    newdata = {}
    for k, v in dict_data:
        if k in newdata:
            newdata[k].append(v)
        else:
            newdata[k] = [v]
    return newdata

def setdefault_dict(dict_data):
    # setdefault() 메서드 사용
    newdata = {}
    for k, v in dict_data:
        newdata.setdefault(k, []).append(v)
    return newdata

def test_setdef():
    dict_data = (('key1', 'value1'),
                 ('key1', 'value2'),
                 ('key2', 'value3'),
                 ('key2', 'value4'),
                 ('key2', 'value5'))
    print(usual_dict(dict_data))
    print(setdefault_dict(dict_data))

if __name__ == "__main__":
    test_setdef()

In [None]:
d = {'a':1, 'b':2}
d.update({'b':10})  # A.update(B): A에 B의 키가 있다면, B의 (키,값)으로 갱신 // 없다면 B의 (키,값)을 A에 추가
print(d)

d.update({'c':100})
d

In [None]:
sunnydale = dict(name='잰더', age=17, hobby='게임')
sunnydale.get('hobby'), sunnydale['age'] # get(X): X의 value를 반환, 없다면 반환X

In [None]:
sunnydale = dict(name='잰더', age=17, hobby='게임')
print(sunnydale.items())

print(sunnydale.values())

print(sunnydale.keys())

sunnydale_copy = sunnydale.items()
sunnydale_copy['address'] = '서울' # d.items()는 불변객체

In [None]:
sunnydale = dict(name='잰더', age=17, hobby='게임', address='서울')
sunnydale.pop('age') # A.pop(key): A의 key 항목을 제거 후 그 key의 value 반환
print(sunnydale)

sunnydale.popitem() # A.popitem(): A의 (키와 값)을 제거 후, 그 항목을 반환
sunnydale

In [None]:
sunnydale.clear() #A.clear(): A의 모든 항목 제거
sunnydale

####딕셔너리의 성능 측정
######멤버십 연산에 대한 시간 복잡도 : 리스트=O(n) , 딕셔너리=O(1)이다.

In [None]:
import timeit
import random
for i in range(10000, 1000001, 20000):
    t = timeit.Timer("random.randrange(%d) in x" %i,
                     "from __main__ import random, x")
    x = list(range(i)) # 리스트
    lst_time = t.timeit(number=1000)
    x = {j: None for j in range(i)} # 딕셔너리
    d_time = t.timeit(number=1000)
    print("%d,%10.3f,%10.3f" % (i, lst_time, d_time))

In [None]:
d = dict(c="!", b="world", a="hello")
for key in sorted(d.keys()): # sorted()로 정렬 후 순회하여 출력
    print(key, d[key])

In [None]:
def hello():
    print('hello')

def world():
    print('world')

action = 'h'
# 일반적인 분기문
if action == 'h':
    hello()
elif action == 'w':
    world()

# 딕셔너리를 사용한 분기 -> 효율적으로 분기 가능
functions = dict(h=hello, w=world)
functions[action]()

####3.3 파이썬 컬렉션 데이터 타입

In [None]:
from collections import defaultdict # collections 모듈: 다양한 딕셔너리 타입 제공

def defaultdict_example():
    pairs = {("a",1),("b",2),("c",3)}

    # 일반 딕셔너리
    d1 = {}
    for key, value in pairs:
        if key not in d1:
            d1[key] = []
        d1[key].append(value)
    print(d1)

    # defaultdict
    d2 = defaultdict(list)
    for key, value in pairs:
        d2[key].append(value)
    print(d2)

if __name__ == "__main__":
    defaultdict_example()

In [None]:
# 정렬된 딕셔너리
from collections import OrderedDict # Python3.7이상부터는 OrderedDict 말고 표준 딕셔너리도 삽입 순서를 보존한다
tasks = OrderedDict()
tasks[8031] = "백업"
tasks[4027] = "이메일 스캔"
tasks[5733] = "시스템 빌드"
tasks

In [None]:
from collections import OrderedDict

def orderedDict_example():
    pairs = [("c",1),("b",2),("a",3)]

    # 일반 딕셔너리
    d1 = {}
    for key, value in pairs:
        if key not in d1:
            d1[key] = []
        d1[key].append(value)
    for key in d1:
        print(key, d1[key])

    # OrderedDict
    d2 = OrderedDict(pairs)
    for key in d2:
        print(key, d2[key])

if __name__ == "__main__":
    orderedDict_example()

In [None]:
# 카운터 딕셔너리
from collections import Counter

def counter_example():
    # 항목의 발생 횟수를 매핑하는 딕셔너리를 생성한다
    seq1 = [1,2,3,5,1,2,5,5,2,5,1,4]
    seq_counts = Counter(seq1)
    print(seq_counts)

    # 항목의 발생 횟수를 수동으로 갱신하거나, update() 메서드를 사용할 수 있다
    seq2 = [1,2,3]
    seq_counts.update(seq2) # [1,2,3] 을 하나씩 count
    print(seq_counts)
    seq3 = [1,4,3]
    for key in seq3:
        seq_counts[key] += 1 # [1,4,3]을 key로 하는 value를 1씩 +
    print(seq_counts)

    # a+b, a-b 같은 셋 연산을 사용할 수 있다
    seq_counts_2 = Counter(seq3)
    print(seq_counts_2)
    print(seq_counts + seq_counts_2)
    print(seq_counts - seq_counts_2)

if __name__ == "__main__":
    counter_example()

In [None]:
# 단어 횟수 세기
from collections import Counter

def find_top_N_recurring_words(seq, N): # seq안에 가장 많이 등장하는 단어를 N개 보여주는 함수
    dcounter = Counter()
    for word in seq.split():
        dcounter[word] += 1
    return dcounter.most_common(N)

def test_find_top_N_recurring_words():
    seq = "버피 에인절 몬스터 잰더 윌로 버피 몬스터 슈퍼 버피 에인절"
    N = 3
    assert(find_top_N_recurring_words(seq,N) == [("버피",3),("에인절",2),("몬스터",2)])
    print("테스트 통과!")

if __name__ == "__main__":
    test_find_top_N_recurring_words()

In [None]:
# 애너그램: 문장 또는 단어의 철자 순서를 바꾸는 놀이 / ex) 'asdf' == 'dsaf'
from collections import Counter

def is_anagram(s1,s2):
    counter = Counter() # Counter() 객체 생성
    for c in s1:
        counter[c] += 1
    for c in s2:
        counter[c] -= 1
    for i in counter.values():
        if i:       # 0은 거짓, 그외의 숫자는 참
            return False
    return True     # 애너그램이 맞다

def test_is_anagram():
    s1 = 'marina'
    s2 = 'aniram'
    assert(is_anagram(s1,s2) is True)
    s1 = 'google'
    s2 = 'gouglo'
    assert(is_anagram(s1,s2) is False)
    print("테스트 통과!")

if __name__ == "__main__":
    test_is_anagram()

In [None]:
import string

def hash_func(astring): # string에 담긴 문자들의 모든 해쉬값을 더해주는 함수
    s = 0
    for one in astring:
        if one in string.whitespace: # string.whitespace: 공백으로 간주하는 모든 ASCII 문자를 포함하는 문자열
            continue
        s = s + ord(one) # ord(): 문자를 ASCII코드로 바꿔주는 함수
    return s

def find_anagram_hash_function(word1, word2):
    return hash_func(word1) == hash_func(word2)

def test_find_anagram_hash_function():
    word1 = 'buffy'
    word2 = 'bffyu'
    word3 = 'bffya'
    assert(find_anagram_hash_function(word1, word2) is True)
    assert(find_anagram_hash_function(word1, word3) is False)
    print('테스트 통과!')

if __name__ == "__main__":
    test_find_anagram_hash_function()

일반 딕셔너리의 경우, 미리 삽입하지 않은 key를 호출하면 다음과 같이 에러가 난다.

In [None]:
# 주사위 합계 경로
from collections import Counter, defaultdict # defaultdict(자료형): 기본값을 지정한 딕셔너리

def find_dice_probabilities(S, n_faces=6):
    if S > 2 * n_faces or S < 2:
        return None

    cdict = Counter()
    ddict = defaultdict(list) # ddict를 리스트로 지정

    # 두 주사위의 합을 모두 더해서 딕셔너리에 넣는다
    for dice1 in range(1, n_faces+1):
        for dice2 in range(1, n_faces+1):
            t = [dice1, dice2]
            cdict[dice1+dice2] += 1
            ddict[dice1+dice2].append(t)

    return [cdict[S],ddict[S]]

def test_find_dice_probabilities():
    n_faces = 6
    S = 5
    results = find_dice_probabilities(S, n_faces)
    print(results)
    assert(results[0] == len(results[1]))
    print("테스트 통과!")

if __name__ == "__main__":
    test_find_dice_probabilities()

In [None]:
# 딕셔너리를 이용해 단어에서 중복되는 문자를 모두 찾아서 제거하는 함수
import string

def delete_unique_word(str1):
    table_c = {key: 0 for key in string.ascii_lowercase} # key자리에 ascii_lowercase가 들어감 (모든 소문자를 string형태로) 
    for i in str1:
        table_c[i] += 1
    for key, value in table_c.items():
        if value > 1:
            str1 = str1.replace(key, "") # 2 이상이면 없앤다
    return str1

def test_delete_unique_word():
    str1 = "google"
    assert(delete_unique_word(str1) == "le")
    print("테스트 통과!")

if __name__ == "__main__":
    test_delete_unique_word()