# 컬렉션 자료구조 특성
- 멤버십 연산자 : in
- 크기 함수 : len(seq)
- 반복성 : 반복문의 데이터를 순회한다.

# 셋 메서드

## add()

In [1]:
people = {"버피", "에인절", "자일스"}
people.add("윌로")
people

{'버피', '에인절', '윌로', '자일스'}

## update()와 |= 연산자

In [2]:
people = {"버피", "에인절", "자일스"}
people.update({"로미오", "줄리엣", "에인절"})
people

{'로미오', '버피', '에인절', '자일스', '줄리엣'}

In [3]:
people |= {"리키", "유진"}
people

{'로미오', '리키', '버피', '에인절', '유진', '자일스', '줄리엣'}

## union()과 | 연산자

In [4]:
people = {"버피", "에인절", "자일스"}
people.union({"로미오", "줄리엣"})
people

{'버피', '에인절', '자일스'}

In [5]:
people | {"브라이언"}

{'버피', '브라이언', '에인절', '자일스'}

## intersection()과 & 연산자

In [6]:
people = {"버피", "에인절", "자일스", "이안"}
vampires = {"에인절", "자일스", "윌로"}
people.intersection(vampires)

{'에인절', '자일스'}

In [7]:
people & vampires

{'에인절', '자일스'}

## difference()와 - 연산자

In [8]:
people = {"버피", "에인절", "자일스", "아영"}
vampires = {"스파이크", "에인절", "상민"}
people.difference(vampires)

{'버피', '아영', '자일스'}

In [9]:
people - vampires

{'버피', '아영', '자일스'}

## clear()

In [10]:
people = {"버피", "에인절", "자일스"}
people.clear()
people

set()

## discard(), remove(), pop()

In [11]:
countries = {"프랑스", "스페인", "영국"}
countries.discard("한국")

In [12]:
countries.remove("일본")

KeyError: '일본'

In [13]:
countries.pop()

'프랑스'

In [14]:
countries.discard("스페인")

In [15]:
countries.remove("영국")

In [16]:
countries.pop()

KeyError: 'pop from an empty set'

## 셋과 리스트

In [17]:
def remove_dup(l1):
    # 리스트의 중복된 항목을 제거한 후 반환
    return list(set(l1))

def intersection(l1, l2):
    # 교집합 결과를 반환
    return list(set(l1) & set(l2))

def union(l1, l2):
    # 합집합 결과를 반환
    return list(set(l1) | set(l2))

def test_sets_operations_with_list():
    l1 = [1,2,3,4,5,5,9,11,11,15]
    l2 = [4,5,6,7,8]
    l3 = []
    assert(remove_dup(l1) == [1,2,3,4,5,9,11,15])
    assert(intersection(l1, l2) == [4,5])
    assert(union(l1, l2) == [1,2,3,4,5,6,7,8,9,11,15])
    assert(remove_dup(l3) == [])
    assert(intersection(l3, l2) == l3)
    assert(sorted(union(l3, l2)) == sorted(l2))
    print('테스트 통과!')

In [18]:
test_sets_operations_with_list()

테스트 통과!


In [20]:
def set_operations_with_dict():
    pairs = [("a", 1), ("b", 2), ("c", 3)]
    d1 = dict(pairs)
    print("딕셔너리1\t: {0}".format(d1))
    
    d2 = {"a":1, "c":2, "d":3, "e":4}
    print("딕셔너리2\t: {0}".format(d2))
    
    intersection = d1.keys() & d2.keys()
    print("d1 ∩ d2 (키)\t: {0}".format(intersection))
    
    intersection_items = d1.items() & d2.items()
    print("d1 ∩ d2 (키,값)\t: {0}".format(intersection_items))
    
    subtraction1 = d1.keys() - d2.keys()
    print("d1 - d2 (키)\t: {0}".format(subtraction1))
    
    subtraction2 = d2.keys() - d1.keys()
    print("d2 - d1 (키)\t: {0}".format(subtraction2))
    
    subtraction_items = d1.items() - d2.items()
    print("d1 - d2 (키, 값)\t: {0}".format(subtraction_items))
    
    # 딕셔너리의 특정 키를 제외한다.
    d3 = {key: d2[key] for key in d2.keys() - {"c", "d"}}
    print("d2 - {{c, d}}\t: {0}".format(d3))

In [22]:
set_operations_with_dict()

딕셔너리1	: {'a': 1, 'b': 2, 'c': 3}
딕셔너리2	: {'a': 1, 'c': 2, 'd': 3, 'e': 4}
d1 ∩ d2 (키)	: {'c', 'a'}
d1 ∩ d2 (키,값)	: {('a', 1)}
d1 - d2 (키)	: {'b'}
d2 - d1 (키)	: {'e', 'd'}
d1 - d2 (키, 값)	: {('c', 3), ('b', 2)}
d2 - {c, d}	: {'e': 4, 'a': 1}


# 딕셔너리 메서드

## setdefault()

In [23]:
def usual_dict(dict_data):
    # dict[key] 사용
    newdata = {}
    for k, v in dict_data:
        if k in newdata:
            newdata[k].append(v)
        else:
            newdata[k] = [v]
    return newdata

def setdefault_dict(dict_data):
    # setdefault() 메서드 사용
    newdata = {}
    for k, v in dict_data:
        newdata.setdefault(k, []).append(v)
    return newdata

def test_setdef():
    dict_data = (("key1", "value1"),
                ("key1", "value2"),
                ("key2", "value3"),
                ("key2", "value4"),
                ("key2", "value5"))
    print(usual_dict(dict_data))
    print(setdefault_dict(dict_data))

In [24]:
test_setdef()

{'key1': ['value1', 'value2'], 'key2': ['value3', 'value4', 'value5']}
{'key1': ['value1', 'value2'], 'key2': ['value3', 'value4', 'value5']}


## update()

In [25]:
d = {'a' : 1, 'b' : 2}
d.update({'b':10})
d

{'a': 1, 'b': 10}

In [26]:
d.update({'c':100})
d

{'a': 1, 'b': 10, 'c': 100}

## get()

In [27]:
sunnydale = dict(name="잰더", age=17, hobby="게임")
sunnydale.get("hobby")

'게임'

In [28]:
sunnydale['hobby']

'게임'

In [29]:
sunnydale.get('hello') # 값이 없으면 아무것도 반환하지 않는다

In [30]:
sunnydale['hello']

KeyError: 'hello'

## items(), values(), keys()

In [31]:
sunnydale = dict(name="잰더", age=17, hobby="게임")
sunnydale.items()

dict_items([('name', '잰더'), ('age', 17), ('hobby', '게임')])

In [32]:
sunnydale.values()

dict_values(['잰더', 17, '게임'])

In [33]:
sunnydale.keys()

dict_keys(['name', 'age', 'hobby'])

In [34]:
sunnydale_copy = sunnydale.items()

In [35]:
sunnydale_copy['address'] = '서울'

TypeError: 'dict_items' object does not support item assignment

In [36]:
sunnydale['address'] = "서울"
sunnydale

{'name': '잰더', 'age': 17, 'hobby': '게임', 'address': '서울'}

## pop(), popitem()

In [37]:
sunnydale = dict(name="잰더", age=17, hobby="게임", address="서울")
sunnydale.pop("age")

17

In [38]:
sunnydale

{'name': '잰더', 'hobby': '게임', 'address': '서울'}

In [39]:
sunnydale.popitem()

('address', '서울')

In [40]:
sunnydale

{'name': '잰더', 'hobby': '게임'}

## clear()

In [41]:
sunnydale.clear()
sunnydale

{}

## 딕셔너리 성능 측정

In [42]:
import timeit
import random

for i in range(10000, 1000001, 20000):
    t = timeit.Timer("random.randrange(%d) in x" % i,
                    "from __main__ import random, x")
    x = list(range(i)) # 리스트
    lst_time = t.timeit(number=1000)
    x = {j: None for j in range(i)} # 딕셔너리
    d_time = t.timeit(number=1000)
    print("%d,%10.3f,%10.3f" % (i, lst_time, d_time))

10000,     0.051,     0.001
30000,     0.150,     0.001
50000,     0.263,     0.001
70000,     0.356,     0.001
90000,     0.475,     0.002
110000,     0.582,     0.001
130000,     0.668,     0.001
150000,     0.789,     0.001
170000,     0.882,     0.001
190000,     0.977,     0.001
210000,     1.062,     0.001
230000,     1.165,     0.001
250000,     1.274,     0.001
270000,     1.405,     0.001
290000,     1.518,     0.001
310000,     1.613,     0.001
330000,     1.721,     0.001
350000,     1.875,     0.001
370000,     1.940,     0.001
390000,     2.043,     0.001
410000,     2.127,     0.001
430000,     2.266,     0.001
450000,     2.400,     0.001
470000,     2.594,     0.001
490000,     2.543,     0.001
510000,     2.708,     0.001
530000,     2.759,     0.001
550000,     3.001,     0.001
570000,     3.033,     0.001
590000,     3.150,     0.001
610000,     3.232,     0.001


KeyboardInterrupt: 

## 딕셔너리 순회

In [43]:
d = dict(c="!", b="world", a="hello")
for key in sorted(d.keys()):
    print(key, d[key])

a hello
b world
c !


## 딕셔너리 분기

In [44]:
def hello():
    print("hello")
    
def world():
    print("world")

action = "h"
functions = dict(h=hello, w=world)
functions[action]()

hello


# 파이썬 컬렉션 데이터 타입

## 기본 딕셔너리

In [45]:
from collections import defaultdict

def defaultdict_example():
    pairs = {("a", 1), ("b", 2), ("c", 3)}
    
    # 일반 딕셔너리
    d1 = {}
    for key, value in pairs:
        if key not in d1:
            d1[key] = []
        d1[key].append(value)
    print(d1)
    
    # defalutdict
    d2 = defaultdict(list)
    for key, value in pairs:
        d2[key].append(value)
    print(d2)

In [46]:
defaultdict_example()

{'c': [3], 'b': [2], 'a': [1]}
defaultdict(<class 'list'>, {'c': [3], 'b': [2], 'a': [1]})


## 정렬된 딕셔너리

In [47]:
from collections import OrderedDict
tasks = OrderedDict()
tasks[8031] = "백업"
tasks[4027] = "이메일 스캔"
tasks[5733] = "시스템 빌드"
tasks

OrderedDict([(8031, '백업'), (4027, '이메일 스캔'), (5733, '시스템 빌드')])

In [48]:
from collections import OrderedDict

def orderedDict_example():
    pairs = [("c", 1), ("b", 2), ("a", 3)]
    
    # 일반 딕셔너리
    d1 = {}
    for key, value in pairs:
        if key not in d1:
            d1[key] = []
        d1[key].append(value)
    for key in d1:
        print(key, d1[key])
        
    # OrderedDict
    d2 = OrderedDict(pairs)
    for key in d2:
        print(key, d2[key])

In [49]:
orderedDict_example()

c [1]
b [2]
a [3]
c 1
b 2
a 3


## 카운터 딕셔너리

In [50]:
from collections import Counter

def counter_example():
    # 항목의 발생 횟수를 매핑하는 딕셔너리를 생성한다.
    seq1 = [1,2,3,5,1,2,5,5,2,5,1,4]
    seq_counts = Counter(seq1)
    print(seq_counts)
    
    # 항목의 발생 횟수를 수동으로 갱신하거나, update() 메서드를 사용할 수 있다.
    seq2 = [1,2,3]
    seq_counts.update(seq2)
    print(seq_counts)
    
    seq3 = [1,4,3]
    for key in seq3:
        seq_counts[key] += 1
    print(seq_counts)
    
    # a+b, a-b 같은 셋 연산을 사용할 수 있다.
    seq_counts_2 = Counter(seq3)
    print(seq_counts_2)
    print(seq_counts + seq_counts_2)
    print(seq_counts + seq_counts_2)

In [51]:
counter_example()

Counter({5: 4, 1: 3, 2: 3, 3: 1, 4: 1})
Counter({1: 4, 2: 4, 5: 4, 3: 2, 4: 1})
Counter({1: 5, 2: 4, 5: 4, 3: 3, 4: 2})
Counter({1: 1, 4: 1, 3: 1})
Counter({1: 6, 2: 4, 3: 4, 5: 4, 4: 3})
Counter({1: 6, 2: 4, 3: 4, 5: 4, 4: 3})


# 연습문제

## 단어 횟수 세기

In [52]:
from collections import Counter

def find_top_N_recurring_words(seq, N):
    dcounter = Counter()
    for word in seq.split():
        dcounter[word] += 1
    return dcounter.most_common(N)

def test_find_top_N_recurring_words():
    seq = "버피 에인절 몬스터 잰더 윌로 버피 몬스터 슈퍼 버피 에인절"
    N = 3
    assert(find_top_N_recurring_words(seq, N) == [("버피", 3), ("에인절", 2), ("몬스터", 2)])
    print('테스트 통과!')

In [53]:
test_find_top_N_recurring_words()

테스트 통과!


## 에너그램

In [54]:
from collections import Counter

def is_anagram(s1, s2):
    counter = Counter()
    for c in s1:
        counter[c] += 1
    for c in s2:
        counter[c] -= 1
    for i in counter.values():
        if i:
            return False
    return True

def test_is_anagram():
    s1 = "marina"
    s2 = "aniram"
    assert(is_anagram(s1, s2) is True)
    s1 = "google"
    s2 = "gouglo"
    assert(is_anagram(s1, s2) is False)
    print('테스트 통과!')

In [55]:
test_is_anagram()

테스트 통과!


## 애너그램2

In [57]:
import string

def hash_func(astring):
    s = 0
    for one in astring:
        if one in string.whitespace:
            continue
        s = s + ord(one) # ord함수는 인수가 유니코드 객체일 때 유니코드를 나타내는 정수를 반환 = ord 값이 동일하면 같은 글자
    return s

def find_anagram_hash_function(word1, word2):
    return hash_func(word1) == hash_func(word2)

def test_find_anagram_hash_function():
    word1 = "buffy"
    word2 = "bffyu"
    word3 = "bffya"
    assert(find_anagram_hash_function(word1, word2) is True)
    assert(find_anagram_hash_function(word1, word3) is False)
    print('테스트 통과!')

In [58]:
test_find_anagram_hash_function()

테스트 통과!


## 주사위 합계 경로

In [62]:
from collections import Counter, defaultdict

def find_dice_probabilities(S, n_faces=6):
    if S > 2 * n_faces or S < 2: # 주사위 면의 2배나 2보다 작은 경우는 존재하지 않음
        return None
    
    cdict = Counter()
    ddict = defaultdict(list) # 기본값으로 빈 리스트
    
    # 두 주사위의 합을 모두 더해서 딕셔너리에 넣는다.
    for dice1 in range(1, n_faces+1): # range 함수이기 때문에 +1
        for dice2 in range(1, n_faces+1):
            t = [dice1, dice2] # 모든 경우의 수
            cdict[dice1+dice2] += 1 # 결과값의 갯수를 셈
            ddict[dice1+dice2].append(t) # 경우의 수를 추가
            
    return [cdict[S], ddict[S]]

def test_find_dice_probabilities():
    n_faces = 6
    S = 5
    results = find_dice_probabilities(S, n_faces)
    print(results)
    assert(results[0] == len(results[1]))
    print('테스트 통과!')

In [63]:
test_find_dice_probabilities()

[4, [[1, 4], [2, 3], [3, 2], [4, 1]]]
테스트 통과!


## 단어의 중복 문자 제거

In [64]:
import string

def delete_unique_word(str1):
    table_c = {key: 0 for key in string.ascii_lowercase}
    for i in str1:
        table_c[i] += 1
    for key, value in table_c.items():
        if value > 1:
            str1 = str1.replace(key, "")
    return str1

def test_delete_unique_word():
    str1 = "google"
    assert(delete_unique_word(str1) == "le")
    print('테스트 통과!')

In [65]:
test_delete_unique_word()

테스트 통과!
