### 3.1 Set 은 반복가능, 가변적, 중복요소 x, 정렬되지 않은 컬렉션 데이터 타입. 
- 삽입 시간복잡도는 O(1),
- 합집합(UNION)은 O(M+N)
- Intersection은 O(N)

### 3.1.1 Set method

- update는 합집합
- union 은 합집합. 그러나 연산 결과를 복사본으로 변환
- intersction, &는 복사본 반환
- difference, - 는 복사본 반환
- clear 는 모든항목 제거.

- discard, remove 같은 역할이나, remove는 항목이 없을경우엔 Error, Discard는 Error를 반환 x 
- pop은 무작위 제거, (really?) - Docstring : Remove and return an arbitrary set element.

### 3.2 딕셔너리

- 파이썬 딕셔너리는 해시 테이블로 구현되어 있다. 해시 함수는 특정 객체에 해당하는 임의의 정수 값을 상수 시간 내에 계산한다. 
- `setdefault()` 메서드는 딕셔너리 A에 키가 존재할 경우, 키값에 append를 해주고, 없을경우 새로 키를만들고 value append
- A.pop(key) 는 딕셔너리 A의 key 항목 제거후, 그 값을 반환
- A.popitem() 은 딕셔너리 A에서 항목(key, value)제거 후, 그 키와 항목 반환
- `in` test는 dict O(1)



### 3.2.4 딕셔너리 분기
```python
def hello():
    print("hello")
def world():
    print("world")
    
action = "h"

if action == "h":
    hello()
elif action == "w":
    world()
>>> hello
```
```python
functions = dict(h=hello, w=world)
functions[action]()
>>> hello
```

### 3.3 파이썬 컬렉션 데이터 타입

- 3.3.1 기본 딕셔너리 collections.defaultdict: 모든 딕셔너리 연산자 및 누락된 키 처리도 가능
```python
from collections import defaultdict

def defaultdict_example():
    pairs = {("a", 1), ("b",2), ("c", 3)}
    
    # 일반 딕셔너리
    d1 = {}
    for key, value in pairs:
        if key not in d1:
            d1[key] = []
        d1[key].append(value)
    print(d1)
    
    # defaultdict
    d2 = defaultdict(list)
    for key, value in pairs:
        d2[key].append(value)
    print(d2) 
```python
if __name__ == "__main__":
    defaultdict_example()
>>> {'c': [3], 'b': [2], 'a': [1]}
>>> defaultdict(<class 'list'>, {'c': [3], 'b': [2], 'a': [1]})
```

### 3.3.2 정렬된 딕셔너리

- `collections.OrderDict` 는 모듈에서 제공하는 정렬된 딕셔너리 타입. 삽입 순서대로 항목 저장

### 3.3.3 카운터 딕셔너리
- 객체를 카운팅하는 특화된 서브 클래스다.
- `+`, `-` 같은 연산 사용가능

### 연습문제

- collections.Counters의 most_common()메서드를 사용하면 문자열에서 가장 많이 나오는 단어와 그 횟수를 쉽게 찾기가 가능.

In [2]:
from collections import Counter
seq = "버피 에인절 몬스터 잰더 윌로 버피 몬스터 슈퍼 버피 에인절"
Counter(seq.split(" "))

Counter({'버피': 3, '에인절': 2, '몬스터': 2, '잰더': 1, '윌로': 1, '슈퍼': 1})

In [15]:
from collections import defaultdict
seq = "버피 에인절 몬스터 잰더 윌로 버피 몬스터 슈퍼 버피 에인절"
words = seq.split()
word_dict = defaultdict(int)
for word in words:
    word_dict[word] += 1
print(word_dict)

defaultdict(<class 'int'>, {'버피': 3, '에인절': 2, '몬스터': 2, '잰더': 1, '윌로': 1, '슈퍼': 1})


In [18]:
s1 = "marina"
s2 = "aniram"

if Counter(s1)  == Counter(s2):
    print(1)
else:
    print(0)

1


In [18]:
from collections import Counter

def find_top_N_recurring_words(seq, N):
    dcounter = Counter()
    for word in seq.split():
        dcounter[word] += 1
    return dcounter.most_common(N)

def test_find_top_N_recurring_words():
    seq = "버피 에인절 몬스터 잰더 윌로 버피 몬스터 슈퍼 버피 에인절"
    N = 3
    assert(find_top_N_recurring_words(seq, N) == [("버피", 3), ("에인절", 2), ("몬스터",2)])
    print("테스트 통과!")
    
if __name__ == "__main__":
    test_find_top_N_recurring_words()

테스트 통과!


In [24]:
def find_top_N_recurring_words(seq, N):
    dcounter = Counter()
    for word in seq.split():
        print(dcounter[word])
        dcounter[word] += 1
    print(dcounter.most_common(3))
    return dcounter.most_common(N)
seq = "버피 에인절 몬스터 잰더 윌로 버피 몬스터 슈퍼 버피 에인절"
N = 3

find_top_N_recurring_words(seq, N)

0
0
0
0
0
1
1
0
2
1
[('버피', 3), ('에인절', 2), ('몬스터', 2)]


[('버피', 3), ('에인절', 2), ('몬스터', 2)]

### 3.4.2 애너그램 
- 문장 또는 단어의 철자 순서를 바꾸는 놀이

In [29]:
from collections import Counter

def is_anagram(s1, s2):
    counter = Counter()
    for c in s1:
        counter[c] += 1
    print(counter)
    for c in s2:
        counter[c] -= 1
    
    print(counter)
    for i in counter.values():
        if i:
            return False
    return True

In [30]:
is_anagram("marina", "aniram")

Counter({'a': 2, 'm': 1, 'r': 1, 'i': 1, 'n': 1})
Counter({'m': 0, 'a': 0, 'r': 0, 'i': 0, 'n': 0})


True

In [43]:
len((Counter("marina") - Counter("aniram")))

0

In [44]:
### 해쉬함수 특성 이용하기
import string
astring = "buffy"
s = 0
for one in astring:
    if one in string.whitespace:
        continue
    s += ord(one)
    print(s)

98
215
317
419
540


In [46]:
ord("b")

98

In [19]:
a = [1,2,3,4,5,6]
S = 4

c = []
for i in a:
    if i <= 3:
        c.append((i))

print(c)




[1, 2, 3]


In [62]:
### 3.4.3 주사위 합계 경로

from collections import Counter, defaultdict

def find_dice_probabilities(S, n_face=6):
    if S > 2 * n_face or S < 2:
        return None
    
    cdict = Counter()
    ddict = defaultdict(list)
    
    # 두 주사위의 합을 모두 더해 딕셔너리안에 넣는다
    
    for dice1 in range(1, n_face+1):
        for dice2 in range(1, n_face+1):
            t = [dice1, dice2]
            cdict[dice1+dice2] += 1
            ddict[dice1+dice2].append(t)
            print("t:",t, "cdict: ",cdict,"ddict: ",ddict)
    return [cdict[S], ddict[S]]

In [63]:
find_dice_probabilities(5,)

t: [1, 1] cdict:  Counter({2: 1}) ddict:  defaultdict(<class 'list'>, {2: [[1, 1]]})
t: [1, 2] cdict:  Counter({2: 1, 3: 1}) ddict:  defaultdict(<class 'list'>, {2: [[1, 1]], 3: [[1, 2]]})
t: [1, 3] cdict:  Counter({2: 1, 3: 1, 4: 1}) ddict:  defaultdict(<class 'list'>, {2: [[1, 1]], 3: [[1, 2]], 4: [[1, 3]]})
t: [1, 4] cdict:  Counter({2: 1, 3: 1, 4: 1, 5: 1}) ddict:  defaultdict(<class 'list'>, {2: [[1, 1]], 3: [[1, 2]], 4: [[1, 3]], 5: [[1, 4]]})
t: [1, 5] cdict:  Counter({2: 1, 3: 1, 4: 1, 5: 1, 6: 1}) ddict:  defaultdict(<class 'list'>, {2: [[1, 1]], 3: [[1, 2]], 4: [[1, 3]], 5: [[1, 4]], 6: [[1, 5]]})
t: [1, 6] cdict:  Counter({2: 1, 3: 1, 4: 1, 5: 1, 6: 1, 7: 1}) ddict:  defaultdict(<class 'list'>, {2: [[1, 1]], 3: [[1, 2]], 4: [[1, 3]], 5: [[1, 4]], 6: [[1, 5]], 7: [[1, 6]]})
t: [2, 1] cdict:  Counter({3: 2, 2: 1, 4: 1, 5: 1, 6: 1, 7: 1}) ddict:  defaultdict(<class 'list'>, {2: [[1, 1]], 3: [[1, 2], [2, 1]], 4: [[1, 3]], 5: [[1, 4]], 6: [[1, 5]], 7: [[1, 6]]})
t: [2, 2] cdict: 

[4, [[1, 4], [2, 3], [3, 2], [4, 1]]]

### 3.4.4 단어의 중복 문자 제거

In [66]:
import string

def delete_unique_word(str1):
    table_c = {key: 0 for key in string.ascii_lowercase}
    print(table_c)
    for i in str1:
        table_c[i] += 1
    for key, value in table_c.items():
        if value > 1:
            str1 = str1.replace(key, "")
    return str1

In [67]:
delete_unique_word("google")

{'a': 0, 'b': 0, 'c': 0, 'd': 0, 'e': 0, 'f': 0, 'g': 0, 'h': 0, 'i': 0, 'j': 0, 'k': 0, 'l': 0, 'm': 0, 'n': 0, 'o': 0, 'p': 0, 'q': 0, 'r': 0, 's': 0, 't': 0, 'u': 0, 'v': 0, 'w': 0, 'x': 0, 'y': 0, 'z': 0}


'le'