In [29]:
import jovian

<IPython.core.display.Javascript object>

In [30]:
jovian.commit(filename='ex_defaultdict.ipynb')

<IPython.core.display.Javascript object>

[jovian] Updating notebook "hongbi/ex-defaultdict" on https://jovian.ai/[0m
[jovian] Committed successfully! https://jovian.ai/hongbi/ex-defaultdict[0m


'https://jovian.ai/hongbi/ex-defaultdict'

# 1. `Setdefault`

In [None]:
# Dic Setdefault 예제 : 튜플에서 딕셔너리 만들 때 속도도 빠르고 대용량데이터 처리에서 좋음
source = (('k1', 'val1'),
            ('k1', 'val2'),
            ('k2', 'val3'),
            ('k2', 'val4'),
            ('k2', 'val5'))

new_dict1 = {}
new_dict2 = {}

# No use Setdefault
for k, v in source:
    if k in new_dict1:
        new_dict1[k].append(v)
    else:
        new_dict1[k] = [v]
        
print(new_dict1)

# Use Setdefault
for k, v in source:
    new_dict2.setdefault(k, []).append(v)
    
print(new_dict2)

# 2. `defaultdict`

## 2-1. 설명예제 1
from https://www.daleseo.com/python-collections-defaultdict/

두 개의 예제를 다뤄봅니다! 
1. 단어에 등장하는 알파벳 개수 세기
2. 주어진 단어들을 길이에 따라 분류해주는 코드 만들기

In [1]:
"""예제 1-1. 일반적인 dict"""
WORD = 'ambiguity'
def countLetters(word):
    counter = {}
    for letter in word:
        if letter not in counter:
            counter[letter] = 0
        counter[letter] += 1
    return counter

counter1 = countLetters(WORD)
counter1

{'a': 1, 'm': 1, 'b': 1, 'i': 2, 'g': 1, 'u': 1, 't': 1, 'y': 1}

In [2]:
"""예제 1-2. dict.setdefault() 메서드 사용 -> if를 피할 수 있음
첫번째 인자로 키(key)값, 두번째 인자로 기본값(default value)""" 

def countLetters(word):
    counter = {}
    for letter in word:
        counter.setdefault(letter, 0)
        counter[letter] += 1
    return counter
    
counter2 = countLetters(WORD)
counter2

{'a': 1, 'm': 1, 'b': 1, 'i': 2, 'g': 1, 'u': 1, 't': 1, 'y': 1}

In [3]:
"""예제 1-3. dict 객체 대신에 defaultdict 객체 사용: collections.defaultdict"""
from collections import defaultdict

def countLetters(word):
    counter = defaultdict(int) # 생성자로 int를 넘긴 이유 : 0을 리턴 => 초기화의 느낌
    # counter = defaultdict(lambda: 0)
    for letter in word:
        counter[letter] += 1
    return counter
    
counter3 = countLetters(WORD)
counter3

defaultdict(int,
            {'a': 1, 'm': 1, 'b': 1, 'i': 2, 'g': 1, 'u': 1, 't': 1, 'y': 1})

In [6]:
"""예제 2-1. 사전 기본값으로 빈 리스트 세팅하기: 
주어진 단어들을 길이에 따라 분류해주는 코드 만들기"""
from collections import defaultdict

def groupWords(words):
    grouper = defaultdict(list) # defaultdict 생성자에 list 함수를 넘겼기 때문에, grouper 사전에 어떤 글자가 키(key)로 존재하지 않는 경우, 해당 키에 대한 기본값을 비어있는 리스트(empty list)로 세팅해줍니다.
    for word in words:
        length = len(word)
        grouper[length].append(word)
    return grouper
    
ex1 = groupWords(['ambiguity', 'card', 'travel', 'name', 'card'])
ex1

defaultdict(list,
            {9: ['ambiguity'], 4: ['card', 'name', 'card'], 6: ['travel']})

In [8]:
"""예제 2-2. 위에꺼 응용 - 사전 기본값으로 빈 set 세팅하기:
중복을 원하지 않을 때"""
from collections import defaultdict

def groupWords(words):
    grouper = defaultdict(set)
    for word in words:
        length = len(word)
        grouper[length].add(word)
    return grouper
    
counter5 = groupWords(['ambiguity', 'card', 'travel', 'name', 'card'])
counter5

defaultdict(set, {9: {'ambiguity'}, 4: {'card', 'name'}, 6: {'travel'}})

## 2-2. 설명예제2
from https://excelsior-cjh.tistory.com/95

### 1. defaultdict란
`collections.defaultdict`는  딕셔너리(dictionary)와 거의 비슷하지만 key값이 없을 경우 미리 지정해 놓은 초기(default)값을 반환하는 dictionary이다. defaultdict과 관련하여 자세한 내용은 docs.python.org에서 확인할 수 있다.    

#### dict vs defaultdict (예제 소스코드를 통한 비교)

- 예제(1-1)에서 기본 딕셔너리는 해당 키가 없는 값을 출력할 경우 KeyError Exception 에러가 나타난다. 
- 반면에 예제(1-2)에서 defaultdict는 `default_factory()`라는 함수로 초기값(default)를 null로 지정해줬기 때문에 해당 키가 없는 값을 출력할 경우 초기값인 null 이 출력된다.

In [13]:
# 예제(1) - dict vs defaultdict
# 1-1. 기본 딕셔너리

import collections

ex1 = {'a':1, 'b':2}
print(ex1)
print(ex1['c'])
# 결과: KeyError가 뜬다

{'a': 1, 'b': 2}


KeyError: 'c'

In [33]:
# 1-2. collections.defaultdict
# defaultdict의 초기값 생성
def default_factory():
    return 'null'
ex2 = collections.defaultdict(default_factory, a=1, b=2)

print('======BEFORE======')
print('ex2: ', ex2)
print(ex2['c'])
print('-> 없는 키값인 "c"를 호출하면 default_factory()가 호출되어 null이 반환된다.')
print('\n')

print('======AFTER======')
print('"c"호출 후의 ex2: ', ex2)
print('-> "c"의 value로 default_factory()의 반환값인 "null"이 할당되었다.')
# print(ex2)

ex2:  defaultdict(<function default_factory at 0x1073c45e0>, {'a': 1, 'b': 2})
null
-> 없는 키값인 "c"를 호출하면 default_factory()가 호출되어 null이 반환된다.


"c"호출 후의 ex2:  defaultdict(<function default_factory at 0x1073c45e0>, {'a': 1, 'b': 2, 'c': 'null'})
-> "c"의 value로 default_factory()의 반환값인 "null"이 할당되었다.


### 2. defaultdict의 인자(factor)
```python
collections.defaultdict(default_factory, key=value,...)
```
- 첫번째 인자 : `default_factory`  => defaultdict의 초기값을 지정하는 인자 : 메소드 형태의 값을 인자로 받음.
- 두번째 인자 : $key1=value1,key2=value2,...,keyn=valuenkey_1=value_1, key_2=value_2,...,key_n=value_n$

In [34]:
# 예제(2-1) - default_factory를 지정하지 않은 경우

import collections

ex2 = collections.defaultdict(a=1, b=2)
print(ex2)
print(ex2['c'])

defaultdict(None, {'a': 1, 'b': 2})


KeyError: 'c'

In [35]:
# 예제(2-1) - default_factory를 지정하지 않은 경우

import collections

def default_factory():
    return 'null'
ex2 = collections.defaultdict(default_factory, a=1, b=2)
print(ex2)
print(ex2['c'])

defaultdict(<function default_factory at 0x107407a60>, {'a': 1, 'b': 2})
null


In [36]:
# 예제(3) - 다양한 default_factory

import collections

# 3-1. list
ex_list = collections.defaultdict(list, a=[1,2], b=[3,4])
print(ex_list)
print(ex_list['c'])

# 3-2. set
ex_set = collections.defaultdict(set, a={1,2}, b={3,4})
print(ex_set)
print(ex_set['c'])

# 3-3. int
ex_int = collections.defaultdict(int, a=1, b=2)
print(ex_int)
print(ex_int['c'])

defaultdict(<class 'list'>, {'a': [1, 2], 'b': [3, 4]})
[]
defaultdict(<class 'set'>, {'a': {1, 2}, 'b': {3, 4}})
set()
defaultdict(<class 'int'>, {'a': 1, 'b': 2})
0


## 2-3. 파이썬 공식 다큐 예제
https://docs.python.org/3/library/collections.html#collections.defaultdict

Using `list` as the `default_factory`, it is easy to group a sequence of key-value pairs into a dictionary of lists:

In [39]:
s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
d = defaultdict(list)
for k, v in s:
    d[k].append(v)
print(d)
sorted(d.items())

defaultdict(<class 'list'>, {'yellow': [1, 3], 'blue': [2, 4], 'red': [1]})


[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

When each key is encountered for the first time, it is not already in the mapping;  

1. so an entry is automatically created using the `default_factory` function which returns an empty `list`. 
2. The `list.append()` operation then attaches the value to the new list. 
3. When keys are encountered again, the look-up proceeds normally (returning the list for that key) and the `list.append()` operation adds another value to the list.   


This technique is simpler and faster than an equivalent technique using `dict.setdefault()`:

In [40]:
d = {}
for k, v in s:
    d.setdefault(k, []).append(v)

sorted(d.items())

[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

Setting the `default_factory` to `int` makes the `defaultdict` useful for counting (like a bag or multiset in other languages):

In [51]:
WORD = 'mississippi'
d1 = defaultdict(int)
for letter in WORD:
    d1[letter] += 1

sorted(d1.items())

[('i', 4), ('m', 1), ('p', 2), ('s', 4)]

When a letter is first encountered, it is missing from the mapping, so the `default_factory` function calls `int()` to supply a default count of zero. The increment operation then builds up the count for each letter.

The function `int()` which always returns zero is just a special case of constant functions. A faster and more flexible way to create constant functions is to use a lambda function which can supply any constant value (not just zero):

In [53]:
def constant_factory(value):
    return lambda: value

d2 = defaultdict(constant_factory(10))
for letter in WORD:
    d2[letter] += 1
    
sorted(d2.items()) # 기본 초기값을 10으로 시작했기 때문에...

[('i', 14), ('m', 11), ('p', 12), ('s', 14)]

In [66]:
d = defaultdict(constant_factory('<missing>'))
d.update(name='John', action='ran')

print(f'{d["name"]} {d["action"]} to {d["default"]}') # 어떤 키값을 호출하던 없는 키값의 경우 '<missing>'이 할당된다.
print(f'{d["name"]} {d["action"]} to {d["what?"]}')
'%(name)s %(action)s to %(object)s' % d

John ran to <missing>
John ran to <missing>


'John ran to <missing>'

In [67]:
s = [('red', 1), ('blue', 2), ('red', 3), ('blue', 4), ('red', 1), ('blue', 4)]
d = defaultdict(set)
for k, v in s:
    d[k].add(v)

sorted(d.items())

[('blue', {2, 4}), ('red', {1, 3})]

## 2-4. 파이썬 코딩의 기술(Effective python) - BETTER WAY17
: 내부 상태에서 원소가 없는 경우를 처리할 때는 `setdefault`보다 `defaultdict`를 사용하라

직접 만들지 않은 딕셔너리를 다룰 때 키가 없는 경우를 처리하는 방법에는 여러 가지가 있다(Better way16). `get` 메서드를 사용하는 방법이 `in`과 `KeyError`를 사용하는 방법보다 낫지만, 경우에 따라서는 `setdefault`가 가장 효과적일 수 있다.

### setdefault 사용하기
#### 예시 : 방문했던 세계 각국의 도시 이름 저장하기

In [22]:
visits = {
    'USA': {'Newyork', 'LA'},
    'Japan': {'Tokyo'},
}

In [23]:
# Way1. setdefault로 추가하기
visits.setdefault('France', set()).add('Null')
print(visits)

{'USA': {'LA', 'Newyork'}, 'Japan': {'Tokyo'}, 'France': {'Null'}}


In [24]:
# Way2. get, if 사용하기
if (japan := visits.get('Japan')) is None:
    visits['Japan'] = japan = set()
japan.add('Kyoto')
print(visits)

{'USA': {'LA', 'Newyork'}, 'Japan': {'Tokyo', 'Kyoto'}, 'France': {'Null'}}


### 직접 딕셔너리 생성을 제어하기 
#### 예시 : 클래스 내부에서 상태를 유지하기 위해 딕셔너리 인스턴스를 사용할 때
다음 코드에서는 앞에서 본 예제를 클래스로 감싸서 딕셔너리에 저장된 동적인 내부 상태에 접근할 수 있는 도우미 메서드를 제공한다.

In [25]:
class Visits:
    def __init__(self):
        self.data = {}
        
    def add(self, country, city):
        city_set = self.data.setdefault(country, set())
        city_set.add(city)

In [26]:
visits = Visits()
visits.add('Russia', 'Moscow')
visits.add('China', 'Shanghai')
print(visits.data)

{'Russia': {'Moscow'}, 'China': {'Shanghai'}}


하지만 `Visits.add`메서드 구현은 여전히 이상적이지 않다. `setdefault`라는 메서드 이름은 여전히 헷갈리기 때문에 코드를 처음 읽는 사람은 코드 동작을 바로 이해하기 어렵다.   


그리고 주어진 나라가 `data` 딕셔너리에 있든 없든 관계없이 호출할 때마다 새로 `set`인스턴스를 만들기 때문에 이 구현은 효율적이지도 않다.  


=> 이런 경우를 위해 `defaultdict`를 사용

### `defaultdict`

다행히 `collections` 내장 모듈의 `defaultdict` 클래스는 키가 없을 때 자동으로 디폴트 값을 저장해서 이런 문제를 간단히 처리할 수 있게 해준다.   
여러분이 해야 할 일은 키가 없을 때 디폴트 값을 만들기 위해 호출할 함수를 설정해주는 것 뿐이다.

In [27]:
from collections import defaultdict

class Visits:
    def __init__(self):
        self.data = defaultdict(set)
        
    def add(self, country, city):
        self.data[country].add(city)

In [28]:
visits = Visits()
visits.add('UK', 'Oxford')
visits.add('UK', 'London')
visits.add('Japan', 'Tokyo')
print(visits.data)

defaultdict(<class 'set'>, {'UK': {'London', 'Oxford'}, 'Japan': {'Tokyo'}})
