# 2 리스트와 딕셔너리


---

## 11 시퀀스 슬라이싱

파이썬은 시퀀스를 여러 조각으로 나누는 슬라이싱 구문이 있다. 슬라이싱 구문의 기본 형태는 **리스트[시작:끝]**이다. 여기서 시작 인덱스에 있는 원소는 슬라이스에 포함되지만, 끝 인덱스 에있는 원소는 포함되지 않는다.

In [1]:
a = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
print("가운데 2개:", a[3:5])
print("마지막을 제외한 나머지:", a[5:7])

가운데 2개: ['d', 'e']
마지막을 제외한 나머지: ['f', 'g']


* 리스트의 맨 앞부터 슬라이싱할 때는 시각적 잡음을 없애기 위해 **0을 생략**한다.

In [2]:
assert a[:5] == a[0:5]

* 마찬가지로 리스트의 끝까지 슬라이싱할 경우, **끝 인덱스를 생략**한다.

In [3]:
assert a[5:] == a[5:len(a)]

* 리스트 끝부터 원소를 찾고 싶다면 음수 인덱스를 사용한다.

In [4]:
a[:]     # ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
a[:5]    # ['a', 'b', 'c', 'd', 'e']
a[:-1]   # ['a', 'b', 'c', 'd', 'e', 'f', 'g']
a[4:]    #                     ['e', 'f', 'g', 'h']
a[-3:]   #                          ['f', 'g', 'h']
a[2:5]   #           ['c', 'd', 'e']
a[2:-1]  #           ['c', 'd', 'e', 'f', 'g']
a[-3:-1] #                          ['f', 'g']

['f', 'g']

* 리스트 인덱스 범위를 넘은 시작과 끝 인덱스는 조용히 무시된다. 이런 특징을 이용하면, <U>코드에서 입력 시퀀스를 다룰 때 원하는 최대 길이를 쉽게 지정할 수 있다.</U> 

In [5]:
first_twenty_items = a[:20]
last_twenty_items = a[-20:]

* 반면 인덱스 범위를 넘었는데 직접 접근하면 예외가 발생한다.

In [6]:
a[20]

IndexError: list index out of range

> 음수 인덱스 활용은 재밌는 결과를 낳는다. 예를 들어 somelist[-n:]은 n이 0보다 큰 경우 잘 작동하지만, n이 0이면 somelist[-0:]이라는 식이 되며 원래 리스트를 복사한 리스트를 반환한다.

리스트를 **슬라이싱한 결과는 완전히 새로운 리스트**이며, 원래 리스트에 대한 참조는 그대로 유지된다. 따라서 <U>슬라이싱한 결과로 얻은 리스트를 변경해도 원래 리스트는 바뀌지 않는다.</U>

In [8]:
b = a[3:]
print('이전:', b)
b[1] = 99
print('이후:', b)
print('변화 없음:', a)


이전: ['d', 'e', 'f', 'g', 'h']
이후: ['d', 99, 'f', 'g', 'h']
변화 없음: ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']


대입에 슬라이스를 사용하면 원본 리스트에서 지정한 범위에 든 원소를 변경한다. 언패킹 대입(예: a, b = c[:2])와 달리 슬라이스 대입은 '슬라이스와 대입되는 리스트 길이가 같을 필요가 없다.' 대입된 슬라이스 이전이나 이후에 있던 원소들은 그대로 유지된다. 다음 예제 코드는 리스트에 지정한 슬라이스 길이보다 대입되는 배열 길이가 더 짧기 때문에 리스트가 줄어든다.

In [9]:
print('이전:', a)
a[2:7] = [99, 22, 14]
print('이후:', a)

이전: ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
이후: ['a', 'b', 99, 22, 14, 'h']


아래 코드는 리스트에 지정한 슬라이스 길이보다 대입되는 배열 길이가 더 길기 때문에 리스트가 늘어난다.

In [10]:
print('이전:', a)
a[2:3] = [47, 11]
print('이후:', a)

이전: ['a', 'b', 99, 22, 14, 'h']
이후: ['a', 'b', 47, 11, 22, 14, 'h']


슬라이싱 시작과 끝 인덱스를 모두 생략하면 원래 리스트를 복사한 새 리스트를 얻는다.

In [11]:
b = a[:]
assert b == a and b is not a

시작과 끝 인덱스가 없는 슬라이스에 대입하면 (새 리스트를 만들어내는 대신) 슬라이스가 참조하는 리스트 내용을 대입한다. 즉, 리스트 복사본으로 덮어 쓴다.

In [12]:
b = a
print('이전 a:', a)
print('이전 b:', b)
a[:] = [101, 102, 103]
assert a is b
print('이후 a:', a)
print('이후 b:', b)

이전 a: ['a', 'b', 47, 11, 22, 14, 'h']
이전 b: ['a', 'b', 47, 11, 22, 14, 'h']
이후 a: [101, 102, 103]
이후 b: [101, 102, 103]


## 12 스트라이드와 슬라이스를 한 식에 함께 사용하지 말라

기본 슬라이싱 외, 파이썬은 리스트[시작:끝:증가값]으로 일정한 간격을 둔 슬라이싱을 할 수 있다. 이를 스트라이드(stride)라고 한다. 스트라이드를 사용하면 시퀀스를 슬라이싱하면서 매 n번째 원소만 가져올 수 있다. 예를 들어 스트라이드를 사용해 리스트에서 인덱스가 짝수인 그룹과 홀수인 그룹을 쉽게 나눌 수 있다.

In [14]:
x = ['빨강', '주황', '노랑', '초록', '파랑', '자주']
odds = x[::2]
evens = x[1::2]
print(odds)
print(evens)

['빨강', '노랑', '파랑']
['주황', '초록', '자주']


파이썬에서 byte 문자열을 역으로 뒤집는 가장 일반적인 기법은 -1을 증가값으로 사용해 문자열을 슬라이싱하는 것이다.

In [15]:
x = b'mongoose'
y = x[::-1]
print(y)

b'esoognom'


유니코드 문자열도 마찬가지로 잘 작동한다.

In [17]:
x = '洪吉同'
y = x[::-1]
print(y)

同吉洪


하지만 스트라이드 구문 사용은 종종 예기치 못한 버그를 부른다. 아래는 유니코드 데이터를 UTF-8로 인코딩한 문자열에 적용한 것이다.

In [18]:
w = '洪吉同'
x = w.encode('utf-8')
y = x[::-1]
z = y.decode('utf-8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8c in position 0: invalid start byte

-1 말고 다른 음수 증가값은 유용할까? 다음 예제를 보자

In [19]:
x = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
x[::2]    # ['a', 'c', 'e', 'g']
x[::-2]   # ['h', 'f', 'd', 'b']

['h', 'f', 'd', 'b']

또한 다음과 같은 사용은 혼란스럽게 보이기 마련이다.

In [20]:
x[2::2]      # ['c', 'e', 'g']
x[-2::-2]    # ['g', 'e', 'c', 'a']
x[-2:2:-2]   # ['g', 'e']
x[2:2:-2]    # []

[]

이처럼 슬라이싱 구문에 스트라이드까지 넣으면 코드의 밀도가 늘어나 혼란스러워 보인다. 게다가 시작값과 끝값이 어떤 역할을 하는지 불분명해 보인다. 특히 증가값이 음수인 경우 더 그렇다.

이런 문제를 방지하기 위해 시작값이나 끝값을 **스트라이드와 함께 사용하지 않을 것**을 권한다. 스트라이드를 사용해야 할 경우, 증가값을 양수로 하고 시작과 끝 인덱스를 생략하는 습관을 들여라. 두 과정을 나눠서 진행하라.

In [21]:
y = x[::2]  # 1단계: 스트라이드 >> ['a', 'c', 'e', 'f']
z = y[1:-1] # 2단계: 슬라이싱  >> ['c', 'e']

다만, 스트라이딩한 뒤 슬라이싱을 진행하면 데이터를 한 번 더 얕게 복사(shallow copy. deep copy와 반댓말)하게 된다. 가능하면 연산은 슬라이스 크기를 가능한 한 줄여야 한다. 프로그램이 이 두 단계 연산에 필요한 시간과 메모리를 감당할 수 없다면, itertools 내장 모듈의 islice 메서드를 고려하다. islice는 읽기 더 깔끔하며 시작, 끝, 증가값에 음수를 사용할 수 없다.

<br/>

## 13 슬라이싱보다는 나머지를 모두 잡아내는 언패킹을 사용하라

기본 언패킹(1.6절)의 한 가지 한계점은 언패킹할 시퀀스 길이를 미리 알아야 한다는 점이다.

아래 예제는 중고차 매매상에서 판매하는 자동차가 출고 후 몇 년 지났는지 표현하는 리스트를 사용한다. 기본 언패킹으로 리스트 맨 앞에서 원소 두 개를 가져오면 실행 시점에서 예외가 발생한다.

In [22]:
car_ages = [0, 9, 4, 8, 7, 20, 19, 1, 6, 15]
car_ages_descending = sorted(car_ages, reverse=True)    # 크기 역순으로 나열한 새 배열 
                                                        # >> [20, 19, 15, 9, 8, 7, 6, 4, 1, 0]
oldest, second_oldest = car_ages_descending             # 언패킹(오류 발생)

ValueError: too many values to unpack (expected 2)

파이썬 초보자는 이런 상황에서 주로 인덱스와 슬라이싱을 사용한다. 다음 예시 코드는 원소가 최소 두 개 이상 든 리스트에서 가장 오래된 자동차와 두 번째로 오래된 자동차 나이를 가져오는 코드다.

In [26]:
oldest = car_ages_descending[0]
second_oldest = car_ages_descending[1]
others = car_ages_descending[2:]
print(oldest, second_oldest, others)

20 19 [15, 9, 8, 7, 6, 4, 1, 0]


이 코드는 잡음이 많다. 실제로 이런 식으로 하위 집합을 만들다 보면 인덱스로 인한 오류(off-by-one error)를 만들어내기 쉽다. 예를 들어 어느 한 줄에서 범위를 변경했는데 다른 줄을 깜빡하고 고치지 않으면 결과가 잘못되거나 예외가 발생할 수 있다. 

이런 상황을 더 잘 다룰 수 있도록 파이썬은 **별표 식**(starred expresstion)을 사용해 모든 값을 담는 언패킹이 가능하게 지원한다. 이 구문을 사용하면 언패킹 패턴의 다른 부분에 들어가지 못하는 모든 값을 별이 붙은 부분에 다 담을 수 있다.

다음은 위에서 본 잡음이 많은 코드를 별표 식을 사용하여 재현하였다.

In [27]:
oldest, second_oldest, *others = car_ages_descending
print(oldest, second_oldest, others)

20 19 [15, 9, 8, 7, 6, 4, 1, 0]


이 코드가 더 짧고, 읽기 쉽고, 여러 줄 사이 인덱스 경계 값이 벗어날 여지도 없기 때문에 오류 걱정도 없다. 

별표 식은 다른 위치에 쓸 수도 있다. 따라서 꼭 언패킹해야 하는 값 외에 여분의 슬라이스가 하나 필요한 경우, 나머지를 모두 잡아내는 이 기능의 이점을 살릴 수 있다.

In [28]:
oldest, *others, youngest = car_ages_descending
print(oldest, others, youngest)

20 [19, 15, 9, 8, 7, 6, 4, 1] 0


In [31]:
*others, second_youngest, youngest = car_ages_descending
print(youngest, second_youngest, others)

0 1 [20, 19, 15, 9, 8, 7, 6, 4]


하지만 별표 식만 단독으로 사용해서 언패킹할 수는 없다. 만약 별표 식만 있다면 SyntaxError가 발생한다. 

In [32]:
*others = car_ages_descending

SyntaxError: starred assignment target must be in a list or tuple (2422727027.py, line 1)

또한, 한 수준의 언패킹에서 별표 식을 두 개 이상 사용할 수는 없다.

In [33]:
first, *middle, *second_middle, last = [1, 2, 3, 4]

SyntaxError: multiple starred expressions in assignment (1187532336.py, line 1)

하지만 여러 계층으로 이뤄진 구조를 언패킹할 때는 서로 다른 부분이라면 가능하다. 다음 예제 방식을 권장하지는 않지만, 이해를 위해 살펴보자.

In [34]:
# 권장하지 않는 방식. 이해를 위해서 보자
# 사실 함수가 여러 값을 반환하면 절대 네 값 이상을 언패킹하지 않는 것이 좋다.
car_inventory = {
    '시내': ('그랜저', '아반떼', '티코'),
    '공항': ('제네시스 쿠페', '소나타', 'K5', '엑센트'),
}
# car_inventory 언패킹
((loc1, (best1, *rest1)),
 (loc2, (best2, *rest2))) = car_inventory.items()
print(f'{loc1} 최고는 {best1}, 나머지는 {len(rest1)} 종')
print(f'{loc2} 최고는 {best2}, 나머지는 {len(rest2)} 종')

시내 최고는 그랜저, 나머지는 2 종
공항 최고는 제네시스 쿠페, 나머지는 3 종


별표 식은 항상 list 인스턴스가 된다. 언패킹하는 시퀀스에 남는 원소가 없으면 빈 리스트가 된다. 이런 특징상 원소가 최소 N개 든 사실을 미리 아는 시퀀스를 처리할 때 유용하다.

In [35]:
short_list = [1, 2]
first, second, *rest = short_list
print(first, second, rest)

1 2 []


언패킹 구문으로 임의의 이터레이터를 가져올 수도 있지만, 기본 다중 대입문보다 그다지 많이 쓸모 있지는 않다. 아래 예제는 길이가 2인 range에 든 값을 언패킹한다. 그냥 언패킹 패턴과 일치하는 길이가 고정된 리스트(예: [1, 2])에 대입하는 편이 더 쉽게 때문에 그다지 유용하지 않은 방식이다.

In [37]:
it = iter(range(1, 3))
first, second = it
print(f'{first} & {second}')

1 & 2


하지만 별표 식을 추가하면 언패킹할 이터레이터 값을 깔끔하게 가져올 수 있다. 예를 들어 이번 주 중고차 매매상에서 판매한 자동차 내역이 든 CSV 파일 각 줄을 내보내는 이터레이터가 있다고 하자.

In [38]:
def generate_csv():    # 중고차 매매상이 판매한 자동차 내역이 든 csv를 받아 각 줄을 내보내는 함수
    yield('날짜', '제조사', '모델', '연식', '가격')
    ...

all_csv_rows = list(generate_csv())    # 각 줄을 다시 리스트에 담는다.
header = all_csv_rows[0]
rows = all_csv_rows[1:]
print('CSV 헤더', header)
print('행 수', len(rows))    

CSV 헤더 ('날짜', '제조사', '모델', '연식', '가격')
행 수 0


제너레이터 결과를 인덱스와 슬라이싱으로 처리해도 괜찮지만, 처리하는 데 코드가 길어지고 잡음도 많다.

별표 식으로 언패킹하면 이터레이터가 내보내는 내용 중에서 첫 번째(헤더)와 나머지를 쉽게 나눌 수 있다.

In [39]:
it = generate_csv()
header, *rows = it
print('CSV 헤더', header)
print('행 수', len(rows)) 

CSV 헤더 ('날짜', '제조사', '모델', '연식', '가격')
행 수 0


하지만 **별표 식은 항상 리스트를 만들어내기 때문에**, 이터레이터를 별표 식으로 언패킹하면 컴퓨터 메모리를 모두 다 사용해서 프로그램이 멈출 수 있다. 따라서 결과 데이터가 모두 **메모리에 들어갈 수 있다고 확신할 때만** 나머지를 모두 잡아내는 언패킹을 사용해야 한다.

## 14 복잡한 기준을 사용해서 정렬한다면 key 패러미터를 사용하라

list 내장 타입은 sort 메서드를 이용해서 리스트 원소를 여러 기준으로 정렬할 수 있다. 기본적으로 sort 메서드는 리스트 내용을 특정 원칙에 따라 오름차순으로 정렬한다. 다음 코드는 정수 리스트에 sort 메서드를 적용한 것이다.

In [1]:
numbers = [93, 86, 11, 68, 70]
numbers.sort()
print(numbers)

[11, 68, 70, 86, 93]


sort 메서드를 적용한 결과 정수 리스트가 작은 수부터 큰 수로 정렬되었다. sort 메서드는 이처럼 자연스럽게 순서를 정할 수 있는 거의 대부분의 내장 타입(문자열, 부동 소수점 수 등)에 잘 작동한다.

그럼 다음과 같은 클래스가 있다면 어떻게 작동할까? 클래스는 건설 현장에서 사용하는 여러 도구를 담고 있다.(인스턴스를 출력할 수 있는 _\_repr_\_ 메서드를 지닌다.)

In [3]:
class Tool:
    def __init__(self, name, weight):
        self.name = name
        self.weight = weight

    def __repr__(self):
        return f'Tool({self.name!r}, {self.weight})'

tools = [
    Tool('수준계', 3.5),
    Tool('해머', 1.25),
    Tool('스크류드라이버', 0.5),
    Tool('끌', 0.25),
]

In [4]:
tools.sort()

TypeError: '<' not supported between instances of 'Tool' and 'Tool'

sort 메서드가 호출하는 객체를 비교하는 특별 메서드가 따로 정의되어 있지 않으므로 정렬할 수 없다.

클래스에 어떤 순서가 필요한 경우, 특별 메서드를 정의해 두면 sort 메서드를 사용할 수 있다. 하지만 현실에서는 다양한 분류의 순서를 지원해야 하는 경우가 더 많기 때문에 거의 쓰이지 않는다.

sort 메서드는 key라는 패러미터를 입력할 수 있다. 이 key는 함수여야 한다. 이 key 함수에 정렬하려는 리스트의 원소가 전달된다. 다음 예제는 key에 넣을 함수를 lambda 키워드로 정의했다.

In [5]:
print('미정렬', repr(tools))
tools.sort(key=lambda x: x.name)
print('\n정렬:', tools)

미정렬 [Tool('수준계', 3.5), Tool('해머', 1.25), Tool('스크류드라이버', 0.5), Tool('끌', 0.25)]

정렬: [Tool('끌', 0.25), Tool('수준계', 3.5), Tool('스크류드라이버', 0.5), Tool('해머', 1.25)]


바로 위 예제는 name(수준계, 해머, 스크류드라이버, 끌)을 정렬 기준으로 하는 람다 함수를 만들었다. 반대로 weight로 정렬하는 람다 함수를 만들어서 sort 메서드의 key 패러미터로 전달할 수도 있다.

In [6]:
print('미정렬', repr(tools))
tools.sort(key=lambda x: x.weight)
print('\n정렬:', tools)

미정렬 [Tool('끌', 0.25), Tool('수준계', 3.5), Tool('스크류드라이버', 0.5), Tool('해머', 1.25)]

정렬: [Tool('끌', 0.25), Tool('스크류드라이버', 0.5), Tool('해머', 1.25), Tool('수준계', 3.5)]


이 예제처럼 람다 함수를 이용해서 원소 애트리뷰트에 접근하거나, 인덱스를 써서 값을 얻을 수 있다.(이외 여러 식을 사용할 수 있다.)

심지어 문자열과 같은 기본 타입은 패러미터 함수로 원소 값을 변형시키면서 정렬할 수도 있다. 다음 예제는 lower 메서드를 적용했다.

In [9]:
places = ['home', 'work', 'New York', 'Paris']
places.sort()
print('대소문자 구분:', places)
places.sort(key=lambda x: x.lower())
print('대소문자 무시:', places)

대소문자 구분: ['New York', 'Paris', 'home', 'work']
대소문자 무시: ['home', 'New York', 'Paris', 'work']


그렇다면 여러 기준을 사용해 정렬하려면 어떻게 해야 할까? tools 리스트를 weight로 먼저 정렬한 뒤 name으로 정렬해야 한다고 가정하자.

In [10]:
power_tools = [
    Tool('드릴', 4),
    Tool('원형 톱', 5),
    Tool('착암기', 40),
    Tool('연마기', 4),
]

가장 쉬운 해법은 tuple 타입을 쓰는 것이다. 튜플은 기본적으로 비교 가능하며 자연스러운 순서가 정해져 있다. 이는 sort에 필요한 _\_It_\_ 정의가 들어 있다는 뜻이다. 이 특별 비교 메서드는 튜플의 각 위치를 이터레이션하면서, 각 인덱스에 해당하는 원소를 한 번에 하나씩 비교하는 방식으로 작동한다.

아래는 두 튜플을 비교시킨 코드다.

In [11]:
saw = (5, '원형 톱')
jackhammer = (40, '착암기')
assert not (jackhammer < saw)

두 튜플의 첫 번째 위치에 있는 값(weight)을 비교했다. 만약 첫 번째 값이 서로 같다면 두 번째 위치에 있는 값을 비교하고, 두 번째 값이 같다면 또 다음 값을 비교한다.

In [12]:
drill = (4, '드릴')
sander = (4, '연마기')
assert drill[0] == sander[0]    # 무게가 같다
assert drill[1] < sander[1]
assert drill < sander

튜플 비교가 동작하는 방식을 활용해서 power_tools 리스트를 weight로 먼저 정렬하고, 그 다음 name으로 정렬할 수 있다. key 함수 패러미터를 그와 같이 동작하도록 정의하면 된다.

In [14]:
power_tools.sort(key=lambda x: (x.weight, x.name))
print(power_tools)

[Tool('드릴', 4), Tool('연마기', 4), Tool('원형 톱', 5), Tool('착암기', 40)]


다만 한 가지 제약사항으로, 여러 비교 기준을 사용해도 '오름차순'이나 '내림차순'은 하나로 통일될 수밖에 없다는 점이 있다. 위 예제의 reverse=True로 내림차순을 적용했을 때 결과를 보자.

In [15]:
power_tools.sort(key=lambda x: (x.weight, x.name), 
                 reverse=True)
print(power_tools)

[Tool('착암기', 40), Tool('원형 톱', 5), Tool('연마기', 4), Tool('드릴', 4)]


하지만 숫자 값이라면 - 연산자를 사용해서 정렬 방향을 혼합할 수 있다.

In [17]:
power_tools.sort(key=lambda x: (-x.weight, x.name))
print(power_tools)

[Tool('착암기', 40), Tool('원형 톱', 5), Tool('드릴', 4), Tool('연마기', 4)]


리스트 타입의 sort 메서드는 만약 key 함수가 반환하는 값이 서로 같은 경우, 원래 리스트에 들어 있던 순서 그대로 유지해준다. 아래 코드를 보자.

In [20]:
power_tools.sort(key=lambda x: x.name)    # name 기준 오름차순

power_tools.sort(key=lambda x: x.weight,  # weight 기준 내림차순
                 reverse=True)    
print(power_tools)

[Tool('착암기', 40), Tool('원형 톱', 5), Tool('드릴', 4), Tool('연마기', 4)]


방금 코드는 name 기준 오름차순, weight 기준 내림차순으로 sort를 두 번 호출하여 정렬했다.

1. 처음 sort를 호출하면 name의 알파벳(가나다)순으로 리스트가 정렬된다.

> 드릴, 연마기, 원형 톱, 착암기

2. 두 번째로 sort를 호출하면 weight순으로 리스트가 정렬된다. 이 때 sander와 drill의 weight가 모두 4이므로 원래 리스트와 똑같은 순서대로 두 원소를 결과 리스트에 넣는다.

> (착암기, 40), ('원형 톱', 5), ('드릴', 4), ('연마기', 4)

따라서 이런 특성을 잘 활용하면 사용자가 원하는 방향으로 여러 타입을 정렬할 수 있다. 하지만 key 함수를 이용해 튜플을 반환하고, - 연산자를 활용하는 방식이 제일 코드가 간단하고 읽기 쉽다. sort를 여러 번 호출하는 방법은 꼭 필요할 때만 쓰자.

## 15 딕셔너리 삽입 순서에 의존할 때는 조심하라

파이썬 3.5 이전에는 딕셔너리에 이터레이션을 수행하면 키를 임의의 순서로 돌려줬다.(원소가 삽입된 순서와 일치하지 않았다.)

```Python
# Python 3.5
baby_names = {
    'cat': 'kitten',
    'dog': 'puppy',
}
print(baby_names)
```
\>>> {'dog': 'puppy', 'cat': 'kitten'}

이런 일이 발생했던 이유는, 과거 딕셔너리 구현이 내장 hash 함수와 파이썬 인터프리터가 시작할 때 초기화되는 난수 seed를 사용하는 해시 테이블 알고리즘으로 만들어졌기 때문이다. 인터프리터 실행마다 난수 seed 값이 달라지고 hash와 어우러지면서, 딕셔너리 순서가 삽입 순서와 매번 달라진 것이다.

파이썬 3.6부터는 딕셔너리가 삽입 순서를 보존하도록 동작이 개선됐다.

> 때문에 오랫동안 collections 내장 모듈에는 삽입 순서를 유지해주는 OrderedDict라는 클래스가 있었다. 이 클래스 동작은 표준 딕셔너리와 동작이 비슷하긴 하지만, OrderedDict 성능 특성은 dict과 많이 다르다. 만약 키 삽입과 popitem 호출을 매우 자주 처리해야 한다면(예: 최소 최근 사용(least-recently-used) 캐시 구현), 표준 파이썬 dict보다 OrderedDict가 더 낫다.

개선이 있었지만 딕셔너리를 처리할 때 항상 삽입 순서에 따라서 동작한다고 가정해서는 안 된다. 파이썬에서는 프로그래머가 list, dict 등의 표준 프로토콜(protocol)을 흉내 내는 커스텀 컨테이너 타입을 쉽게 정의할 수 있다. 파이썬은 정적 타입 지정 언어가 아니기 때문에 대부분의 경우 코드는 엄격한 클래스 계층보다는, 객체의 오작이 객체의 실질적인 타입을 결정하는 덕 타이핑에 의존한다. 이로 인해 가끔 함정에 빠질 수 있다.

> [덕 타이핑(Duck Typing)이란?](https://mygumi.tistory.com/367)

아래 예제는 가장 귀여운 아기 동물을 뽑는 콘테스트 결과를 보여주는 프로그램이다. 동물과 각 동물이 받은 득표수가 있다.

In [21]:
votes = {
    'otter': 1281,
    'polar bear': 587,
    'fox': 863,
}

득표 데이터를 처리하고 각 동물의 이름과 순위를 빈 딕셔너리에 저장하는 함수를 정의하자.

In [22]:
def populate_ranks(votes, ranks):
    names = list(votes.keys())     # ['otter', 'polar bear', 'fox']
    names.sort(key=votes.get, reverse=True)    # get 함수는 key(동물의 이름)를 받아 value(득표수)를 내놓는다.
    for i, name in enumerate(names, 1):
        ranks[name] = i

이제 어떤 동물이 우승했는지 보여줄 함수를 만들자.

In [23]:
def get_winner(ranks):
    return next(iter(ranks))

이제 각 함수가 설계한 대로 잘 작동하는지 확인하자.

In [25]:
ranks = {}
populate_ranks(votes, ranks)
print(ranks)
winner = get_winner(ranks)
print(winner)

{'otter': 1, 'fox': 2, 'polar bear': 3}
otter


그런데 여기서 프로그램의 요구 사항이 바뀌었다고 상상해보자. 결과를 등수가 아니라 알파벳순으로 표시해야 한다. 이 경우 collections.abc 모듈을 사용해 알파벳 순서대로 이터레이션해주는 클래스를 새로 정의할 수 있다.

In [26]:
from collections.abc import MutableMapping

class SortedDict(MutableMapping):
    def __init__(self):
        self.data = {}

    def __getitem__(self, key):
        return self.data[key]

    def __setitem__(self, key, value):
        self.data[key] = value

    def __delitem__(self, key):
        del self.data[key]

    def __iter__(self):
        keys = list(self.data.keys())
        keys.sort()
        for key in keys:
            yield key

    def __len__(self):
        return len(self.data)

SortedDict는 표준 딕셔너리의 프로토콜을 지키므로, 앞서 정의한 함수를 호출하면서 SortedDict 인스턴스를 표준 dict 위치에 사용해도 아무런 오류가 발생하지 않는다. 하지만 실행 결과는 요구 사항과 다르게 도출된다.

In [27]:
sorted_ranks = SortedDict()
populate_ranks(votes, sorted_ranks)
print(sorted_ranks.data)
winner = get_winner(sorted_ranks)
print(winner)

{'otter': 1, 'fox': 2, 'polar bear': 3}
fox


왜 이런 문제가 발생할까? 바로 get_winner의 구현이 populate_ranks의 삽입 순서에 맞게 딕셔너리를 이터레이션한다고 가정한 것에 있다. 하지만 dict 대신 SortedDict을 사용하면서 이 가정이 더 이상 성립하지 않는다. 따라서 우승 동물은 득표수 1등이 아니라, 알파벳 순서로 맨 앞에 오는 동물인 fox가 반환되었다.

이러한 문제를 해결하는 세 가지 방법이 있다.

1. ranks 딕셔너리가 처음부터 어떤 특정 순서로 이터레이션된다고 가정하지 않고 get_winner 함수를 구현한다. 가장 보수적이고 튼튼한 해법이다.

In [28]:
def get_winner(ranks):
    for name, rank in ranks.items():
        if rank == 1:    # rank가 1등이면
            return name  # 그 동물의 이름을 반환한다.

winner = get_winner(sorted_ranks)
print(winner)

otter


2. 인자로 받는 ranks의 타입이 원하는 순서대로 이터레이션된 것인지 검사하는 코드를 추가한다. ranks가 원하던 타입이 아니면 예외를 던진다. 1번 보수적인 해법보다 실행 성능이 더 좋을 것이다.

In [29]:
def get_winner(ranks):
    if not isinstance(ranks, dict):
        raise TypeError('dict 인스턴스가 필요합니다.')
    return next(iter(ranks))
get_winner(sorted_ranks)

TypeError: dict 인스턴스가 필요합니다.

dict 타입이 아닌 sortedDict 타입을 넣자 오류를 던졌다.

3. 타입 애너테이션(annotation)을 사용해서 get_winner에 전달되는 값이 dict과 비슷한 동작을 하는 MutableMapping 인스턴스가 아니라, dict 인스턴스가 되도록 강제한다. 다음 코드는 앞에 타입 애너테이션을 붙여서 mypy 도구를 엄격한 모드로 사용한다.

In [None]:
from typing import Dict, MutableMapping

def populate_ranks(votes: Dict[str, int], 
                   ranks: Dict[str, int]) -> None:
    names = list(votes.keys())
    names.sort(key=votes.get, reverse=True)
    for i, name in enumerate(names, 1):
        ranks[name] = i

def get_winner(ranks: Dict[str, int]) -> str:
    return next(iter(ranks))

class SortedDict(MutableMapping[str, int]):
    ...

votes = {
    'otter': 1281,
    'polar bear': 587,
    'fox': 863,
}

sorted_ranks = SortedDict()
populate_ranks(votes, sorted_ranks)
print(sorted_ranks.data)
winner = get_winner(sorted_ranks)
print(winner)

dict와 MutableMapping 타입의 차이를 올바로 감지해서, 적절한 타입의 객체를 사용하지 않았을 때 오류를 발생시킨다. 이 해법은 정적 타입 안정성과 런타임 성능을 가장 잘 조합해준다.

## 16 in을 사용하고 딕셔너리 키가 없을 때 KeyError를 처리하기보다는 get을 사용하라

딕셔너리와 상호작용하는 세 가지 기본 연산은 '키와 키에 연관된 값에 접근'하고, '대입'하고, '삭제'하는 것이다. 딕셔너리 내용은 동적이므로 어떤 키에 접근하거나 키를 삭제할 때 **그 키가 딕셔너리에 없을 수도 있다**.(종종 발생하는 일이다.)

다음 예제는 샌드위치 가게에서 고객이 가장 좋아하는 빵을 찾아서 메뉴를 결정한다. 우선 counters 딕셔너리는 빵과 빵 득표 수로 구성된다.

In [2]:
counters = {
    '품퍼니켈':2,
    '샤워도우':1,
}

투표가 일어날 때 카운터를 증가시키려면 먼저 키가 딕셔너리에 존재하는지 살펴야 한다. 키가 없으면 디폴트 카운터 값인 0을 딕셔너리에 넣고 그 카운터를 증가시킨다. 다만 이렇게 처리하면 키를 두 번 읽고, 값을 한 번 대입해야 한다. 아래는 if 문과 키가 존재할 때 참을 반환하는 in을 사용한 코드다.

In [3]:
key = '밀'
if key in counters:
    count = counters[key]
else:
    count = 0

counters[key] = count + 1

아래는 다른 방법을 사용한 코드다. 존재하지 않는 Key에 접근하면 KeyError 예외를 발생시킨다. 이러면 Key를 한 번만 읽고, 한 번만 대입하면 된다.

In [4]:
try:
    count = counters[key]
except KeyError:
    count = 0

counters[key] = count + 1

딕셔너리에서는 이렇게 키가 존재하면 그 값을 가져오고, 존재하지 않으면 디폴트 값을 반환하는 흐름이 종종 생긴다. 이 때문에 dict 내장 타입에는 key 값이 존재하는지 확인해서 반환하는 get 메서드가 있다. get의 두 번째 인자는 첫 번째 인자인 키가 딕셔너리에 들어 있지 않을 때 돌려줄 디폴트 값이다. 이 방식도 키를 한 번만 읽고 값을 한 번만 대입한다. 게다가 KeyError를 사용하는 위 예제보다 더 짧다.

In [5]:
count = counters.get(key, 0)
counters[key] = count + 1

in 식과 KeyError를 사용하는 방식을 더 짧게 쓸 수는 있지만, 어떤 방법이라도 대입이 중복되면서 가독성이 떨어지게 된다. 따라서 사용하지 않는 게 좋다. 아래가 그 가독성이 떨어지는 예시들이다.

In [None]:
# 1
if key not in counters:
    counters[key] = 0
counters[key] += 1

# 2
if key in counters:
    counters[key] += 1
else:
    counters[key] = 1

# 3
try:
    counters[key] += 1
except KeyError:
    counters[key] = 1

다시 봐도 간단한 타입이 든 딕셔너리에서는 get 메서드를 사용하는 방법이 가장 코드가 짧고 간편하다.

그렇다면 딕셔너리에 저장된 값이 리스트처럼 더 복잡하면 어떨까? 득표수만 세는 것이 아니라, 어떤 사람이 어떤 빵에 투표했는지까지 기록한다고 가정하자.

In [6]:
votes = {
    '바게트': ['철수', '순이'],
    '치아바타': ['하니', '유리'],
}
key = '브리오슈'
who = '단이'

if key in votes:
    names = votes[key]
else:
    votes[key] = names = []    # 빈 리스트를 대입한다.

names.append(who)
print(votes)

{'바게트': ['철수', '순이'], '치아바타': ['하니', '유리'], '브리오슈': ['단이']}


하지만 in을 사용하면 키가 존재할 떄는 키를 두 번 읽어야 한다. 키가 없는 경우에는 값을 한 번 대입해야 한다. 이 예제는 키가 존재하지 않을 때 빈 리스트를 디폴트 값으로 대입하기 때문에 위에서 본 counter 예제와는 다르다. 이중 대입문인 votes[key] = names = []는 키 대입을 두 줄이 아닌 한 줄로 처리한다.

딕셔너리 값이 리스트일 때도 KeyError 예외를 발생시킬 수 있다. 이 방법을 사용하면 키가 있을 때는 한 번만 읽으면 되고, 키가 없을 때는 키를 한 번 읽고 값을 한 번 대입하면 된다.

In [7]:
try:
    names = votes[key]
except:
    votes[key] = names = []

names.append(who)

마찬가지로 키가 있을 때는 리스트 값을 가져오기 위해 get 메서드를 사용하고, 키가 없다면 키를 한 번 읽고 대입을 한 번 할 수 있다.

In [9]:
names = votes.get(key)
if names is None:
    votes[key] = names = []

names.append(who)

get을 사용해 리스트 값을 가져오는 이 방식은 왈러스 연산자로 더 가독성 좋게 쓸 수 있다.

In [10]:
if (names := votes.get(key)) is None:
    votes[key] = names = []

names.append(who)

dict 타입은 이 패턴을 더 간단하게 사용할 수 있는 setdefault 메서드를 제공한다. 이 메서드는 키가 없으면 제공 받은 디폴트 값을 키에 연관시켜 딕셔너리에 대입한 뒤 키게 연관된 값을 반환한다. 이 값을 새로 저장된 디폴트 값일 수도 있고, 원래 딕셔너리에 있던 값일 수도 있다. 

In [11]:
names = votes.setdefault(key, [])
names.append(who)

이 코드는 앞에서 본 get을 이용한 예제보다 짧지만, 가독성은 그다지 좋지 않다. 왜냐하면 setdefault란 메서드 이름은 코드의 동작을 잘 드러내지 못하고 있기 때문이다. setdefault 메서드의 의미를 모르면 코드를 이해할 수 없을 것이다.

또한 키가 없으면 setdefault에 전달된 디폴트 값이 따로 복사되지 않고, 딕셔너리에 직접 대입된다. 아래 코드는 값이 리스트인 경우 발생할 수 있는 사태를 나타낸다.

In [13]:
data = {}
key = 'foo'
value = []
data.setdefault(key, value)
print('이전:', data)
value.append('hello')
print('이후:', data)

이전: {'foo': []}
이후: {'foo': ['hello']}


디폴트로 리스트를 전달한다면, 호출할 때마다 리스트를 새로 만들어야 한다. 즉, 성능이 크게 저하될 수 있다. 

<br/>

## 17 내부 상태에 원소가 없는 경우를 처리할 때는 setdefault보다 defaultdict를 사용하라

앞서 살펴보았듯이 get 메서드를 사용하는 방법이 in과 KeyError를 사용하는 방법보다 나았다. 하지만 경우에 따라서는 setdefault가 더 빠른 지름길일 수 있다.

아래 예제는 방문한 세계 각국 도시 이름을 딕셔너리로 저장한 코드다. 나라 이름과 도시 이름으로 구성된 집합을 연관시키고 있다.

In [15]:
visits = {
    '미국': {'뉴욕', '로스엔젤레스'},
    '일본': {'하코네'},
}

딕셔너리 안에 나라 이름이 있는가 여부와 관계 없이 각 집합에 새 도시를 추가할 때 setdefault를 사용할 수 있다.

In [16]:
# setdefault 사용
visits.setdefault('프랑스', set()).add('칸')    # get 메서드 사용보다 짧다.

# get 메서드 사용
if (japan := visits.get('일본')) is None :
    visits['일본'] = japan = set()
japan.add('교토')
print(visits)

{'미국': {'뉴욕', '로스엔젤레스'}, '일본': {'하코네', '교토'}, '프랑스': {'칸'}}


다음은 클래스 내부에서 딕셔너리 인스턴스를 사용하는 예제다. add 메서드를 만들어서 setdefault 호출의 복잡도를 감추게 설계했다.

In [20]:
class Visits:
    def __init__(self):
        self.data = {}

    def add(self, country, city):
        city_set = self.data.setdefault(country, set())
        city_set.add(city)

도우미 함수 덕분에 setdefault를 감추며 더 나은 인터페이스를 제공하고 있다.

In [21]:
visits = Visits()
visits.add('러시아', '예카테린부르크')
visits.add('탄자니아', '잔지바르')
print(visits.data)

{'러시아': {'예카테린부르크'}, '탄자니아': {'잔지바르'}}


하지만 이 역시 이상적이지 않다. 나라가 딕셔너리에 있든 없든 호출할 때마다 set 인스턴스를 만들기 때문에 효율적이지 않다.

대신 collections 내장 모듈에 있는 defaultdict 모듈을 사용하면, 키가 없을 때 자동으로 디폴트 값을 저장해서 간단히 처리할 수 있다. 

In [23]:
from collections import defaultdict

class Visits:
    def __init__(self):
        self.data = defaultdict(set)

    def add(self, country, city):
        self.data[country].add(city)

visits = Visits()
visits.add('영국', '바스')
visits.add('영국', '런던')
print(visits.data)

defaultdict(<class 'set'>, {'영국': {'런던', '바스'}})


add 구현이 더 짧고 간단해졌다. defaultdict를 이용하여 딕셔너리에 있는 키에 접근할 때 항상 기존 set 인스턴스가 반환된다고 가정했다. 덕분에 불필요한 set이 계속 만들어지며 집합 생성에 따른 비용이 커지는 것을 방지했다.

비슷한 경우라면 언제나 defaultdict가 setdefault를 사용하는 것보다 낫다. 

<br/>

## 18 _\_missing_\_을 사용해 키에 따라 다른 디폴트 값을 생성하는 방법을 알아두라

내장 dict 타입의 setdefault 메서드는 키가 없는 경우에 짧은 코드로 처리할 수 있었다. 하지만 대부분은 collection 내장 모듈의 defaultdict가 더 나은 처리를 보였다.

하지만 이 둘을 모두 사용하기 적당하지 않은 경우가 있다. 아래 예제는 SNS 프로필 사진을 관리하는 코드다. 파일을 읽고 쓰기 위해 사진 경로와 파일 핸들을 연관시키는 딕셔너리가 필요하다. 

In [24]:
pictures = {}
path = 'profile_1234.png'

if (handle := pictures.get(path)) is None:
    try:
        handle = open(path, 'a+b')
    except OSError:
        print(f'경로를 열 수 없습니다: {path}')
        raise
    else:
        pictures[path] = handle     # 핸들을 딕셔너리에 대입한다.

handle.seek(0)
image_data = handle.read()

파일 핸들이 있으면 이 코드는 딕셔너리를 단 한 번만 읽는다. 파일이 없다면 get 메서드를 사용해 딕셔너리를 한 번 읽고, try/except 블록의 else 절에서 핸들을 딕셔너리에 대입한다. 

이와 같은 로직을 구현하기 위해서 in 식이나 KeyError를 사용한 접근을 할 수도 있지만, 오히려 딕셔너리를 더 많이 읽고 블록 깊이가 깊어지는 단점이 생긴다. 그렇다면 setdefault는 어떨까?

In [25]:
try:
    handle = pictures.setdefault(path, open(path, 'a+b'))
except OSError:
    print(f'경로를 열 수 없습니다: {path}')
    raise
else:
    handle.seek(0)
    image_data = handle.read()

이 코드는 문제가 많다. 우선 파일 핸들을 만드는 내장 함수인 open이 유무 여부와 상관 없이 항상 호출된다. 또한 open이 던지는 예외를 setdefault가 던지는 예외와 혼동할 수도 있다.

이번에는 defaultdict를 사용해보자.

In [27]:
from collections import defaultdict

def open_picture(profile_path):
    try:
        return open(profile_path, 'a+b')
    except OSError:
        print(f'경로를 열 수 없습니다: {profile_path}')
        raise

pictures = defaultdict(open_picture)
handle = pictures[path]
handle.seek(0)
image_data = handle.read()

TypeError: open_picture() missing 1 required positional argument: 'profile_path'

오류가 발생한다. 이유는 defaultdict 생성자에 전달한 함수는 인자를 제공 받을 수 없기 때문이다. defaultdict가 호출하는 도우미 함수가 처리 중인 키를 알 수가 없다는 의미이기도 하다. 이로 인해 파일 경로를 사용해 open을 호출하는 경우, setdefault와 defaultdict 모두 사용할 수 없었다.

이런 상황이 꽤 흔하기 때문에 파이썬은 다른 해법도 제공하고 있다. dict 타입의 하위 메서드를 만들고, _\_missing_\_ 특별 메서드를 구현하면, 키가 없는 경우를 처리하는 로직을 커스텀화할 수 있다.

In [30]:
class Pictures(dict):
    def __missing__(self, key):
        value = open_picture(key)
        self[key] = value
        return value

pictures = Pictures()
handle = pictures[path]
handle.seek(0)
image_data = handle.read()

pictures[path]라는 딕셔너리 접근에서 path가 딕셔너리에 없으면 _\_missing_\_ 메서드가 호출된다. 이 메서드는 키에 해당하는 디폴트 값을 생성해 딕셔너리에 넣어준 다음 호출한 쪽에 그 값을 반환한다. 그 다음부터는 딕셔너리에 같은 경로로 접근하면, 이미 해당 원소가 있으므로 _\_missing_\_이 호출되지 않는다.