# 2장 - 리스트와 딕셔너리


- 리스트를 자연스럽게 보완할 수 있는 타입이 딕셔너리(타입 이름이 dict) 타입이다.
- 딕셔너리 타입은 검색에 사용할 키와 키에 연관된 값을 저장한다.

### BETTER WAY 11 - 시퀀스를 슬라이싱하는 방법을 익혀라

In [1]:
'''
슬라이싱 구문의 기본 형태는 리스트[시작:끝] 이다.
여기서 시작 인덱스는 포함, 끝 인덱스는 포함되지 않는다.
'''
a = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
print(a[3:5])
print(a[1:7])

['d', 'e']
['b', 'c', 'd', 'e', 'f', 'g']


In [2]:
'''
맨 앞부터 슬라이싱 할 때는 시각적 잡음을 없애기 위해 0 을 생략해야 한다.
'''
print(a[:4])

['a', 'b', 'c', 'd']


In [3]:
'''
리스트의 끝까지 슬라이싱 할 때는 쓸데없이 끝 인덱스를 적지 마라
'''
print(a[4:])

['e', 'f', 'g', 'h']


In [4]:
'''
리스트의 끝에서부터 원소를 찾고 싶을 때는 음수 인덱스를 사용하면 된다.
'''
print(a[-1])
print(a[-2])
print(a[-3:-1])

h
g
['f', 'g']


In [5]:
'''
슬라이싱 할 때 리스트의 인덱스 범위를 넘어가는 시작과 끝 인덱스는 조용히 무시된다.
'''
print(a[:20])
print(a[-20:])

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']


In [6]:
'''
리스트를 슬라이싱 한 결과는 완전히 새로운 리스트이며, 원래 리스트에 대한 참조는 그대로 유지된다.
슬라이싱한 결과로 얻은 리스트를 변경해도 원래 리스트는 바뀌지 않는다.
'''
b = a[3:]
print('b', b)
b[1] = 99
print('b', b)
print('a', a)

b ['d', 'e', 'f', 'g', 'h']
b ['d', 99, 'f', 'g', 'h']
a ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']


In [8]:
'''
대입에 슬라이싱을 사용하면 원본 리스트에서 지정한 범위에 들어 있는 원소를 변경한다.
슬라이스 대입에서는 슬라이스와 대입되는 리스트의 길이가 같은 필요가 없다
'''
c = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
print('c:', c)
c[2:7] = [99, 22, 14]
print('c:', c)

d = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
print('d:', d)
d[2:4] = [99, 22, 14]
print('d:', d)

c: ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
c: ['a', 'b', 99, 22, 14, 'h']
d: ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
d: ['a', 'b', 99, 22, 14, 'e', 'f', 'g', 'h']


### BETTER WAY 12 - 스트라이드와 슬라이스를 한 식에 함께 사용하지 말라

In [11]:
'''
파이썬은 리스트[시작:끝:증가값] 으로 일정한 간격을 두고 슬라이싱을 할 수 있는 특별한 구문을 제공한다
'''
x = [0, 1, 2, 3, 4, 5, 6, 7]
print('짝:', x[::2])
print('홀:', x[1::2])

짝: [0, 2, 4, 6]
홀: [1, 3, 5, 7]


In [12]:
'''
하지만, 슬라이싱 구문에 스트라이딩까지 들어가면 아주 혼란스럽다는 것이다
'''
print(x[2::2])
print(x[-2::2])
print(x[-2:2:2])
print(x[2:2:-2])

[2, 4, 6]
[6]
[]
[]


In [13]:
'''
따라서, 시작이나 끝 인덱스와 함께 증가값을 사용해야 한다면 스트라이딩한 결과를 변수에 대입한 다음 슬라이싱하라
'''
y = x[1:7:2]
print('y:', y)

y2_slice = x[1:7]
y2 = y2_slice[::2]
print('y2:', y2)

y: [1, 3, 5]
y2: [1, 3, 5]


### BETTER WAY 13 - 슬라이싱보다는 나머지를 모두 잡아내는 언패킹을 사용하라

In [16]:
# 언패킹으로 리스트에서 맨 앞에서 원소를 두 개 가져오면 실행시점에 예외가 발생한다.
car_ages = [0, 9, 4, 8, 7, 20, 19, 1, 6, 15]
car_ages_descending = sorted(car_ages, reverse=True)
oldest, second_oldest = car_ages_descending
print(oldest, second_oldest)

ValueError: too many values to unpack (expected 2)

In [17]:
# 다음과 같은 코드는 잘 동작하지만, 모든 인덱스와 슬라이스로 인해 시각적으로 잡음이 많다
oldest = car_ages_descending[0]
second_oldest = car_ages_descending[1]
others = car_ages_descending[2:]
print(oldest, second_oldest, others)

20 19 [15, 9, 8, 7, 6, 4, 1, 0]


In [18]:
'''
이런 상황을 더 잘 다룰 수 있도록 파이썬은 별표 식(starred expressioin)을 사용해 모든 값을 담는 언패킹을 할 수 있게 지원한다.
'''
oldest, second_oldest, *others = car_ages_descending
print(oldest, second_oldest, others)

20 19 [15, 9, 8, 7, 6, 4, 1, 0]


### BETTER WAY 14 - 복잡한 기준을 사용해 정렬할 때는 key 파라미터를 사용하라

- list 내장 타입에는 리스트의 원소를 여러 기준에 따라 정렬할 수 있는 sort 메서드가 들어 있다.
- 기본적으로는 오름차순

In [19]:
numbers = [93, 86, 11, 68, 70]
print(numbers)
numbers.sort()
print(numbers)

[93, 86, 11, 68, 70]
[11, 68, 70, 86, 93]


In [22]:
'''
sort 가 객체를 어떻게 처리할까?
사용자 정의 클래스 같은 건?
'''
class Tool:
    def __init__(self, name, weight):
        self.name = name
        self.weight = weight
        
    def __repr__(self): # 디버깅 출력에는 repr 문자열을 사용하라
        return f'Tool({self.name!r}, {self.weight})'
    
tools = [
    Tool('수준계', 3.5),
    Tool('해머', 1.25),
    Tool('스크류드라이버', 0.5),
    Tool('끌', 0.25)
]

tools

[Tool('수준계', 3.5), Tool('해머', 1.25), Tool('스크류드라이버', 0.5), Tool('끌', 0.25)]

In [21]:
tools.sort()
# sort 메서드가 호출하는 객체 비교 특별 메서드가 정의돼 있지 않으므로 이런 타입의 객체를 정렬할 수는 없다

TypeError: '<' not supported between instances of 'Tool' and 'Tool'

In [23]:
'''
하지만 정렬에 사용하고 싶은 attribute가 객체에 들어 있는 경우가 많다
이런 상황을 지원하기 위해 sort 에는 key 라는 파라미터가 있다.
'''
print('미정렬:', repr(tools))
tools.sort(key=lambda x: x.name)
print('정렬:', repr(tools))

미정렬: [Tool('수준계', 3.5), Tool('해머', 1.25), Tool('스크류드라이버', 0.5), Tool('끌', 0.25)]
정렬: [Tool('끌', 0.25), Tool('수준계', 3.5), Tool('스크류드라이버', 0.5), Tool('해머', 1.25)]


### BETTER WAY 15 - 딕셔너리 삽입 순서에 의존할 때는 조심하라

- 파이썬 3.5 이전에는 딕셔너리에 대해 이터레이션을 수행하면 키를 임의의 순서로 돌려줬으며, 이터레이션 순서는 원소가 삽입된 순서와 일치하지 않았다.
- 이런 일이 발생하는 이유는 예전의 딕셔너리 구현이 내장 hash 함수와 파이썬 인터프리터가 시작할 때 초기화되는 난수 씨앗값(seed)을 사용하는 해시 테이블 알고리즘으로 만들어졌기 때문이다.
- 파이썬 3.6 부터는 딕셔너리가 삽입 순서를 보존하도록 동작이 개선되었고
- 파이썬 3.7 부터는 아예 파이썬 언어 명세에 이 내용이 포함됐다

In [1]:
baby_names = {
    'cat': 'kitten',
    'dog': 'puppy',
}
print(baby_names)

{'cat': 'kitten', 'dog': 'puppy'}


### BETTER WAY 16 - in을 사용하고 딕셔너리 키가 없을 때 KeyError를 처리하기보다는 get을 사용하라

- 딕셔너리와 상호작용하는 세 가지 기본 연산은 키나 키에 연관된 값에 접근하고, 대입하고, 삭제하는 것이다.
- 딕셔너리의 내용은 동적이므로, 어떤 키에 접근하거나 키를 삭제할 때 그 키가 딕셔너리에 없을 수도 있다.

In [2]:
# 예를 들어 샌드위치 가게에 좋아하는 빵에 투표
counters = {
    '식빵': 2,
    '단팥빵': 1,
}

# 어떤 고객이 key 빵에 대해 투표
key = '밀빵'

if key in counters:
    count = counters[key]
else:
    count = 0
    
counters[key] = count + 1
print(counters)

{'식빵': 2, '단팥빵': 1, '밀빵': 1}


In [4]:
# 같은 동작을 하는 다른 방법
# KeyError 예외를 활용하는 방법
try:
    count = counters[key]
except KeyError:
    count = 1

counters[key] = count + 1
print(counters)

{'식빵': 2, '단팥빵': 1, '밀빵': 2}


- 딕셔너리에서는 이런 식으로 키가 존재하면 값을 가져오고, 없으면 디폴트 값을 반환하는 흐름이 꽤 자주 일어난다.
- 그래서 dict 내장 타입에는 이런 작업을 수행하는 get 메서드가 들어 있다.
- get 의 두 번째 인자는 첫번째 인자인 키가 딕셔너리에 없을 경우 돌려줄 디폴트 값이다.

In [5]:
# get을 이용하는 방식
count = counters.get(key, 0)

counters[key] = count + 1
print(counters)

{'식빵': 2, '단팥빵': 1, '밀빵': 3}


In [6]:
# 딕셔너리에 저장된 값이 리스트처럼 더 복잡한 경우는?
votes = {
    '식빵': ['철수', '순이'],
    '단팥빵': ['유리'],
}
print(votes)

key = '밀빵'
who = '영수'

if key in votes:
    names = votes[key]
else:
    votes[key] = names = []
    
names.append(who)
print(votes)

{'식빵': ['철수', '순이'], '단팥빵': ['유리']}
{'식빵': ['철수', '순이'], '단팥빵': ['유리'], '밀빵': ['영수']}


In [8]:
votes = {
    '식빵': ['철수', '순이'],
    '단팥빵': ['유리'],
}
print(votes)

key = '밀빵'
who = '영수'

# get을 이용하는 방식
names = votes.get(key)
if names is None:
    votes[key] = names = []

names.append(who)
print(votes)

{'식빵': ['철수', '순이'], '단팥빵': ['유리']}
{'식빵': ['철수', '순이'], '단팥빵': ['유리'], '밀빵': ['영수']}


In [14]:
print(votes)

# dict 타입은 이 패턴을 더 사용할 수 있게 해주는 setdefault 메서드를 제공한다.
key = '꽈배기'
who = '민우'

# setdefault를 이용하는 방식
names = votes.setdefault(key, [])

names.append(who)
print(votes)

names.clear()
print(votes)

{'식빵': ['철수', '순이'], '단팥빵': ['유리'], '밀빵': ['영수'], '꽈배기': ['민우']}
{'식빵': ['철수', '순이'], '단팥빵': ['유리'], '밀빵': ['영수'], '꽈배기': ['민우', '민우']}
{'식빵': ['철수', '순이'], '단팥빵': ['유리'], '밀빵': ['영수'], '꽈배기': []}


- 하지만, setdefault 에는 한 가지 빠지기 쉬운 중요한 함정이 있다.
- 키가 없으면 setdefault 에 전달된 디폴트 값이 별도로 복사되지 않고 딕셔너리에 직접 대입된다.

In [13]:
data = {}
key = 'foo'
value = []
data.setdefault(key, value)
print('pre:', data)
value.append('hello')
print('after:', data)
value.clear()
print('after__2:', data)

pre: {'foo': []}
after: {'foo': ['hello']}
after__2: {'foo': []}


- 그러므로, 키에 해당하는 디폴트 값을 setdefault에 전달할 때마다 그 값을 새로 만들어야 한다.
- 호출할때마다 리스트를 만들어야 하므로, 성능이 크게 저하될 수 있다.

### BETTER WAY 17 - 내부 상태에서 원소가 없는 경우를 처리할 때는 setdefault 보다 defaultdict 를 사용하라

- 위처럼 직접 딕셔너리 생성을 제어할 수 있을 때는 setdefault 를 써도 되지만
- 직접 디셔너리 생성을 제어할 수 없다면 어떨까?

In [16]:
class Visits:
    def __init__(self):
        self.data = {}
    
    def add(self, country, city):
        city_set  = self.data.setdefault(country, set())
        city_set.add(city)
        
visits = Visits()
visits.add('러시아', '예카데린부르크')
visits.add('탄자니아', '잔지바르')

print(visits.data)

{'러시아': {'예카데린부르크'}, '탄자니아': {'잔지바르'}}


위 코드는 잘 동작하나, 이상적이지 않다.
- <font color='red'>setdefault 라는 메서드 이름은 여전히 헷갈리기 때문에 코드를 처음 읽는 사람은 코드 동작을 바로 이해하기 어렵다</font>
- <font color='red'>그리고 주어진 나라가 data 딕셔너리에 있든 없든 관계없이 호출할때마다 set() 인스턴스를 새로 만들기 때문에 효율적이지도 않다.</font>

- 다행히 collections 내장 모듈에 defaultdict 클래스는 키가 없을 때 자동으로 디폴트 값을 저장해서 이런 용법을 간단히 처리할 수 있게 해준다.

In [17]:
from collections import defaultdict

class Visits:
    def __init__(self):
        self.data = defaultdict(set)
    
    def add(self, country, city):
        self.data[country].add(city)
        
visits = Visits()
visits.add('러시아', '예카데린부르크')
visits.add('탄자니아', '잔지바르')

print(visits.data)

defaultdict(<class 'set'>, {'러시아': {'예카데린부르크'}, '탄자니아': {'잔지바르'}})


### BETTER WAY 18 - __missing__ 을 사용해 키에 따라 다른 디폴트 값을 생성하는 방법을 알아두라

- dict 타입의 하위 클래스를 만들고 __missing__ 특별 메서드를 구현하면 키가 없는 경우를 처리하는 로직을 커스텀화 할 수 있다.

In [21]:
from collections import defaultdict

def open_picture(profile_path): # 도우미 함수
    try:
        return open(profile_path, 'a+b')
    except OSError:
        print(f'경로를 열 수 없습니다. {profile_path}')
        raise

class Pictures(dict):
    def __missing__(self, key):
        print('in the __missing__')
        value = open_picture(key)
        self[key] = value
        return value

path = 'profile_1234.png'

pictures = Pictures()
handle = pictures[path]
handle.seek(0)
image_data = handle.read()

handle2 = pictures[path]
handle2.seek(0)
image_data2 = handle2.read()

in the __missing__


- pictures[path] 라는 딕셔너리 접근에서 path 가 딕셔너리에 없으면 __missing__ 메서드가 호출된다.