# 2 리스트와 딕셔너리


---

## 2.1 시퀀스 슬라이싱

파이썬은 시퀀스를 여러 조각으로 나누는 슬라이싱 구문이 있다. 슬라이싱 구문의 기본 형태는 **리스트[시작:끝]**이다. 여기서 시작 인덱스에 있는 원소는 슬라이스에 포함되지만, 끝 인덱스 에있는 원소는 포함되지 않는다.

In [1]:
a = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
print("가운데 2개:", a[3:5])
print("마지막을 제외한 나머지:", a[5:7])

가운데 2개: ['d', 'e']
마지막을 제외한 나머지: ['f', 'g']


* 리스트의 맨 앞부터 슬라이싱할 때는 시각적 잡음을 없애기 위해 **0을 생략**한다.

In [2]:
assert a[:5] == a[0:5]

* 마찬가지로 리스트의 끝까지 슬라이싱할 경우, **끝 인덱스를 생략**한다.

In [3]:
assert a[5:] == a[5:len(a)]

* 리스트 끝부터 원소를 찾고 싶다면 음수 인덱스를 사용한다.

In [4]:
a[:]     # ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
a[:5]    # ['a', 'b', 'c', 'd', 'e']
a[:-1]   # ['a', 'b', 'c', 'd', 'e', 'f', 'g']
a[4:]    #                     ['e', 'f', 'g', 'h']
a[-3:]   #                          ['f', 'g', 'h']
a[2:5]   #           ['c', 'd', 'e']
a[2:-1]  #           ['c', 'd', 'e', 'f', 'g']
a[-3:-1] #                          ['f', 'g']

['f', 'g']

* 리스트 인덱스 범위를 넘은 시작과 끝 인덱스는 조용히 무시된다. 이런 특징을 이용하면, <U>코드에서 입력 시퀀스를 다룰 때 원하는 최대 길이를 쉽게 지정할 수 있다.</U> 

In [5]:
first_twenty_items = a[:20]
last_twenty_items = a[-20:]

* 반면 인덱스 범위를 넘었는데 직접 접근하면 예외가 발생한다.

In [6]:
a[20]

IndexError: list index out of range

> 음수 인덱스 활용은 재밌는 결과를 낳는다. 예를 들어 somelist[-n:]은 n이 0보다 큰 경우 잘 작동하지만, n이 0이면 somelist[-0:]이라는 식이 되며 원래 리스트를 복사한 리스트를 반환한다.

리스트를 **슬라이싱한 결과는 완전히 새로운 리스트**이며, 원래 리스트에 대한 참조는 그대로 유지된다. 따라서 <U>슬라이싱한 결과로 얻은 리스트를 변경해도 원래 리스트는 바뀌지 않는다.</U>

In [8]:
b = a[3:]
print('이전:', b)
b[1] = 99
print('이후:', b)
print('변화 없음:', a)


이전: ['d', 'e', 'f', 'g', 'h']
이후: ['d', 99, 'f', 'g', 'h']
변화 없음: ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']


대입에 슬라이스를 사용하면 원본 리스트에서 지정한 범위에 든 원소를 변경한다. 언패킹 대입(예: a, b = c[:2])와 달리 슬라이스 대입은 '슬라이스와 대입되는 리스트 길이가 같을 필요가 없다.' 대입된 슬라이스 이전이나 이후에 있던 원소들은 그대로 유지된다. 다음 예제 코드는 리스트에 지정한 슬라이스 길이보다 대입되는 배열 길이가 더 짧기 때문에 리스트가 줄어든다.

In [9]:
print('이전:', a)
a[2:7] = [99, 22, 14]
print('이후:', a)

이전: ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
이후: ['a', 'b', 99, 22, 14, 'h']


아래 코드는 리스트에 지정한 슬라이스 길이보다 대입되는 배열 길이가 더 길기 때문에 리스트가 늘어난다.

In [10]:
print('이전:', a)
a[2:3] = [47, 11]
print('이후:', a)

이전: ['a', 'b', 99, 22, 14, 'h']
이후: ['a', 'b', 47, 11, 22, 14, 'h']


슬라이싱 시작과 끝 인덱스를 모두 생략하면 원래 리스트를 복사한 새 리스트를 얻는다.

In [11]:
b = a[:]
assert b == a and b is not a

시작과 끝 인덱스가 없는 슬라이스에 대입하면 (새 리스트를 만들어내는 대신) 슬라이스가 참조하는 리스트 내용을 대입한다. 즉, 리스트 복사본으로 덮어 쓴다.

In [12]:
b = a
print('이전 a:', a)
print('이전 b:', b)
a[:] = [101, 102, 103]
assert a is b
print('이후 a:', a)
print('이후 b:', b)

이전 a: ['a', 'b', 47, 11, 22, 14, 'h']
이전 b: ['a', 'b', 47, 11, 22, 14, 'h']
이후 a: [101, 102, 103]
이후 b: [101, 102, 103]


# 2.2 스트라이드와 슬라이스를 한 식에 함께 사용하지 말라

기본 슬라이싱 외, 파이썬은 리스트[시작:끝:증가값]으로 일정한 간격을 둔 슬라이싱을 할 수 있다. 이를 스트라이드(stride)라고 한다. 스트라이드를 사용하면 시퀀스를 슬라이싱하면서 매 n번째 원소만 가져올 수 있다. 예를 들어 스트라이드를 사용해 리스트에서 인덱스가 짝수인 그룹과 홀수인 그룹을 쉽게 나눌 수 있다.

In [14]:
x = ['빨강', '주황', '노랑', '초록', '파랑', '자주']
odds = x[::2]
evens = x[1::2]
print(odds)
print(evens)

['빨강', '노랑', '파랑']
['주황', '초록', '자주']


파이썬에서 byte 문자열을 역으로 뒤집는 가장 일반적인 기법은 -1을 증가값으로 사용해 문자열을 슬라이싱하는 것이다.

In [15]:
x = b'mongoose'
y = x[::-1]
print(y)

b'esoognom'


유니코드 문자열도 마찬가지로 잘 작동한다.

In [17]:
x = '洪吉同'
y = x[::-1]
print(y)

同吉洪


하지만 스트라이드 구문 사용은 종종 예기치 못한 버그를 부른다. 아래는 유니코드 데이터를 UTF-8로 인코딩한 문자열에 적용한 것이다.

In [18]:
w = '洪吉同'
x = w.encode('utf-8')
y = x[::-1]
z = y.decode('utf-8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8c in position 0: invalid start byte

-1 말고 다른 음수 증가값은 유용할까? 다음 예제를 보자

In [19]:
x = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
x[::2]    # ['a', 'c', 'e', 'g']
x[::-2]   # ['h', 'f', 'd', 'b']

['h', 'f', 'd', 'b']

또한 다음과 같은 사용은 혼란스럽게 보이기 마련이다.

In [20]:
x[2::2]      # ['c', 'e', 'g']
x[-2::-2]    # ['g', 'e', 'c', 'a']
x[-2:2:-2]   # ['g', 'e']
x[2:2:-2]    # []

[]

이처럼 슬라이싱 구문에 스트라이드까지 넣으면 코드의 밀도가 늘어나 혼란스러워 보인다. 게다가 시작값과 끝값이 어떤 역할을 하는지 불분명해 보인다. 특히 증가값이 음수인 경우 더 그렇다.

이런 문제를 방지하기 위해 시작값이나 끝값을 **스트라이드와 함께 사용하지 않을 것**을 권한다. 스트라이드를 사용해야 할 경우, 증가값을 양수로 하고 시작과 끝 인덱스를 생략하는 습관을 들여라. 두 과정을 나눠서 진행하라.

In [21]:
y = x[::2]  # 1단계: 스트라이드 >> ['a', 'c', 'e', 'f']
z = y[1:-1] # 2단계: 슬라이싱  >> ['c', 'e']

다만, 스트라이딩한 뒤 슬라이싱을 진행하면 데이터를 한 번 더 얕게 복사(shallow copy. deep copy와 반댓말)하게 된다. 가능하면 연산은 슬라이스 크기를 가능한 한 줄여야 한다. 프로그램이 이 두 단계 연산에 필요한 시간과 메모리를 감당할 수 없다면, itertools 내장 모듈의 islice 메서드를 고려하다. islice는 읽기 더 깔끔하며 시작, 끝, 증가값에 음수를 사용할 수 없다.

<br/>

## 2.3 슬라이싱보다는 나머지를 모두 잡아내는 언패킹을 사용하라

기본 언패킹(1.6절)의 한 가지 한계점은 언패킹할 시퀀스 길이를 미리 알아야 한다는 점이다.

아래 예제는 중고차 매매상에서 판매하는 자동차가 출고 후 몇 년 지났는지 표현하는 리스트를 사용한다. 기본 언패킹으로 리스트 맨 앞에서 원소 두 개를 가져오면 실행 시점에서 예외가 발생한다.

In [22]:
car_ages = [0, 9, 4, 8, 7, 20, 19, 1, 6, 15]
car_ages_descending = sorted(car_ages, reverse=True)    # 크기 역순으로 나열한 새 배열 
                                                        # >> [20, 19, 15, 9, 8, 7, 6, 4, 1, 0]
oldest, second_oldest = car_ages_descending             # 언패킹(오류 발생)

ValueError: too many values to unpack (expected 2)

파이썬 초보자는 이런 상황에서 주로 인덱스와 슬라이싱을 사용한다. 다음 예시 코드는 원소가 최소 두 개 이상 든 리스트에서 가장 오래된 자동차와 두 번째로 오래된 자동차 나이를 가져오는 코드다.

In [26]:
oldest = car_ages_descending[0]
second_oldest = car_ages_descending[1]
others = car_ages_descending[2:]
print(oldest, second_oldest, others)

20 19 [15, 9, 8, 7, 6, 4, 1, 0]


이 코드는 잡음이 많다. 실제로 이런 식으로 하위 집합을 만들다 보면 인덱스로 인한 오류(off-by-one error)를 만들어내기 쉽다. 예를 들어 어느 한 줄에서 범위를 변경했는데 다른 줄을 깜빡하고 고치지 않으면 결과가 잘못되거나 예외가 발생할 수 있다. 

이런 상황을 더 잘 다룰 수 있도록 파이썬은 **별표 식**(starred expresstion)을 사용해 모든 값을 담는 언패킹이 가능하게 지원한다. 이 구문을 사용하면 언패킹 패턴의 다른 부분에 들어가지 못하는 모든 값을 별이 붙은 부분에 다 담을 수 있다.

다음은 위에서 본 잡음이 많은 코드를 별표 식을 사용하여 재현하였다.

In [27]:
oldest, second_oldest, *others = car_ages_descending
print(oldest, second_oldest, others)

20 19 [15, 9, 8, 7, 6, 4, 1, 0]


이 코드가 더 짧고, 읽기 쉽고, 여러 줄 사이 인덱스 경계 값이 벗어날 여지도 없기 때문에 오류 걱정도 없다. 

별표 식은 다른 위치에 쓸 수도 있다. 따라서 꼭 언패킹해야 하는 값 외에 여분의 슬라이스가 하나 필요한 경우, 나머지를 모두 잡아내는 이 기능의 이점을 살릴 수 있다.

In [28]:
oldest, *others, youngest = car_ages_descending
print(oldest, others, youngest)

20 [19, 15, 9, 8, 7, 6, 4, 1] 0


In [31]:
*others, second_youngest, youngest = car_ages_descending
print(youngest, second_youngest, others)

0 1 [20, 19, 15, 9, 8, 7, 6, 4]


하지만 별표 식이 포함된 언패킹 대입을 처리하려면 필수인 부분이 적어도 하나는 있어야 한다. 그렇지 않으면 SyntaxError가 발생한다. 별표 식만 사용해 언패킹할 수는 없다.

In [32]:
*others = car_ages_descending

SyntaxError: starred assignment target must be in a list or tuple (2422727027.py, line 1)

또한, 한 수준의 언패킹에서 별표 식을 두 개 이상 사용할 수는 없다.

In [33]:
first, *middle, *second_middle, last = [1, 2, 3, 4]

SyntaxError: multiple starred expressions in assignment (1187532336.py, line 1)

하지만 여러 계층으로 이뤄진 구조를 언패킹할 때는 서로 다른 부분이라면 가능하다. 다음 예제 방식을 권장하지는 않지만, 이해를 위해 살펴보자.

In [34]:
# 권장하지 않는 방식. 이해를 위해서 보자
# 사실 함수가 여러 값을 반환하면 절대 네 값 이상을 언패킹하지 않는 것이 좋다.
car_inventory = {
    '시내': ('그랜저', '아반떼', '티코'),
    '공항': ('제네시스 쿠페', '소나타', 'K5', '엑센트'),
}
# car_inventory 언패킹
((loc1, (best1, *rest1)),
 (loc2, (best2, *rest2))) = car_inventory.items()
print(f'{loc1} 최고는 {best1}, 나머지는 {len(rest1)} 종')
print(f'{loc2} 최고는 {best2}, 나머지는 {len(rest2)} 종')

시내 최고는 그랜저, 나머지는 2 종
공항 최고는 제네시스 쿠페, 나머지는 3 종


별표 식은 항상 list 인스턴스가 된다. 언패킹하는 시퀀스에 남는 원소가 없으면 빈 리스트가 된다. 이런 특징상 원소가 최소 N개 든 사실을 미리 아는 시퀀스를 처리할 때 유용하다.

In [35]:
short_list = [1, 2]
first, second, *rest = short_list
print(first, second, rest)

1 2 []


언패킹 구문으로 임의의 이터레이터를 가져올 수도 있지만, 기본 다중 대입문보다 그다지 많이 쓸모 있지는 않다. 아래 예제는 길이가 2인 range에 든 값을 언패킹한다. 그냥 언패킹 패턴과 일치하는 길이가 고정된 리스트(예: [1, 2])에 대입하는 편이 더 쉽게 때문에 그다지 유용하지 않은 방식이다.

In [37]:
it = iter(range(1, 3))
first, second = it
print(f'{first} & {second}')

1 & 2


하지만 별표 식을 추가하면 언패킹할 이터레이터 값을 깔끔하게 가져올 수 있다. 예를 들어 이번 주 중고차 매매상에서 판매한 자동차 내역이 든 CSV 파일 각 줄을 내보내는 이터레이터가 있다고 하자.

In [38]:
def generate_csv():    # 중고차 매매상이 판매한 자동차 내역이 든 csv를 받아 각 줄을 내보내는 함수
    yield('날짜', '제조사', '모델', '연식', '가격')
    ...

all_csv_rows = list(generate_csv())    # 각 줄을 다시 리스트에 담는다.
header = all_csv_rows[0]
rows = all_csv_rows[1:]
print('CSV 헤더', header)
print('행 수', len(rows))    

CSV 헤더 ('날짜', '제조사', '모델', '연식', '가격')
행 수 0


제너레이터 결과를 인덱스와 슬라이싱으로 처리해도 괜찮지만, 처리하는 데 코드가 길어지고 잡음도 많다.

별표 식으로 언패킹하면 이터레이터가 내보내는 내용 중에서 첫 번째(헤더)와 나머지를 쉽게 나눌 수 있다.

In [39]:
it = generate_csv()
header, *rows = it
print('CSV 헤더', header)
print('행 수', len(rows)) 

CSV 헤더 ('날짜', '제조사', '모델', '연식', '가격')
행 수 0


하지만 별표 식은 항상 리스트를 만들어내기 대문에, 이터레이터를 별표 식으로 언패킹하면 컴퓨터 메모리를 모두 다 사용해서 프로그램이 멈출 수 있다. 따라서 결과 데이터가 모두 메모리에 들어갈 수 있다고 확신할 때만 나머지를 모두 잡아내는 언패킹을 사용해야 한다.