### Chapter 2. 시퀀스

파이썬에서 반복 가능한 시퀀스는 객체에 대한 참조를 담고 있는 conatiner sequence와, 자신의 메모리에 각 항목의 값을 직접 담고 있는 flat sequence로 나뉜다. 컨테이너 시퀀스는 객체에 대한 참조만을 담으므로 서로 다른 어떤 자료형도 담을 수 있지만 현실적으로는 하나의 자료형만 담는 게 일반적이다. 리스트의 원소들은 서로 연산을 주고받는 경우가 많기 때문이다. 이를테면 다음 코드와 같이 서로 다른 자료형을 담은 리스트의 경우, 선언하는 데에는 전혀 문제가 없지만 리스트 원소들의 합을 구하는 sum을 사용할 시 당연히 에러가 난다. int형과 str형의 합 연산은 정의되어 있지 않기 때문이다. 물론 따로 오버로딩할 수도 있다. 하지만 중요한 것은 보통 컨테이너 시퀀스에서도 다른 자료형을 한 컨테이너에 담지 않는다는 것이다. 다른 자료형을 담더라도, 우리가 사용할 특정 연산을 공통적으로 지원하는 자료형들끼리 담아야 한다.

In [None]:
List1=[1,2,3,4,5]
print(sum(List1))
List2=[1,2,'3',4,'5']
print(sum(List2))

15


TypeError: ignored

지능형 리스트라고 번역된 list comprehension은 매우 유명한 기법인데 이는 리스트 내에서 for문을 이용해 간편하게 리스트를 생성하게 해준다. 파이썬2에서는 list comprehension에 쓰인 변수가 지역 변수로 처리되지 않았지만 파이썬3부터는 지역 변수로 처리된다. 이런 지능형 리스트를 이용하면 `map()` 이나 `filter()`를 대체할 수 있다. 속도도 똑같다.

In [None]:
l1=[i for i in range(1,10,2)]
print(l1)

[1, 3, 5, 7, 9]


또한 리스트를 통째로 만드는 것이 아니라, for문에 전달하는 항목의 경우 등 항목을 하나씩만 생성하면 될 경우 제너레이터 표현식을 사용할 수 있다. 제너레이터 표현식은 한 번에 한 항목씩, 즉 필요한 만큼만 계산을 하기 때문에 효율적이다. 제너레이터 표현식은 지능형 리스트와 구문이 동일하지만, `[]` 대신 `()` 를 사용한다. 책에서는 리스트 이외의 시퀀스(튜플, 배열 등)를 초기화하거나 메모리에 유지할 필요가 없는 데이터 생성에 쓰는 것만 보여주었다. 제너레이터 표현식은 14장에서 구체적으로 배운다.

In [1]:
colors='black white'.split()
sizes='S M L'.split()
for tshirts in ('%s %s' % (c,s) for c in colors for s in sizes):
  print(tshirts)

black S
black M
black L
white S
white M
white L


튜플 언패킹도 매우 많이 쓰이는 기법이다. 반복형 데이터를 변수들에 각각 할당할 때에 많이 쓰이는데 흔히 pythonic 하다고 불리는 a,b=b,a 등의 코드에 많이 쓰이는 것 같다. 단 이렇게 변수값을 병렬로 할당하는 건 꼭 튜플에서만 가능한 것은 아니고 리스트 등에도 적용할 수 있다. 명시적인 괄호(튜플인지 리스트인지 나타내 주는)없이 변수를 나열했을 경우 자동으로 튜플로 묶이는 것 뿐이다. 이를테면 아래 코드에서 x1,y1=xy1 의 경우, (x1,y1)=xy1 으로 자동으로 바뀐다.

In [None]:
xy1=(10,11)
xy2=[20,21]
x1,y1=xy1
x2,y2=xy2
print(x1,y1,x2,y2)

10 11 20 21


또 초과된 인수를 잡기 위해 *를 사용하는 것이나 필요없는 변수를 더미로 처리할 때에는 _를 사용할 수 있다.

In [None]:
a,b,*rest=range(1,6)
print(a,b,rest)

tuples=(10,(3,4)) #10이 쓸모없는 변수라면 10을 더미 변수 _에 넣어 버리자.
_,t=tuples
print(t)

1 2 [3, 4, 5]
(3, 4)


또 `*`는 튜플로 된 변수를 언패킹한 후 함수에 인수로 전달할 때도 쓸 수 있다. 가령 divmod() 함수는 2개의 인수를 받는데, 2개의 원소를 가진 튜플 t를 `*t` 로 전달하는 것이다.

슬라이싱의 경우 range구문과 비슷하게 작동한다. slice(a,b,c) 슬라이스 객체 즉 [a:b:c] 는 a<=i<b 의 인덱스를 step c만큼 뛰어넘어 가며 그 인덱스의 원소를 뽑아낸다. 이때 step 이 생략되면 자동으로 1로 설정되며 step이 음수인 경우 거꾸로 거슬러 올라가 항목을 반환한다. 문자열이나 리스트를 뒤집는 것으로 상당히 유명한 코드인 아래 예시도, 전체 시퀀스를 한 칸씩 거슬러 올라가는 원리로 작동하는 것이다.

In [None]:
s="apple"
l=[1,2,3,4,5]
print(s[::-1])
print(l[::-1])

elppa
[5, 4, 3, 2, 1]


또한 슬라이싱 [a:b:c] 는 슬라이스 객체 slice(a,b,c) 를 생성하는데, 이는 슬라이싱 s[a:b:c] 를 평가하기 위해서는 특별 메서드 `seq.__getitem__(slice(a,b,c))` 가 호출되기 때문이다. 이 원리를 이용해 슬라이스 객체에 이름을 할당하는 방식으로, 슬라이싱을 좀더 간편하게 사용할 수 있다. 또한 `__getitem__` 을 적절히 오버로딩하여, 슬라이싱이 다른 동작을 하도록 만들 수도 있다. 슬라이스 객체가 `__getitem__` 의 인수로 들어올 시 특정 동작을 하게 만들면 되는 것이다.

In [None]:
num='012345678910111213141516171819'
digit_1=slice(10)
digit_2=slice(10,None)
print(num[digit_1],num[digit_2])

0123456789 10111213141516171819


그리고 슬라이스 객체에 새 값을 할당하는 것도 가능한데, 이는 mutable한 자료형에만 가능하다. 아래 코드와 같이 mutable한 자료형인 리스트에는 슬라이스 할당이 아주 잘 되지만 immutable한 문자열 자료형의 슬라이스에 할당을 하려고 할 시 에러가 발생하는 것을 볼 수 있다.

In [None]:
list10=list(range(10))
print(list10)
list10[2:5]=[20,30]
print(list10)
list10[3::2]=[11,22,33]
print(list10)

s1="abcdefghijklmnop"
s1[2:10]="WITCH"
print(s1)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 6, 7, 8, 9]
[0, 1, 20, 11, 5, 22, 7, 33, 9]


TypeError: ignored

이때 파이썬에서 복합 할당 연산자를 사용할 때, 파이썬은 가변 시퀀스의 경우 +=, *= 가 원래의 객체를 사용하고, 불변 시퀀스의 경우 새로운 객체를 만들어서 할당한다. 따라서 연산자 오버로딩을 할 때도 `__iadd__` 등을 따로 구현해서 이런 특성을 살려 주는 게 좋다. 이런 것에 대해서는 8장에서 자세히 다룬다.

시퀀스는 mutable할 경우 sort()메서드를 사용하거나, 아니라도 sorted 함수를 이용해서 정렬할 수 있다. 이런 함수들을 이용해서 정렬된 시퀀스에는 bisect모듈에서 이진 검색을 제공한다. 이는 ps판에서 매우 많이 쓰이는 이진 검색과 같은 원리로, 당연히 시간복잡도는 O(logN) 이다.
bisect(haystack, needle) 은 정렬 시퀀스인 haystack 안에서 needle을 정렬된 상태를 유지하면서 삽입할 수 있는 위치를 찾아낸다. 그 위치를 이용해 haystack.insert(bisect(haystack,needle),needle) 을 수행할 시 haystack의 적절한 위치에 needle원소가 삽입된다. 이 두 함수를 한번에 지원하는 것이 bisect.insort(haystack,needle) 함수이다.

또한 bisect 함수를 이용하면 haystack의 어느 위치에 needle이 들어갈지를 반환하므로 bisect 함수를 이용해 여러 범위 중에서 needle이 어떤 범위에 들어갈지를 표현하게 만들 수도 있다.

In [None]:
import bisect

def grade(score, breakpoints=[60,70,80,90], grades="FDCBA"):
  idx=bisect.bisect(breakpoints,score)
  return grades[idx]

print([grade(score) for score in [33,99,77,20,67,50,100,70]])

['F', 'A', 'C', 'F', 'D', 'F', 'A', 'C']


리스트는 매우 좋은 자료형이지만 세부적인 요구사항에 따라, 더 쓸만한 자료형이 있는 경우도 많다. 이를테면 시퀀스의 양쪽에서 계속 항목의 추가/제거가 일어날 때는, 리스트는 뒤쪽에서는 삽입/삭제가 O(1)이지만(append(item), pop()의 경우) 앞부분에서는 삽입/삭제가 O(n) 이다(insert(0,item),pop(0) 의 경우). 이럴 때에는 collections.deque가 더 나은 선택일 수 있다. 또는 숫자만 잔뜩 들어 있는 자료의 경우 array.array 를 쓰는 것이 메모리를 훨씬 더 절약한다. 이 두 자료형은 파이썬 라이브러리 상에 매우 잘 구현되어 있어서 리스트가 가진 대부분의 함수들을 이미 지원한다.