## 2. 시퀀스

### 2.1. 내장 시퀀스 개요

시퀀스의 구분
- 컨테이너 시퀀스 / 균일 시퀀스 : 다른 데이터 타입을 담을 수 있는지
- 가변 시퀀스 / 불변 시퀀스 : 초기화 값을 바꿀 수 있는지

### 2.2. List Comprehension(지능형 리스트)와 제너레이터
#### 2.2.1. 지능형 리스트와 가독성
List Comprehension을 사용하면 코드 가독성이 좋아지기 때문에 되도록 이를 사용하도록 한다. 

In [1]:
# for문을 이용한 버전

symbols = "#$%^"
codes = []
for symbol in symbols :
  codes.append(ord(symbol))
  
print(codes)

[35, 36, 37, 94]


In [2]:
# List Comprehension
symbols = "#$%^"
codes = [ord(symbol) for symbol in symbols]
print(codes)

[35, 36, 37, 94]


List Comprehension 안에서 사용되는 변수는 지역변수로 취급된다. 동시에 주변 범위의 변수를 참조할 수도 있다. 

In [3]:
x = "ABC"
dummy = [ord(x) for x in x] # 전역변수 x ("ABC")와 ListComp 안에서 사용되는 지역변수가 같은 이름을 가짐
print(x)
print(dummy)

ABC
[65, 66, 67]


#### 2.2.2. 지능형 리스트와 map() / filter() 비교
map()과 filter()를 이용해서 List Comprehension에 람다를 굳이 사용하지 않고도 같은 동작을 수행할 수 있다. 

In [12]:
symbols = "$\￠￡"
beyond_ascii = [ord(s) for s in symbols if ord(s) > 127]
print(beyond_ascii)
beyond_ascii = list(filter(lambda c: c > 127, map(ord, symbols)))
print(beyond_ascii)

[65504, 65505]
[65504, 65505]


#### 2.2.3. 데카르트 곱
List Comprehension 안에 하나 이상의 for문을 사용할 수 있고, 데카르트 곱 안의 항목은 서로 조합되어 튜플로 구성된다.

In [14]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']

# List Comprehension
tshirts = [(color, size) for color in colors for size in sizes]
print(tshirts)

# 중첩 for문
for color in colors:
  for size in sizes:
    print((color, size))
    
# for문 순서가 바뀌면 조합 순서도 바뀐다
tshirts = [(color, size) for size in sizes for color in colors]
print(tshirts)

[('black', 'S'), ('black', 'M'), ('black', 'L'), ('white', 'S'), ('white', 'M'), ('white', 'L')]
('black', 'S')
('black', 'M')
('black', 'L')
('white', 'S')
('white', 'M')
('white', 'L')
[('black', 'S'), ('white', 'S'), ('black', 'M'), ('white', 'M'), ('black', 'L'), ('white', 'L')]


#### 2.2.4. 제너레이터 표현식
List Comprehension은 리스트를 초기화할 때 사용하는 방법이고, 리스트를 제외한 다른 시퀀스형은 제너레이터를 사용한다.

제너레이터를 사용하면 리스트, 튜플 등의 시퀀스형을 초기화할 때 전체 리스트를 만들지 않고 반복자를 이용해서 항목을 하나씩 만들 수 있어 메모리를 절약할 수 있다. 

예를 들어 이미지 데이터를 불러오고 싶을 때 전체 데이터를 한꺼번에 다 불러오면 메모리를 많이 사용하고 한번에 적재되지 않을 수도 있기 때문에 이럴 때는 한번에 필요한 만큼만 (보통 batch size만큼) 로드하고 다음 번에 그 다음 데이터를 불러오는 방식으로 제너레이터를 사용할 수 있다. 

In [15]:
symbols = "$\￠￡"

# 튜플 제너레이터
tuple_generator = tuple(ord(s) for s in symbols)
print(tuple_generator)

# array 제너레이터
import array
array_generator = array.array('I', (ord(s) for s in symbol))

(36, 92, 65504, 65505)


In [17]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']

# List Comprehension과 달리 전체 리스트가 한번에 만들어지는 게 아니라
# 한번에 tshirt 한 항목씩 생긴다
for tshirt in ('%s, %s' % (c, s) for c in colors for s in sizes):
  print(tshirt)

black, S
black, M
black, L
white, S
white, M
white, L


### 2.3. 튜플은 단순한 불변 리스트가 아니다
#### 2.3.1. 레코드로서의 튜플

튜플의 각 항목은 데이터의 필드 하나를 의미하며, 항목의 위치가 의미를 결정한다.

In [18]:
lax_coordinate = (33.9425, -118.408056)
city, year, pop, chg, area = ("Tokyo", 2003, 32450, 0.66, 8014)
traveler_ids = [("USA", "31195855"), ("BRA", "CE342567"), ("ESP", "XDA205856")]
for passport in sorted(traveler_ids) :
  print("%s / %s" % passport)
  
for country, _ in traveler_ids :
  print(country)

BRA / CE342567
ESP / XDA205856
USA / 31195855
USA
BRA
ESP


#### 2.3.2. 튜플 언패킹(Unpacking)


In [19]:
lax_coordinate = (33.9425, -118.408056)
lat, lon = lax_coordinate # 튜플의 모양을 알고 Unpack해서 변수에 할당
print(lat)
print(lon)

33.9425
-118.408056


In [20]:
a = 3
b = 5

b, a = a, b # 패킹/언패킹 성질을 이용하면 swap을 손쉽게 할 수 있다.

print(a, b)

5 3


In [21]:
print(divmod(20, 8))

t = (20, 8)
print(divmod(*t)) # 함수를 호출할 때 튜플 앞에 *을 붙여서 언패킹

quotient, remainder = divmod(*t)
print(quotient, remainder)

(2, 4)
(2, 4)
2 4


In [23]:
import os

path, filename = os.path.split("/home/ahracho/.ssh/idrsa.pub") # 파일 경로에서 파일 이름만 떼어내줘
print(path, filename)

/home/ahracho/.ssh idrsa.pub


In [25]:
a, b, *rest = range(5)                                  # 초과 항목을 *으로 잡을 수 있음
print("a : ", a, ", b : ", b, ", rest : ", rest)

a, b, *rest = range(3) 
print("a : ", a, ", b : ", b, ", rest : ", rest)

a, b, *rest = range(2) 
print("a : ", a, ", b : ", b, ", rest : ", rest)

a :  0 , b :  1 , rest :  [2, 3, 4]
a :  0 , b :  1 , rest :  [2]
a :  0 , b :  1 , rest :  []


In [27]:
a, *body, c, d = range(5) # 위치는 상관없다 하지만 *변수는 한번만 써야 함
print("a : ", a, ", body : ", body, ", c : ", c, ", d : ", d)

a :  0 , body :  [1, 2] , c :  3 , d :  4


#### 2.3.3. 내포된 튜플 언패킹
튜플 안에 튜플이 또 있는 경우에도 언패킹이 똑똑하게 잘 된다.

In [30]:
metro_areas = [
    ('Tokyo', 'JP', 36.933, (35.689722, 139.691667)),   # <1>
    ('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)),
    ('Mexico City', 'MX', 20.142, (19.433333, -99.133333)),
    ('New York-Newark', 'US', 20.104, (40.808611, -74.020386)),
    ('Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833)),
]

print('{:15} | {:^9} | {:^9}'.format('', 'lat.', 'long.'))

fmt = '{:15} | {:9.4f} | {:9.4f}'
for name, cc, pop, (latitude, longitude) in metro_areas:  # <2>
    if longitude <= 0:  # <3>
        print(fmt.format(name, latitude, longitude))

                |   lat.    |   long.  
Mexico City     |   19.4333 |  -99.1333
New York-Newark |   40.8086 |  -74.0204
Sao Paulo       |  -23.5478 |  -46.6358


#### 2.3.4. Named Tuple
앞선 예제들처럼 튜플을 레코드처럼 사용할 수 있지만, 필드 이름을 적용할 수 없어서 조금 부족한 느낌이다. 이를 보완하는 것이 namedtuple()이다. 

In [33]:
from collections import namedtuple
city = namedtuple('City', 'name country population coordinates') # (클래스 이름, 필드 이름 나열)
tokyo = city('Tokyo', 'JP', 36.933, (35.689722, 139.691667))
print(tokyo)

# 필드 이름으로 값에 접근할 수도 있다.
print(tokyo.population)
print(tokyo.coordinates)

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 139.691667))
36.933
(35.689722, 139.691667)


In [35]:
print(city._fields)

LatLong = namedtuple('LatLong', 'lat long')

delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.208889))

delhi = city._make(delhi_data) # city(*delhi_data) 과 동일
print(delhi)

print(delhi._asdict()) # 필드와 값을 딕셔너리처럼
print("")

for key, value in delhi._asdict().items():
  print(key + ": ", value)

('name', 'country', 'population', 'coordinates')
City(name='Delhi NCR', country='IN', population=21.935, coordinates=LatLong(lat=28.613889, long=77.208889))
OrderedDict([('name', 'Delhi NCR'), ('country', 'IN'), ('population', 21.935), ('coordinates', LatLong(lat=28.613889, long=77.208889))])
name:  Delhi NCR
country:  IN
population:  21.935
coordinates:  LatLong(lat=28.613889, long=77.208889)


#### 2.3.5. 불변 리스트로서의 튜플
튜플은 리스트와 매우 유사하지만 값을 변경할 수 없기 때문에, 항목을 추가/삭제, 변경 하는 기능, \__reversed\__ 메서드를 제외하고는 리스트가 제공하는 메서드를 모두 지원한다. 

### 2.4. 슬라이싱
#### 2.4.1. 슬라이스와 범위 지정시에 마지막 항목이 포함되지 않는 이유
- range(n), mylist\[:3\]처럼 중단점만 이용해서 슬라이싱/범위 지정할 때 계산이 쉽다
- 시작점/중단점을 모두 지정할 때에도 계산이 쉽다.
- 시퀀스 분할이 쉽다. mylist\[:3\] mylist\[3:5\] 등

In [36]:
l = [10, 20, 30, 40, 50, 60]
print(l[:2])
print(l[2:])
print(l[:3])
print(l[3:])

[10, 20]
[30, 40, 50, 60]
[10, 20, 30]
[40, 50, 60]


#### 2.4.2. 슬라이스 객체

In [37]:
s = 'bicycle'
print(s[::3]) # 슬라이스에서 3번째는 stride
print(s[::-1])
print(s[::-2])

bye
elcycib
eccb


In [38]:
# 슬라이싱에 사용하는 [start:stop:step] 기호는 사실 slice 객체를 생성한다
# 반복되는 구간을 slice 객체로 규격화할 수 있다

invoice = """
0.....6.................................40...........52...55........
1909  Pimoroni PiBrella                 $17.50        3   $52.50
"""

SKU = slice(0,6)
DESCRIPTION = slice(6, 40)
UNIT_PRICE = slice(40, 52)
QUANTITY = slice(52, 55)
ITEM_TOTAL = slice(55, None)

line_items = invoice.split('\n')[2:]

for item in line_items:
  print(item[UNIT_PRICE], item[DESCRIPTION])

$17.50       Pimoroni PiBrella                 
 


#### 2.4.3. 다차원 슬라이싱과 생략 기호
Numpy 패키지에서 다차원 슬라이싱은 A\[x:y, a:b\]의 형태로 작성하고 생략 기호 ...으로 슬라이싱이 필요없는 차원은 생략할 수 있다.


#### 2.4.4. 슬라이스에 할당하기

In [39]:
l = list(range(10))
print(l)

l[2:5] = [20, 30]
print(l)

del l[5:7]
print(l)

l[3::2] = [11, 22]
print(l)

# l[2:5] = 100 # error

l[2:5] = [100]
print(l)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 8, 9]
[0, 1, 20, 11, 5, 22, 9]
[0, 1, 100, 22, 9]


### 2.5. 시퀀스에 덧셈/곱셈 연산자 사용하기
시퀀스에 덧셈/곱셈 연산자를 사용할 때는 피연산자 두개가 같은 자료형이어야 하고, 둘 다 값이 변경되지 않고 새로운 시퀀스를 만들어 리턴한다.

In [40]:
l = [1,2,3]
print (l * 5)
print("abc"*3)

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]
abcabcabc


#### 2.5.1. 리스트의 리스트 만들기


In [41]:
board = [['_'] * 3 for i in range(3)]
print(board)

board[1][2] = 'X'
print(board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]


In [43]:
weird_board = [['_'] * 3] * 3 # 리스트는 레퍼런스를 가지고 있기 때문에 같은 객체의 레퍼런스를 3개 가지고 있는 형태
print(weird_board)

weird_board[1][2] = 'O' # 같은 레퍼런스를 가지고 있기 때문에 모두 바뀜
print(weird_board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', 'O'], ['_', '_', 'O'], ['_', '_', 'O']]


### 2.6. 시퀀스의 복합 할당
+=, \*= 는 첫번째 피연산자에 따라 다르게 동작한다. +=, \*= 를 실행하면 \_\_iadd()\_\_ 메서드가 실행되는데 이 메서드가 구현되지 않은 시퀀스의 경우에는 \_\_add\_\_가 실행된다.  

\_\_iadd()\_\_는 extend와 같이 동작해서 기존의 시퀀스 값이 변경되지만, \_\_add\_\_는 덧셈과 마찬가지로 합쳐서 새로운 시퀀스를 리턴한다. 

In [44]:
l = [1, 2, 3]
print(id(l))
l *= 2
print(l)
print(id(l))

139941357123976
[1, 2, 3, 1, 2, 3]


139941357123976

In [45]:
t = (1, 2, 3)
print(id(t))
t *= 2
print(t)
print(id(t))

139941357479760
(1, 2, 3, 1, 2, 3)
139941369217672


In [49]:
t = (1, 2, [30, 40])
t[2] += [50, 60] # t[2].extend([50, 60]) 하면 에러 X


TypeError: ignored

In [50]:
print(t)


(1, 2, [30, 40, 50, 60])


### 2.7. list.sort()와 sorted() 내장 함수

list.sort() 메소드는 사본을 만들지 않고 리스트 내부를 변경해서 정렬하고 이를 알려주기 위해 None을 반환한다. 반대로 sorted() 함수는 새로운 리스트를 생성하여 반환한다. 

In [51]:
fruits = ['grape', 'raspberry', 'apple', 'banana']

print(sorted(fruits), "<< sorted()")
print(fruits, "<< fruits")
print(sorted(fruits, reverse=True), "<< sorted() reversed")
print(sorted(fruits, key=len), "<< sorted() key")
print(sorted(fruits, reverse=True, key=len))
print("")
print(fruits, "<< fruits")
fruits.sort()
print(fruits)

['apple', 'banana', 'grape', 'raspberry'] << sorted()
['grape', 'raspberry', 'apple', 'banana'] << fruits
['raspberry', 'grape', 'banana', 'apple'] << sorted() reversed
['grape', 'apple', 'banana', 'raspberry'] << sorted() key
['raspberry', 'banana', 'grape', 'apple']

['grape', 'raspberry', 'apple', 'banana'] << fruits
['apple', 'banana', 'grape', 'raspberry']


### 2.8. 정렬된 시퀀스를 bisect로 관리하기

bisect()는 이진 검색 알고리즘을 이용해서 시퀀스를 검색하고, insort()는 정렬된 시퀀스 안에 항목을 삽입한다.

#### 2.8.1. bisect()로 검색하기

bisect(haystack, needle) 형태로 사용하고, 정렬된 시퀀스인 haystack 안에서 오름차순 정렬을 유지한 채 needle을 추가할 수 있는 위치를 찾아 index를 리턴한다. 

In [53]:
# BEGIN BISECT_DEMO
import bisect
import sys

HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30]
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]

ROW_FMT = '{0:2d} @ {1:2d}    {2}{0:<2d}'

def demo(bisect_fn):
    for needle in reversed(NEEDLES):
        position = bisect_fn(HAYSTACK, needle)  # <1>
        offset = position * '    |'  # <2>
        print(ROW_FMT.format(needle, position, offset))  # <3>

if __name__ == '__main__':

    if sys.argv[-1] == 'left':    # <4>
        bisect_fn = bisect.bisect_left
    else:
        bisect_fn = bisect.bisect

    print('DEMO:', bisect_fn.__name__)  # <5>
    print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
    demo(bisect_fn)

# END BISECT_DEMO

DEMO: bisect
haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14        |    |    |    |    |    |    |    |    |    |    |    |    |    |31
30 @ 14        |    |    |    |    |    |    |    |    |    |    |    |    |    |30
29 @ 13        |    |    |    |    |    |    |    |    |    |    |    |    |29
23 @ 11        |    |    |    |    |    |    |    |    |    |    |23
22 @  9        |    |    |    |    |    |    |    |    |22
10 @  5        |    |    |    |    |10
 8 @  5        |    |    |    |    |8 
 5 @  3        |    |    |5 
 2 @  1        |2 
 1 @  1        |1 
 0 @  0    0 


### 2.8.2. bisect.insort()로 삽입하기

정렬은 연산이 많이 들기 때문에 정렬한 후에는 정렬 상태를 유지하는 것이 좋다. insort(seq, item)는 seq를 오름차순으로 유지한 채 item를 제 순서에 맞게 삽입한다. 

In [54]:
import bisect
import random

SIZE = 7

random.seed(1729)

my_list = []
for i in range(SIZE):
    new_item = random.randrange(SIZE*2)
    bisect.insort(my_list, new_item)
    print('%2d ->' % new_item, my_list)

10 -> [10]
 0 -> [0, 10]
 6 -> [0, 6, 10]
 8 -> [0, 6, 8, 10]
 7 -> [0, 6, 7, 8, 10]
 2 -> [0, 2, 6, 7, 8, 10]
10 -> [0, 2, 6, 7, 8, 10, 10]


### 2.9. 리스트가 답이 아닐 때
#### 2.9.1. 배열

리스트 안에 숫자만 있다면 array.array가 리스트보다 훨씬 효율적이다. 파이썬 배열은 C배열만큼 가볍다. 배열을 생성할 때는 배열에 저장되는 각 항목의 C 기반 데이터 타입을 결정하는 타입코드를 지정한다. 

In [56]:
# 숫자 천만개를 쓰고 읽는데도 속도가 엄청 빠름

from array import array
from random import random
floats = array('d', (random() for i in range(10**7)))
print(floats[-1])

fp = open('floats.bin', 'wb')
floats.tofile(fp)
fp.close()

floats2 = array('d')
fp = open('floats.bin', 'rb')
floats2.fromfile(fp, 10**7)
fp.close()

print(floats2[-1])
print(floats == floats[2])



0.1288579230853678
0.1288579230853678
False


#### 2.9.2. 메모리 뷰

메모리뷰 내장 클래스는 공유 메모리 시퀀스형으로 bytes를 복사하기 않고 슬라이스를 다룰 수 있게 해준다. 

메모리뷰는 본질적으로 파이썬 자체에 들어있는 NumPy 배열 구조체를 일반화한 것이다. 메모리뷰는 PIL 이미지, SQLite 데이터베이스, NumPy 배열 등 데이터 구조체를 복사하지 않고 메모리를 공유할 수 있게 해준다. 데이터셋이 커지는 경우 아주 중요한 기법이다. 

In [58]:
import array
numbers = array.array('h', [-2, -1, 0, 1, 2]) # short 2바이트
memv = memoryview(numbers)

print(len(memv))
print(memv[0])

memv_oct = memv.cast('B') # char 1바이트
print(memv_oct.tolist())
memv_oct[5] = 1 # 0, 1 두 바이트를 리틀 엔디언으로 -> 256
print(numbers)

5
-2
[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]
array('h', [-2, -1, 256, 1, 2])


#### 2.9.3. NumPy와 SciPy

In [61]:
import numpy
a = numpy.arange(12)
print(a)

print(type(a))
print(a.shape)
a.shape = 3, 4
print()
print(a)

print(a[2])
print()
print(a[2, 1])
print(a[:,1])
print()
print(a.transpose())


[ 0  1  2  3  4  5  6  7  8  9 10 11]
<class 'numpy.ndarray'>
(12,)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 8  9 10 11]

9
[1 5 9]

[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


#### 2.9.4. 덱 및 기타 큐

append(), pop() 메서드를 사용해서 리스트를 큐나 스택처럼 사용할 수 있지만, 리스트 왼쪽에 삽입하거나 삭제하는 연산은 전체 리스트를 이동시켜야 하기 때문에 연산 처리가 많다.  

덱 클래스는 큐의 양쪽 어디에서든 빠르게 삽입/삭제할 수 있도록 설계된 양뱡향 큐이다.

In [63]:
from collections import deque

dq = deque(range(10), maxlen=10) # 최대 길이 설정 가능
print(dq)

dq.rotate(3)
print(dq)

dq.rotate(-4)
print(dq)

dq.appendleft(-1)
print(dq)

dq.extend([11, 22, 33])
print(dq)

dq.extendleft([10, 20, 30]) # 앞에서부터 하나씩 밀어넣어서 순서는 반대
print(dq)

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)
deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)
deque([30, 20, 10, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
