## 시퀀스

__컨테이너 시퀀스__ 는 객체에 대한 참조를 담는 반면,   
__균일 시퀀스__ 는 자신의 메모리 공간에 각 항목의 값을 직접 담기 떄문에 _메모리를 더 적게 사용합니다._ ?

### 지능형 리스트와 제너레이터 표현식

In [1]:
symbols = '#^%*&'
codes = []
# for symbol in symbols:
#     codes.append(ord(symbol))
codes = [ord(symbol) for symbol in symbols] # list comprehension
codes

[35, 94, 37, 42, 38]

지능형 시리즈, 제너레이터 표현식은 함수처럼 고유한 지역 범위를 가집니다.   
표현식 안에서 할당된 변수는 지역변수이지만, 주변 범위의 변수를 참조할 수 있습니다.

In [2]:
x = 'ABC'
# 지능형 리스트는 메모리를 누수하지 않는다.
dummy = [ord(x) for x in 'ABC']
x, dummy

('ABC', [65, 66, 67])

In [3]:
# 적어도 이 예시에서는 listcomp가 map과 filter를 조합한 방법보다 더 빠릅니다. 보기도 좋구요
beyond_ascii = [ord(s) for s in symbols if ord(s) > 40]
# beyond_ascii = list(filter(lambda c: c>40, map(ord, symbols)))

In [4]:
colors = ['blacks', 'while']
sizes = ['S', 'M', 'L']


tshirts = [(color, size) for color in colors for size in sizes]
print(tshirts)
# 아래와 같음
# for color in colors:
#     for size in sizes:
#         print((color, size))

[('blacks', 'S'), ('blacks', 'M'), ('blacks', 'L'), ('while', 'S'), ('while', 'M'), ('while', 'L')]


### 제너레이터 표현식

지능형 리스트는 단지 리스트를 만들 뿐이므로 다른 종류의 시퀀스를 채우려면 제너레이터 표현식을 사용해야합니다.   
리스트를 통째로 만들지 않고 반복자 프로토콜 (iterator protocol)을 이용해 항목을 하나씩 생성하는 _제너레이터 표현식은 메모리를 더 적게 사용합니다._

In [5]:
# 대괄호 대신 괄호를 쓰면 제너레이터 표현식
import array

t = tuple(ord(symbol) for symbol in symbols)
arr = array.array('I', (ord(symbol) for symbol in symbols))

f't = {t},    arr = {arr}'

"t = (35, 94, 37, 42, 38),    arr = array('I', [35, 94, 37, 42, 38])"

In [6]:
# 메모리에 유지할 필요가 없는 데이터를 생성할 때는 제너레이터 표현식을 사용하는 게 좋습니다.
# 제너레이터 표현식은 한 번에 하나의 항목을 생성하며, 리스트는 만들지 않습니다.
for tshirt in (f'{c} {s}' for c in colors for s in sizes):
    print(tshirt)

blacks S
blacks M
blacks L
while S
while M
while L


### __레코드__ 로서의 튜플

In [7]:
lax_coordinates = (33.3424, -213.4314)
# 지명, 년도, 인구수, 인구 변화율, 면적
city, year, pop, chg, area = ('Tokyo', 2003, 32450, 0.66, 8014)
traveler_ids = [('USA', '3112421'), ('BRA', 'CE34324'), 
    ('ESP', 'XDP43141')]

for passport in sorted(traveler_ids):
    print('%s/%s' % passport)

for country, _ in traveler_ids:
    print(country)

BRA/CE34324
ESP/XDP43141
USA/3112421
USA
BRA
ESP


반복형 데이터를 변수로 구성된 튜플에 할당하는 병렬 할당

In [8]:
# 변수로 구성된 튜플 = 반복형 데이터
latitude, longitude = lax_coordinates   
latitude, longitude

(33.3424, -213.4314)

\* 사용하여 언패킹

In [9]:
t = (20, 8)
q, r = divmod(*t)
q, r

(2, 4)

In [10]:
import os
_, filename = os.path.split('/home/luciano/.ssh/idrsa.pub')
filename

'idrsa.pub'

In [11]:
a, b, *rest = range(5)
print(a, b, rest)
a, b, *rest = range(2)
print(a, b, rest)
a, *body, c, d = range(5)
print(a, body, c, d)
*head, b, c, d = range(5)
print(head, b, c, d)

0 1 [2, 3, 4]
0 1 []
0 [1, 2] 3 4
[0, 1] 2 3 4


명명된 튜플

In [12]:
from collections import namedtuple
City = namedtuple('City', 'name country population coordinates')
tokyo = City('Tokyo', 'JP', 36.933, (35.45252, 124.23524))

print(tokyo)
print(tokyo.coordinates)
print(tokyo[1])

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.45252, 124.23524))
(35.45252, 124.23524)
JP


In [13]:
print(City._fields)
LatLong = namedtuple('LatLong', 'lat long')
delhi_data = ('Delhi NCR', 'IN', 21.923, LatLong(23.1242, 55.2312))
delhi = City._make(delhi_data)
print(delhi._asdict())
for key, value in delhi._asdict().items():
    print(key + ':', value)

('name', 'country', 'population', 'coordinates')
{'name': 'Delhi NCR', 'country': 'IN', 'population': 21.923, 'coordinates': LatLong(lat=23.1242, long=55.2312)}
name: Delhi NCR
country: IN
population: 21.923
coordinates: LatLong(lat=23.1242, long=55.2312)


## 슬라이싱

In [14]:
s = 'bicycle'
s[:3], s[::3], s[::-1], s[::-2]

('bic', 'bye', 'elcycib', 'eccb')

In [15]:
# 슬라이싱에 할당하기
l = list(range(10))
print(l)
l[2:5] = [20, 30]
print(l)
del l[5:7]
print(l)
l[3::2] = [11, 22]
print(l)
l[2:5] = 100


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 8, 9]
[0, 1, 20, 11, 5, 22, 9]


TypeError: can only assign an iterable

In [16]:
l[2:5] = [100]
l

[0, 1, 100, 22, 9]

In [17]:
# 시퀀스에 덧셈 곱셈 연산자 사용
l = [1, 2, 3]
print(l * 5)
print('asda' * 5)


[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]
asdaasdaasdaasdaasda


In [18]:
# 리스트의 리스트 만들기
board = [['_']*3 for i in range(3)]
weired_board = [['_']*3]*3

board[1][2] = 'X'
weired_board[1][2] ='X'
print(board)
print(weired_board)

[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]
[['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]


In [19]:
# weired_board는 본질적으로 다음과 같이 작동한다.
row = ['_'] * 3
board = []
for i in range(3):
    board.append(row)
# 동일한 객체를 3개 담음
for b in board:
    print(id(b))

1503714787776
1503714787776
1503714787776


### 시퀀스의 복합 할당
+= 혹은 *= 연산자가 작동하도록 만드는 특수 메서드는 \_\_iadd__() 입니다.   
여기서 i는 in-place를 의미하며 해당 벼수를 직접 변경한다는 뜻입니다.   
만약 \_\_iadd__()가 구현되어 있지 않다면 파이썬은 대신 \_\_add__() 메서드를 호출합니다.   
이 경우 객체를 새로 생성한 후 a에 할당됩니다.   
단, 불변 시퀀스의 경우 \_\_iadd__() 메서드를 사용할 수 없고 따라서 연결 연산을 반복적으로 수행하는 것은 비효율적입니다.


In [1]:
l = [1, 2, 3]
id(l)

2620755112640

In [2]:
l *= 2
l

[1, 2, 3, 1, 2, 3]

In [4]:
id(l) # 변하지 않음

2620755112640

In [5]:
t = (1, 2, 3)
id(t)

2620755101760

In [6]:
t *= 2
id(t) # 변함

2620754625056

In [7]:
t = (1, 2, [30, 40])
t[2] += [50, 60]

TypeError: 'tuple' object does not support item assignment

In [8]:
t # ?

(1, 2, [30, 40, 50, 60])

복합 할당은 원자적인 연산이 아니기 때문에 이렇게 변할 여지가 있는 가변 항목을 튜플에 넣는 것은 권장하지 않는다.   


In [10]:
import dis

dis.dis('s[a] += b')
# 10번에서 성공하여 리스트가 늘어나고 14번에서 실패하여 에러가 발생한다.

  1           0 LOAD_NAME                0 (s)
              2 LOAD_NAME                1 (a)
              4 DUP_TOP_TWO
              6 BINARY_SUBSCR
              8 LOAD_NAME                2 (b)
             10 INPLACE_ADD
             12 ROT_THREE
             14 STORE_SUBSCR
             16 LOAD_CONST               0 (None)
             18 RETURN_VALUE


### 리스트 정렬
sort() 메서드는 사본을 만들지 않고 리스트 내부를 변경해서 정렬한다.   
이와 반대로 sorted() 내장 함수는 새로운 리스트를 생성해서 반환한다.   

In [11]:
fruits = ['grape', 'raspberry', 'apple', 'banana']
print(sorted(fruits))
print(fruits)
print(sorted(fruits, reverse=True))
print(sorted(fruits, key=len))
fruits.sort()
print(fruits)

['apple', 'banana', 'grape', 'raspberry']
['grape', 'raspberry', 'apple', 'banana']
['raspberry', 'grape', 'banana', 'apple']
['grape', 'apple', 'banana', 'raspberry']
['apple', 'banana', 'grape', 'raspberry']


### 정렬된 시퀀스를 bisect로 관리하기

In [12]:
import bisect
import sys

HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30]
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]

ROW_FMT = '{0:2d} @ {1:2d}    {2}{0:<2d}'

def demo(bisect_fn):
    for needle in reversed(NEEDLES):
        position = bisect_fn(HAYSTACK, needle)
        offset = position * '  |'
        print(ROW_FMT.format(needle, position, offset))

print('DEMO:', 'bisect')
print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
demo(bisect.bisect)

DEMO: bisect
haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |29
23 @ 11      |  |  |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  5      |  |  |  |  |8 
 5 @  3      |  |  |5 
 2 @  1      |2 
 1 @  1      |1 
 0 @  0    0 


In [14]:
print('DEMO', 'bisect_left')
demo(bisect.bisect_left)

DEMO bisect_left
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 12      |  |  |  |  |  |  |  |  |  |  |  |29
23 @  9      |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  4      |  |  |  |8 
 5 @  2      |  |5 
 2 @  1      |2 
 1 @  0    1 
 0 @  0    0 


In [15]:
def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'):
    i = bisect.bisect(breakpoints, score)
    return grades[i]

[grade(score) for score in [33, 99, 77, 70, 89, 90, 100]]

['F', 'A', 'C', 'C', 'B', 'A', 'A']

In [16]:
# bisect.insort()로 삽입하기
# 정렬은 값비싼 연산이므로 시퀀스를 일단 정렬한 후에는 정렬 상태를 유지하는 것이 좋다.
# 이를 위해 insort() 함수가 만들어졌다.
import bisect
import random

SIZE = 7

random.seed(1997)

my_list = []
for i in range(SIZE):
    new_item = random.randrange(SIZE*2)
    bisect.insort(my_list, new_item)
    print(f'{new_item:2d} -> {my_list}')

12 -> [12]
 3 -> [3, 12]
 1 -> [1, 3, 12]
 3 -> [1, 3, 3, 12]
 2 -> [1, 2, 3, 3, 12]
10 -> [1, 2, 3, 3, 10, 12]
 3 -> [1, 2, 3, 3, 3, 10, 12]


### 라스트가 답이 아닐때
실수를 천만 개 저장해야 할 때는 배열이 훨씬 더 효울적이다.   
float 객체 대신 C언어의 배열과 마찬가지로 바이트 값만 저장하기 때문이다.

In [17]:
from array import array
from random import random
floats = array('d', (random() for i in range(10**7)))
floats[-1]

0.8670930139320574

In [18]:
fp = open('floats.bin', 'wb')
# tofile()은 각 행마다 식수 하나씩 텍스트 파일에 저장하는 것보다 7배 빠르다.
floats.tofile(fp)
fp.close()

floats2 = array('d')
fp = open('floats.bin', 'rb')
# fromfile로 load하는데 0.1초가 걸린다. 
# 이는 float 내장 함수를 이용해 텍스트 파일에서 숫자를 읽어오는 것보다 60배 빠르다.
floats2.fromfile(fp, 10**7)
fp.close()
floats2[-1]

0.8670930139320574

### 메모리 뷰
메모리 뷰 내장 클래스는 공유 메모리 시퀀스형으로 바이트를 복사핮 ㅣ않고 배열의 슬라이스를 다룰 수 있게 해준다.   
메모리 뷰는 데이터 구조체를 복사하지 않고 메모리를 공유할 수 있게 해주기 떄문에 데이터셋이 커지는 경우 이는 아주 중요한 기법이다.

In [19]:
# 배열 항목 값의 바이트 중 하나를 변경하기
import array
numbers = array.array('h', [-2, -1, 0, 1, 2])
memv = memoryview(numbers)
len(memv)


5

In [20]:
memv[0]

-2

In [21]:
memv_oct = memv.cast('B')
memv_oct.tolist()

[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]

In [22]:
memv_oct[5] = 4
numbers # ???

array('h', [-2, -1, 1024, 1, 2])

### 덱 및 기타 큐
덱 클래스는 thread-safe 양방향 큐다.   
덱은 최대 길이를 설정해서 제한된 항목만 유지할 수 있으므로 꽉차면 반대쪽 항목을 버린다.   
다만 양쪽 끝을 추가하거나 제거하는 것에 최적화 되어 있기 떄문에 중간 항목을 삭제하는 연산은 빠르지 않다.   

In [23]:

from collections import deque
dq = deque(range(10), maxlen=10)
print(dq)
dq.rotate(3)
print(dq)
dq.rotate(-4)
print(dq)
dq.appendleft(-1)
print(dq)
dq.extend([11, 22, 33])
print(dq)
dq.extendleft([10, 20, 30, 40])
print(dq)

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)
deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)
deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10)
