# Part II. 데이터 구조체

## 2장: 시퀀스
### 2.1 내장 시퀀스 개요

- ### 컨테이너 시퀀스 (container sequence):
##### 서로 다른 자료형의 항목들을 담을 수 있는 list, tuple, collections.deque 형
객체에 대한 참조를 담고 있음.

- ### 균일 시퀀스 (flat sequence):
##### 단 하나의 자료형만 담을 수 있는 str, bytes, bytearray, memoryview, array.array 형
객체에 대한 참조 대신 자신의 메모리 공간에 각 항목의 값을 직접 담는다. 따라서 메모리를 더 적게 사용하지만 기본적인 자료형만 저장 가능.

### 다른 기준:
1. 가변 시퀀스: list, bytearray, array.array, collections.deque, memoryview 형
2. 불변 시퀀스: tuple, str, bytes 형

### 2.1 list comprehension & 제너레이터 표현식(generator expression)


In [2]:
# 지능형 리스트와 가독성

# 1
symbols = '$￠￡￥€¤' # ￠: 센트. 미국 동전, ¤: 국제통화기호(Currency sign) 불특정 통화 표기
codes = []
for symbol in symbols:
    codes.append(ord(symbol))  # ord: Return the Unicode code point for a one-character string.

In [3]:
codes

[36, 65504, 65505, 65509, 8364, 164]

In [5]:
# 2
symbols = '$￠￡￥€¤'
codes = [ord(symbol) for symbol in symbols]
codes

[36, 65504, 65505, 65509, 8364, 164]

In [6]:
# 2번이 그 의도를 명확히 보여주기 때문에 더 가독성 좋은 코드이다. (오로지 새 리스트 생성)

In [7]:
x = 'ABC'
dummy = [ord(x) for x in x]
print(x, dummy)

ABC [65, 66, 67]


In [8]:
# 2.2.2 지능형 리스트와 map()/filter() 비교

symbols = '$￠￡￥€¤'
beyond_ascii = [ord(s) for s in symbols if ord(s) > 127]
beyond_ascii

[65504, 65505, 65509, 8364, 164]

In [15]:
beyond_ascii = list(filter(lambda c: c > 127, map(ord, symbols)))
beyond_ascii

[65504, 65505, 65509, 8364, 164]

In [11]:
# 2.2.3 데카르트 곱

colors = ['black', 'white']
sizes = ['S', 'M', 'L']
tshirts = [(color, size) for color in colors for size in sizes]
tshirts

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

In [12]:
for color in colors:
    for size in sizes:
        print((color, size))

('black', 'S')
('black', 'M')
('black', 'L')
('white', 'S')
('white', 'M')
('white', 'L')


In [13]:
tshirts = [(color, size) for color in colors for size in sizes]
tshirts

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

In [14]:
tshirts = [(color, size) for size in sizes
                         for color in colors]
tshirts

[('black', 'S'),
 ('white', 'S'),
 ('black', 'M'),
 ('white', 'M'),
 ('black', 'L'),
 ('white', 'L')]

In [23]:
# 2.2.4 제너레이터 표현식

"""
튜플, 배열 등의 스퀀스형을 초기화하려면 list comprehension을 사용할 수도 있지만, 다른 생성자에 전달할 리스트를 통째로 만들지 않고
반복자 프로토콜 (iterator protocol)을 이용해 항목을 하나씩 생성하는 제너레이터 표현식은 메모리를 더 적게 사용한다.
"""

In [24]:
symbols = '$￠￡￥€¤'
tuple(ord(symbol) for symbol in symbols)

(36, 65504, 65505, 65509, 8364, 164)

In [25]:
import array
array.array('I', (ord(symbol) for symbol in symbols))

array('I', [36, 65504, 65505, 65509, 8364, 164])

In [26]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
for tshirt in ('%s %s' % (c, s) for c in colors for s in sizes):
    print(tshirt)

black S
black M
black L
white S
white M
white L


In [28]:
# 제너레이터 표현식은 한 번에 하나의 항목을 생성하며, 6개의 티셔츠 종류를 담고 있는 리스트를 만들지는 않는다.

## 2.3 튜플은 단순한 불변 리스트가 아니다
- 불변 리스트로 사용할 수도 있지만 필드명이 없는 레코드로 사용할 수도 있다.

In [29]:
# 2.3.1 레코드로서의 튜플

# 튜플은 레코드를 담고 있다. 튜플의 각 항목은 레코드의 필드 하나를 의미하며 항목의 위치가 의미를 결정한다.
# 튜플을 필드의 집합으로 사용하는 경우에는 항목 수가 고정되어 있고 항목의 순서가 중요하다.

In [30]:
lax_coordinates = (33.9425, -118.408056)
city, year, pop, chg, area = ('Tokyo', 2003, 32450, 0.66, 8014)
traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), ('ESP', 'XDA205856')]

for passport in sorted(traveler_ids):
    print('%s/%s' % passport)

BRA/CE342567
ESP/XDA205856
USA/31195855


In [31]:
for country, _ in traveler_ids:      # for loop는 튜플의 각 항목을 어떻게 가져와야 하는지 알고 있다. (이 과정 = '언패킹')
    print(country)                    # _: 언더바로 dummy variable 할당

USA
BRA
ESP


In [32]:
# 2.3.2 튜플 언패킹 (tuple unpacking = iterable unpacking)

# 튜플 언패킹은 병렬 할당(parallel assignment)을 할 때 가장 눈에 띈다.

lax_coordinates = (33.9425, -118.408056)
latitude, longitude = lax_coordinates
latitude

33.9425

In [33]:
longitude

-118.408056

In [35]:
a = 10
b = 3

In [36]:
b, a = a, b

In [37]:
a

3

In [38]:
divmod(20, 8)

(2, 4)

In [39]:
t = (20, 8)

In [43]:
divmod(*t)    # 함수를 호출할 때 인수 앞에 *를 붙여 튜플을 언패킹할 수 있다.

(2, 4)

In [44]:
quotient, remainder = divmod(*t)

In [45]:
quotient

2

In [46]:
remainder

4

In [47]:
import os
_, filename = os.path.split('/home/luciano/.ssh/idrsa.pub')
filename

'idrsa.pub'

In [48]:
# 초과 항목을 잡기 위해 * 사용하기

a, b, *rest = range(5)

In [49]:
a, b, rest

(0, 1, [2, 3, 4])

In [59]:
a, *body, c, d = range(5)
a, body, c, d

(0, [1, 2], 3, 4)

In [67]:
# 2.3.3 내포된 튜플 언패킹

metro_areas = [
    ('Tokyo', 'JP', 36.933, (35.689722, 139.691667)),
    ('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)),
    ('Mexico CIty', 'MX', 20.104, (19.433333, -99.133333)),
    ('New York-Newark', 'US', 20.104, (40.808611, -74.020386))
]

In [68]:
print('{:15} | {:^9} | {:^9}'.format('', 'lat.', 'long.'))

                |   lat.    |   long.  


In [70]:
print('{:15} | {:^9} | {:^9}'.format('', 'lat.', 'long.'))
fmt = '{:15} | {:9.4f} | {:9.4f}'
for name, cc, pop, (latitude, longitude) in metro_areas:
    if longitude <= 0:                                         # 경도가 음수인 서반구 도시만 출력
        print(fmt.format(name, latitude, longitude))

                |   lat.    |   long.  
Mexico CIty     |   19.4333 |  -99.1333
New York-Newark |   40.8086 |  -74.0204


In [71]:
# 2.3.4 명명된 튜플

# collections.namedtuple() 함수. 필드명과 클래스명을 추가한 튜플의 서브클래스를 생성하는 팩토리 함수. 디버깅 시 유용.

# 필드명이 클래스에 저장되므로 namedtuple()로 생성한 객체는 튜플과 동일한 크기의 메모리만 사용한다.
#속성을 객체마다 존재하는 __dict__에 저장하지 않으므로 일반적인 객체보다 메모리를 적게 사용한다.

In [72]:
from collections import namedtuple
City = namedtuple('City', 'name country population coordinates') # (클래스명, 필드명의 리스트)
                                                    # 필드명의 리스트: 반복형 문자열이나 공백으로 구분된 하나의 문자열로 저장
tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667))
tokyo

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 139.691667))

In [73]:
tokyo.population

36.933

In [74]:
tokyo[1]

'JP'

named tuple은 튜플에서 상속받은 속성 외에 몇 가지 속성을 더 가지고 있다.
- _fields 클래스 속성: 클래스의 필드명을 담고 있는 튜플
- _make(iterable) 클래스 메서드: 반복형 개체로부터 명명된 튜플 만든다. City(*delhi_data)를 호출하는 코드와 동일한 역할 수행.
- _asdict() 객체 메서드: 명명된 튜플 객체에서 만들어진 collections.OrderedDict 객체를 반환한다. 깔끔하게 정리해서 출력 가능.

In [75]:
City._fields

('name', 'country', 'population', 'coordinates')

In [76]:
LatLong = namedtuple('LatLong', 'lat long')

In [77]:
delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.208889))

In [78]:
delhi = City._make(delhi_data)

In [80]:
delhi_data

('Delhi NCR', 'IN', 21.935, LatLong(lat=28.613889, long=77.208889))

In [81]:
delhi

City(name='Delhi NCR', country='IN', population=21.935, coordinates=LatLong(lat=28.613889, long=77.208889))

In [82]:
delhi._asdict()

OrderedDict([('name', 'Delhi NCR'),
             ('country', 'IN'),
             ('population', 21.935),
             ('coordinates', LatLong(lat=28.613889, long=77.208889))])

In [103]:
# 2.3.5 불변 리스트로서의 튜플
s = [1, 2, 3, 4]
s2 = [100]
t = (1, 2, 3, 4)
t2 = (100)

s.__add__(s2)

[1, 2, 3, 4, 100]

In [85]:
4 in s

True

In [86]:
s.__contains__(4)

True

In [109]:
4 in t

True

In [111]:
s.count(3)

1

In [113]:
s.__getitem__(3)

4

In [115]:
s.index(1)

0

In [128]:
s[1:2]

[2]

In [129]:
t[1:2]

(2,)

## 2.4 슬라이싱

In [1]:
s = 'bicycle'
s[::3]

'bye'

In [2]:
s[::-2]

'eccb'

## 2.5 시퀀스에 덧셈, 곱셈 연산자 사용하기

In [7]:
l = [1,2,3]
l * 5

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]

In [9]:
l = [[0] * 3] * 3 # 동일한 내부 리스트에 대한 참조 세 개를 가진 리스트 생성됨
l[0][0] = 1
l

[[1, 0, 0], [1, 0, 0], [1, 0, 0]]

In [12]:
l = [['_'] * 3 for i in range(3)]
l[0][0] = 'X'
l

[['X', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]

## 2.6 시퀀스의 복합 할당 (augmented assignment)

In [13]:
"""
a += b
__iadd__() 메서드가 구현되어 있다면 호출,
없다면 __add__() 메서드 호출 (a = a + b)

a *= b
__imul__()
"""

'\na += b\n__iadd__() 메서드가 구현되어 있다면 호출,\n없다면 __add__() 메서드 호출 (a = a + b)\n\na *= b\n__imul__()\n'

In [15]:
t = (1, 2, [30, 40])
t[2] += [50, 60]

TypeError: 'tuple' object does not support item assignment

In [16]:
t

(1, 2, [30, 40, 50, 60])

In [17]:
import dis
dis.dis('s[a] += b')

  1           0 LOAD_NAME                0 (s)
              2 LOAD_NAME                1 (a)
              4 DUP_TOP_TWO
              6 BINARY_SUBSCR
              8 LOAD_NAME                2 (b)
             10 INPLACE_ADD
             12 ROT_THREE
             14 STORE_SUBSCR
             16 LOAD_CONST               0 (None)
             18 RETURN_VALUE


## 2.7 list.sort()와 sorted() 내장 함수

In [19]:
fruits = ['grape', 'raspberry', 'apple', 'banana']
sorted(fruits)

['apple', 'banana', 'grape', 'raspberry']

In [20]:
sorted(fruits, reverse=True)

['raspberry', 'grape', 'banana', 'apple']

In [21]:
sorted(fruits, key=len)

['grape', 'apple', 'banana', 'raspberry']

In [22]:
sorted(fruits, key=len, reverse=True)

['raspberry', 'banana', 'grape', 'apple']

In [23]:
fruits.sort(reverse=True)
fruits

['raspberry', 'grape', 'banana', 'apple']

## 2.8 정렬된 시퀀스를 bisect로 관리하기

In [25]:
"""
bisect(haystack, needle)
정렬된 시퀀스 haystack 안에서 오름차순 정렬을 유지한 채 needle을 추가할 위치 찾아냄.
"""

import bisect
import sys

HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 23, 26, 30]
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 31]

ROW_FMT = '{0:2d} @ {1:2d}    {2}{0:<2d}'

def demo(bisect_fn):
    for needle in reversed(NEEDLES):
        position = bisect_fn(HAYSTACK, needle)
        offset = position * '  |'
        print(ROW_FMT.format(needle, position, offset))

In [27]:
bisect_fn = bisect.bisect_left

print('DEMO:', bisect_fn.__name__)
print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
demo(bisect_fn)

DEMO: bisect_left
haystack ->  1  4  5  6  8 12 15 20 21 23 23 23 26 30
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
29 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |29
23 @  9      |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  4      |  |  |  |8 
 5 @  2      |  |5 
 2 @  1      |2 
 1 @  0    1 
 0 @  0    0 


In [28]:
bisect_fn = bisect.bisect

print('DEMO:', bisect_fn.__name__)
print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
demo(bisect_fn)

DEMO: bisect_right
haystack ->  1  4  5  6  8 12 15 20 21 23 23 23 26 30
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
29 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |29
23 @ 12      |  |  |  |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  5      |  |  |  |  |8 
 5 @  3      |  |  |5 
 2 @  1      |2 
 1 @  1      |1 
 0 @  0    0 


In [29]:
def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'):
    i = bisect.bisect(breakpoints, score)
    return grades[i]

[grade(score) for score in [33, 99, 77, 70, 80, 89, 90]]

['F', 'A', 'C', 'C', 'B', 'B', 'A']

In [34]:
# bisect.insort()로 삽입하기

import random

SIZE = 7

random.seed(1729)

l = []
for i in range(SIZE):
    new_item = random.randrange(SIZE * 2)
    bisect.insort(l, new_item)
    print('%2d -> ' % new_item, l)

10 ->  [10]
 0 ->  [0, 10]
 6 ->  [0, 6, 10]
 8 ->  [0, 6, 8, 10]
 7 ->  [0, 6, 7, 8, 10]
 2 ->  [0, 2, 6, 7, 8, 10]
10 ->  [0, 2, 6, 7, 8, 10, 10]


## 2.9 리스트가 답이 아닐 때

In [36]:
# 배열은 모든 기능을 갖춘 float 객체 대신, C 언어의 배열과 마찬가지로 기계가 사용하는 형태로 표현된 바이트 값만 저장함
# 실수 1000만 개 저장할 때는 리스트에 비해 훨씬 효과적
# FIFO, LIFO 등의 데이터 구조에는 deque이 더 빠름

In [38]:
# 배열
# 숫자만 들어있는 경우 매우 효과적. C 배열만큼 가벼움.

from array import array
from random import random

floats = array('d', (random() for i in range(10**7)))
floats[-1]

0.5963321947530882

In [39]:
fp = open('floats.bin', 'wb')

In [40]:
floats.tofile(fp)

In [41]:
fp.close()

In [42]:
floats2 = array('d')

In [43]:
fp = open('floats.bin', 'rb')

In [44]:
floats2.fromfile(fp, 10**7)

In [45]:
fp.close()

In [46]:
floats2[-1]

0.5963321947530882

In [47]:
floats2 == floats

True

In [48]:
# momoryview
# 공유 메모리 시퀀스형. bytes를 복사하지 않고 배열의 슬라이스를 다룰 수 있게 해줌

import array
numbers = array.array('h', [-2, -1, 0, 1, 2]) # h: 짧은 정수
memv = memoryview(numbers)
len(memv)

5

In [49]:
memv[0]

-2

In [50]:
memv_oct = memv.cast('B') # B: 2byte unsinged int
memv_oct.tolist()

[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]

In [51]:
memv_oct[5] = 4
numbers

array('h', [-2, -1, 1024, 1, 2])

In [52]:
# NumPy와 SciPy

import numpy as np
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [53]:
type(a)

numpy.ndarray

In [54]:
a.shape

(12,)

In [55]:
a.shape = 3, 4

In [56]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [57]:
a[2, 1]

9

In [58]:
a[:, 1]

array([1, 5, 9])

In [59]:
a.transpose()

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

In [79]:
# deque, other queues
# 리스트의 0번 index에 삽입/삭제하는 연산은 전체 리스트를 이동시키므로 처리 부담이 크므로 thread-safe 양방향 큐인 deque 이용

from collections import deque
dq = deque(range(10), maxlen=10)
dq

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [80]:
dq.rotate(3)
dq

deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6])

In [81]:
dq.rotate(-4)
dq

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0])

In [82]:
dq.appendleft(-1)
dq

deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [84]:
dq.extend([11, 22, 33])
dq

deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33])

In [85]:
dq.extendleft([10, 20])
dq

deque([20, 10, 3, 4, 5, 6, 7, 8, 9, 11])

In [86]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!
