### 2.1 내장 시퀀스 개요
파이썬 표준 라이브러리는 C로 구현된 다음과 같은 시퀀스형을 제공한다.
1. 컨테이너 시퀀스
    - 서로 다른 자료형의 항목들을 담을 수 있는 list, tuple, collections.deque 형
2. 균일 시퀀스
    - 단 하나의 자료형만 담을 수 있는 str, bytes, bytearray, memoryview, array.array 형

컨테이너 시퀀스는 객체에 대한 참조를 담고 있으며 객체는 어떠한 자료형도 될 수 있지만,   
균일 시퀀스는 객체에 대한 참조 대신 자신의 메모리 공간에 각 항목의 값을 직접 담는다.   
균일 시퀀스가 메모리를 더 적게 사용하지만, 기본적인 자료형만 저장할 수 있다.  

시퀀스형은 가변성에 따라 분류할 수도 있다.
1. 가변 시퀀스
    - list, bytearray, array.array, collections.deque, memoryview 형
2. 불변 시퀀스
    - tuple, str, bytes 형

### 2.2 지능형 리스트(list comprehension)과 제너레이터 표현식
가독성 좋고 실행 속도도 빠르게 시퀀스를 간단하게 생성할 수 있는 Pythonic한 방법.

#### 2.2.1 지능형 리스트와 가독성

지능형 리스트가 의도를 더 명확히 보여준다. 지능형 리스트의 부작용을 이용해서 일련의 코드를 반복 수행하는 코드를 쓸 수도 있다.  
하지만 생성된 리스트를 사용하지 않을 거라면 지능형 리스트 구문을 사용하지 말아야 한다. 그리고 코드를 짧게 해야 한다.  
두 줄이 넘어가는 경우 코드를 분할하거나 for문을 쓰는 것이 낫다.  
**tip**: 파이썬에서는 [], {}, () 안에서의 개행이 무시된다. 따라서 줄을 넘기기 위해 역슬래시(\)를 사용하지 않고도 여러 줄에 걸쳐 작성할 수 있다.  

파이썬 2.x의 경우 지능형 리스트 안의 for문에서 할당한 변수는 주변 범위에서 다른 변수와 함께 설정되었다.  
```python
>>> x = 'my precious'
>>> dummy = [x for x in 'ABC']
>>> x
'C'
```
하지만 파이썬 3에서는 이 문제 발생 x. 함수처럼 고유한 지역 범위를 가진다.  
표현식 안에서 할당된 변수는 지역 변수지만, 주변 범위의 변수를 여전히 참조할 수 있다.  

#### 2.2.2 지능형 리스트와 map()/filter() 비교
map()과 filter() 함수를 이용해서 수행할 수 있는 작업은 기능적으로 문제가 있는 파이썬 람다를 억지로 끼워 넣지 않고도 지능형 리스트를 이용해서 모두 구현할 수 있다.  

In [4]:
symbols = '$￠￡￥€¤'

In [8]:
%timeit beyond_ascii = [ord(s) for s in symbols if ord(s) > 127]

1.13 µs ± 6.87 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [5]:
beyond_ascii

[65504, 65505, 65509, 8364, 164]

In [9]:
%timeit beyond_ascii = list(filter(lambda c: c > 127, map(ord, symbols)))

1.4 µs ± 12.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [7]:
beyond_ascii

[65504, 65505, 65509, 8364, 164]

훨씬 간단하고 빠르다..

#### 2.2.3 데카르트 곱

지능형 리스트는 두 개 이상의 반복 가능한 자료형의 데카르트 곱을 나타내는 일련의 리스트를 만들 수 있다.  
데카르트 곱 안의 각 항목은 입력으로 받은 반복 가능한 데이터의 각 요소에서 만들어진 튜플로 구성된다.  

In [10]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
tshirts = [(color, size) for color in colors for size in sizes]
tshirts

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

In [12]:
for color in colors:
    for size in sizes:
        print((color, size))

('black', 'S')
('black', 'M')
('black', 'L')
('white', 'S')
('white', 'M')
('white', 'L')


In [11]:
tshirts = [(color, size) for size in sizes for color in colors]
tshirts

[('black', 'S'),
 ('white', 'S'),
 ('black', 'M'),
 ('white', 'M'),
 ('black', 'L'),
 ('white', 'L')]

뒤쪽에 나오는 for문이 바깥쪽에 오는 for문이다.  
지능형 리스트는 단지 리스트를 만들 뿐.  다른 종류의 시퀀스를 채우려면 제너레이터 표현식을 사용해야 한다.  

#### 2.2.4 제너레이터 표현식
튜블, 배열 등의 시퀀스형을 초기화하려면 지능형 리스트를 사용할 수도 있지만, 다른 생성자에 전달할 리스트를 통째로 만들지 않고 반복자 프로토콜(iterator protocol)을 이용해서 항목을 하나씩 생성하는 제너레이터 표현식은 메모리를 더 적게 사용한다.  
동일한 구문이지만 대괄호 대신 괄호를 사용한다.

In [13]:
tuple(ord(symbol) for symbol in symbols)

(36, 65504, 65505, 65509, 8364, 164)

제너레이터 표현식이 함수에 보내는 단 하나의 인수라면 괄호 안에 또 괄호를 넣을 필요는 없다.

In [14]:
import array
array.array('I', (ord(symbol) for symbol in symbols))

array('I', [36, 65504, 65505, 65509, 8364, 164])

배열 생성자는 인수를 두 개 받으므로 제너레이터 표현식 앞뒤에 반드시 괄호를 넣어야 한다.  
배열 생성자의 첫 번째 인수는 배열에 들어 갈 숫자들을 저장할 자료형을 지정한다.

### 2.3 튜플은 단순한 불변 리스트가 아니다
튜플은 필드명이 없는 레코드로 사용할 수도 있다.  

#### 2.3.1 레코드로서의 튜플
튜플은 레코드를 담고 있다. 튜플의 각 항목은 레코드의 필드 하나를 의미하며 항목의 위치가 의미를 결정한다.  
튜플을 단지 불변 리스트로 생각한다면 경우에 따라 항목의 크기와 순서가 중요할 수도 있고 아닐 수도 있다.  
그러나 튜플을 필드의 집합으로 사용하는 경우에는 항목 수가 고정되어 있고 항목의 순서가 중요하다.  

**레코드로 사용된 튜플**

In [17]:
lax_coordinates = (33.9425, -118.408056)
city, year, pop, chg, area = ('Tokyo', 2003, 32450, 0.66, 8014)
traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), ('ESP', 'XDA205856')]

for passport in sorted(traveler_ids):
    print('%s/%s' % passport)
#     print('/'.join(passport))

BRA/CE342567
ESP/XDA205856
USA/31195855


In [18]:
for country, _ in traveler_ids:
    print(country)

USA
BRA
ESP


언패킹 메커니즘 덕분에 레코드로도 잘 작동.

#### 2.3.2 튜플 언패킹
튜플 언패킹은 **병렬 할당(parallel assignment)**을 할 때 가장 눈에 띈다.  
병렬 할당은 반복형 데이터를 변수로 구성된 튜플에 할당하는 것을 말한다.  
튜플 언패킹을 이용하면 임시 변수를 사용하지 않고도 두 변수의 값을 서로 교환할 수 있다.  
그리도 함수를 호출할 때 인수 앞에 `*`을 붙여 튜플을 언패킹할 수 있다.

In [19]:
print(divmod(20, 8))
t = (20, 8)
print(divmod(*t))
quotient, remainder = divmod(*t)
print(quotient, remainder)

(2, 4)
(2, 4)
2 4


In [21]:
import os
_, filename = os.path.split('/home/luciano/.ssh/idrsa.pub')
filename

'idrsa.pub'

파일시스템 경로에서 경로명과 파일명을 가져오기.  
`_`와 같은 더미 변수를 플레이스홀더로 사용해서 관심 없는 부분은 언패킹할 때 무시할 수 있다.

튜플을 언패킹할 때 일부 항목에만 관심이 있는 경우에는 `*`을 사용할 수 있다.

#### 초과 항목을 잡기 위해 `*`사용하기

In [22]:
a, b, *rest = range(5)
print(a, b, rest)
a, b, *rest = range(3)
print(a, b, rest)
a, b, *rest = range(2)
print(a, b, rest)

0 1 [2, 3, 4]
0 1 [2]
0 1 []


병렬 할당의 경우 `*`는 단 하나의 변수에만 적용할 수 있다. 하지만 어떠한 변수에도 적용할 수 있다. 

In [23]:
a, *body, c, d = range(5)
print(a, body, c, d)
*head, b, c, d = range(5)
print(head, b, c, d)

0 [1, 2] 3 4
[0, 1] 2 3 4


그리고 튜플 언패킹은 내포된 구조체에도 적용할 수 있다는 장점이 있다.

#### 2.3.3 내포된 튜플 언패킹

언패킹할 표현식을 받는 튜플은 (a, b, (c, d))처럼 다른 튜플을 내포할 수 있으며, 파이썬은 표현식이 내포된 구조체에 일치하면 제대로 처리한다.  

In [24]:
metro_areas = [
    ('Tokyo', 'JP', 36.933, (35.689722, 139.691667)),
    ('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)),
    ('Mexico City', 'MX', 20.142, (19.433333, -99.133333)),
    ('New York-Newark', 'US', 20.104, (40.808611, -74.020386)),
    ('Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833)),
]

print('{:15} | {:^9} | {:^9}'.format('', 'lat.', 'long.'))
fmt = '{:15} | {:9.4f} | {:9.4f}'
for name, cc, pop, (latitude, longitude) in metro_areas:
    if longitude <= 0:
        print(fmt.format(name, latitude, longitude))

                |   lat.    |   long.  
Mexico City     |   19.4333 |  -99.1333
New York-Newark |   40.8086 |  -74.0204
Sao Paulo       |  -23.5478 |  -46.6358


튜플은 아주 편리하지만 레코드로 사용하기에 부족한 점이 있다.  
때로는 필드에 이름을 붙일 필요가 있기 때문에 namedtuple()함수가 고안.  

#### 2.3.4 명명된 튜플(Named Tuple)
collections.namedtuple() 함수는 필드명과 클래스명을 추가한 튜플의 서브클래스를 생성하는 '팩토리 함수'로서 디버깅에 유용하다.  
필드명이 클래스에 저장되므로 namedtuple()로 생성한 객체는 튜플과 동일한 크기의 메모리만 사용한다.  
속성을 객체마다 존재하는 `__dict__`에 저장하지 않으므로 일반적인 객체보다 메모리를 적게 사용.  

In [25]:
from collections import namedtuple
City = namedtuple('City', 'name country population coordinates')
tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667))
print(tokyo)
print(tokyo.population)
print(tokyo.coordinates)
print(tokyo[1])

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 139.691667))
36.933
(35.689722, 139.691667)
JP


In [26]:
print(type(City))
print(type(tokyo))

<class 'type'>
<class '__main__.City'>


1. 명명된 튜플을 정의하려면 클래스명과 필드명의 리스트 등 총 2개의 매개변수가 필요.  
    - 필드명의 리스트는 반복형 문자열이나 공백으로 구분된 하나의 문자열을 이용해서 지정
2. 데이터는 위치를 맞추고 콤마로 구분해서 생성자에 전달해야 한다.
3. 필드명이나 위치를 이용해서 필드에 접근할 수 있다.

명명된 튜플은 튜플에서 상속받은 속성 외에 몇 가지 속성을 더 갖고 있다.  

In [27]:
print(City._fields)
LatLong = namedtuple('LatLong', 'lat long')
delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.208889))
delhi = City._make(delhi_data)
print(delhi._asdict())
for key, value in delhi._asdict().items():
    print(key + ':', value)

('name', 'country', 'population', 'coordinates')
OrderedDict([('name', 'Delhi NCR'), ('country', 'IN'), ('population', 21.935), ('coordinates', LatLong(lat=28.613889, long=77.208889))])
name: Delhi NCR
country: IN
population: 21.935
coordinates: LatLong(lat=28.613889, long=77.208889)


1. `_fields`는 클래스의 필드명을 담고 있는 튜플이다.
2. `_make()`는 반복형 객체로부터 명명된 튜플을 만든다. `City(*delhi_data)`를 호출하는 코드와 동일한 역할 수행
3. `_asdict()`는 명명된 튜플 객체에서 만들어진 collections.OrderedDict 객체를 반환한다. 

#### 2.3.5 불변 리스트로서의 튜플
튜플은 항목을 추가하거나 삭제하는 기능 및 `__reversed__()`메서드를 제외하고 리스트가 제공하는 메서드를 모두 지원한다.  
`__reversed__()`는 최적화 때문에 생략했을 뿐이며, reversed(my_tuple)메서드는 `__reversed__()`를 이용하지 않는다.

### 2.4 슬라이싱
고급 슬라이싱 형태의 사용법 설명.

#### 2.4.1 슬라이스와 범위 지정시에 마지막 항목이 포함되지 않는 이유
슬라이스와 범위 지정시에 마지막 항목을 포함하지 않는 관례는 인덱스 번호가 0번부터 시작하는 파이썬, C등의 언어에서 잘 작동.
- 세 개의 항목을 생성하는 range(3)이나 my_list[:3]처럼 중단점만 이용해서 슬라이스나 범위를 지정할 때 길이 계산이 쉽다.
- 시작점과 중단점을 모두 지정할 때도 길이를 계산하기 쉽다. 단지 중단점에서 시작점을 빼면 된다.
- x 인덱스를 기준으로 겹침 없이 시퀀스를 분할하기 쉽다.

In [28]:
l = [10, 20, 30, 40, 50, 60]
print(l[:2])
print(l[2:])
print(l[:3])
print(l[3:])

[10, 20]
[30, 40, 50, 60]
[10, 20, 30]
[40, 50, 60]


#### 2.4.2 슬라이스 객체

In [29]:
s = 'bicycle'
print(s[::3])
print(s[::-1])
print(s[::-2])

bye
elcycib
eccb


`a:b:c`표기법은 인덱스 연산을 수행하는 []안에서만 사용할 수 있으며, slice(a, b, c)객체를 생성한다.  
seq[start:stop:step]표현식을 평가하기 위해 파이썬은 `seq.__getitem__(slice(start, stop, step))`을 호출한다.  

In [35]:
invoice = """
0.....6................................40........52...55........
1909  Pimoroni PiBrella                    $17.50    3    $52.50
1489  6mm Tactile Switch x20                $4.95    2     $9.90
1510  Panavise Jr. - PV-201                $28.00    1    $28.00
1601  PiTFT Mini Kit 320x240               $34.95    1    $34.95
"""
SKU = slice(0, 6)
DESCRIPTION = slice(6, 40)
UNIT_PRICE = slice(40, 52)
QUANTITY = slice(52, 55)
ITEM_TOTAL = slice(55, None)
line_items = invoice.split('\n')[2:]
for item in line_items:
    print(item[UNIT_PRICE], item[DESCRIPTION])

   $17.50    Pimoroni PiBrella                 
    $4.95    6mm Tactile Switch x20            
   $28.00    Panavise Jr. - PV-201             
   $34.95    PiTFT Mini Kit 320x240            
 


#### 2.4.3 다차원 슬라이싱과 생략 기호
[]연산자는 콤마로 구분해서 여러 개의 인덱스나 슬라이스를 가질 수 있다.  
NumPy와 외부 패키지에서 a[i, j] 구문으로 2차원 numpy.ndarray 배열의 항목이나 a[m:n, k:l]구문으로 2차원 슬라이스를 가져올 때 사용.  
[] 연산자를 처리하는 `__getitem__()`과 `__setitem__()`특수 메서드는 a[i, j]에 들어 있는 인덱스들을 튜플로 받는다.  
즉 a[i, j]를 평가하기 위해 파이썬은 `a.__getitem__((i, j))`를 호출한다.  
파이썬 내장 시퀀스형은 1차원이므로 단 하나의 인덱스나 슬라이스만 지원하고 튜플은 지원하지 않는다.  

세 개의 마침표(...)로 표현된 생략기호는 파이썬 파서에 의해 하나의 토큰으로 인식된다.  
이 기호는 Ellipsis객체의 별명으로서 하나의 ellipsis클래스의 객체다.  
생략 기호 객체는 f(a, ..., z)처럼 하나의 인수나, a[i:...]처럼 슬라이스의 한 부분으로 전달할 수 있다.  
NumPy는 다차원 배열을 슬라이싱할 때 생략기호(...)를 사용한다.  
x가 4차원 배열이라면 x[i, ...]는 x[i, :, :, :]와 동일하다.  
파이썬 표준 라이브러리에서 Ellipsis나 다차원 인덱스 및 슬라이스를 사용하는 사례는 없지만, 이 구문법은 사용자 정의 자료형이나 NumPy등의 확장 패키지를 지원하기 위해 존재하는 것으로 보인다.  

#### 2.4.4 슬라이스에 할당하기
할당문의 왼쪽에 슬라이스 표기법을 사용하거나 del문의 대상 객체로 지정함으로써 가변 시퀀스를 연결하거나, 잘라내거나, 값을 변경할 수 있다.  

In [47]:
l = list(range(10))
print(l)
l[2:5] = [20, 30]
print(l)
del l[5:7]
print(l)
l[3::2] = [11, 22]
print(l)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 8, 9]
[0, 1, 20, 11, 5, 22, 9]


In [48]:
l[2:5] = 100

TypeError: can only assign an iterable

In [49]:
l[2:5] = [100]
print(l)

[0, 1, 100, 22, 9]


### 2.5 시퀀스에 덧셈과 곱셈 연산자 사용하기

일반적으로 덧셈의 경우 피연산자 두 개가 같은 자료형이어야 하며, 둘 다 변경되지 않지만 동일한 자료형의 시퀀스가 새로 만들어진다.  
하나의 시퀀스를 여러 번 연결하려면 정수를 곱해서 표현한다. 이때에도 새로운 시퀀스가 만들어진다.  

In [58]:
l = [1, 2, 3]
print(l * 5)
print(5 * 'abcd')

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]
abcdabcdabcdabcdabcd


언제나 새로운 객체를 만들고, 피연산자를 변경하지 않는다.

#### 2.5.1 리스트의 리스트 만들기

In [59]:
board = [['_'] * 3 for i in range(3)]
print(board)
board[1][2] = 'X'
print(board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]


내포된 리스트를 가진 리스트를 초기화할 때는 지능형 리스트를 사용하는 것이 가장 좋다.

In [60]:
weird_board = [['_'] * 3] * 3
print(weird_board)
weird_board[1][2] = '0'
print(weird_board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '0'], ['_', '_', '0'], ['_', '_', '0']]


최상위 리스트가 동일한 내부 리스트에 대한 참조 세 개를 가진다.  
위 코드는 다음과 같이 동일한 행을 세 번 추가하는 것과 같다.

In [61]:
row = ['_'] * 3
board = []
for i in range(3):
    board.append(row)

평범한 덧셈 및 곱셈 연산 외에 타깃 시퀀스의 가변성에 따라 상당히 다른 결과를 가져오는 `+=`, `*=` 등의 복합 할당 연산자도 있다.  

### 2.6 시퀀스의 복합 할당
복합 할당 연산자는 첫 번째 피연산자에 따라 상당히 다르게 동작한다.  
`+=` 연산자가 작동하도록 만드는 특수 메서드는 `__iadd__()`다.(inplace add)  
그런데 `__add__()`메서드가 구현되어 있지 않으면, 파이썬은 대신 `__add__()`메서드를 호출한다.  
```python
a += b
```
a가 `__iadd__()`메서드를 구현하면 구현된 메서드가 호출된다.  
a가 list, bytearray, array.array등 가변 시퀀스인 경우 a의 값이 변경된다.  
그런데 a가 `__iadd__()` 메서드를 구현하지 않는 경우 `a += b` 표현식은 `a = a + b`가 되어 먼저 a + b를 평가하고 객체를 새로 생성한 후 a에 할당.   
즉 `__iadd__()`메서드를 구현 여부에 따라 a 변수가 가리키는 객체가 바뀔 수도, 바뀌지 않을 수도 있다.  
일반적으로 가변 시퀀스에는 `__iadd__()` 메서드를 구현해서 `+=` 연산자가 기존 객체의 내용을 변경하게 만드는 것이 좋다.  
불변 시퀀스의 경우 이 연산을 수행할 수 없다.  
`*=` 연산자는 `__imul__()`메서드를 통해 구현.  

In [64]:
l = [1, 2, 3]
print(id(l))
l *= 2
print(l)
print(id(l))

108849712
[1, 2, 3, 1, 2, 3]
108849712


곱셈 연산을 수행한 후 새로운 항목이 추가된 리스트 객체는 기존 객체와 같다.

In [65]:
t = (1, 2, 3)
print(id(t))
t *= 2
print(t)
print(id(t))

128048464
(1, 2, 3, 1, 2, 3)
125086272


새로운 튜플 객체가 만들어져 할당된다.  
따라서 불변 시퀀스에 반복적으로 연결 연산을 수행하는 것은 비효율적이다.

str 객체의 경우 루프 안에서 `+=`을 통해 문자열을 만드는 작업을 빈번히 수행하므로 CPython은 이런 용법에 최적화되어 있다.  
str객체는 메모리 안에 여분의 공간을 갖고 할당되므로 str 객체를 연결할 때 매번 전체 문자열을 다시 생성하지 않는다.  

#### 2.6.1 += 복합 할당 퀴즈
```python
>>> t = (1, 2, [30, 40])
>>> t[2] += [50, 60]
```
이 코드를 실행하면 결과가 어떻게 될까?  
a. t는 (1, 2, [30, 40, 50, 60])이 된다.  
b. '튜플 객체는 항목 할당을 지원하지 않는다'는 메시지와 함께 TypeError가 발생한다.  
c. a와 b 둘 다 틀리다.   
d. a와 b 둘 다 맞다.  

In [66]:
t = (1, 2, [30, 40])
t[2] += [50, 60]

TypeError: 'tuple' object does not support item assignment

In [67]:
t

(1, 2, [30, 40, 50, 60])

정답은 d다...  
파이썬이 생성한 바이트 코드를 보자.

In [None]:
import dis
dis.dis('s[a] += b')

```
1             0 LOAD_NAME                0 (s)
              2 LOAD_NAME                1 (a)
              4 DUP_TOP_TWO
              6 BINARY_SUBSCR                         # 1.
              8 LOAD_NAME                2 (b)
             10 INPLACE_ADD                           # 2.
             12 ROT_THREE
             14 STORE_SUBSCR                          # 3.
             16 LOAD_CONST               0 (None)
             18 RETURN_VALUE
```

https://docs.python.org/3/library/dis.html  
https://tech.ssut.me/peephole-how-python-optimizes-bytecode/  

1. s[a] 값을 스택의 꼭대기(TOS)에 놓는다.
2. TOS += b 연산을 수행한다. TOS가 가변 객체를 가리키면 이 연산은 성공한다.
3. TOS를 s[a]에 할당한다. s가 불변 객체면 이 연산은 실패한다.

거의 발생하지 않는 상황이지만 세 가지 교훈을 얻을 수 있다.
1. 가변 항목을 튜플에 넣는 것은 좋은 생각이 아니다.
2. 복합 할당은 원자적인 연산이 아니다.(일부 연산이 수행된 후 예외가 발생했다.)
3. 파이썬 바이트코드를 살펴보는 것은 그리 어렵지 않으며, 내부에서 어떤 일이 발생하고 있는지 살펴보는 데 도움이 된다.

### 2.7 list.sort()와 sorted() 내장 함수

list.sort() 메서드는 사본을 만들지 않고 리스트 내부를 변경해서 정렬한다.  
sort() 메서드는 타깃 객체를 변경하고 새로운 리스트를 생성하지 않았음을 알려주기 위해 None을 반환한다.  
이것이 파이썬 API의 중요 관례.  
객체를 직접 변경하는 함수나 메서드는 객체가 변경되었고 새로운 객체가 생성되지 않았음을 호출자에게 알려주기 위해 None을 반환해야 한다.  
random.shuffle() 함수 등도 동일하게 작동한다.  
하지만 이 관례는 메서드들을 연결해서 호출할 수 없다는 단점이 있다.  
이와 반대로 str 객체의 메서드들처럼 새로운 객체를 반환하는 메서드는 플루언트 인터페이스 스타일로 메서드를 연결할 수 있다.  
메서드 체이닝은 플루언트 인터페이스 형태를 구현하는 하나의 기법이다.  
Fluent Interface: https://en.wikipedia.org/wiki/Fluent_interface 참고

이와 반대로 sorted() 내장 함수는 새로운 리스트를 생성해서 반환한다.  
sorted()함수는 불변 시퀀스 및 제너레이터를 포함해서 **반복 가능한 모든 객체를 인수로 받을 수 있다.**  
입력받은 객체의 자료형과 무관하게 sorted() 함수는 언제나 새로 생성한 리스트를 반환한다.  
list.sort() 메서드와 sorted() 함수 모두 선택적으로 두 개의 키워드를 인수로 받는다.  
```
reverse: 이 키워드가 참이면 비교 연산을 반대로 해서 '내림차순'으로 반환한다. 기본값은 False이다.(오름차순)
key: 정렬에 사용할 키를 생성하기 위해 각 항목에 적용할 함수를 인자로 받는다. 
    예를 들어 문자열의 리스트를 정렬할 때 key=str.lower로 지정하면 대소문자를 구분하지 않고 정렬하며, 
    key=len으로 지정하면 문자열의 길이에 따라 문자열을 정렬한다. 키를 지정하지 않으면 항목 자체를 비교한다.
```

`key 매개변수는 min(), max() 내장 함수 및 itertools.groupby(), heapq.nlargest()등의 표준 라이브러리 함수와 함께 사용할 수 있다.`

In [70]:
fruits = ['grape', 'raspberry', 'apple', 'banana']
print(sorted(fruits))
print(fruits)
print(sorted(fruits, reverse=True))
print(sorted(fruits, key=len))
print(sorted(fruits, key=len, reverse=True))
print(fruits)
fruits.sort()
print(fruits)


['apple', 'banana', 'grape', 'raspberry']
['grape', 'raspberry', 'apple', 'banana']
['raspberry', 'grape', 'banana', 'apple']
['grape', 'apple', 'banana', 'raspberry']
['raspberry', 'banana', 'grape', 'apple']
['grape', 'raspberry', 'apple', 'banana']
['apple', 'banana', 'grape', 'raspberry']


일단 시퀀스를 정렬한 후에는 아주 효율적으로 검색할 수 있따.  
표준 라이브러리의 bisect 모듈에서 표준 이진 검색 알고리즘을 제공하고 있다.

### 2.8 정렬된 시퀀스를 bisect로 관리하기
bisect 모듈은 bisect()와 insort() 함수를 제공한다.  
bisect()는 이진 검색 알고리즘을 이용해서 시퀀스를 검색하고, insort()는 정렬된 시퀀스 안에 항목을 삽입한다.  

#### 2.8.1 bisect()로 검색하기
bisect(haystack, needle)은 정렬된 시퀀스인 haystack 안에서 오름차순 정렬 상태를 유지한 채로 needle을 추가할 수 있는 위치를 찾아낸다.  
즉 해당 위치 앞에는 needle보다 같거나 작은 항목이 온다.  
bisect(haystack, needle)의 결과값을 인덱스(index)로 사용해서 haystack.insert(index, needle)을 호출하면 needle을 추가할 수 있지만,  
insort()함수는 이 두 과정을 더 빨리 처리한다.  
  
  
SortedCollection: 위 함수들을 따로 사용하는 것보다 훨씬 쉽게 정렬할 수 있다.  
http://code.activestate.com/recipes/577197-sortedcollection/ 참고

In [71]:
from bisect import bisect_left, bisect_right

class SortedCollection(object):
    '''Sequence sorted by a key function.

    SortedCollection() is much easier to work with than using bisect() directly.
    It supports key functions like those use in sorted(), min(), and max().
    The result of the key function call is saved so that keys can be searched
    efficiently.

    Instead of returning an insertion-point which can be hard to interpret, the
    five find-methods return a specific item in the sequence. They can scan for
    exact matches, the last item less-than-or-equal to a key, or the first item
    greater-than-or-equal to a key.

    Once found, an item's ordinal position can be located with the index() method.
    New items can be added with the insert() and insert_right() methods.
    Old items can be deleted with the remove() method.

    The usual sequence methods are provided to support indexing, slicing,
    length lookup, clearing, copying, forward and reverse iteration, contains
    checking, item counts, item removal, and a nice looking repr.

    Finding and indexing are O(log n) operations while iteration and insertion
    are O(n).  The initial sort is O(n log n).

    The key function is stored in the 'key' attibute for easy introspection or
    so that you can assign a new key function (triggering an automatic re-sort).

    In short, the class was designed to handle all of the common use cases for
    bisect but with a simpler API and support for key functions.

    >>> from pprint import pprint
    >>> from operator import itemgetter

    >>> s = SortedCollection(key=itemgetter(2))
    >>> for record in [
    ...         ('roger', 'young', 30),
    ...         ('angela', 'jones', 28),
    ...         ('bill', 'smith', 22),
    ...         ('david', 'thomas', 32)]:
    ...     s.insert(record)

    >>> pprint(list(s))         # show records sorted by age
    [('bill', 'smith', 22),
     ('angela', 'jones', 28),
     ('roger', 'young', 30),
     ('david', 'thomas', 32)]

    >>> s.find_le(29)           # find oldest person aged 29 or younger
    ('angela', 'jones', 28)
    >>> s.find_lt(28)           # find oldest person under 28
    ('bill', 'smith', 22)
    >>> s.find_gt(28)           # find youngest person over 28
    ('roger', 'young', 30)

    >>> r = s.find_ge(32)       # find youngest person aged 32 or older
    >>> s.index(r)              # get the index of their record
    3
    >>> s[3]                    # fetch the record at that index
    ('david', 'thomas', 32)

    >>> s.key = itemgetter(0)   # now sort by first name
    >>> pprint(list(s))
    [('angela', 'jones', 28),
     ('bill', 'smith', 22),
     ('david', 'thomas', 32),
     ('roger', 'young', 30)]

    '''

    def __init__(self, iterable=(), key=None):
        self._given_key = key
        key = (lambda x: x) if key is None else key
        decorated = sorted((key(item), item) for item in iterable)
        self._keys = [k for k, item in decorated]
        self._items = [item for k, item in decorated]
        self._key = key

    def _getkey(self):
        return self._key

    def _setkey(self, key):
        if key is not self._key:
            self.__init__(self._items, key=key)

    def _delkey(self):
        self._setkey(None)

    key = property(_getkey, _setkey, _delkey, 'key function')

    def clear(self):
        self.__init__([], self._key)

    def copy(self):
        return self.__class__(self, self._key)

    def __len__(self):
        return len(self._items)

    def __getitem__(self, i):
        return self._items[i]

    def __iter__(self):
        return iter(self._items)

    def __reversed__(self):
        return reversed(self._items)

    def __repr__(self):
        return '%s(%r, key=%s)' % (
            self.__class__.__name__,
            self._items,
            getattr(self._given_key, '__name__', repr(self._given_key))
        )

    def __reduce__(self):
        return self.__class__, (self._items, self._given_key)

    def __contains__(self, item):
        k = self._key(item)
        i = bisect_left(self._keys, k)
        j = bisect_right(self._keys, k)
        return item in self._items[i:j]

    def index(self, item):
        'Find the position of an item.  Raise ValueError if not found.'
        k = self._key(item)
        i = bisect_left(self._keys, k)
        j = bisect_right(self._keys, k)
        return self._items[i:j].index(item) + i

    def count(self, item):
        'Return number of occurrences of item'
        k = self._key(item)
        i = bisect_left(self._keys, k)
        j = bisect_right(self._keys, k)
        return self._items[i:j].count(item)

    def insert(self, item):
        'Insert a new item.  If equal keys are found, add to the left'
        k = self._key(item)
        i = bisect_left(self._keys, k)
        self._keys.insert(i, k)
        self._items.insert(i, item)

    def insert_right(self, item):
        'Insert a new item.  If equal keys are found, add to the right'
        k = self._key(item)
        i = bisect_right(self._keys, k)
        self._keys.insert(i, k)
        self._items.insert(i, item)

    def remove(self, item):
        'Remove first occurence of item.  Raise ValueError if not found'
        i = self.index(item)
        del self._keys[i]
        del self._items[i]

    def find(self, k):
        'Return first item with a key == k.  Raise ValueError if not found.'
        i = bisect_left(self._keys, k)
        if i != len(self) and self._keys[i] == k:
            return self._items[i]
        raise ValueError('No item found with key equal to: %r' % (k,))

    def find_le(self, k):
        'Return last item with a key <= k.  Raise ValueError if not found.'
        i = bisect_right(self._keys, k)
        if i:
            return self._items[i-1]
        raise ValueError('No item found with key at or below: %r' % (k,))

    def find_lt(self, k):
        'Return last item with a key < k.  Raise ValueError if not found.'
        i = bisect_left(self._keys, k)
        if i:
            return self._items[i-1]
        raise ValueError('No item found with key below: %r' % (k,))

    def find_ge(self, k):
        'Return first item with a key >= equal to k.  Raise ValueError if not found'
        i = bisect_left(self._keys, k)
        if i != len(self):
            return self._items[i]
        raise ValueError('No item found with key at or above: %r' % (k,))

    def find_gt(self, k):
        'Return first item with a key > k.  Raise ValueError if not found'
        i = bisect_right(self._keys, k)
        if i != len(self):
            return self._items[i]
        raise ValueError('No item found with key above: %r' % (k,))


# ---------------------------  Simple demo and tests  -------------------------
if __name__ == '__main__':

    def ve2no(f, *args):
        'Convert ValueError result to -1'
        try:
            return f(*args)
        except ValueError:
            return -1

    def slow_index(seq, k):
        'Location of match or -1 if not found'
        for i, item in enumerate(seq):
            if item == k:
                return i
        return -1

    def slow_find(seq, k):
        'First item with a key equal to k. -1 if not found'
        for item in seq:
            if item == k:
                return item
        return -1

    def slow_find_le(seq, k):
        'Last item with a key less-than or equal to k.'
        for item in reversed(seq):
            if item <= k:
                return item
        return -1

    def slow_find_lt(seq, k):
        'Last item with a key less-than k.'
        for item in reversed(seq):
            if item < k:
                return item
        return -1

    def slow_find_ge(seq, k):
        'First item with a key-value greater-than or equal to k.'
        for item in seq:
            if item >= k:
                return item
        return -1

    def slow_find_gt(seq, k):
        'First item with a key-value greater-than or equal to k.'
        for item in seq:
            if item > k:
                return item
        return -1

    from random import choice
    pool = [1.5, 2, 2.0, 3, 3.0, 3.5, 4, 4.0, 4.5]
    for i in range(500):
        for n in range(6):
            s = [choice(pool) for i in range(n)]
            sc = SortedCollection(s)
            s.sort()
            for probe in pool:
                assert repr(ve2no(sc.index, probe)) == repr(slow_index(s, probe))
                assert repr(ve2no(sc.find, probe)) == repr(slow_find(s, probe))
                assert repr(ve2no(sc.find_le, probe)) == repr(slow_find_le(s, probe))
                assert repr(ve2no(sc.find_lt, probe)) == repr(slow_find_lt(s, probe))
                assert repr(ve2no(sc.find_ge, probe)) == repr(slow_find_ge(s, probe))
                assert repr(ve2no(sc.find_gt, probe)) == repr(slow_find_gt(s, probe))
            for i, item in enumerate(s):
                assert repr(item) == repr(sc[i])        # test __getitem__
                assert item in sc                       # test __contains__ and __iter__
                assert s.count(item) == sc.count(item)  # test count()
            assert len(sc) == n                         # test __len__
            assert list(map(repr, reversed(sc))) == list(map(repr, reversed(s)))    # test __reversed__
            assert list(sc.copy()) == list(sc)          # test copy()
            sc.clear()                                  # test clear()
            assert len(sc) == 0

    sd = SortedCollection('The quick Brown Fox jumped'.split(), key=str.lower)
    assert sd._keys == ['brown', 'fox', 'jumped', 'quick', 'the']
    assert sd._items == ['Brown', 'Fox', 'jumped', 'quick', 'The']
    assert sd._key == str.lower
    assert repr(sd) == "SortedCollection(['Brown', 'Fox', 'jumped', 'quick', 'The'], key=lower)"
    sd.key = str.upper
    assert sd._key == str.upper
    assert len(sd) == 5
    assert list(reversed(sd)) == ['The', 'quick', 'jumped', 'Fox', 'Brown']
    for item in sd:
        assert item in sd
    for i, item in enumerate(sd):
        assert item == sd[i]
    sd.insert('jUmPeD')
    sd.insert_right('QuIcK')
    assert sd._keys ==['BROWN', 'FOX', 'JUMPED', 'JUMPED', 'QUICK', 'QUICK', 'THE']
    assert sd._items == ['Brown', 'Fox', 'jUmPeD', 'jumped', 'quick', 'QuIcK', 'The']
    assert sd.find_le('JUMPED') == 'jumped', sd.find_le('JUMPED')
    assert sd.find_ge('JUMPED') == 'jUmPeD'
    assert sd.find_le('GOAT') == 'Fox'
    assert sd.find_ge('GOAT') == 'jUmPeD'
    assert sd.find('FOX') == 'Fox'
    assert sd[3] == 'jumped'
    assert sd[3:5] ==['jumped', 'quick']
    assert sd[-2] == 'QuIcK'
    assert sd[-4:-2] == ['jumped', 'quick']
    for i, item in enumerate(sd):
        assert sd.index(item) == i
    try:
        sd.index('xyzpdq')
    except ValueError:
        pass
    else:
        assert 0, 'Oops, failed to notify of missing value'
    sd.remove('jumped')
    assert list(sd) == ['Brown', 'Fox', 'jUmPeD', 'quick', 'QuIcK', 'The']

    import doctest
    from operator import itemgetter
    print(doctest.testmod())

TestResults(failed=0, attempted=13)


<hr>

In [72]:
import bisect
import sys

HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30]
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 29, 30, 31]

ROW_FMT = '{0:2d} @ {1:2d}    {2}{0:<2d}'

def demo(bisect_fn):
    for needle in reversed(NEEDLES):
        position = bisect_fn(HAYSTACK, needle)
        offset = position * '  |'
        print(ROW_FMT.format(needle, position, offset))
        
if __name__ == '__main__':
    if sys.argv[-1] == 'left':
        bisect_fn = bisect.bisect_left
    else:
        bisect_fn = bisect.bisect
    
    print('DEMO:', bisect_fn.__name__)
    print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
    demo(bisect_fn)

DEMO: bisect_right
haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |29
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  5      |  |  |  |  |8 
 5 @  3      |  |  |5 
 2 @  1      |2 
 1 @  1      |1 
 0 @  0    0 


In [73]:
if __name__ == '__main__':
    bisect_fn = bisect.bisect_left
    
    print('DEMO:', bisect_fn.__name__)
    print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
    demo(bisect_fn)

DEMO: bisect_left
haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 12      |  |  |  |  |  |  |  |  |  |  |  |29
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  4      |  |  |  |8 
 5 @  2      |  |5 
 2 @  1      |2 
 1 @  0    1 
 0 @  0    0 


bisect의 행동은 두 가지 방식으로 조절할 수 있다.  
1. 선택 인수인 lo와 hi를 사용하면 삽입할 때 검색할 시퀀스 영역을 좁힐 수 있다. lo의 기본값은 0, hi의 기본값은 시퀀스의 len()이다.  
2. bisect는 실제로는 bisect_right() 의 alias다. 자매 함수로 bisect_left()가 있고, 두 함수는 리스트 안의 항목이 needle과 같을 때만 차이가 난다.
    - bisect_right()는 기존 항목 바로 뒤를 삽입 위치로 반환
    - bisect_right()는 기존 항목 위치를 삽입 위치로 반환.

bisect를 사용하면 수치형 값으로 테이블을 참조할 수 있으므로 아래와 같이 시험 점수를 등급 문자로 변환할 수 있다.

In [74]:
def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'):
    i = bisect.bisect(breakpoints, score)
    return grades[i]

[grade(score) for score in [33, 99, 77, 70, 89, 90, 100]]

['F', 'A', 'C', 'C', 'B', 'A', 'A']

#### 2.8.2 bisect.insort()로 삽입하기
정렬은 값비싼 연산이므로 시퀀스를 일단 정렬한 후에는 정렬 상태를 유지하는 것이 좋다.  
insort(seq, item)은 seq를 오름차순으로 유지한 채로 item을 seq에 삽입한다.  

In [75]:
import bisect
import random

SIZE = 7

random.seed(1729)

my_list = []
for i in range(SIZE):
    new_item = random.randrange(SIZE*2)
    bisect.insort(my_list, new_item)
    print('%2d ->' % new_item, my_list)

10 -> [10]
 0 -> [0, 10]
 6 -> [0, 6, 10]
 8 -> [0, 6, 8, 10]
 7 -> [0, 6, 7, 8, 10]
 2 -> [0, 2, 6, 7, 8, 10]
10 -> [0, 2, 6, 7, 8, 10, 10]


insort 함수도 선택적으로 lo와 hi 인수를 받아 시퀀스 안에서 검색할 범위를 제한한다.  
또 삽입 위치를 검색하기 위해 bisect_left()를 사용하는 insort_left() 함수도 있다.

### 2.9 리스트가 답이 아닐 때

리스트는 융통성 있고 사용하기 편하지만, 세부 요구사항에 따라 더 나은 자료형도 있다.  
예를 들어 실수를 천만 개 저장해야 할 때는 배열이 훨씬 효율적이다.  
배열은 모든 기능을 갖춘 float 객체 대신 C 언어의 배열과 마찬가지로 기계가 사용하는 형태로 표현된 바이트 값만 저장하기 때문.  
한편 리스트의 양쪽 끝에 항목을 계속 추가하거나 삭제하면서 FIFO나 LIFO 데이터 구조를 구현할 때는 덱(deque)이 더 빠르다.  
```
'item in my_collection'처럼 어떤 항목이 들어 있는지 검사하는 작업을 많이 수행하며,  
특히 항목 수가 아주 많은 경우에는 my_collection을 set형으로 구현하는 것을 고려해야 한다. 
set은 항목이 들어 있는지 검사하는 과정이 최적화되어 있다.  
그러나 집합은 순서가 없으며 시퀀스가 아니다.
```

#### 2.9.1 배열

리스트 안에 숫자만 들어 있다면 배열(array.array)이 리스트보다 훨씬 효율적.  
배열은 pop(), insert(), extend() 등을 포함해서 가변 시퀀스가 제공하는 모든 연산을 지원하고,  
빠르게 파일에 저장하고 읽어올 수 있는 frombytes()와 tofile() 메서드도 추가로 제공한다.  

파이썬 배열은 C배열만큼 가볍다. 배열을 생성할 때는 배열에 저장되는 각 항목의 C기반 형을 결정하는 문자인 타입코드를 저장한다.  
예를 들어 signed char에 대한 타입코드는 b.  
array('b')배열을 생성하면 각 항목은 하나의 바이트로 저장되고, -128에서 127까지의 정수로 해석된다.  
숫자가 아주 많이 들어 있는 시퀀스의 경우 배열에 저장하면 메모리가 많이 절약된다.  
그리고 파이썬은 배열형에 맞지 않는 숫자를 저장할 수 없게 한다.

In [79]:
from array import array                                 # 1
from random import random                               

floats = array('d', (random() for i in range(10**7)))   # 2
print(floats[-1])                                       # 3
fp = open('floats.bin', 'wb')
floats.tofile(fp)                                       # 4
fp.close()
floats2 = array('d')                                    # 5
fp = open('floats.bin', 'rb')
floats2.fromfile(fp, 10**7)                             # 6
fp.close()
print(floats2[-1])                                      # 7 
print(floats2 == floats)                                # 8

0.5963321947530882
0.5963321947530882
True


1. array형 import
2. 반복 가능한 객체에서 배밀도 실수(타입코드 'd')의 배열을 생성. 제너레이터 표현식을 사용했다.
3. 배열의 마지막 숫자를 조사.
4. 배열을 이진 파일에 저장.
5. 비어 있는 배밀도 실수 배열을 생성
6. 이진 파일에서 천만 개의 숫자를 읽어온다.
7. 배열의 마지막 숫자를 조사한다.
8. 배열의 내용이 일치하는지 확인한다.  

array.fromfile()로 로드하는 속도는 float() 내장 함수를 이용해서 파싱하면서 텍스트 파일에서 실수를 읽어오는 것보다 거의 60배 빠르다.  
array.tofile() 메서드로 저장하는 것은 각 행마다 실수 하나씩 텍스트 파일에 저장한느 것보다 약 7배 빠르다.  
또한 배밀도 실수 천만 개를 저장한 이진 파일의 크기는 80,000,000바이트(하나에 8바이트, 오버헤드 전혀 없다.)  
동일한 데이터를 저장한 텍스트 파일의 크기는 181,515,739바이트.  

```
객체를 직렬화하는 pickle 모듈도 숫자 데이터를 빠르고 융통성 있게 저장할 수 있다.  
pickle.dump() 메서드는 실수 배열을 array.tofile() 메서드만큼 빠르게 저장할 뿐만 아니라 복소수, 내포된 컬렉션, 사용자 정의 객체 등
거의 모든 내장 자료형을 처리할 수 있다.
```
https://docs.python.org/3/library/pickle.html 참고

래스터 이미지(raster images)처럼 이진 데이터를 표현하는 숫자 배열을 위해 파이썬에서는 bytes와 bytearray형을 제공. 4장에서 설명  
https://ko.wikipedia.org/wiki/%EB%9E%98%EC%8A%A4%ED%84%B0_%EA%B7%B8%EB%9E%98%ED%94%BD%EC%8A%A4

파이썬 3.5까지 array형은 배열을 직접 변경하는 메서드가 없다.  
배열을 정렬하려면 sorted()함수를 호출하고 배열을 다시 만들어야 한다.  

#### 2.9.2 메모리 뷰(memoryview)
메모리 뷰 내장 클래스는 공유 메모리 시퀀스형으로서 bytes를 복사하지 않고 배열의 슬라이스를 다룰 수 있게 해준다.  
> 메모리 뷰는 본질적으로 파이썬 자체에 들어 있는 NumPy 배열 구조체를 일반화한 것이다.
메모리 뷰는 PIL 이미지, SQLlite, 데이터베이스, NumPy 배열 등 데이터 구조체를 복사하지 않고 메모리를 공유할 수 있게 해준다.  
데이터셋이 커지는 경우 이것은 아주 중요한 기법이다.

array 모듈과 비슷한 표기법을 사용하는 `memoryview.cast()` 메서드는 바이트를 이동시키지 않고 C언어의 형변환 연산자처럼 여러 바이트로 된 데이터를 읽거나 쓰는 방식을 바꿀 수 있게 해준다. `memoryview.cast()`는 또 다른 memoryview 객체를 반환하며 언제나 동일한 메모리를 공유한다.  

In [9]:
# 16비트 정수 배열에서 바이트 중 하나를 변경하기
import array
numbers = array.array('h', [-2, -1, 0, 1, 2])
memv = memoryview(numbers)           # 1.
len(memv)

5

In [10]:
memv[0]   # 2.

-2

In [11]:
memv_oct = memv.cast('B')   # 3.
memv_oct.tolist()           # 4.

[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]

In [12]:
memv_oct[5] = 4  # 6.
numbers          # 7.

array('h', [-2, -1, 1024, 1, 2])

1. 짧은 정수(타입코드 'h')다섯 개가 있는 배열에서 memoryview 객체를 만든다.
2. memv도 배열 안에 잇는 5개의 항목을 동일하게 본다.
3. memv 요소를 unsigned char(타입코드 'B')로 형변환한 memv_oct를 생성한다.
4. 값을 조사하기 위해 memv_oct 안의 요소를 리스트로 만든다.
5. 5번 인덱스 항목에 4를 할당한다.
6. 2바이트 unsigned int의 최상위 바이트에서 4는 1024에 해당한다.

#### 2.9.3 NumPy와 SciPy
NumPy와 SciPy가 제공하는 고급 배열 및 행렬 연산 덕분에 파이썬이 과학 계산 어플리케이션에서 널리 사용됨.  
NumPy는 숫자뿐만 아니라 사용자 정의 레코드도 저장할 수 잇는 다차원 동형 배열 및 행렬을 구현, 요소 단위에서 효율적으로 연산할 수 있다.  
SciPy는 NumPy 기반 라이브러리로, 선형대수학, 수치해석, 통계학에 나오는 여러 과학 계산 알고리즘을 제공한다.  
Netlib 리포지토리가 제공하는 C 및 포트란 코드 기반을 활용함으로써 빠르고 신뢰성이 높다.  
따라서 SciPy는 C와 포트란에서 최적화되고 업계에서 입증된 수치 계산 함수를 대화형 고급 파이썬 API를 통해 제공한다.

In [15]:
# numpy.ndarray에서 행과 열을 이용한 기본 연산
import numpy              # 1
a = numpy.arange(12)      # 2
print(a)
print(type(a))
print(a.shape)            # 3
a.shape = 3, 4            # 4
print(a)
print(a[2])               # 5
print(a[2, 1])            # 6
print(a[:, 1])            # 7
print(a.transpose())      # 8

[ 0  1  2  3  4  5  6  7  8  9 10 11]
<class 'numpy.ndarray'>
(12,)
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 8  9 10 11]
9
[1 5 9]
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


1. Numpy를 임포트
2. 0에서 11까지의 정수를 담은 numpy.ndarray를 생성하고 확인한다.
3. 배열의 차원을 살펴본다. 이 배열은 12개의 요소를 가진 1차원 배열이다.
4. 배열에 차원을 추가해서 형태를 변경한 후 결과를 확인한다.
5. 2번 행을 가져온다.
6. (2, 1)에 있는 요소를 가져온다.
7. 1번 열을 가져온다.
8. 행렬을 전치(행과 열을 맞바꾼다)시켜 새로운 배열을 만든다.

NumPy는 numpy.ndarray의 모든 요소를 저장, 로딩, 처리하는 고급 연산도 지원한다.

In [None]:
import numpy
floats = numpy.loadtxt('floats-10M-lines.txt')   # 1
floats[-3:]                                      # 2
floats *= .5                                     # 3
floats[-3:]
from time import perf_counter as pc              # 4
t0 = pc(); floats /=3; pc() - t0                 # 5
numpy.save('floats-10M', floats)                 # 6
floats2 = numpy.load('floats-10M.npy', 'r+')     # 7
floats2 *= 6
floats2[-3:]                                     # 8

1. 텍스트 파일에서 천만 개의 실수를 읽어온다.
2. 시퀀스 슬라이싱 표기법을 이용해서 마지막 숫자 세 개를 확인한다.
3. flaots 배열에 들어 있는 모든 요소에 0.5를 곱하고 마지막 요소 세 개를 다시 확인한다.
4. 고정밀 성능 측정 타이머를 임포트한다. (파이썬 3.3 이상)
5. 모든 요소를 3으로 나눈다. 실수형 천만 개를 처리하는 데 40밀리초가 채 걸리지 않았다.
6. 배열을 .npy 이진 파일에 저장한다.
7. 메모리 매핑된 파일에서 데이터를 가져와서 다른 배열에 저장한다.전체 배열이 메모리에 완전히 들어가지 않더라도 배열을 효율적으로 슬라이싱 처리할 수 있게 해준다.
8. 모든 요소에 6을 곱한 후 마지막 요소 세 개를 확인한다.

NumPy와 SciPy는 Pandas, Blaze 데이터 분석 라이브러리의 기반이기도 하다.  
이 라이브러리들은 비수치형 데이터를 담은 효율적인 배열형 뿐만 아니라 .csv, .xls, SQL 덤프, HDF5등 다양한 포맷과 호환되는 임포트/익스포트 함수도 제공한다. 패키지 자체도 제대로 다루려면 책 한 권 분량이 필요. 

#### 2.9.4 덱 및 기타 큐

append()와 pop()메서드를 사용해서 리스트를 스택이나 큐(append()와 pop(0)을 사용하면 FIFO방식으로 작동)로 사용할 수 있다.  
하지만 리스트 왼쪽(0번 인덱스)에 삽입하거나 삭제하는 연산은 전체 리스트를 이동시켜야 하므로 처리 부담이 크다.  
덱(collections.deque)클래스는 큐의 양쪽 어디에서든 빠르게 삽입 및 삭제할 수 있도록 설계된 스레드 안전한(Thread-safe)양방향 큐다.  
'최근에 본 항목'이나 이와 비슷한 것들의 목록을 유지할 때도 사용할 수 있다.  
덱은 최대 길이를 설정해서 제한된 항목만 유지할 수도 있으므로 덱이 꽉 찬 후에는 새로운 항목을 추가할 때 반대쪽 항목을 버린다.  

In [16]:
from collections import deque
dq = deque(range(10), maxlen=10)       # 1
print(dq)                          
dq.rotate(3)                           # 2
print(dq)
dq.rotate(-4)
print(dq)
dq.appendleft(-1)                      # 3
print(dq)
dq.extend([11, 22, 33])                # 4
print(dq)
dq.extendleft([10, 20, 30, 40])        # 5
print(dq)

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)
deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)
deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10)


1. 선택적 인수 maxlen은 덱 객체가 수용할 수 있는 최대 항목 수를 설정한다. 덱 객체를 생성할 때 읽기 전용 속성인 maxlen을 설정한다.
2. rotate()메서드는 양수 인수를 받으면 오른쪽 끝에 있는 항목을 지정한 개수만큼 왼쪽 끝으로, 음수 인수를 받으면 왼쪽 끝에 있는 항목을 지정한 개수만큼 오른쪽 끝으로 이동시킨다.
3. 가득 찬 덱(len(d) == d.maxlen)에 항목을 추가하면 반대쪽 항목을 삭제한다. 여기서는 오른쪽 끝에 있는 0이 밀려나간다.
4. 오른쪽에 항목 세 개를 추가하면 왼쪽 끝에 있는 -1, 1, 2가 밀려나간다.
5. extendleft(iter)는 iter 인수에서 생성되는 항목을 덱의 왼쪽에 하나씩 차례대로 추가한다. 따라서 **항목이 역순으로 추가**된다.

리스트나 덱에 구현된 메서드. object 클래스에서 구현하는 메서드는 생략.
```
메서드                 리스트  덱  설명
-----------------------------------------------------
s.__add__(s2)             o        s + s2 -- 연결한다.
s.__iadd__(s2)            o     o  s += s2 -- 연결한 후 s에 저장한다. (inplace add)
s.append(e)               o     o  마지막 항목 오른쪽에 요소 하나를 추가한다.
s.appendleft(e)                 o  첫 번째 항목 왼쪽에 요소 하나를 추가한다.
s.cleart()                o     o  모든 항목을 제거한다.
s.__contains__(e)         o        e in s
s.copy()                  o        목록을 얕게 복사한다.
s.__copy__()                    o  copy.copy() 지원(얕은 복사)
s.count(e)                o     o  e 요소가 발생한 횟수를 반환
s.__delitem__(p)          o     o  p 위치의 항목을 삭제한다.
s.extend(i)               o     o  반복 가능한 i에 있는 요소를 오른쪽에 추가한다.
s.extendleft(i)                 o  반복 가능한 i에 있는 요소를 왼쪽에 추가한다.
s.__getitem__(p)          o     o  s[p] -- p 위치의 항목을 가져온다.
s.index(e)                o        처음 e가 나타난 위치를 반환한다.
s.insert(p, e)            o        p 위치의 항목 앞에 e요소를 추가한다.
s.__iter__()              o     o  반복자를 반환한다.
s.__len__()               o     o  len(s) -- 항목 수를 반환한다.
s.__mul__(n)              o        s * n -- 반복해서 연결한다.
s.__imul__(n)             o        s *= n -- 반복해서 연결한 후 s에 저장한다.
s.__rmul__(n)             o        n * s -- 역순 반복 연결
s.pop()                   o     o  마지막 항목을 삭제하고 반환(a_list_pop(p)는 p위치의 항목을 제거할 수 있지만 deque는 이 옵션 x)
s.popleft()                     o  첫 번째 항목을 삭제하고 반환한다.
s.remove(e)               o     o  e와 같은 값을 가진 첫 번째 항목을 삭제한다.
s.reverse()               o     o  항목을 역순으로 나열해서 다시 s에 저장한다.
s.__reversed__()          o     o  뒤에서부터 앞으로 나열하는 반복자를 반환한다.
s.rotate(n)                     o  한쪽에 잇는 n개의 항목을 반대쪽으로 이동시킨다.
s.__setitem__(p, e)       o     o  s[p] = e -- p위치에 e 값을 저장하고, 기존 값을 덮어쓴다.
s.sort([key], [revesre])  o        선택적인 키워드 인수 key와 reverse에 따라 항목을 정렬하고 s에 저장한다.
```

덱은 리스트 메서드 대부분을 구현할 뿐만 아니라 popleft()와 rotate()처럼 고유한 메서드를 추가로 가지고 있다.  
그렇지만 덱이 양쪽 끝에 추가나 제거하는 연산에 최적화되어 있기 때문에  덱의 중간 항목을 삭제하는 연산은 그리 빠르지 않다.   
append()와 popleft()메서드는 원자성을 갖고 있으므로 멀티스레드 앱에서 락을 사용하지 않고도 덱을 이용해서 간단히 FIFO 큐를 구현할 수 있다.  
다른 파이썬 표쥰 라이브러리 패키지에서는 덱 외에도 다음과 같은 큐를 구현하고 있다.  
  
**queue**   
```
queue 모듈에서는 동기화된(즉, 스레드 안전한) Queue, LifoQueue, PriorityQueue 클래스를 제공한다.  
이 클래스들은 스레드 간에 안전하게 통신하기 위해 사용된다. 
세 클래스 모두 0보다 큰 maxsize인수를 생성자에 전달해서 바인딩할 수 있다. 그렇지만 덱과 달리 공간이 꽉 찾을 때 항목을 버리지 않는다.
대신 새로운 항목의 추가를 블로킹하고 다른 스레드에서 큐 안의 항목을 제거해서 공간을 확보해줄 때까지 기다린다. 
따라서 활성화된 스레드 수를 조절하기 좋다.
```

In [17]:
import queue
q = queue.Queue(5)      # Queue의 크기를 명시적으로 설정할 수도 있다.  
q.put('apple')
q.put('banana')
q.put(10)
print(q.qsize())
print(q.get())          # 큐 객체에서 데이터 출력
print(q.get())
print(q.qsize())

3
apple
banana
1


In [19]:
def GetItemList(q):
    ret = []
    for _ in range(q.qsize()):
        ret.append(q.get())
    return ret 

In [21]:
q = queue.PriorityQueue()
q.put((5, 'apple'))    # (순위, 아이템)의 튜플형태로 입력해야 함
q.put((10, 'banana')) 
q.put((1, 'orange'))
GetItemList(q)         # 인자로 전달된 우선순위대로 출력

[(1, 'orange'), (5, 'apple'), (10, 'banana')]

**multiprocessing**  
```
멀티프로세싱 모듈은 queue.Queue와 비슷하지만 프로세스 간 통신을 지원하기 위해 설계된 고유한 Queue 클래스를 구현한다.  
태스크 관리에 특화된 multiprocessing.JoinableQueue 클래스도 제공한다.
```
**asyncio**  
```
파이썬 3.4에 새로 추가된 asyncio모듈은 queue 및 multiprocessing 모듈에 포함된 클래스로부터 영감을 얻은 Queue, LifoQueue, PriorityQueue, JoinableQueue 클래스를 제공하지만, 비동기 프로그래밍 환경에서 작업을 관리하는 데 주안점을 두고 있다. 
```
**heapq**  
```
앞에 나온 모듈 세 개와 대조적으로 heapq는 queue클래스를 구현하지는 않지만, 가변 시퀀스를 힙 큐나 우선순위 큐로 사용할 수 있게 해주는 heappush()와 heappop()등의 함수를 제공한다.
```

### 2.10 요약

표준 라이브러리에서 제공하는 시퀀스형을 제대로 파악하고 있어야 간결하고, 효율적이며, 파이썬스러운 코드를 작성할 수 있다.  
파이썬 시쿼스는 가변형과 불변형으로 구분하기도 하지만, 균일 시퀀스와 컨테이너 시퀀스로 분류할 수도 있다.  
균일 시퀀스는 작고, 빠르고, 사용하기 쉽지만 숫자, 문자, 바이트처럼 원자적인 데이터만 젖아할 수 있다.  
컨테이너 시퀀스는 융통성이 있지만 가변 객체를 저장할 때는 예상치 못한 일이 발생할 수도 있다.  
따라서 내포된 데이터 구조체와 함께 컨테이너 시퀀스를 사용할 때는 주의해야 한다.