## 2. 시퀀스
<li>컨테이너 시퀀스 : 서로 다른 자료형의 항목을 담을 수 있는 list, tuple, collectoin.deque형
<li>균일 시퀀스 : 단 하나의 자료형만 담을 수 있는 str, bytes, bytearray, memoryview, array.array

### 2.2 지능형 리스트와 일반 표현식
List Comprehension, Generator Expression

In [1]:
## 예제 2.1 : 문자열에서 유니코드 리스트 만들기 (ver.1)
symbols = "$%^&*"
codes = []

for symbol in symbols:
    codes.append(ord(symbol)) # https://docs.python.org/3/library/functions.html#ord
    
codes

[36, 37, 94, 38, 42]

In [2]:
## 예제 2.1 : 문자열에서 유니코드 리스트 만들기 (ver.2)
symbols = "$%^&*"
codes = [ord(symbol) for symbol in symbols]

codes

[36, 37, 94, 38, 42]

※ [ ], { }, ( ) 안에서의 개행은 무시된다. 따라서 줄을 넘기기 위해 역슬래시(\)를 사용하지 않고도 여러줄에 걸쳐 리스트, 지능형 리스트, 제너레이터 표현식, 딕셔너리를 작성할 수 있다.

In [3]:
## 예제 2.2 Python 3에서 부터는 더 이상 메모리를 누수하지 않음
x = 'ABC'
dummy = [ord(x) for x in x]
print('x:', x) # x를 중복사용 했으나 고유한 지역 범위를 갖기 때문에 값이 사라지지 않음
print('dummy:', dummy)

x: ABC
dummy: [65, 66, 67]


In [4]:
## 예제 2.3 지능형 리스트와 맵/필터 구성으로 만든 동일 리스트
symbols = "!@#$%^&*()"
beyond_ascii = [ord(symbol) for symbol in symbols if ord(symbol) < 127]
print(beyond_ascii)

beyond_ascii = list(filter(lambda c: c < 127, map(ord, symbols)))
print(beyond_ascii)

[33, 64, 35, 36, 37, 94, 38, 42, 40, 41]
[33, 64, 35, 36, 37, 94, 38, 42, 40, 41]


#### 2.2.3 데카르트 곱
지능형 리스트는 두 개 이상의 반복 가능한 자료형의 데카르크 봄을 나타내는 일련의 리스트를 만들 수 있다.

In [2]:
## 예제 2.4 지능형 리스트를 이용한 데카르트의 곱
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
print("List comprehension")
tshirts = [(color, size)
           for color in colors
           for size in sizes]
print("tshirts:", tshirts)

print("For loop")
for color in colors:
    for size in sizes:
        print((color, size))

List comprehension
tshirts: [('black', 'S'), ('black', 'M'), ('black', 'L'), ('white', 'S'), ('white', 'M'), ('white', 'L')]
For loop
('black', 'S')
('black', 'M')
('black', 'L')
('white', 'S')
('white', 'M')
('white', 'L')


#### 2.2.4 제너레이터 표현식
튜플, 배열의 시퀀스형을 초기화하려면 지능형 리스트를 사용할 수도 있지만, 다른 생성자에 전달할 리스트를 통째로 만들지 않고 반복자 프로토콜(iterator protocol)을 이용해서 항목을 개별로 생성하는 제너레이터 표현식은 메모리를 더 적게 사용한다.

In [6]:
## 예제 2.5 제너레이터 표현식에서 튜플과 배열 초기화하기

symbols = "!@#$%^&*()"
tuple(ord(symbol) for symbol in symbols)

import array # https://docs.python.org/3/library/array.html
array.array('I', (ord(symbol) for symbol in symbols)) # I는 unsigned int를 의미

colors = ['black', 'white']
sizes = ['S', 'M', 'L']
for tshirt in ('%s %s' % (c, s) for c in colors for s in sizes): # 제너레이터 표현식은 한 번에 하나의 항목을 생성하며, 
    print(tshirt)                                                # 6개의 티셔츠 종류를 담고 있는 리스트를 만들지 않는다. 
                                                                 # 따라서 메모리에 유지할 필요가 없는 데이터 생성에 효과적이다.

black S
black M
black L
white S
white M
white L


### 2.3 튜플은 단순한 불변 리스트가 아님
튜플은 불변 리스트로 사용할 수도 있지만 필드명이 없는 레코드로 사용할 수도 있다. 

#### 2.3.1 레코드로서의 튜플
튜플은 레코드를 담고 있다. 튜플의 각 항목은 레코드의 필드 하나를 의미하며 항목의 위차가 의미를 결정한다. 튜플을 단지 불변 리스트로 생각한다면 경우에 따라 항목의 크기와 순서가 중요할 수도 있고 그렇지 않을 수도 있다. 그러나 튜플을 필드의 집합으로 사용하는 경우에는 항목 수가 고정되어 있고 항목의 순서가 중요하다.

In [4]:
# 예제 2-7. 레코드로 사용된 튜플
lax_coordinates = (33.9425, -118.408056) # 로스앤젤레스 국제공항의 위도와 경도
city, year, pop, chg, area = ('Tokyo', 2003, 32450, 0.66, 8014) # 지명, 년도, 백만 단위 인구수, 인구 변화율, 제곱킬로미터 단위 면적
traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), ('ESP', 'XDA205856')] # 국가코드, 여권번호
for passport in sorted(traveler_ids): 
    print('%s/%s' % passport) # 튜플을 이해하고 각 항목을 하나의 필드로 처리

BRA/CE342567
ESP/XDA205856
USA/31195855


In [5]:
for country, _ in traveler_ids:
    print(country)

USA
BRA
ESP


#### 2.3.2 튜플 언패킹
parallel assignment(병렬 할당)은 반복형 데이터를 변수로 구성된 튜플에 할당하는 것을 의미한다. 

In [8]:
# 임시 변수를 사용하지 않고도 두 변수의 값을 서로 교환
a = 4
b = 3

b, a = a, b

print(a, b)

3 4


In [10]:
# *를 붙여 튜플을 언패킹 할 수 있음
print('1', divmod(20, 8)) # 20을 8로 나누면 몫은 2에 나머지는 4

t = (20, 8)
print('2', divmod(*t)) # divmod는 2개의 파라미터를 명시해야하나 '*t'로 설정하여 t의 20, 8가 파라미터로 언패킹되어 적용됨

quotient, remainder = divmod(*t) # 언패킹
print('3', quotient)
print('4', remainder)

quotient, remainder

1 (2, 4)
2 (2, 4)
3 2
4 4


(2, 4)

In [11]:
# 일부 항목에만 관심이 있는 경우
a, b, *rest = range(5)
print(a, b, rest)
a, b, *rest = range(3)
print(a, b, rest)
a, b, *rest = range(2)
print(a, b, rest)

0 1 [2, 3, 4]
0 1 [2]
0 1 []


In [12]:
# 병렬 할당의 경우 *는 단 하나의 변수에만 적용 가능
a, *body, c, d = range(5)
print(a, body, c, d)
*head, b, c, d = range(5)
print(head, b, c, d)

0 [1, 2] 3 4
[0, 1] 2 3 4


#### 2.3.3 내포된 튜플 언패킹
언패킹할 표현식을 받는 튜플은 (a,b,(c,d))처럼 다른 튜플을 내포할 수 있으며, 파이썬은 표현식이 내포된 구조체와 일치하면 제대로 처리한다.

In [13]:
metro_areas = [
    ('Tokyo', 'JP', 36.933, (35.689722, 139.691667)),
    ('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)),
    ('Mexico City', 'MX', 20.142, (19.433333, -99.133333)),
    ('New York-Newark', 'US', 20.104, (40.808611, -74.020386)),
    ('Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833))
]

print('{:15} | {:^9} | {:^9}'.format('', 'lat.', 'long.')) # 컬럼명 출력
fmt = '{:15} | {:9.4f} | {:9.4f}'

for name, cc, pop, (latitude, longitude) in metro_areas: 
    if longitude <= 0: # 경도가 음수인 서반구 도시만 출력
        print(fmt.format(name, latitude, longitude)) # 데이터 출력

                |   lat.    |   long.  
Mexico City     |   19.4333 |  -99.1333
New York-Newark |   40.8086 |  -74.0204
Sao Paulo       |  -23.5478 |  -46.6358


#### 2.3.4 명명된 튜플
레코드로 사용 중 필드에 이름을 붙일 필요가 있기 때문에 namedtuple( ) 함수가 고안되었다. 필드명이 클래스에 저장되므로 namedtuple( )로 생성한 객체는 튜플과 동일한 크기의 메모리만 사용한다. 속성을 객체마다 존재하는 \_\_dict\_\_ 에 저장하지 않으므로 일반적인 객체보다 메모리를 적게 사용한다. 

In [15]:
#예제 2-9 명명된 튜플형을 정의하고 사용하기
from collections import namedtuple
City = namedtuple('City', 'name country population coordinates') # 클래스명과 필드명의 리스트 등 총 2개의 매개변수가 필요
                                                                 # 필드명의 리스트는 반복형 문자열이나 공백으로 구분된 하나의 문자열을 이용
tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667))
print(tokyo)
print(tokyo.population)  # 필드명이나 위치를 이용해서 필드에 접근
print(tokyo.coordinates)
print(tokyo[1])

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 139.691667))
36.933
(35.689722, 139.691667)
JP


In [23]:
#예제 2-10 명명된 튜플의 속성과 메서드
print(City._fields) # 클래스의 필드명을 출력함
LatLong = namedtuple('LatLong', 'lat long')
delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.208889))
delhi = City._make(delhi_data) # 반복 객체로 부터 명명된 튜플을 만듬, City(*delhi_data)와 동일함.
print(delhi._asdict()) # collectoins.OrderedDict 객체를 반환

for key, value in delhi._asdict().items():
    print(key + ':', value)

# 개인 코드, 튜플을 이용한 일반적인 필드 처리가 되지 않을까 생각함
cityList = list()
cityList.append(delhi)
cityList.append(delhi)
    
print(cityList[0].name)
print(cityList[0].population)

('name', 'country', 'population', 'coordinates')
OrderedDict([('name', 'Delhi NCR'), ('country', 'IN'), ('population', 21.935), ('coordinates', LatLong(lat=28.613889, long=77.208889))])
name: Delhi NCR
country: IN
population: 21.935
coordinates: LatLong(lat=28.613889, long=77.208889)
Delhi NCR
21.935


#### 2.3.5 불변 리스트로서의 튜플
튜플은 항목을 추가하거나 삭제하는 기능 및 \_\_reversed\_\_( ) 메서드를 제외하고 리스트가 제공하는 메서드를 모두 지원한다.

※ [표 2-1], p73 참조
<li> s.__add__(s2), s.__iadd__(s2) : 두 리스트를 연결, iadd는 s2에 저장 </li> 
<li> s.clear() : 모든 항목을 삭제 </li> 
<li> s.__contains__(e) : e in s </li> 
<li> s.count(e) : e가 발생한 횟수 </li> 
<li> s.copy() : 얕은 복사 </li> 
<li> s.__delitem__(p) : p 위치의 요소를 삭제 </li> 
<li> s.extend(it) : 반복형 it안에 있는 요소를 추가 </li> 
<li> s.__getitem__(p) : s[p] </li> 
<li> s.index(e) : s안에 e가 처음 나타나는 위치 </li> 
<li> s.insert(p, e) : p 위치에 있는 요소 앞에 e 요소를 삽입 </li> 
<li> s.__len__() : len(s) </li> 
<li> s.__mul__(n), s.__imul__(n), s.__rmul__(n) : s *=n 문자열을 반복하여 s에 저장, rmul은 역순 저장 </li> 
<li> 기타 : s.pop([p]), s.remove(e), s.reverse(), s.__reversed__(), s.__setitem__(p, e), s.sort([key], [reverse]) </li> 

### 2.4  슬라이싱
#### 2.4.1 슬라이스와 범위 지정 시에 마지막 항목이 포함되지 않은 이유
<li> 세 개의 항목을 생성하는 range(3)이나 my_list[:3] 처럼 중단점만 이용해서 슬라이스나 범위를 지정할 때 길이를 계산하기 쉽다.</li>
<li> 시작점과 중단점을 모두 지정할 때도 길이를 계산하기 쉽다. 단지 중단점에서 시작점을 빼면 된다.</li>
<li> 다음 예제에서 보는 것처럼, x 인덱스를 기준으로 겹침없이 시퀀스를 분할하기 쉽다. 단지 my_list[:x]와 my_list[x:]로 지정하면 된다.</li>

In [None]:
l = [10, 20, 30, 40, 50, 60]
print(l[:2])
print(l[2:])
print(l[:3])
print(l[3:])

#### 2.4.2 슬라이스 객체
s[a:b:c]는 c 보폭(stride)만큼씩 항목을 건너뛰게 만든다. 보폭이 음수인 경우에는 거슬러 올라가 항목을 반환한다. seq[start:stop:step]을 해석하기 위해 파이썬은 seq.\__getitem__(slice(start, stop, step))을 호출한다.

#### 2.4.3 다차원 슬라이싱과 생략 기호
<li>a[i, j]를 해석하기 위해 a.__getitem__((i, j))를 호출한다.</li>
<li>세 개의 마침표(...)로 표현된 생략 기회는 파이썬 파서에 의해 하나의 토큰으로 인식된다. 이 기호는 Ellipsis 객체의 별명으로 하나의 ellipsis 클래스의 객체이다. 생략 기호 객체는 f(a, ..., z) 처럼 함수의 인수나, a[i, ...] 처럼 슬라이스의 한 부분으로 전달할 수 있다.</li>

#### 2.4.4 슬라이스에 할당하기

In [15]:
l = list(range(10))
print(l)
l[2:5] = [20, 30]
print(l)
del l[5:7]
print(l)
l[3::2] = [11, 22]
print(l)
l[2:5] = 100 # 반복 가능한 객체만 할당 가능

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 8, 9]
[0, 1, 20, 11, 5, 22, 9]


TypeError: can only assign an iterable

In [16]:
l[2:5] = [100] # R과 다르므로 주의, component 수가 줄어듬
print(l)

[0, 1, 100, 22, 9]


### 2.5 시퀀스에 덧셈과 곱셈 연산자 사용하기
피연산자 두 개가 같은 자료형이어야 하며, 둘 다 변경되지 않고 동일한 자료형의 시퀀스가 새로 만들어진다. 

#### 2.5.1 리스트의 리스트 만들기
내포된 리스트를 가진 리스트를 초기화해야 하는 경우 지능형 리스트를 사용하는 것이 가장 좋다.

In [17]:
# 예제 2-12 길이가 3인 리스트 3개로 표현한 틱택토 보드
board = [['_'] * 3 for _ in range(3)]
print('1st:', board)
board[1][2] = 'X'
print('2nd:', board)

# 동일한 코드
# board = []
# for i in range(3):
#     row = ['_'] * 3 # 반복마다 row를 새로 만든다
#     board.append(row)

1st: [['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
2nd: [['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]


In [18]:
board = [['_'] * 3] * 3
print('1st:', board)
board[1][2] = 'X' # 세 개의 행이 모두 동일한 객체를 참조하고 있어 오류가 발생한다.
print('2nd:', board)

# 동일한 코드
# row = ['_'] * 3
# board = []
# for i in range(3):
#     board.append(row)

1st: [['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
2nd: [['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]


### 2.6 시퀀스의 복합 할당
+=, *= 등의 복합 할당 연산자는 첫 번째 피연산자에 따라 상당히 다르게 작동한다. 복합 연산자가 작동하도록 만드는 특수 메서드는 \_\_iadd\_\_( ), \_\_imul\_\_( ) 이다. 그러나 구현되어 있지 않다면 \_\_add\_\_( ), \_\_mul_\_( ) 메서드를 호출한다.

In [20]:
# 복합 연산자를 가변 시퀀스와 불변 시퀀스에 적용한 예
l = [1, 2, 3]
print(id(l))
l *= 2
print(id(l)) # 변함이 없음
t = (1, 2, 3)
print(id(t))
t *= 2
print(id(t)) # 튜블은 자신이 변할 수 없는 대신 새로운 개체를 만들어 대응함

2653347552136
2653347552136
2653347717408
2653348039752


#### 2.6.1 += 복합 할당 퀴즈
VISUALIZE CODE AND GET LIVE HELP : http://www.pythontutor.com/ 

In [21]:
# 예상치 못한 결과
t = (1, 2, [30, 40])
t[2] += [50, 60] # t[2].extend([50, 60])

TypeError: 'tuple' object does not support item assignment

In [22]:
t # 에러가 생성됐지만 실행결과에 반영된다.

(1, 2, [30, 40, 50, 60])

교훈
<li>가변 항목을 튜플에 넣는 것은 좋은 생각이 아니다.</li>
<li>복합 할당은 원자적인 연산이 아니다(앞의 예제에서 일부 연산이 수행된 후 예외가 발생했다).</li>
<li>파이썬 바이트코드를 살펴보는 것은 그리 어렵지 않으며, 내부에서 어떤 일이 발생하고 있는지 살펴보는 데 도움이 된다.</li>

### 2.7 list.sort()와 sorted() 내장 함수
차이점
<li> list.sort() 메서드는 사본을 만들지 않고 리스트 내부를 변경해서 정렬한다. 새로운 리스트를 생성하지 않았음을 알려주기 위해 None을 반환한다.(관례)</li>
<li> sorted() 내장 함수는 새로운 리스트를 생성해서 반환하기 때문에, 불변 시퀀스 및 제너레이터를 포함해서 반복 가능한 모든 객체를 인수로 받을 수 있다.</li>

두 개의 키워드
<li>reverse : 이 키워드가 참이면 비교 연산을 반대로 해서 내림차순으로 반환한다. </li>
<li>key : 정렬에 사용할 키를 생성하기 위해 각 항목에 적용할 함수를 인수로 받는다. ex) key=str.lower, key=len </li>

In [24]:
fruits = ['grape', 'raspberry', 'apple', 'banana']
print(sorted(fruits))
print(sorted(fruits, reverse=True))
print(sorted(fruits, key=len))
print(sorted(fruits, key=len, reverse=True)) # sorted(fruits, key=len)과 정확한 역순은 아님
print(fruits) # 새로운 리스트를 생성해서 반환하기 때문에 fruits 값이 변하지 않음

['apple', 'banana', 'grape', 'raspberry']
['raspberry', 'grape', 'banana', 'apple']
['grape', 'apple', 'banana', 'raspberry']
['raspberry', 'banana', 'grape', 'apple']
['grape', 'raspberry', 'apple', 'banana']


In [24]:
fruits.sort()
print(fruits) # fruits 값이 변함

['apple', 'banana', 'grape', 'raspberry']


### 2.8 정렬된 시퀀스를 bisect로 관리하기
bisect 모듈은 bisect( )와 insort( ) 함수를 제공한다. bisect( )는 이진 검색 알고리즘을 이용해서 시퀀스를 검색하고, insort( )는 정렬된 시퀀스 안에 항목을 삽입한다. bisect( )는 bisect_right( )의 별명으로 삽입할 위치의 오른쪽 인덱스를 반환하며, bisect_left( )는 왼쪽 인덱스를 반환한다.

insort( )는 bisect(haystack, needle)의 결과값을 인덱스(index)로 사용해서 jaysatck.insert(index, needle)를 호출하는 것과 같지만 더 빨리 처리한다.

In [25]:
# 예제 2-17 정렬된 시퀀스에서 항목을 추가할 위치를 찾아내는 bisect
import bisect
import sys

HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30]
NEEDLES  = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]

ROW_FMT = '{0:2d} @ {1:2d}    {2}{0:<2d}' # needle을 앞 뒤로 출력함

def demo(bisect_fn):
    for needle in reversed(NEEDLES):
        position = bisect_fn(HAYSTACK, needle)
        offset = position * '  |'
        print(ROW_FMT.format(needle, position, offset))
        
if __name__ == '__main__':
    bisect_fn = bisect.bisect
    print('DEMO:', bisect_fn.__name__)
    print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK)) 
    demo(bisect_fn) # 기존 값과 같은 경우 같은 값 이후 인덱스를 알려줌
    
    bisect_fn = bisect.bisect_left
    print('DEMO:', bisect_fn.__name__)
    print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
    demo(bisect_fn) # 기존 값과 같은 경우 같은 값의 인덱스를 알려줌

DEMO: bisect
haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |29
23 @ 11      |  |  |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  5      |  |  |  |  |8 
 5 @  3      |  |  |5 
 2 @  1      |2 
 1 @  1      |1 
 0 @  0    0 
DEMO: bisect_left
haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 12      |  |  |  |  |  |  |  |  |  |  |  |29
23 @  9      |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  4      |  |  |  |8 
 5 @  2      |  |5 
 2 @  1      |2 
 1 @  0    1 
 0 @  0    0 


In [26]:
import bisect
import random

SIZE = 7

random.seed(1729)

my_list = []
for i in range(SIZE):
    new_item = random.randrange(SIZE*2)
    bisect.insort(my_list, new_item)
    print('%2d ->' % new_item, my_list)

10 -> [10]
 0 -> [0, 10]
 6 -> [0, 6, 10]
 8 -> [0, 6, 8, 10]
 7 -> [0, 6, 7, 8, 10]
 2 -> [0, 2, 6, 7, 8, 10]
10 -> [0, 2, 6, 7, 8, 10, 10]


### 2.9 리스트가 답이 아닐 때
리스트형이 사용하기 편하므로 파이썬 프로그래머들은 리스트형을 남용하곤 한다. 물론 용통성 있고 사용하기 편하지만, 세부 요구사항에 따라 더 나은 자료형도 있다.

#### 2.9.1 배열
리스트 안에 숫자만 들어 있다면 배열이 리스트보다 훨씬 더 효율적이다. 가변 시퀀스가 pop(), insert(), extend() 등을 포함해서 제공하는 모든 연산을 지원하며, 빠르게 파일에 저장하고 읽어올 수 있는 frombytes()와 tofile() 메서드도 추가로 제공한다. 

※ array 메서드와 속성은 [표 2-2](p 93) 참조, 파이썬 공식 array 문서 : https://docs.python.org/3/library/array.html
<li> s.__add__(s2), s.__iadd__(s2) </li>
<li> s.append(e) </li>
<li> s.byteswap() </li>
<li> s.__contains__(e) </li>
<li> s.__copy__(), s.__deepcopy__() </li>
<li> s.__delitem__(p) </li>
<li> s.extend(it) </li>
<li> s.frombytes(b), s.fromfile(b), s.fromlist(b) </li>
<li> s.__getitem__(p) </li>
<li> s.index(e) </li>
<li> s.insert(p, e) </li>
<li> s.itemsize </li>
<li> s.__iter__(), s.__len__(), s.__mul__(), s.__imul__(), s.__rmul__() </li>
<li> s.pop([p]) : p 위치 혹은 제일 마지막 항목을 제거하고 반환 </li>
<li> s.remove(e) </li>
<li> s.reverse() </li>
<li> s.__setitem__(p, e) </li>
<li> s.tobytes(), s.tofile(f), s.tolist() </li>
<li> s.typecode : 항목의 C 형을 나타내는 한 글자짜리 문자열 </li>

<p> NOTE : 객체를 직렬화하는 pickle 모듈도 숫자 데이터를 빠르고 융통성 있게 저장할 수 있다. pickle.dump( ) 메서드는 실수 배열을 array.tofile( ) 메서드만큼 빠르게 저장할 뿐만 아니라 복소수, 내포된 컬렉션, 심지어 사용자 정의 객체 등 거의 모든 내장 자료형을 처리할 수 있다. </p>

In [27]:
# 대규모 실수 배열의 생성, 저장, 불러오기
from array import array
from random import random
floats = array('d', (random() for i in range(10**7))) #'d'는 실수 배열을 의미
print(floats[-1])

fp = open('floats.bin', 'wb') # w : 쓰기, a : 끝에 추가하기, r : 읽기, b : string이 아닌 바이트로 구성함
floats.tofile(fp)
fp.close()

floats2 = array('d')
fp = open('floats.bin', 'rb')
floats2.fromfile(fp, 10**7)
fp.close()
print(floats2[-1]) 

print(floats2 == floats) # 배열의 내용이 일치하는지 확인

0.5963321947530882
0.5963321947530882
True


#### 2.9.2 메모리 뷰
파이썬 자체에 들어 있는 NumPy 배열 구조체를 일반화한 것이다. PIL 이미지 SQLLite 데이터베이스, NumPy 배열 등 <b><u>데이터 구조체를 복사하지 않고 메모리를 공유할 수 있기 때문에</u></b> 데이터셋이 커지는 경우 중요한 기법이다.

In [25]:
import array
numbers = array.array('h', [-2, -1, 0, 1, 2])
memv = memoryview(numbers)
print(len(memv))

print(memv[0])

memv_oct = memv.cast('B')
print(memv_oct.tolist())

memv_oct[5] = 4
numbers

5
-2
[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]


array('h', [-2, -1, 1024, 1, 2])

#### 2.9.3 NumPy와 SciPy

In [26]:
# 예제 2-22 numpy.ndarray에서 행과 열을 이용한 기본 연산
import numpy as np
a = np.arange(12)
print(a)
print(type(a), '\n')

a.shape = 3, 4
print(a, '\n')

print(a[2])
print(a[2, 0])

[ 0  1  2  3  4  5  6  7  8  9 10 11]
<class 'numpy.ndarray'> 

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] 

[ 8  9 10 11]
8


In [27]:
print(a.transpose())
print(a.T) # transpose( )와 동일

[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


In [31]:
## 시간측정 방법
# from time import perf_counter as pc
# t0 = pc();
# # 시간을 측정하고 싶은 코드
# pc() - t0;

#### 2.9.4 덱 및 기타 큐
append( )와 pop( ) 메서드를 사용해서 리스트를 스택이나 큐로 사용할 수 있지만, 리스트 왼쪽 0번에 삽입하거나 삭제하는 연산은 전체 리스트를 이동시켜야 하므로 처리 부담이 크다. 덱(collections.deque) 클래스는 큐의 방향과 관계없이 빠르게 삽입 및 삭제할 수 있도록 설계된 양방향 큐로서 최대 길이를 설정해서 새로운 항목을 추가할 때 반대쪽 항목을 버리도록 설정할 수도 있다.

덱은 리스트 메서드 대부분을 구현할 뿐만 아니라(페이지 100~101) popleft(), rotate() 처럼 고유한 메서드를 추가로 가지고 있다. 그렇지만 덱의 중간 항목을 삭제하는 연산은 그리 빠르지 않다. 덱이 양쪽 끝에 추가나 제거하는 연산에 최적화되어 있기 때문이다. 

In [31]:
# 예제 2-23 덱 이용하기
from collections import deque
dq = deque(range(10), maxlen=10)
print(dq)

dq.rotate(3) # 양수 인수인 경우 지정한 개수만큼 왼쪽 끝으로,
print(dq)    # 음수인 경우에는 오른쪽 끝으로 이동시킴

dq.rotate(-4) 
print(dq)

dq.appendleft(-1)
print(dq)

dq.extend([11, 22, 33]) # 밀려서 사라짐
print(dq)

dq.extendleft([10, 20, 30, 40]) # 밀려서 사라짐
print(dq)

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)
deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)
deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10)


기타 큐
<li><b>queue</b> 모듈에서는 동기화된 (즉, 스레드 안전한) Queue, LifoQueue, PriorityQueue 클래스를 제공한다. 이 클래스들은 스레드 간에 안전하게 통신하기 위해 사용된다. maxsize 인수를 생성자에 전달해서 바인딩 할 수 있지만, 공간이 꽉 찾을 때 항목을 버리는 것이 아닌 새로운 항목의 추가를 막고 다른 스레드에서 큐 안의 항목을 제거해서 공간을 확보해줄 때까지 대기하는 차이점이 있다. 따라서 활성화된 스레드 수를 조절하기 좋다</li>
<li><b>multiprocessing</b> queue.Queue와 비슷하지만 프로세스 간 통신을 지원하기 위해 설계된 고유한 Queue 클래스를 구현한다. 태스크 관리에 특화된 multiprocessing.JoinableQueue 클래스도 제공한다.</li>
<li><b>asyncio</b> queue, multiprocessing 와 같이 Queue, LifoQueue, PriorityQueue, JoinableQueue 클래스를 제공하지만, 비동기 프로그래밍 환경에 작업을 관리하는 데 주안점을 두고 있다.</li>
<li><b>heapq</b> queue 클래스를 구현하지는 않지만, 가변 시퀀스를 힙 큐나 우선순위 큐로 사용할 수 있게 해주는 heappush(), heappop() 등의 함수를 제공한다.</li>

### 2.11 Tips
key는 매우 훌륭하다.

In [33]:
lst = [28, 14, '28', 5, '9', '1', 0, 6, '23', 19]
print(sorted(lst, key=int)) # 숫자처럼 처리
print(sorted(lst, key=str)) # 문자처럼 처리

[0, '1', 5, 6, '9', 14, 19, '23', 28, '28']
[0, '1', 14, 19, '23', 28, '28', 5, 6, '9']
