# 1.내장 시퀀스 개요


#####    컨테이너 시퀀스
서로 다른 자료형의 항목들을 담을 수 있는 list, tuple, collections.deque형  
  
-------------------------

#####    균일 시퀀스
단 하나의 자료형만 담을 수 있는 str, bytes, bytearray, memoryview, array.array형

가변성에 따른 분류



##### 가변 시퀀스 
list, bytearray, array.array, collections.deque, memoryview 형

------------

##### 불변 시퀀스 
tuple, str, bytes형

# 2. 지능형 리스트(list comprehension)과 제너레이터 표현식

### 2.1 가독성

In [2]:
symbols = '$%?Z>V*'
    
codes = []
for symbol in symbols:
    codes.append(ord(symbol))
codes

[36, 37, 63, 90, 62, 86, 42]

In [4]:
symbols = '$%?Z>V*'

codes = [ord(symbol) for symbol in symbols]
codes

[36, 37, 63, 90, 62, 86, 42]

### 2.2 지능형 리스트와 map()/filter()비교

In [36]:
symbols = '$%c＠?Z>V*'
beyond_ascii = [ord(s) for s in symbols if ord(s) > 127]
print(beyond_ascii)

beyond_ascii = list(filter(lambda c: c>127, map(ord,symbols)))
print(beyond_ascii)

[65312]
[65312]


### 2.3 데카르트 곱

In [37]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
tshirts = [(color, size) for color in colors for size in sizes]
tshirts

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

In [38]:
for color in colors:
    for size in sizes:
        print((color, size))

('black', 'S')
('black', 'M')
('black', 'L')
('white', 'S')
('white', 'M')
('white', 'L')


In [39]:
tshirts = [(color, size) for size in sizes
          for color in colors]
tshirts

[('black', 'S'),
 ('white', 'S'),
 ('black', 'M'),
 ('white', 'M'),
 ('black', 'L'),
 ('white', 'L')]

### 2.4 제너레이터 표현식
#### 다른 생성자에 전달할 리스트를 통째로 만들지 않고 반복자 프로토콜을 이용하여 항목을 하나씩 생성하는 제너레이터 표현식은 메모리를 더 적게 사용한다.

In [40]:
symbol = '$#MF+.Δ'
tuple(ord(symbol) for symbol in symbols)

(36, 37, 99, 65312, 63, 90, 62, 86, 42)

In [41]:
import array

array.array('I', (ord(symbol) for symbol in symbols))

array('I', [36, 37, 99, 65312, 63, 90, 62, 86, 42])

In [42]:
# 제너레이터 표현식은 한번에 한 항목을 생성할 수 있도록 록 루프에 데이터를 전달하기 때문에 
#방대한 요소가 들어가 있는 리스트를 생성하는 일을 피할 수 있다.
colors = ['black', 'white']
size = ['S', 'M', 'L']
for tshirts in ('%s %s' % (c,s) for c in colors for s in size):
    print(tshirts)

black S
black M
black L
white S
white M
white L


# 3. 튜플은 단순한 불변 리스트가 아니다.

### 3.1 레코드로서의 튜플

In [58]:
# 튜플을 필드의 집합으로 사용하는 경우에는 항목 수가 고정되어 있고 항목의 순서가 중요하다.
lax_coordinates = (33.9425, -118.408056)
city, year, pop, chg, area = ('Tokyo', 2003, 32450, 0.66, 8014)
traveler_ids = [('USA', 31195855), ('BRA', 'CE342567'),
               ('ESP', 'XDA205856')]


for passport in sorted(traveler_ids):
    print('%s/%s' % passport)
    
print('\n\n')    

for contry, _ in traveler_ids:
    print(contry)

# 튜플 안에서 항목의 위치가 항목의 의미를 나타내므로 튜플을 정렬하면 정보가 파괴된다는 점 주의

BRA/CE342567
ESP/XDA205856
USA/31195855



USA
BRA
ESP


### 3.2 튜플 언패킹

In [59]:
lax_coordinates = (33.9425, -118.408056)
latitude, longitude = lax_coordinates #  튜플 언패킹

print(latitude)
print(longitude)

33.9425
-118.408056


In [60]:
#튜플 언패킹을 사용하면 b,a = a,b 처럼 임시 변수 사용없이 값 교환 가능

In [65]:
divmod(20,8)
t = (20,8)
divmod(*t)
quotient, remainder = divmod(*t)
quotient, remainder

(2, 4)

In [78]:
import os

# _와 같은 더미변수를 플레이스 홀더로 사용해서 관심 없는 부분은 언패킹할 때 무시할 수 있다.
_, filename = os.path.split('C:/Users/qq221/OneDrive/바탕 화면/셤.pptx')

In [79]:
filename

'셤.pptx'

##### 초과 항목을 잡기 위해 * 사용하기

In [84]:
a, b, *rest = range(5)
a, b, rest

(0, 1, [2, 3, 4])

In [85]:
a, b, *rest = range(3)
a, b, rest

(0, 1, [2])

In [86]:
a, b, *rest = range(2)
a, b, rest

(0, 1, [])

In [88]:
#병렬 할당의 경우 *는 단 하나의 변수에만 적용할 수 있다.
a, *body, c, d = range(5)
a, body, c, d

(0, [1, 2], 3, 4)

In [90]:
*head, b, c, d = range(5)
head, b, c, d

([0, 1], 2, 3, 4)

### 3.3 내표된 튜플 언패킹

In [95]:
metro_areas = [
    ('Tokyo','JP',36.9333,(35.689722, 139.691667)),
    ('Delhi NCR','IN',21.935,(28.613889, 77.200889)),
    ('Mexico City','MX',20.142,(19.43333, -99.13333)),
    ('New York-Newark','US',20.104,(40.808611, -74.020386)),
    ('Sao Paulo','BR',19.649,(-23.547778, -46.635833)),   ]

print('{:15} | {:^9} | {:^9}'.format('','lat.','long.'))
fmt = '{:15} | {:^9.4f} | {:^9.4f}'

for name, cc, pop, (latitude, longitude) in metro_areas:
    if longitude <=0:
        print(fmt.format(name, latitude, longitude))

                |   lat.    |   long.  
Mexico City     |  19.4333  | -99.1333 
New York-Newark |  40.8086  | -74.0204 
Sao Paulo       | -23.5478  | -46.6358 


### 3.4 명명된 튜플

In [99]:
from collections import namedtuple
City = namedtuple('City','name country population coordinates')
tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.69167))
tokyo
tokyo.population
tokyo.coordinates
tokyo[1]

'JP'

In [100]:
tokyo

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 139.69167))

In [107]:
print(City._fields)
LatLong = namedtuple('LatLong', 'lat long')
delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.20889))
delhi = City._make(delhi_data)
delhi._asdict()

for key, value in delhi._asdict().items():
    print(key + ':', value)

('name', 'country', 'population', 'coordinates')
name: Delhi NCR
country: IN
population: 21.935
coordinates: LatLong(lat=28.613889, long=77.20889)


### 3.5 불변 리스트로서의 튜플

In [116]:
from IPython.display import Image
Image(url='https://velog.velcdn.com/images/qsdcfd/post/236ffe19-a0ef-4617-88c6-96edb48597b4/image.png')

# 4. 슬라이싱

### 4.1 슬라이스와 범위 지정시에 마지막 항목이 포함되지 않는 이유

 - 1. range(3)이나 l[:3]처럼 중단점만 이용해서 슬라이스나 범위를 지정할 때 길이 계산이 쉽다.
 - 2. 중단점 - 시작점 = 길이
 - 3. 인덱스를 기준으로 겹침없이 시퀀스 분할이 쉽다. ex) l[:x]와 l[x:]

In [123]:
l = list(range(10,61,10))
print(f"""{l[:2]}
{l[2:]}
{l[:3]}
{l[3:]}""")

[10, 20]
[30, 40, 50, 60]
[10, 20, 30]
[40, 50, 60]


### 4.2 슬라이스 객체

In [156]:
s = 'bicycle'
print(repr(s[::3]))
print(repr(s[::-1]))
print(repr(s[::-2]))
# 슬라이스 객체는 실제로 seq.__getitem__(slice(strart, end, step))을 호출
[1,2,3,4,5].__getitem__(slice(1,None,2))

'bye'
'elcycib'
'eccb'


[2, 4]

### 4.3다차원 슬라이싱 생략 기호

 - [] 연산자는 콤마로 구분해서 여러 개의 인덱스나 슬라이스를 가질 수 있다.

 - Numpy 외부 패키지에서 a[i,j]구문으로 2차원 numpy.ndarray 배열의 항목이나 a[m:n,k:l]구문으로 2차원 슬라이스를 가져올 때 사용한다.

 - [] 연산자를 처리하는 _getitem()과 setitem__() 특수 메서드는 a[i,j]에 들어 있는 인덱스들을 튜플로 받는다.

 - Numpy는 다차원 배열을 슬라이싱할 때 생략 기호를 사용한다.

### 4.4 슬라이스에 할당하기 

In [170]:
l = list(range(10))
print(l, '\n')

l[2:5] = [20,30]
print(l, '\n')

del l[5:7]
print(l, '\n')

l[3::2] = [11,22]
print(l, '\n')

l[2:5] = 100 # error

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 

[0, 1, 20, 30, 5, 6, 7, 8, 9] 

[0, 1, 20, 30, 5, 8, 9] 

[0, 1, 20, 11, 5, 22, 9] 



TypeError: can only assign an iterable

In [171]:
l[2:5] = [100]
l

[0, 1, 100, 22, 9]

# 5 시퀀스에 덧셈과 곱셈 연산자 사용하기

In [176]:
l = [1,2,3]
print(l * 3)
print(5*'abc')

[1, 2, 3, 1, 2, 3, 1, 2, 3]
abcabcabcabcabc


### 5.1 리스트의 리스트 만들기

In [186]:
board = [['_'] * 3 for _ in range(3)]
print(board)
board[1][2] = 'X'
print(board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]


In [192]:
# 얕은복사(shadow coppy)
weird_board = [['-'] * 3] * 3
print(weird_board)
weird_board[1][2] = '0'
print(weird_board)

[['-', '-', '-'], ['-', '-', '-'], ['-', '-', '-']]
[['-', '-', '0'], ['-', '-', '0'], ['-', '-', '0']]


# 6 시퀀스의 복합 할당

In [195]:
# += 연산자가 작동하도록 하는 던더 메서드(특수 메서드)는 __iadd__()이다 하지만 __iadd__()메서드가 구현되어 있지 않으면,
# 파이썬은 대신 __add__() 메서드를 호출한다.
# *= 는 __imal__()

In [205]:
l = [1,2,3]
print(id(l))
l*=2
print(l)
print(id(l)) # *= 연산 후에도 같은 id값(같은 객체)

1852733551104
[1, 2, 3, 1, 2, 3]
1852733551104


In [206]:
t = (1,2,3)
print(id(t))
t *= 2
print(id(t)) # *= 연산 후에 다른 id값(다른 객체)

1852734667008
1852731793152


 + 새로운 항목을 추가하는 대신 항목이 추가된 시퀀스 전체를 새로 만들어 타깃 변수에 저장 하므로, 불변 시퀀스에 반복적으로 연결 연산을 수행하는 것은 비효율적이다.

### 6.1 += 복합 할당 퀴즈

In [209]:
t = (1, 2, [30, 40])
t[2] += [50, 60]

TypeError: 'tuple' object does not support item assignment

In [210]:
t

(1, 2, [30, 40, 50, 60])

In [211]:
import dis

In [214]:
dis.dis()

  2           0 LOAD_NAME                0 (t)
              2 LOAD_CONST               0 (2)
              4 DUP_TOP_TWO
              6 BINARY_SUBSCR
              8 LOAD_CONST               1 (50)
             10 LOAD_CONST               2 (60)
             12 BUILD_LIST               2
             14 INPLACE_ADD
             16 ROT_THREE
    -->      18 STORE_SUBSCR
             20 LOAD_CONST               3 (None)
             22 RETURN_VALUE


In [215]:
dis.dis('s[a] += b')

  1           0 LOAD_NAME                0 (s)
              2 LOAD_NAME                1 (a)
              4 DUP_TOP_TWO
              6 BINARY_SUBSCR
              8 LOAD_NAME                2 (b)
             10 INPLACE_ADD
             12 ROT_THREE
             14 STORE_SUBSCR
             16 LOAD_CONST               0 (None)
             18 RETURN_VALUE


# 7. list.sort()와 sorted() 내장 함수

list.sort()는 사본을 만들지 않고 리스트 내부를 변경해서 정렬, 반환값으로  None 출력  
객체를 직접 변경하는 함수나 메서드는 객체가 변경되었고 새로운 객체가 생성되지 않았음을 호출자에게 알려주기 위해
None을 출력하는 것이 Python API의 중요한 관례


sorted()는 새로운 리스트를 생성해서 반환 

# 8. 정렬된 시퀀스를 bisect로 관리하기

### bisect()는 이진 검색 알고리즘을 이용해서 시퀀스를 검색하고, insort()는 정렬된 시퀀스 안에 항목을 삽입.

### 8.1 bisect()로 검색하기

In [219]:
import bisect
import sys

HAYSTACK = [1,4,5,6,8,12,15,20,21,23,23,26,29,30]
NEEDLES = [0,1,2,5,8,10,22,23,29,30,31]

ROW_FMT = '{0:2d} @ {1:2d}. {2}{0:<2d}'

def demo(bisect_fn):
    for needle in reversed(NEEDLES):
        position = bisect_fn(HAYSTACK, needle) #삽입할 위치를 찾아내기 위해 선택한 bisect 함수를 사용한다.
        offset = position * '  |' #간격(offset)에 비례해서 수직 막대 패턴을 만든다.
        print(ROW_FMT.format(needle, position, offset)) #needl과 삽입 위치를 보여주는 포맷된 행을 출력한다.
        
if __name__ == '__main__':


    if sys.argv[-1] == 'left': #마지막 명령행을 인수에 따라 사용할 bisect함수를 선택한다.

        bisect_fn = bisect.bisect_left

    else:
        bisect_fn = bisect.bisect

    print('DEMO:', bisect_fn.__name__)#선택된 함수명을 헤더에 출력한다.
    print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
    demo(bisect_fn)

DEMO: bisect_right
haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14.   |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 14.   |  |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 13.   |  |  |  |  |  |  |  |  |  |  |  |  |29
23 @ 11.   |  |  |  |  |  |  |  |  |  |  |23
22 @  9.   |  |  |  |  |  |  |  |  |22
10 @  5.   |  |  |  |  |10
 8 @  5.   |  |  |  |  |8 
 5 @  3.   |  |  |5 
 2 @  1.   |2 
 1 @  1.   |1 
 0 @  0. 0 


In [222]:
"""
이 정렬된 긴 숫자 시퀀스를 검색할 때 index() 대신 더 빠른 bisect()함수를 사용한다.
https://docs.python.org/3/library/bisect.html
"""

def grade(score, breakpoints=[60,70,80,90], grades ='FDCBA'):
    i = bisect.bisect(breakpoints, score)
    return grades[i]
    
[grade(score) for score in [33,99,77,70,89,90,100]]


['F', 'A', 'C', 'C', 'B', 'A', 'A']

### 8.2 bisect.insort()로 삽입하기

In [230]:
"""
bisect함수와 마찬가지로 insort 함수도 선택적으로 lo와 hi 인수를 받아 시퀀스 안에서 검색할 범위를 제한하고  
삽입 위치를 검색하기 위해 bisect_left()함수를 사용하는 insort_left()함수도 있다.
"""
import bisect
import random

SIZE = 7


my_list = []
for i in range(SIZE):
    new_item = random.randrange(SIZE*2)
    bisect.insort(my_list,new_item)
    print('%2d ->' % new_item, my_list)

 5 -> [5]
 8 -> [5, 8]
 3 -> [3, 5, 8]
 6 -> [3, 5, 6, 8]
13 -> [3, 5, 6, 8, 13]
 0 -> [0, 3, 5, 6, 8, 13]
 9 -> [0, 3, 5, 6, 8, 9, 13]


# 9. 리스트가 답이 아닐 때


##### 리스트의 사용성은 좋지만 세부 요구사항에 따라서 더 나은 자료형도 있습니다. 예를 들어, 실수를 수 천만 개 저장할 때 배열이 효율적입니다.

### 9.1 배열
##### 리스트 안에 숫자만 들어 있다면 배열이 리스트보다 훨씬 더 효율적이고, 배열은 pop(), insert(), extend() 등을 포함해서 가변 시퀀스가 제공하는 모든 연산을 지원하고 빠르게 파일에 저장하고 읽어올 수 있는 frombytes()와 tofile()메서드로 추가 제공한다.

In [6]:
#커다란 실수 배열의 생성, 저장, 로딩

from array import array
from random import random
floats = array('d', (random() for i in range(10**5))) #제너레이터 표현식
floats[-1]





0.001438543190726227

In [7]:
fp = open('floats.bin', 'wb')
floats.tofile(fp)
fp.close()

floats2 = array('d')
fp = open('floats.bin', 'rb')
floats2.fromfile(fp,10**5)
fp.close()3

floats2[-1]

0.001438543190726227

In [8]:
floats2 ==floats

True

### 9.2 메모리 뷰 

 - 바이트 배열을 공유하는 경우: memoryview 객체를 사용하면 동일한 바이트 배열의 복사본을 만들 필요 없이 바이트 데이터를 공유할 수 있다  
 
 - 바이트 데이터를 효율적으로 처리하는 경우: memoryview객체는 파이썬의 내장 메모리 관리 기술을 이용해 바이트 데이터를 효율적으로 처리할 수 있다. 메모리 뷰를 사용하면 데이터를 복사할 필요 없이, 데이터에 직접 접근할 수 있어 처리 속도가 향상된다.
 - 바이트 데이터에 대한 작업을 수행하는 경우: memoryview 객체를 사용하면 바이트 데이터에 대한 여러 종류의 작업을 수행할 수 있다. 예를 들어, 바이트 데이터의 특정 부분을 슬라이싱하거나, 바이트 데이터의 특정 위치에서 특정 타입의 값을 읽을 수 있다.

#### 16비트 정수 배열에서 바이트 하나를 변경하는 방법

In [15]:
import array
numbers = array.array('h', [-2,-1,0,1,2])
numbers

array('h', [-2, -1, 0, 1, 2])

In [18]:
memv = memoryview(numbers)
len(memv)

5

In [19]:
memv[0]

-2

In [23]:
memv_oct = memv.cast('B')
memv_oct.tolist()

[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]

In [42]:
memv_oct[5] = 4
numbers

array('h', [-2, -1, 1024, 1, 2])

### 9.3 Numpy와 SciPy

In [43]:
import numpy as np
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [44]:
type(a)

numpy.ndarray

In [46]:
a.shape

(12,)

In [48]:
a.shape = 3,4
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [49]:
a[2]

array([ 8,  9, 10, 11])

In [50]:
a[2,1]

9

In [51]:
a[:,1]

array([1, 5, 9])

In [52]:
a.transpose()

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

### 9.4 덱 및 기타 큐

In [69]:
from collections import deque
dq = deque(range(10), maxlen=10)
dq

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)

In [70]:
dq.rotate(3)
dq

deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)

In [71]:
dq.rotate(-4)
dq


deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)

In [72]:
dq.appendleft(-1)
dq

deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)

In [73]:
dq.extend([11,22,33])
dq

deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)

In [74]:
dq.extendleft([10,20,30,40])
dq

deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10)