# Part II. 데이터 구조체

## 2장: 시퀀스
### 2.1 내장 시퀀스 개요

- ### 컨테이너 시퀀스 (container sequence):
##### 서로 다른 자료형의 항목들을 담을 수 있는 list, tuple, collections.deque 형.
객체에 대한 참조를 담고 있음.

- ### 균일 시퀀스 (flat sequence):
##### 단 하나의 자료형만 담을 수 있는 str, bytes, bytearray, memoryview, array.array 형
객체에 대한 참조 대신 자신의 메모리 공간에 각 항목의 값을 직접 담는다. 따라서 메모리를 더 적게 사용하지만 기본적인 자료형만 저장 가능.

### 다른 기준:
1. 가변 시퀀스: list, bytearray, array.array, collections.deque, memoryview 형
2. 불변 시퀀스: tuple, str, bytes 형

### 2.1 지능형 리스트(list comprehension)와 제너레이터 표현식(generator expression)


In [1]:
# ¤: 국제 통화 기호 (Currency sign, ¤)는 불특정 통화를 표기할 때 쓰는 기호이다. 사용하려는 폰트에서 특정 통화 기호가 설정되어 있지 않을 때 대신하여 쓴다. '스카랩' (scarab)'이라고도 한다.[1] 기본적으로 작은 동그라미에 네 대각선, 즉 각각 45°(동북), 135°(동남), 225°(서남), 315°(서북) 방향으로 짧게 삐져나온 모양이다. 베이스라인에서 살짝 위로 띄어진 위치에 자리한다.

In [2]:
# 지능형 리스트와 가독성

# 1

symbols = '$￠￡￥€¤' # ￠: 센트. 미국 동전
codes = []
for symbol in symbols:
    codes.append(ord(symbol))  # ord: Return the Unicode code point for a one-character string.

In [3]:
codes

[36, 65504, 65505, 65509, 8364, 164]

In [4]:
ord('g')

103

In [5]:
# 2
symbols = '$￠￡￥€¤'
codes = [ord(symbol) for symbol in symbols]
codes

[36, 65504, 65505, 65509, 8364, 164]

In [6]:
# 2번이 그 의도를 명확히 보여주기 때문에 더 가독성 좋은 코드이다.

In [13]:
x = 'ABC'
dummy = [ord(x) for x in x]
print(x, dummy)

ABC [65, 66, 67]


In [14]:
# 2.2.2 지능형 리스트와 map()/filter() 비교

symbols = '$￠￡￥€¤'
beyond_ascii = [ord(s) for s in symbols if ord(s) > 127]
beyond_ascii

[65504, 65505, 65509, 8364, 164]

In [15]:
beyond_ascii = list(filter(lambda c: c > 127, map(ord, symbols)))
beyond_ascii

[65504, 65505, 65509, 8364, 164]

In [17]:
# 2.2.3 데카르트 곱

colors = ['black', 'white']
sizes = ['S', 'M', 'L']
tshirts = [(color, size) for color in colors for size in sizes]
tshirts

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

In [18]:
for color in colors:
    for size in sizes:
        print((color, size))

('black', 'S')
('black', 'M')
('black', 'L')
('white', 'S')
('white', 'M')
('white', 'L')


In [19]:
tshirts = [(color, size) for color in colors for size in sizes]
tshirts

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

In [21]:
tshirts = [(color, size) for size in sizes
                         for color in colors]
tshirts

[('black', 'S'),
 ('white', 'S'),
 ('black', 'M'),
 ('white', 'M'),
 ('black', 'L'),
 ('white', 'L')]

In [23]:
# 2.2.4 제너레이터 표현식

# 튜플, 배열 등의 스퀀스형을 초기화하려면 지능형 리스트를 사용할 수도 있지만, 다른 생성자에 전달할 리스트를 통째로 만들지 않고
# 반복자 프로토콜 (iterator protocol)을 이용해 항목을 하나씩 생성하는 제너레이터 표현식은 메모리를 더 적게 사용한다.

In [24]:
symbols = '$￠￡￥€¤'
tuple(ord(symbol) for symbol in symbols)

(36, 65504, 65505, 65509, 8364, 164)

In [25]:
import array
array.array('I', (ord(symbol) for symbol in symbols))

array('I', [36, 65504, 65505, 65509, 8364, 164])

In [26]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
for tshirt in ('%s %s' % (c, s) for c in colors for s in sizes):
    print(tshirt)

black S
black M
black L
white S
white M
white L


In [28]:
# 제너레이터 표현식은 한 번에 하나의 항목을 생성하며, 6개의 티셔츠 종류를 담고 있는 리스트를 만들지는 않는다.

## 2.3 튜플은 단순한 불변 리스트가 아니다
- 불변 리스트로 사용할 수도 있지만 필드명이 없는 레코드로 사용할 수도 있다.

In [29]:
# 2.3.1 레코드로서의 튜플

# 튜플은 레코드를 담고 있다. 튜플의 각 항목은 레코드의 필드 하나를 의미하며 항목의 위치가 의미를 결정한다.
# 튜플을 필드의 집합으로 사용하는 경우에는 항목 수가 고정되어 있고 항목의 순서가 중요하다.

In [30]:
lax_coordinates = (33.9425, -118.408056)
city, year, pop, chg, area = ('Tokyo', 2003, 32450, 0.66, 8014)
traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), ('ESP', 'XDA205856')]

for passport in sorted(traveler_ids):
    print('%s/%s' % passport)

BRA/CE342567
ESP/XDA205856
USA/31195855


In [31]:
for country, _ in traveler_ids:      # for loop는 튜플의 각 항목을 어떻게 가져와야 하는지 알고 있다. (이 과정 = '언패킹')
    print(country)                    # _: 언더바로 dummy variable 할당

USA
BRA
ESP


In [32]:
# 2.3.2 튜플 언패킹 (tuple unpacking = iterable unpacking)

# 튜플 언패킹은 병렬 할당(parallel assignment)을 할 때 가장 눈에 띈다.

lax_coordinates = (33.9425, -118.408056)
latitude, longitude = lax_coordinates
latitude

33.9425

In [33]:
longitude

-118.408056

In [35]:
a = 10
b = 3

In [36]:
b, a = a, b

In [37]:
a

3

In [38]:
divmod(20, 8)

(2, 4)

In [39]:
t = (20, 8)

In [41]:
divmod(t)

TypeError: divmod expected 2 arguments, got 1

In [43]:
divmod(*t)    # 함수를 호출할 때 인수 앞에 *를 붙여 튜플을 언패킹할 수 있다.

(2, 4)

In [44]:
quotient, remainder = divmod(*t)

In [45]:
quotient

2

In [46]:
remainder

4

In [47]:
import os
_, filename = os.path.split('/home/luciano/.ssh/idrsa.pub')
filename

'idrsa.pub'

In [48]:
# 초과 항목을 잡기 위해 * 사용하기

a, b, *rest = range(5)

In [49]:
a, b, rest

(0, 1, [2, 3, 4])

In [50]:
a

0

In [53]:
a, b, *rest = range(3)

In [55]:
a, b, rest

(0, 1, [2])

In [57]:
a, b, *rest = range(2)

In [58]:
a, b, rest

(0, 1, [])

In [59]:
a, *body, c, d = range(5)
a, body, c, d

(0, [1, 2], 3, 4)

In [60]:
*head, b, c, d = range(5)
head, b, c, d

([0, 1], 2, 3, 4)

In [67]:
# 2.3.3 내포된 튜플 언패킹

metro_areas = [
    ('Tokyo', 'JP', 36.933, (35.689722, 139.691667)),
    ('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)),
    ('Mexico CIty', 'MX', 20.104, (19.433333, -99.133333)),
    ('New York-Newark', 'US', 20.104, (40.808611, -74.020386))
]

In [68]:
print('{:15} | {:^9} | {:^9}'.format('', 'lat.', 'long.'))

                |   lat.    |   long.  


In [70]:
print('{:15} | {:^9} | {:^9}'.format('', 'lat.', 'long.'))
fmt = '{:15} | {:9.4f} | {:9.4f}'
for name, cc, pop, (latitude, longitude) in metro_areas:
    if longitude <= 0:                                         # 경도가 음수인 서반구 도시만 출력
        print(fmt.format(name, latitude, longitude))

                |   lat.    |   long.  
Mexico CIty     |   19.4333 |  -99.1333
New York-Newark |   40.8086 |  -74.0204


In [71]:
# 2.3.4 명명된 튜플

# collections.namedtuple() 함수. 필드명과 클래스명을 추가한 튜플의 서브클래스를 생성하는 팩토리 함수. 디버깅 시 유용.

# 필드명이 클래스에 저장되므로 namedtuple()로 생성한 객체는 튜플과 동일한 크기의 메모리만 사용한다.
#속성을 객체마다 존재하는 __dict__에 저장하지 않으므로 일반적인 객체보다 메모리를 적게 사용한다.

In [72]:
from collections import namedtuple
City = namedtuple('City', 'name country population coordinates') # (클래스명, 필드명의 리스트)
                                                    # 필드명의 리스트: 반복형 문자열이나 공백으로 구분된 하나의 문자열로 저장
tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667))
tokyo

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 139.691667))

In [73]:
tokyo.population

36.933

In [74]:
tokyo[1]

'JP'

named tuple은 튜플에서 상속받은 속성 외에 몇 가지 속성을 더 가지고 있다.
- _fields 클래스 속성: 클래스의 필드명을 담고 있는 튜플
- _make(iterable) 클래스 메서드: 반복형 개체로부터 명명된 튜플 만든다. City(*delhi_data)를 호출하는 코드와 동일한 역할 수행.
- _asdict() 객체 메서드: 명명된 튜플 객체에서 만들어진 collections.OrderedDict 객체를 반환한다. 깔끔하게 정리해서 출력 가능.

In [75]:
City._fields

('name', 'country', 'population', 'coordinates')

In [76]:
LatLong = namedtuple('LatLong', 'lat long')

In [77]:
delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.208889))

In [78]:
delhi = City._make(delhi_data)

In [80]:
delhi_data

('Delhi NCR', 'IN', 21.935, LatLong(lat=28.613889, long=77.208889))

In [81]:
delhi

City(name='Delhi NCR', country='IN', population=21.935, coordinates=LatLong(lat=28.613889, long=77.208889))

In [82]:
delhi._asdict()

OrderedDict([('name', 'Delhi NCR'),
             ('country', 'IN'),
             ('population', 21.935),
             ('coordinates', LatLong(lat=28.613889, long=77.208889))])

In [103]:
# 2.3.5 불변 리스트로서의 튜플
s = [1, 2, 3, 4]
s2 = [100]
t = (1, 2, 3, 4)
t2 = (100)

s.__add__(s2)

[1, 2, 3, 4, 100]

In [85]:
4 in s

True

In [86]:
s.__contains__(4)

True

In [109]:
4 in t

True

In [110]:
t.__contains__(4)

True

In [111]:
s.count(3)

1

In [112]:
t.count(1)

1

In [113]:
s.__getitem__(3)

4

In [114]:
t.__getitem__(3)

4

In [115]:
s.index(1)

0

In [116]:
t.index(1)

0

In [119]:
s.__iter__()

<list_iterator at 0x17254994408>

In [120]:
t.__iter__()

<tuple_iterator at 0x17254987c48>

In [121]:
s.__len__()

4

In [122]:
t.__len__()

4

In [123]:
s.__mul__(3)

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

In [124]:
t.__mul__(2)

(1, 2, 3, 4, 1, 2, 3, 4)

In [125]:
s.__rmul__(2)

[1, 2, 3, 4, 1, 2, 3, 4]

In [127]:
t.__rmul__(2)

(1, 2, 3, 4, 1, 2, 3, 4)

In [128]:
s[1:2]

[2]

In [129]:
t[1:2]

(2,)

## 2.4 슬라이싱