# Chap05 - 파이썬의 일반 데이터 구조

## 5.1 딕셔너리, 맵, 해시 테이블

- 딕셔너리는 임의의 수의 객체를 저장하고 각각은 고유한 키(key)로 식별된다. 

- 딕셔너리는 맵(map), 해시맵(hashmap), 조회 테이블(lookup table) 또는 연관 배열(associative array)라고도 한다.

- 딕셔너리는 해시(hash)기능 타입인 키(key)를 사용해 색인한다. 

- 딕셔너리는 해시 테이블 구현을 기반으로 한다.

In [1]:
phonebook = {
    'bob': 7387,
    'alice': 3719,
    'jack': 7052,
}

squares = {x: x*x for x in range(6)}

In [2]:
squares

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25}

In [3]:
phonebook['alice']

3719

In [5]:
phonebook['alice'].__hash__ 

<method-wrapper '__hash__' of int object at 0x1107bd2d0>

### 5.1.1 collections.OrderDict: 키 삽입 순서 기억

- 알고리즘이 작동하는 데 키(key) 순서가 중요하면 `OrderedDict` 클래스를 명시적으로 사용해 명확하게 전달하는 것이 가장 좋다.

In [10]:
from collections import OrderedDict

d = OrderedDict(one=1, two=2, three=3)
d

OrderedDict([('one', 1), ('two', 2), ('three', 3)])

In [8]:
dic = {'one': 1, 'two':2, 'three': 3}
e = OrderedDict(dic)

In [9]:
e

OrderedDict([('one', 1), ('two', 2), ('three', 3)])

In [11]:
d['four'] = 4
d

OrderedDict([('one', 1), ('two', 2), ('three', 3), ('four', 4)])

In [12]:
d.keys()

odict_keys(['one', 'two', 'three', 'four'])

### 5.1.2 collections.defaultdict: 누락된 키의 기본값 반환

- `defaultdict`는 요청된 키를 찾을 수 없는 경우 미리 지정해놓은 초기(default)값을 반환한다.

In [15]:
from collections import defaultdict

dd = defaultdict(list)

In [16]:
# key값이 없는 경우
# 초기에 설정한 빈 리스트를 반환
dd['a']

[]

In [17]:
# 없는 키에 접근하려고 하면 기본 팩토리를
# 사용해 키를 만들고 초기화 한다.
dd['dogs'].append('Rufus')
dd['dogs'].append('Kathrin')
dd['dogs'].append('Mr Sniffles')
dd['dogs']

['Rufus', 'Kathrin', 'Mr Sniffles']

### 5.1.3 collections.ChainMap: 여러 딕셔너리를 단일 매핑으로 검색

- `ChainMap`은 여러 개의 딕셔너리를 하나의 매핑으로 그룹화한다.

- 조회할 때는 키가 발견될 때까지 내부의 딕셔너리들을 하나씩 검사한다.

- 삽입, 갱신, 삭제는 체인에 추가된 첫 번째 딕셔너리에만 영향을 미친다.

In [23]:
from collections import ChainMap

dict1 = {'one': 1, 'two': 2}
dict2 = {'three': 3, 'four': 4}

chain = ChainMap(dict1, dict2)

In [24]:
chain

ChainMap({'one': 1, 'two': 2}, {'three': 3, 'four': 4})

In [25]:
chain['three']

3

In [27]:
chain['five'] = 5
chain

ChainMap({'one': 1, 'two': 2, 'five': 5}, {'three': 3, 'four': 4})

In [26]:
chain['missing']

KeyError: 'missing'

### 5.1.4 types.MappingProxyType: 읽기 전용 딕셔너리를 만들기 위한 래퍼

- `MappingProxyType`은 표준 딕셔너리를 감싼 래퍼(Wrapper)로, 감싸진 딕셔너리의 데이터에 대한 읽기 전용 인터페이스를 제공한다.

- 이 기능은 Python 3.3에 추가 되었으며, 변경 불가능한 딕셔너리를 만드는 데 사용할 수 있다.

In [29]:
from types import MappingProxyType

writable = {'one': 1, 'two': 2}
read_only = MappingProxyType(writable)

In [30]:
# Proxy는 읽기 전용이다.
read_only['one']

1

In [31]:
read_only['one'] = 23

TypeError: 'mappingproxy' object does not support item assignment

In [32]:
# 원본 업데이트가 Proxy에 반영된다.
writable['one'] = 42
read_only

mappingproxy({'one': 42, 'two': 2})

### 5.1.5 정리

- 딕셔너리는 파이썬의 중심 데이터 구조다.

- 읽기 전용이거나 정렬된 딕셔너리와 같은 특수한 구현도 파이썬 표준 라이브러리에서 이용할 수 있다.

## 5.2 배열 데이터 구조

- 배열은 인덱스를 기반으로 각 요소를 효율적으로 배치할 수 있는 고정 크기 데이터 레코드로 구성된다.

### 5.2.1 list: 가변 동적 배열

- 파이썬의 리스트는 내부에서 '동적 배열'로 구현된다.

- 리스트에는 요소를 추가하거나 제거할 수 있으며, 메모리를 할당하거나 해제함으로써 요소를 담는 저장소 크기를 자동으로 조정한다.


- 리스트는 다양한 요소를 가질 수 있다.
    - 파이썬에서는 함수를 포함해 '모든 것'이 객체이므로, 다른 종류의 데이터 타입을 단일 리스트에 저장할 수 있다.

In [1]:
arr = ['one', 'two', 'three']
arr[0]

'one'

In [3]:
arr.__repr__()

"['one', 'two', 'three']"

In [4]:
arr

['one', 'two', 'three']

In [5]:
# 리스트는 변경할 수 있다. 
arr[1] = 'hello'
arr

['one', 'hello', 'three']

In [6]:
del arr[1]
arr

['one', 'three']

In [7]:
# 리스트에는 다양한 데이터 타입을 담을 수 있다.
arr.append(23)
arr

['one', 'three', 23]

### 5.2.2 tuple: 불변 컨테이너

- `tuple` 객체는 `list`와 달리 변경이 불가능하다.

- 요소를 동적으로 추가하거나 제거할 수 없으며 생성할 때 튜플의 모든 요소를 정의해야 한다.

- 튜플은 리스트와 마찬가지로 임의의 데이터 타입의 요소를 담을 수 있다.

In [1]:
arr = 'one', 'two', 'three'
type(arr)

tuple

In [2]:
arr[0]

'one'

In [3]:
# tuple또한 repr을 가지고 있다.
arr.__repr__()

"('one', 'two', 'three')"

In [4]:
arr

('one', 'two', 'three')

In [5]:
# 튜플은 변경할 수 없다.
arr[1] = 'hello'

TypeError: 'tuple' object does not support item assignment

In [6]:
del arr[1]

TypeError: 'tuple' object doesn't support item deletion

In [10]:
# 튜플에는 임의의 데이터 타입을 담을 수 있다.
# 요소를 추가하면 튜플의 복사본을 만든다.
arr + (23, )

('one', 'two', 'three', 23)

In [11]:
id(arr + (23,))

2361038942600

In [12]:
id(arr)

2361039116184

### 5.2.3 array.array: 기본적인 타입 지정 배열

- `array`모듈은 바이트, 32비트 정수, 부동소수점 숫자 등과 같은 기본 C 스타일 데이터 타입을 담을 수 있는 메모리 효율적인 저장 공간을 제공한다.

- `array`는 기본적으로 `list`와 비슷하나, **단일 데이터 타입**으로 제한되어 있는 **'타입 지정 배열'**이다.

- 따라서, 같은 타입의 요소를 많이 저장해야 할 때 유용하다.

In [15]:
from array import array

arr = array('f', [1.0, 1.5, 2.0, 2.5])

In [16]:
arr.__repr__()

"array('f', [1.0, 1.5, 2.0, 2.5])"

In [17]:
arr

array('f', [1.0, 1.5, 2.0, 2.5])

In [18]:
arr[1]

1.5

In [19]:
del arr[1]
arr

array('f', [1.0, 2.0, 2.5])

In [20]:
arr.append(42.0)

In [21]:
arr

array('f', [1.0, 2.0, 2.5, 42.0])

In [22]:
arr[1] = 'hello'

TypeError: must be real number, not str

### 5.2.4 str: 유니코드 문자의 불변 배열

- 문자열은 **배열**이다!!

In [24]:
arr = 'abcd'
len(arr)

4

In [25]:
arr[1]

'b'

In [26]:
# 문자열은 변경할 수 없다.
arr[1] = 'e'

TypeError: 'str' object does not support item assignment

In [27]:
del arr[1]

TypeError: 'str' object doesn't support item deletion

In [29]:
# 문자열을 풀어서(unpack) 리스트로 만들어
# 변경 가능한 표현을 얻을 수 있다.
str_to_list = list('abcd')

In [30]:
str_to_list[1] = 'e'
str_to_list

['a', 'e', 'c', 'd']

In [31]:
''.join(str_to_list)

'aecd'

In [33]:
# 문자열(str)은 재귀적 데이터 구조다.
type('abc')

str

In [34]:
type('abc'[0])  # 'a'

str

### 5.2.5 bytes: 단일 바이트의 불변 배열

- 바이트 객체는 단일 바이트($0 \le x \le 255$ 범위의 정수)의 불변이며 연속된 데이터다.

- 개념적으로는 `str`객체와 비슷하지만 불변의 바이트 배열로 생각할 수 있다.

- `bytes`는 객체 생성을 위한 리터럴 문법을 제공한다.

In [38]:
arr = bytes((0, 1, 2, 3))
arr  # 바이트 리터럴은 자체 문법이 있다.

b'\x00\x01\x02\x03'

In [39]:
arr[1]

1

In [40]:
# 유효한 '바이트'만 허용된다.
bytes((0, 300))

ValueError: bytes must be in range(0, 256)

In [41]:
# 바이트는 변경할 수 없다.
arr[1] = 23

TypeError: 'bytes' object does not support item assignment

In [42]:
del arr[1]

TypeError: 'bytes' object doesn't support item deletion

### 5.2.6 bytearray: 단일 바이트의 가변 배열

- `bytearray` 타입은 $0 \le x \le 255$ 범위의 정수로 이루어진 **변경 가능한** 연속 데이터다.

In [43]:
arr = bytearray((0, 1, 2, 3))
arr  # 바이트 배열 repr

bytearray(b'\x00\x01\x02\x03')

In [44]:
arr[1]

1

In [45]:
# 바이트 배열은 변경할 수 있다.
arr[1] = 23
arr

bytearray(b'\x00\x17\x02\x03')

In [46]:
arr[1]

23

In [47]:
# 바이트 배열 크기는 늘어나거나 줄어들 수 있다.
del arr[1]
arr

bytearray(b'\x00\x02\x03')

In [48]:
arr.append(42)

In [51]:
arr

bytearray(b'\x00\x02\x03*')

In [50]:
arr[3]

42

In [52]:
# 바이트 배열에는 '바이트'만 담을 수 있다.
# (0 <= x <= 255) 범위의 정수
arr[1] = 'hello'

TypeError: an integer is required

In [53]:
arr[1] = 300

ValueError: byte must be in range(0, 256)

In [54]:
# 바이트 배열은 바이트 객체로 다시 변환될 수 있다.
# 그럴 경우 데이터가 복사 된다.
bytes(arr)

b'\x00\x02\x03*'

### 5.2.7 정리

- **여러 가지 타입의 임의 객체를 저장해야 하는가?** → `list` 또는 `tuple`

- **숫자 데이터가 있고 메모리 효율과 성능이 중요한가?** → `array.array`

- **유니코드 문자로 표시된 텍스트 데이터가 있나?** → `str`

- **연속적인 바이트 블록을 저장하고 싶나?** → `bytes` 또는 `bytearray`

## 5.3 레코드, 구조체, 데이터 전송 객체

- 파이썬에서는 레코드(record)와 구조체, 데이터 전송 객체를 구현하는 데 사용할 수 있는 여러 데이터 타입을 제공한다.

### 5.3.1 dict: 간단한 데이터 객체

- 딕셔너리는 임의의 수의 객체를 저장하고 각 객체는 고유한 키로 식별하기 때문에 레코드 데이터 또는 데이터 캑체로 사용할 수 있다.

In [1]:
car1 = {
    'color': 'red',
    'mileage': 3812.4,
    'automatic': True,
}
car2 = {
    'color': 'blue',
    'mileage': 40231,
    'automatic': False,
}

# 딕셔너리에는 __repr__()이 있다.
car2

{'color': 'blue', 'mileage': 40231, 'automatic': False}

In [2]:
# 주행 거리를 가져온다.
car2['mileage']

40231

In [3]:
# 딕셔너리는 변경할 수 있다.
car2['mileage'] = 12
car2['windsield'] = 'broken'
car2

{'color': 'blue', 'mileage': 12, 'automatic': False, 'windsield': 'broken'}

In [4]:
# 잘못되거나 빠지거나 추가된 필드명은
# 보호되지 않는다.
car3 = {
    'colr': 'green',  # color를 colr로 오기
    'automatic': False,
    'windshield': 'broken',
}

### 5.3.2 tuple: 불변 객체 그룹

- 성능 측면에서 볼 때 튜플은 리스트보다 약간 적은 메모리를 차지하며 더 빨리 생성된다.

In [10]:
import dis

dis.dis(compile("(23, 'a', 'b', 'c')", '', 'eval'))

  1           0 LOAD_CONST               0 ((23, 'a', 'b', 'c'))
              2 RETURN_VALUE


In [11]:
dis.dis(compile("[23, 'a', 'b', 'c']", '', 'eval'))

  1           0 LOAD_CONST               0 (23)
              2 LOAD_CONST               1 ('a')
              4 LOAD_CONST               2 ('b')
              6 LOAD_CONST               3 ('c')
              8 BUILD_LIST               4
             10 RETURN_VALUE


In [1]:
# 필드: 색상, 주행 거리, 자동 여부
car1 = ('red', 3812.4, True)
car2 = ('blue', 40231.0, False)

In [2]:
car1

('red', 3812.4, True)

In [3]:
car2

('blue', 40231.0, False)

In [4]:
# 주행 거리를 가져온다.
car2[1]

40231.0

In [5]:
# 튜플은 변경할 수 없다.
car2[1] = 12

TypeError: 'tuple' object does not support item assignment

In [6]:
# 잘못되거나 빠지거나 추가된 필드명은
# 보호되지 않는다.
car3 = (3431.5, 'green', True, 'silver')

### 5.3.3 사용자 정의 클래스 작성: 코드가 늘어날수록 제어할 것도 늘어난다

- 일반적인 파이썬 클래스를 레코드 데이터 타입으로 사용할 수도 있지만, 다른 내장 타입들이 제공하는 편의 기능들을 사용하고 싶다면 추가 작업이 필요하다. 

- 예를 들어 `__init__` 생성자에 새로운 필드를 추가하려면 장황해지고 시간이 오래 걸린다.

In [7]:
class Car:
    def __init__(self, color, mileage, automatic):
        self.color = color
        self.mileage = mileage
        self.automatic = automatic

In [8]:
car1 = Car('red', 3812.4, True)
car2 = Car('blue', 40231.0, False)

In [9]:
# 주행 거리를 가져온다.
car2.mileage

40231.0

In [10]:
# 클래스는 변경할 수 있다.
car2.mileage = 12
car2.windshield = 'broken'

In [12]:
car2.windshield

'broken'

In [13]:
# 문자열 표현은 그다지 유용하지 않다.
car1

<__main__.Car at 0x10fb5f908>

### 5.3.4 collections.namedtuple: 편리한 데이터 객체

- `namedtuple` 을 사용하면 정확한 필드명만 허용하는 레코드를 사용할 수 있다.

- `namedtuple`은 일반 튜플과 같이 변경할 수 없다. 즉, 네임드튜플 인스턴스를 만든 후에는 새 필드를 추가하거나 기존 필드를 수정할 수 없다.

In [15]:
from collections import namedtuple
from sys import getsizeof

p1 = namedtuple('Point', 'x y z')(1, 2, 3)
p2 = (1, 2, 3)

In [16]:
getsizeof(p1)

72

In [17]:
getsizeof(p2)

72

In [19]:
from collections import namedtuple

Car = namedtuple('Car', 'color mileage automatic')

car1 = Car('red', 3812.4, True)

In [20]:
car1

Car(color='red', mileage=3812.4, automatic=True)

In [21]:
# 필드에 접근한다.
car1.mileage

3812.4

In [22]:
# 필드는 변경할 수 없다.
car1.mileage = 12

AttributeError: can't set attribute

In [23]:
car1.windsheild = 'broken'

AttributeError: 'Car' object has no attribute 'windsheild'

### 5.3.5 typing.NamedTuple: 개선된 네임드튜플

- 파이썬 3.6에 추가된 이 클래스는 `collections` 모듈의 `namedtuple`클래스와 유사하다.

- `namedtuple`과 매우 흡사하며, 주요한 차이점은 새로운 레코드 타입을 정의하고 타입 힌트를 지원하도록 갱신된 구문이다. 


- 타입 주석(annotation)은 [mypy](http://mypy-lang.org/)와 같은 별도의 타입 확인 도구 없이는 적용되지 않는다.
    - `pip install mypy`

In [25]:
from typing import NamedTuple

class Car(NamedTuple):
    color: str
    mileage: float
    automatic: bool

In [26]:
car1 = Car('red', 3812.4, True)

In [27]:
car1

Car(color='red', mileage=3812.4, automatic=True)

In [28]:
car1.mileage

3812.4

In [29]:
# 필드는 변경할 수 없다.
car1.mileage = 12

AttributeError: can't set attribute

In [30]:
# mypy와 같은 별도 타입확인 도구 없이는 
# 타입 주석은 적용되지 않는다.
Car('red', 'NOT_A_FLOAT', 99)

Car(color='red', mileage='NOT_A_FLOAT', automatic=99)

### 5.3.6 types.SimpleNamespace: 세련된 속성 접근

- 파이썬 3.3에서 추가됐으며 네임스페이스의 속성에 접근할 수 있도록 해준다.


- `SimpleNamespace` 인스턴스는 모든 키를 클래스 속성으로 노출한다. 
    - 즉, 일반 딕셔너리에서 사용하는 `obj['key']`가 아닌 `obj.key` 점(.) 속성 접근을 사용할 수 있다.
    
 
- 속성은 자유롭게 추가, 수정, 삭제할 수 있다.

In [35]:
from types import SimpleNamespace

car1 = SimpleNamespace(color='red', 
                       mileage=3812.4, 
                       automatic=True)

In [36]:
# 기본 repr:
car1

namespace(automatic=True, color='red', mileage=3812.4)

In [37]:
# 인스턴스는 속성 접근을 지원하고 변경할 수 있다.
car1.mileage = 12

In [38]:
#  속성 추가
car1.windshield = 'broken'

In [39]:
# 속성 삭제
del car1.automatic

In [40]:
car1

namespace(color='red', mileage=12, windshield='broken')

### 5.3.7 정리

- **몇 개(2~3)의 필드만 갖고 있다**: 필드 순서를 기억하기 쉽거나 필드명이 불필요한 경우 일반 튜플 객체를 사용하면 좋다.

- **불변 필드가 필요하다**: 튜플, `collections.namedtuple`, `typing.NamedTuple`을 사용하면 좋다.

- **오타가 발생하지 않도록 필드 이름을 고정할 필요가 있다**: `collections.namedtuple`과 `typing.NamedTuple`을 사용하면 좋다.

- **데이터 구조를 완전히 제어할 필요가 있다**: `@property`를 사용해 게터(getter)와 세터(setter)를 사용한 클래스를 만든다.

- **객체에 동작(메서드)을 추가해야 한다**: 클래스를 만들거나, `collections.namedtuple`이나 `typing.NamedTuple`을 확장하여 만든다.