# Chapter 5. Array-Based Sequences
이번 챕터에서는 **list, tuple, str**과 같은 파이썬의 다양한 "수열(sequence)" 클래스들을 다룬다. 이 클래스들은 수열의 개별 원소에 `seq[k]`와 같은 인덱싱을 통해 접근이 가능하며 **배열(aray)**라는 로우 레벨 개념을 이용한다는 공통점을 갖는다. 그러나, 이 클래스들이 나타내는 추상화(abstraction)에는 큰 차이가 있으며, 이 클래스들의 인스턴스가 파이썬 내부에서 표현되는 방식에도 큰 차이가 있다. 이러한 클래스들은 파이썬 프로그램에서 광범위하게 사용될 뿐 아니라 더 복잡한 자료 구조를 발전시켜나감에 있어서 중요한 빌딩 블록이 되므로, 그 기능과 내부 작동 원리에 대한 명확한 이해를 갖는 것이 중요하다.
 
 ## 5.2 Low-Level Arrays
 파이썬이 수열 타입을 어떻게 표현하는지 정확히 설명하기 위해서는 로우-레벨 컴퓨터 아키텍쳐에 대한 약간의 설명이 필요하다. 컴퓨터의 주기억(primary memory)는 정보들의 비트로 이루어져 있고, 이 비트들은 정확한 컴퓨터 아키텍처에 의존하는 더 큰 유닛들로 그룹화된다. 대표적인 유닛을 **바이트(byte)**라 하며, 1바이트는 8비트와 같다. 컴퓨터 시스템은 많은 수의 바이트 메모리를 갖고 있기 때문에, 어떤 바이트에 어떤 정보가 저장되어있는지를 추적하기 위해 **메모리 주소(memory address)**라고 알려진 추상화를 이용한다. 메모리의 바이트들은 주소의 역할을 하는 유니크한 숫자를 갖게 된다. 메모리 주소는 메모리 시스템의 물리적인 구조와 연관이 있기 때문에 우리는 메모리 주소를 묘사할때 주로 순차적인 방법을 이용한다.
 ![figure-5 1](https://user-images.githubusercontent.com/20944657/36648205-7f3b64d6-1ad3-11e8-9dc0-0983b6c73ee3.png)

비록 순차적인 방법으로 주소가 부여되긴 하지만 컴퓨터 하드웨어는 메인 메모리 상의 어떠한 바이트라도 주소를 통해 효율적으로 접근이 가능하게끔 고안되었다. 이런 의미에서 우리는 컴퓨터의 메인 메모리를 **랜덤 액세스 메모리(Random Access Memory, RAM)**이라 부른다. 즉, 바이트 \#8675309나 바이트 \#309나 접근하는 난이도에 전혀 차이가 없다(현실에서는 캐쉬나 외부 메모리의 이용으로 인해 좀 다르다. Chapter 15 참고). 따라서 우리는 임의의 바이트를 $O(1)$ 시간 안에 저장하거나 얻을 수 있다.

일반적으로 프로그래밍 언어는 식별자(identifier)와 그 관련된 값이 저장된 메모리 주소 사이의 관계를 파악한다. 예를 들어, 식별자 `x`는 메모리에 저장된 하나의 값과 연관되어 있고, 식별자 `y`는 메모리에 저장된 또 다른 값과 연관되어 있을 수 있다. 그런데, 프로그래밍 언어에서 흔히 발생하는 상항은 관련된 객체들의 관계를 파악하는 것이다.예를 들어 게임을 개발할 때 Top 10 스코어를 저장하고 싶다면 굳이 10개의 변수를 만들기보다는 그룹에 대한 변수를 만들고 인덱스 넘버를 이용하는 것이 편하다.

관련된 여러 변수의 그룹은 컴퓨터 메모리의 인접한 부분에 연결되어 저장될 수 있다. 이러한 표현방식을 **배열(array)**이라 한다. 대표적인 예로, 파이썬의 문자열(string)은 각각의 문자들이 순서를 갖고 정렬된 열로 저장된다. 파이썬에서 각각의 문자는 유니코드를 이용하여 표현되고, 유니코드 문자는 16비트(2바이트)로 표현된다. 따라서 6개의 문자로 이루어진 'SAMPLE'은 아래의 그림과 같이 메모리 상에 저장된다.

![figure-5 2](https://user-images.githubusercontent.com/20944657/36648294-b6045e2c-1ad4-11e8-86db-7c4ab55c40f3.png)

12바이트의 메모리를 차지하지만 우리는 이 문자열을 *6개 문자로 이루어진 배열* 이라고 부른다. 배열의 원소들이 저장되는 각 공간을 **셀(cell)**이라 부르고, 정수 **인덱스(index)**를 통해 배열 내의 위치를 설명한다. 예를 들어, 배열에서 인덱스 4에 해당하는 셀은 문자 `L` 에 해당하며 2154, 2155를 주소로 갖는 바이트에 저장된다. 배열 내의 모든 셀은 같은 수의 바이트를 사용해야 한다. 이러한 요구조건이 만족되어야 인덱스를 통해 배열 내의 임의의 원소에 상수 시간 안에 접근하는 것이 가능하다. 예를 들어, 고정된 셀 크기를 갖고 있으며 인덱스를 지원한다면 우리는 그 주소를 $start + cellsize * index$를 통해 계산하고 바로 그 주소에 접근할 수 있을 것이다. 물론 이러한 메모리 주소의 계산은 알아서 처리되므로 프로그래머는 문자열에 대한 하이-레벨의 추상화를 알고 있기만 하면 된다.
![figure-5 3](https://user-images.githubusercontent.com/20944657/36648330-67a53c82-1ad5-11e8-8bd1-9465ffb0b3fd.png)

## 5.2.1 Referential Arrays
병원에서 각각의 침상과 그 침상에 배정된 환자를 연결지어 관리하는 상황을 생각해보자. 200개의 침상이 있으면 이를 0부터 199까지로 생각하여 각각의 침상에 대응되는 환자의 이름을 저장하는 배열을 생각할 수 있다.
```python
['Rene', 'Joseph', 'Janet', 'Jonas', 'Helen', 'Virginia', ...]
```
앞에서 말한 것을 기억한다면 배열의 셀들은 고정된 수의 바이트를 이용해야 한다는 것을 기억할 것이다. 그런데 여기서 각 셀에 해당하는 문자열의 길이는 서로 다르다. 어떻게 된 일일까? 파이썬은 내부적으로 객체 **참조(references)**들의 배열 이라는 저장 메커니즘을 이용하여 튜플이나 리스트 인스턴스를 표현한다. 즉, 리스트에 저장되는 것은 각각의 원소들이 아니라 그 원소들에 해당되는 메모리 주소들이다. 각각의 원소들은 그 크기가 다를 수 있지만 메모리 주소는 항상 고정된 수의 비트를 이용하여 표현되기 때문에 각각의 셀들은 고정된 크기를 같게 된다. 이를 그림으로 표현하면 다음과 같다.
![figure-5 4](https://user-images.githubusercontent.com/20944657/36648379-2b82ac5c-1ad6-11e8-93a3-9ae527f608d0.png)
위의 그림에서는 문자열을 이용했지만 실제 상황에서는 더 다양한 정보를 담고 있는 `Patient` 클래스를 이용하게 될 것이다. 그 경우에도 여전히 똑같은 방법으로 그 객체들에 해당되는 주소가 저장될 것이다. 또한 빈 침상을 나타내기 위해 **None** 객체에 대한 참조를 이용하는 것도 가능할 것이다.

이와 같이 리스트와 튜플이 '참조하는' 구조로 이루어져 있다는 사실은 이 클래스들의 문법에 굉장히 중요하다. 하나의 리스트가 같은 객체를 원소로서 여러번 참조하는 것도 가능하고, 하나의 객체가 둘 이상의 여러 리스트의 원소가 되는 것도 가능하다. 예를 들어 리스트의 슬라이스(slice)를 만든다면 새로운 리스트 인스턴스가 만들어지긴 하지만 그 리스트는 여전히 원래의 리스트가 참조하고 있던 그 같은 객체들을 참조하게 된다.
![figure-5 5](https://user-images.githubusercontent.com/20944657/36648523-06a8327e-1ad8-11e8-9cf9-151a10e47087.png)
그러나, 이 경우에는 리스트의 원소들이 immutable 객체들이기 때문에 두 리스트가 같은 원소를 공유한다는 것은 그렇게 중요한 사실은 아니다. 예를 들어, `temp[2] = 15`를 실행한다면 이미 존재하던 객체를 변화시키지 않고 그저 2번째 셀이 다른 객체를 참조하게 될 뿐이다.
![figure-5 6](https://user-images.githubusercontent.com/20944657/36648546-373dacfc-1ad8-11e8-914e-db0c92b01d72.png)
이는 `backup = list(primes)`와 같이 복사를 할 때도 똑같이 적용된다. 이렇게 코드를 실행하면 원래 리스트의 같은 원소를 참조하는 **얕은 복사(shallow copy)**(Section 2.6 참고)가 이루어진다. 만약 그 원소가 immutable하다면 복사가 잘 이루어지겠지만 원소가 mutable하다면 `copy` 모듈의 `deepcopy` 함수를 이용하여 **깊은 복사(deep copy)**를 해야 한다.

파이썬에서 리스트를 초기화할때 주로 이용하는 방법으로 `counters = [0]*8`이 있다. 이 문법은 원소가 모두 0인 길이가 8인 리스트를 만들어내는데, 이 때 8개의 셀은 모두 같은 객체를 참조하게 된다.
![figure-5 7](https://user-images.githubusercontent.com/20944657/36648587-bbcb6f4a-1ad8-11e8-89b1-cd342eeed765.png)

마지막 예제로 `extend`를 살펴보자. `extend`는 리스트에 있는 모든 원소를 다른 리스트의 끝에 추가할때 사용하는 명령어이다. 이 때 확장된(extended) 리스트는 이 원소들의 복사본을 받는 것이 아니라 그 원소들에 대한 참조를 넘겨받는다.
![figure-5 9](https://user-images.githubusercontent.com/20944657/36648615-074c55c4-1ad9-11e8-83c6-afa8806eb99e.png)

## 5.2.2 Compact Arrays in Python
문자열(string)은 튜플이나 리스트와 다르게 직접 문자를 저장하는 배열이다. 이렇게 직접 데이터를 나타내는 비트들을 저장하고 있는 배열의 표현 방식을 **컴팩트 배열(compact array)**라고 한다. 컴팩트 배열은 퍼포먼스의 관점에서 볼 때 참조 구조(referential structures)에 비해 여러 이점을 갖는다. 특히 중요한 것은 메모리 참조로 이루어진 배열의 저장공간을 위한 오버헤드가 없기 때문에 전체 메모리 사용량이 훨씬 낮다는 것이다. 예를 들어 100만개의 64비트 정수열을 저장하고 싶다고 하자. 이론적으로는 6400만 비트가 필요하지만 실제 파이썬 리스트는 4~5배의 메모리를 필요로 한다. 리스트의 각 원소는 64비트 메모리 주소가 되고, **int** 인스턴스는 메모리 어딘가에 저장된다. 파이썬은 `sys` 모듈의 `getsizeof` 함수를 통해 객체를 '저장하기 위해' 얼마만큼의 바이트가 이용되었는지에 대한 정보를 제공한다. 이 바이트 수와 실제 데이터를 위해 필요한 바이트 수를 더하면 그게 바로 총 바이트 수가 된다.

```python
from sys import getsizeof
a = [1,2,3]
getsizeof(a[1]) # 14 in 32bit Python
```
64비트 환경 파이썬에서 위의 코드를 실행할 경우 `int` 객체는 14바이트의 메모리를 필요로 하며, 실제 64비트 정수를 저장하기 위한 4바이트까지 하면 정수 하나당 차지하는 메모리는 18바이트가 된다. 만약 컴팩트 배열을 이용하여 정수를 표현한다면 정수 하나당 차지하는 메모리는 4바이트일 것이므로 리스트의 메모리 사용량이 훨씬 크다는 것을 알 수 있다.

또한 컴팩트한 구조의 장점은 주 데이터(primary data)가 메모리 상에 연속적으로 저장된다는 것이다. 참조 구조의 경우 그 주소가 연속적으로 저장되지, 데이터 값들이 연속적으로 저장되는 것은 아니다. 캐쉬와 메모리 계층구조의 작동방식으로 인해 이러한 연속적 데이터 저장 방식은 계산상의 이점을 갖는다. 그러나 우리는 이러한 장점에도 불구하고 자료구조와 알고리즘의 메모리 사용량에 초점을 맞춘 Chapter 15를 제외하고는 파이썬의 리스트와 튜플이 제공하는 편리함에 만족하고 그냥 리스트와 튜플을 이용할 것이다. 

컴팩트 배열을 이용하기 위해서는 `array` 모듈을 이용한다. 이 모듈은 간단한 자료형의 컴팩트 배열을 저장하기 위한 `array`라는 클래스를 제공한다. 이 클래스의 퍼블릭 인터페이스는 파이썬 `list` 클래스와 거의 유사하지만, `array` 클래스의 컨스트럭터는 배열에 저장될 데이터의 타입을 지정하는 **타입 코드(type code)**를 첫번째 파라미터로 요구한다.
```python
primes = array('i', [2,3,5,7,11,13,17,19])
```

## 5.3 Dynamic Arrays and Amortization
![figure-5 11](https://user-images.githubusercontent.com/20944657/36649243-f1953830-1ade-11e8-8ba6-2a548efe69d9.png)
컴퓨터 시스템에서 로우-레벨 배열을 만들 때는 메모리에 연속적으로 저장할 공간을 할당하기 위해서 미리 명시적으로 배열의 정확한 사이즈를 선언해줘야 한다. 그러면 배열을 확장하려면 어떻게 해야할까? 현재 배열을 저장하기 위한 연속적인 메모리 공간 옆에는 이미 시스템이 다른 데이터의 저장을 위해 메모리를 할당해뒀을 수 있으므로, 배열을 확장하는 것은 그렇게 쉬운 일이 아니다. 파이썬의 `tuple`과 `str` 인스턴스는 immutable하므로 객체가 초기화될 때 배열을 위한 사이즈를 정확히 계산하는 것이 가능하기 때문에 문제가 없다.

그러나 파이썬의 리스트 클래스는 리스트에 원소를 추가하는 것을 허용한다. 이러한 추상화를 가능하게 하기 위해서 파이썬은 **동적 배열(dynamic array)**라는 알고리즘 전략을 이용한다. 파이썬의 리스트 인스턴스는 동적 배열을 위해 현재 리스트의 길이보다 더 많은 수용능력을 갖춘 배열을 유지한다. 예를 들어 유저가 원소가 5개인 리스트를 만들 때 시스템은 8개의 원소까지 저장할 수 있는 배열을 저장한다. 그러면 이후에 빈 셀을 이용하여 원소를 추가하는 것이 쉽게 된다. 그런데 유저가 계속해서 리스트에 원소를 추가하면 수용능력이 포화상태에 이르게 된다. 그러면 `list` 클래스는 더 크고 새로운 배열을 시스템에 요구하고, 기존의 배열의 정보를 포함하여 새로운 배열을 초기화한다. 기존의 배열은 더 이상 사용되지 않으므로 시스템에 의해 회수된다. 실제로 파이썬 리스트가 이렇게 작동하는지를 살펴보자.

In [1]:
import sys
data = []

for k in range(25):
    a = len(data)
    b = sys.getsizeof(data)
    print('Length: {0:3d}; Size in bytes: {1:4d}'.format(a,b))
    data.append(None)
    

Length:   0; Size in bytes:   64
Length:   1; Size in bytes:   96
Length:   2; Size in bytes:   96
Length:   3; Size in bytes:   96
Length:   4; Size in bytes:   96
Length:   5; Size in bytes:  128
Length:   6; Size in bytes:  128
Length:   7; Size in bytes:  128
Length:   8; Size in bytes:  128
Length:   9; Size in bytes:  192
Length:  10; Size in bytes:  192
Length:  11; Size in bytes:  192
Length:  12; Size in bytes:  192
Length:  13; Size in bytes:  192
Length:  14; Size in bytes:  192
Length:  15; Size in bytes:  192
Length:  16; Size in bytes:  192
Length:  17; Size in bytes:  264
Length:  18; Size in bytes:  264
Length:  19; Size in bytes:  264
Length:  20; Size in bytes:  264
Length:  21; Size in bytes:  264
Length:  22; Size in bytes:  264
Length:  23; Size in bytes:  264
Length:  24; Size in bytes:  264


그런데 신기한 것은 비어있는 리스트가 64바이트의 메모리를 이용하고 있다는 것이다. 사실, 파이썬의 모든 객체는 그 객체가 속한 클래스로의 참조와 같은  자기 자신의 상태에 대한 정보를 갖고 있다. 리스트의 private 인스턴스 변수에 직접 접근하는 것은 불가능하지만 리스트는 다음과 비슷한 정보들을 저장하고 있다고 추측하는 것이 가능하다.

- &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;_n The number of actual elements currently stored in the list.
- _capacity The maximum number of elements that could be stored in the currently allocated array.
- &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;_A The reference to the currently allocated array (initially None).

리스트는 참조 구조이기 때문에 리스트 인스턴스에 대한 `getsizeof`의 결과는 그 구조를 표현하기 위한 사이즈만을 포함한다. 리스트의 원소에 해당하는 *객체*에 의해 사용되는 메모리는 계산하지 않는다. 위의 코드에서는 굳이 원소의 내용에 크게 신경을 쓰지 않아서 **None**을 추가했지만 다른 클래스의 인스턴스를 추가하더라도 `getsizeof`의 결과는 변하지 않을 것이다.

## 5.3.1 Implementing a Dynamic Array
파이썬 리스트 클래스가 매우 잘 최적화된 동적 배열의 구현을 제공해주긴 하지만, 어떻게 동적 배열이 구현되는지 아는 것은 도움이 된다. 동적 배열의 구현의 핵심적인 방법은 리스트의 원소를 저장하는 배열 $A$가 '성장'할 수 있는 방법을 제공해주는 것이다. 물론 배열의 수용력은 고정된 값이므로 실제로 배열을 성장시키는 것은 아니다. 리스트 내부의 배열이 꽉 찼는데도 새로운 원소가 리스트에 추가된 경우 다음의 과정이 진행된다:

1. 더 큰 수용력을 가진 배열 $B$를 할당한다.
2. Set $B[i] = A[i]$, for $i = 0, ..., n-1$, n은 현재 원소의 갯수.
3. Set $A = B$. 이제부터는 B를 리스트의 내부 배열로 이용한다.
4. 새로운 배열에 새로운 원소를 추가한다.

![figure-5 12a](https://user-images.githubusercontent.com/20944657/36650014-42d6abb6-1ae4-11e8-8b82-80f2ca8a4a00.png)
![figure-5 12b](https://user-images.githubusercontent.com/20944657/36650015-43aa4b06-1ae4-11e8-942a-51a1df444b6b.png)
![figure-5 12c](https://user-images.githubusercontent.com/20944657/36650017-44cc7d56-1ae4-11e8-9c53-a328cc5c45ef.png)



남은 문제는 새로운 배열의 사이즈를 어떻게 정할 것인가이다. 주로 사용되는 규칙은 기존 배열의 두배로 할당하는 방식이다. Section 5.3.2에서 왜 이런 규칙을 이용하는 지를 설명한다. 다음 코드에서는 파이썬에서 동적 배열을 어떻게 구현하는지를 직접 보여준다. 파이썬 리스트의 인터페이스와 일관성을 유지했지만 `append` 기능과 `__len__`, `__getitem__`의 accessor만 구현했다. `ctypes` 모듈은 이러한 로우-레벨 배열을 지원해준다. 책의 나머지 부분에서는 이러한 로우-레벨 구조를 이용하지 않을 것이므로 `ctypes` 모듈에 대한 자세한 설명은 생략한다. 

In [2]:
import ctypes

class DynamicArray:
    """A dynamic array class akin to a simplified Python list."""
    
    def __init__(self):
        """Create an empty array."""
        self._n = 0                                    # count actual elements
        self._capacity = 1                             # default array capacity
        self._A = self._make_array(self._capacity)     # low-level array
        
    def __len__(self):
        """Reutrn number of elements stored in the array."""
        return self._n
    
    def __getitem__(self, k):
        """Return element at index k."""
        if not 0 <= k < self._n:
            raise IndexError('invalid index')
        return self._A[k]                              # retrieve from array
    
    def append(self, obj):
        """Add object to end of the array."""
        if self._n == self._capacity:                  # not enough room
            self._resize(2 * self._capacity)           # so double capacity
        self._A[self._n] = obj
        self._n += 1
    
    def _resize(self, c):                              # nonpublic utility
        """Resize internal array to capacity c."""
        B = self._make_array(c)                        # new (bigger) array
        for k in range(self._n):                       # for each existing value
            B[k] = self._A[k]
        self._A = B                                    # use the bigger array
        self._capacity = c
        
    def _make_array(self, c):                          # nonpublic utility
        """Return new array with capacity c."""
        return (c * ctypes.py_object)()                # see ctypes documentation

## 5.3.2 Amortized Analysis of Dynamic Arrays
배열을 새롭고 더 큰 배열로 대체하는 전략은 대충 보기에는 $\Omega(n)$ 시간을 필요로 하는 것처럼 보이므로 굉장히 느리게 느껴진다. 그러나 주목해야할 부분은 새로운 배열의 수용력이 두배가 되므로 이 새로운 배열은 다시 교체되기 전까지 $n$개의 원소를 추가할 수 있게끔 해준다는 것이다. 즉, 한 번의 값비싼 연산을 하고 나면 여러번의 간단한 append 연산을 할 수 있게 된다. 도중에 값비싼 연산이 있긴 하지만 전체적인 실행 시간의 관점에서 보면 append 연산을 반복하는 것이 그렇게 느리지 않다는 것이다.
<img width="300" src="https://user-images.githubusercontent.com/20944657/36650674-07de8cd2-1ae8-11e8-87c8-f3f1eae651e2.png">

**amortization** 이라 불리는 알고리즘 디자인 패턴을 이용하면 동적 배열에 원소를 추가(append)하는 것이 효율적으로 이루어진다는 것을 보일 수 있다. **amortized analysis**를 위해서 컴퓨터를 코인을 넣어야 작동하는 기계로 생각하자. 즉, 정해진 수 만큼의 컴퓨팅 타임을 이용하기 위해서는 1 **사이버 달러(cyber dollar)**를 넣어야 한다고 하자. 연산이 실행되려면 우리의 "은행 계좌"에 연산의 작동 시간만큼의 값을 지불하기 위해 충분한 사이버 달러가 들어있어야 한다. 이 때 연산을 위해 사이버 달러가 얼마만큼 필요한가는 그 연산에 필요한 총 시간에 비례한다. 이러한 분석을 하는 것의 장점은 다른 연산을 위해 필요한 돈을 아끼기 위해 특정 연산에게 더 많은 돈을 청구할 수 있다는 것이다.

**Proposition 5.1:** Let S be a sequence implemented by means of a dynamic array with initial capacity one, using the strategy of doubling the array size when full. The total time to perform a series of n append operations in S, starting from S being empty, is $O(n)$

**명제 5.1:** 수용능력이 1로 시작해서 꽉 찰때마다 2배씩 늘어나는 동적 배열을 이용해서 구현된 수열을 S라 하자. 이 때 비어있는 S에 대해 n번의 덧붙이는(append) 연산을 실시할 때 걸리는 총 시간은 $O(n)$이다.

**Justification:** 배열을 늘리는데 필요한 시간을 제외하면, 하나의 `append` 연산을 위해 필요한 사이버 달러가 1달러라고 하자. 또, 배열의 크기를 $k$에서 $2k$로 늘리기 위해 새로운 배열을 초기화하는데 필요한 사이버 달러를 k달러라고 하자. 그런데 우리는 `append` 연산에 1달러를 청구하지 않고, 오버플로우를 일으키지 않는 `append` 연산에 대해서 각각 2달러씩을 추가로 청구하여 3달러를 청구할 것이다. 이 때 오버플로우가 발생한다는 것은 이미 배열의 수용능력이 포화상태에 있어서 더 이상 원소를 추가로 넣을 공간이 없는데 `append` 연산이 이루어졌을 때를 의미한다. 이제 우리는 1달러를 연산을 위해 사용하고 각각의 셀에 데이터와 함께 나머지 2달러씩을 '저장'한다. 

오버플로우는 배열 S의 사이즈가 $2^{i}$이면서 S가 $2^{i}$개의 원소를 갖고 있을 때 발생한다. 그러면 배열을 2배 늘리기 위해 필요한 사이버 달러는 $2^{i}$ 달러일 것이다. 그런데 지난번 오버플로우는 언제 발생했을 지 생각해보면, 배열의 사이즈가 $2^{i-1}$일 때 발생했을 것이라는 추론이 가능하다. 앞서 우리는 오버플로우가 발생하지 않은 셀들에 2달러씩을 저장해둔다고 했다. 그러면 $2^{i-1}$부터 $2^{i}-1$까지의 셀에는 2달러씩이 저장되있을 것이고, 아직 사용되지 않았을 것이다. 이제 우리는 $(2^{i} - 1 - 2^{i-1})*2 = 2^{i}$ 달러를 갖고 배열을 늘리는데 필요한 $2^{i-1}$ 달러를 지불할 수 있다.

정리하면, $n$번의 `append` 연산을 처리하기 위해서는 배열을 늘리는데 필요한 비용까지 고려해서 매번 3달러씩을 청구하여 총 $3n$ 달러를 청구하면 된다. 즉 각각의 `append` 연산의 amortized running time은 $O(1)$이고, n번의 연산을 필요하는데 필요한 총 시간은 $O(n)$이다.

그림을 통해서 보자. 아래의 그림을 보면 이미 수용능력이 포화상태에 이른 배열이 있고, 이 배열의 4,5,6,7 셀에는 2달러씩이 저장되어 있다.
<img width="300" src="https://user-images.githubusercontent.com/20944657/36653672-23876cb2-1afa-11e8-80ff-55db58a19a49.png">
이 때 이 배열에 `append` 연산을 한다면 8에서 16으로 배열을 늘리는데 필요한 비용을 저장되어있던 8달러로 지불하고, 다시 8셀에 새로운 원소와 함께 2달러를 저장한다.
<img width="500" src="https://user-images.githubusercontent.com/20944657/36653674-24e05682-1afa-11e8-9999-60d8ecb740c4.png">

만약 위와 같이 Geometric Progression을 이용하지 않고 Arithmetic Progression을 이용한다면 어떻게 될까? 그러면 전체 시간은 연산 수와 quadratic한 관계를 갖게 된다. 

**Proposition 5.2:** Performing a series of n append operations on an initially empty dynamic array using a fixed increment with each resize takes $\Omega(n)$ time.

**명제 5.2:** 수용능력이 1로 시작해서 꽉 찰때마다 상수 $c > 0$만큼 늘어나는 동적 배열을 이용해서 구현된 수열을 S라 하자. 이 때 비어있는 S에 대해 n번의 덧붙이는(append) 연산을 실시할 때 걸리는 총 시간은 $O(n)$이다.

**Justification:** 수용능력이 상수 $c > 0$만큼 증가할 때마다 배열의 크기 조절이 이루어진다고 하자. $n$번의 `append` 연산을 실행하기 위해서는 그 크기가 $c, 2c, 3c, ..., mc$ for $m = \lceil n/c \rceil$ 인 배열의 초기화가 이루어질 것이다. 따라서 연산을 실행하기 위해 필요한 총 시간은 $c + 2c + 3c + \cdots + mc$에 비례하게 된다. 그러면,

$$\sum_{i=1}^{m} ci = c \cdot \sum_{i=1}^{m} i = c \frac{m(m+1)}{2} \geq c \frac{\frac{n}{c}(\frac{n}{c}+1)}{2} \geq \frac{n^{2}}{2c}$$

가 되므로 $n$개의 `append` 연산은 $\Omega(n^{2})$ 만큼의 시간을 필요로 하게 된다.

## 5.3.3 Python's list Class
앞서 파이썬의 `list` 클래스가 저장을 위해 동적 배열을 이용하고 있음을 살펴본 적이 있다. 그런데 자세히 들여다보면 파이썬은 사실 순수한 형태의 geometric progression이나 arithmetic progression을 사용하지 않고 있다. 그럼에도 불구하고 파이썬의 `append` 메소드는 여전히 amortized constant-time을 갖는다. 이를 간단한 실험으로 알아보자. 한번의 `append` 연산은 너무 빨리 일어나서 시간을 측정하기가 쉽지 않지만 리사이징과 같이 비싼 연산이 실행되면 바로 그 사실을 눈치챌 수 있다. 이제 비어있는 리스트에 $n$번의 `append` 연산을 실행하여 평균 시간을 측정해보자.

```python
from time import time
def compute_average(n):
    """Perform n appends to an empty list and return average time elapsed"""
    data = []
    start = time()
    for k in range(n):
        data.append(None)
    end = time()
    return (end - start) / n
```

위의 코드를 통해 계산되는 평균 비용은 `append`에 필요한 연산 뿐 아니라 `for` 루프를 위한 오버헤드까지도 포함할 것이다. 따라서 n이 작을 때의 평균 비용이 더 큰 것은 아마도 이러한 오버헤드 때문 일 것이다. 또한 이렇게 amortized cost를 계산하면 어쩔 수 없이 variance가 생기게 되는데, 이는 n에 따라 마지막 리사이징의 영향력이 달라지기 때문이다. 그러나 전체적으로 보면 `append` 연산에 필요한 평균 시간은 `n`과 독립적임을 관찰할 수 있을 것이다.

<table>
<tr>
<td><b>n</b></td>
<td>100</td>
<td>1,000</td>
<td>10,000</td>
<td>100,000</td>
<td>1,000,000</td>
<td>10,000,000</td>
<td>100,000,000</td>
</tr>
<tr>
<td><b>μs</b></td>
<td>0.219</td>
<td>0.158</td>
<td>0.164</td>
<td>0.151</td>
<td>0.147</td>
<td>0.147</td>
<td>0.149</td>
</tr>
</table>

## 5.4 Efficiency of Python's Sequence Types
## 5.4.1 Python's List and Tuple Classes
### Nonmutating Behaviors
`list`클래스의 *nonmutating*한 동작들은 `tuple`클래스에 의해 지원되는 것들과 완벽하게 일치한다. 튜플은 immutable하기 때문에 여분의 수용능력을 갖춘 동적 배열을 만들 필요가 없고, 메모리 측면에서 훨씬 효율적이다. 리스트와 튜플 클래스의 nonmutating 동작들의 효율성은 다음과 같다.
<img width="300" src="https://user-images.githubusercontent.com/20944657/36655255-d7c65292-1b04-11e8-8b84-086c288e0c00.png">

### Constant-Time Operations
리스트나 튜플 안에 길이를 나타내는 변수가 따로 있으므로 `len(data)`는 $O(1)$이다. 메모리 주소를 통해 원소에 접근하는 것도 당연히 $O(1)$이다.

#### Searching for Ocurrences of a Value
`count`, `index`, `__contains__` 메소드는 왼쪽부터 오른쪽까지 수열 전체를 순회한다. 2.4.3에서 이 메소드들이 어떻게 작동하는지 다뤘던 적이 있다. `count`를 위해서는 반드시 전체 수열에 대한 iteration이 이루어져야 한다. 그런데 `index`나 `__contains__`는 원하는 값을 찾을 때 까지만 iteration을 진행하면 된다. 따라서 $k$를 원하는 값의 인덱스라 할 때 `count`는 $O(n)$, `index`와 `__contains__`는 $O(k+1)$이 된다.

#### Lexicographic Comparisons
두 수열의 비교는 사전편찬식(lexicographical)으로 정의된다. 최악의 경우 두 수열을 비교하는 것은 두 수열 중 더 짧은 수열의 길이에 비례한다. 그러나 특정한 경우에는 비교가 매우 효율적으로 이루어진다. 예를 들어 `[7, 3, ...] < [7, 5, ...]`에서는 리스트의 나머지 부분을 테스트하지 않고서도 왼쪽 리스트의 두번째 원소인 3이 5보다 작기 때문에 결과가 `True`임을 알 수 있다.

#### Creating New Instances
위 표의 마지막 3 항목은 하나 이상의 인스턴스를 기반으로 새로운 인스턴스를 만드는 것이다. 이 세 경우 모두에서 작동 시간은 새롭게 생성되는 결과물의 생성과 초기화에 비례하므로, 그 효율성은 결과물의 *길이*에 비례하게 된다. 예를 들어, `data[6000000:6000008]`은 고작 8개의 원소만 가질 뿐이므로 매우 빠르게 만들어지지만 `data[6000000:7000000]` 슬라이스는 100만개의 원소를 포함하므로 생성하는데 꽤나 시간이 오래 걸린다.

### Mutating Behaviors
이제 리스트의 Mutating behaviors의 효율성을 살펴보자. 우선 `data[j] = val`은 스페셜 메소드 `__setitem__`에 의해 실행되는데, 이 연산은 단순히 리스트의 한 원소를 새로운 값으로 바꾸는 것 뿐이므로 $O(1)$의 작동시간을 갖는다. 다른 원소들은 이 연산에 영향을 받지 않고 내부의 배열도 변화하지 않는다.

<img width="300" src="https://user-images.githubusercontent.com/20944657/36655552-b3c693a0-1b06-11e8-987e-7c015408824f.png">

#### Adding Elements to a List
Section 5.3에서 `append` 메소드에 대해 자세히 알아봤으므로 여기서는 간단히 복습해보자. 최악의 경우 `append`는 내부의 배열을 리사이징하므로 $Omega(n)$만큼의 시간을 필요로 한다. 그러나 amortization을 이용하여 생각하면 $O(1)$만큼을 사용한다. 이제 끝에 원소를 추가하는 `append`가 아니라 도중에 값을 삽입하는 `insert`를 살펴보자. 리스트는 $0 \geq k \geq n$인 인덱스 $k$에 주어진 값을 삽입하는 `insert(k,value)` 메소드를 지원한다. 설명을 위해 이 메소드가 어떻게 구현되는지 살펴보자.

```python
def insert(self, k, value):
    """Insert value at index k, shifting subsequent values rightward."""
    # (for simplicity, we assume 0 <= k <= n in this version)
    if self._n == self._capacity:               # not enough room
        self._resize(2 * self._capacity)        # so double capacity
    for j in range(self._n, k, -1):             # shift rightmost first
        self._A[j] = self._A[j-1]
    self._A[k] = value                          # store newest element
    self._n += 1
```

역시나 `append`와 마찬가지로 리사이징이 필요한 경우가 생긴다. 그러면 $Omega(n)$ 만큼의 시간이 필요하지만 역시나 amortized time으로 생각하면 $O(1)$만큼의 시간이 걸린다. `insert`에서 추가적으로 고려해야할 비용은 새로운 원소의 자리를 만들기 위해 기존의 원소들을 다 옮길 때 생기는 비용이다. 그런데, 어느 인덱스에 새로운 값을 끼워넣을 것인지에 따라 얼마나 많은 다른 원소들의 자리를 옮겨야 할 지가 달라지므로 이 비용은 `index`에 의존하게 된다. 자세히 살펴보면, $n-1$을 $n$으로, $n-2$를 $n-1$로, ... , $k$를 $k+1$로 옮기므로 인덱스 $k$에 값을 삽입하는 것은 amortized $O(n-k+1)$ 퍼포먼스를 갖게 된다.
<img width="500" src="https://user-images.githubusercontent.com/20944657/36655862-94375a2c-1b08-11e8-9cff-07b3ae93e4c3.png">

`append` 때와 마찬가지로 평균 시간을 측정하면 다음과 같은 결과를 얻을 수 있다.
<img width="500" src="https://user-images.githubusercontent.com/20944657/36655908-e60f5c5a-1b08-11e8-929e-beef821af239.png">

#### Removing Elements from a List
파이썬 `Lkist` 클래스는 리스트에서 원소를 삭제하기 위한 여러가지 방법을 제공한다. `pop()`을 호출하면 리스트에서 마지막 원소가 제거된다. `pop()`은 마지막 원소만 삭제하고 다른 위치의 원소들은 건드리지 않으므로 $O(1)$ 연산이 된다. 주의할 점은 $O(1)$이 amortized bound라는 점이다. 동적 배열에서 계속해서 원소를 삭제하다보면 메모리를 절약하기 위해 파이썬에서 가끔씩 배열을 축소시키기 때문이다.

`pop(k)`는 인덱스 $k \gt n$에 해당하는 원소를 리스트에서 제거하고 나머지 원소들을 왼쪽으로 이동시킨다. 이 연산의 효율성은 $O(n-k)$인데, 얼마나 많은 원소를 옮겨야 할 지가 $k$에 의존하기 때문이다.
<img width="500" src="https://user-images.githubusercontent.com/20944657/36656110-10078996-1b0a-11e8-9f2a-092e3c136f6d.png">

`list` 클래스는 삭제할 *값(value)*을 지정할 수 있는 `remove` 메소드를 지원한다. `remove` 메소드는 왼쪽에서 시작해서 가장 먼저 만나게 되는 값을 삭제하고, 만약 그 값을 찾지 못한다면 `ValueError`를 발생시킨다. 신기한 것은 `remove` 메소드에는 "효율적인" 케이스가 아예 존재하지 않는다. 이 메소드는 왼쪽부터 시작하여 인덱스 $k$에서 값을 찾을 때까지 탐색을 하고, 인덱스 $k+1$부터 오른쪽 끝까지 원소들을 왼쪽으로 이동시킨다. 따라서 `remove` 메소드는 항상 $\Omega(n)$을 필요로 한다. 다음은 `remove` 메소드를 구현한 파이썬 코드이다. 

```python
def remove(self, value):
    """Remove first occurence of value (or raise ValueError)."""
    # note: we do not consider shrinking the dynamic array in this version
    for k in range(self._n):
        if self._A[k] == value:                               # found a match!
            for j in range(k, self._n - 1):                   # shift others to fill gap
                self._A[j] = self._A[j+1]
            self._A[self._n - 1] = None                       # help garbage collection
            self._n -= 1                                      # exit immediately
            return
        return ValueError('value not found')                  # only reached if no match
```

#### Extending a List
파이썬은 한 리스트의 모든 원소를 다른 리스트에 추가하는 `extend` 메소드를 지원한다. `data.extend(other)`은 다음의 코드를 실행하는 것과 똑같은 결과를 낸다.
```python
for element in other:
    data.append(element)
```
둘 중 어떤 방법을 이용하던 간에 작동 시간은 다른 리스트의 길이에 비례하고, 첫번째 리스트의 내부 배열이 모든 원소들을 포함하기 위해 리사이징되어야 하는 경우가 있으므로 amortized bound가 된다. 따라서 두 방법 사이에 별로 차이가 없어 보이지만, 실제로 사용할 때는 `extend` 메소드를 이용하는 것이 `append`를 여러번 이용하는 것보다 낫다. 그 이유는 크게 세가지이다. 첫째, 파이썬 내부에 특정 목적을 위해 구현된 메소드가 있다면 그 메소드를 이용하는 것이 좋다. 이런 메소드들은 종종 C와 같은 컴파일 언어로 구현이 되어 있어 빠르게 작동하기 때문이다. 둘째, 여러번 함수를 호출하는 것보다 한번 함수를 호출하는 것이 오버헤드가 적다. 마지막으로, `extend`를 이용할 경우 최종 결과의 사이즈를 미리 계산하는 것이 가능하기 때문에 리사이징을 한번만 하는 것이 가능하다. 만약 `append`를 이용할 경우 여러번 리사이징하는 경우가 생겨서 비효율적일 수 있다

#### Constructing New Lists
새로운 리스트를 만들기 위한 여러가지 문법이 있지만 거의 대부분의 경우 그 효율성은 만들어지는 리스트의 길이에 비례한다. 그러나 `extend`의 사례에서 봤듯이 실제로 그 효율성이 어떻게 되느냐에는 큰 차이가 있을 수 있다. 예를 들어 `append`를 반복해서 리스트를 만드는 경우와 **list comprehension**을 이용해서 리스트를 만드는 경우를 비교하면 list comprehension이 훨씬 빠르다.
```python
# list comprehension
squares = [k*k for k in range(1, n+1)]

# append
squares = []
for k in range(1, n+1):
    squares.append(k*k)
```

참고로, 파이썬에서 리스트를 초기화할때 `[0] * n`을 자주 이용한다. 이는 간단해서 좋을 뿐 아니라 리스트의 길이를 하나씩 늘리는 방법보다 훨씬 효율적이다.

## 5.4.2 Python's String Class
문자열은 파이썬에서 매우 중요하다. 문자열에는 다양한 메소드가 있지만 그 중 몇가지에 대해서만 알아보자. 문자열의 길이를 $n$이라 하고, 만약 다른 문자열이 또 필요하다면 그 문자열의 길이는 $m$이라 할 것이다. 사실 문자열의 메소드를 분석하는 것은 꽤나 직관적인 일이다. 예를 들어, 새로운 문자열을 만드는 메소드(e.g., `capitalize`, `center`, `strip`)의 시간은 새로 만들어지는 문자열의 길이에 비례한다. 또, 문자열을 테스트하는 함수(e.g., `islower`)는 최악의 경우 $n$개의 문자를 모두 비교해야 하므로 $O(n)$의 시간이 필요하다. 비교 연산(e.g.,$==$, $\lt$)도 마찬가지로 $O(n)$이 필요하다.

#### Pattern Matching
알고리즘적 측면에서 볼때 가장 흥미로운 동작(behavior)들은 `__contains__`, `find`, `index`, `count`, `replace`, `split` 메소드와 같이 긴 문자열 안에서 문자열 패턴을 찾는 것에 의존하는 것들이다. 문자열 알고리즘은 Chapter 13의 주제가 될 것이고, **패턴 매칭(pattern matching)** 문제는 Section 13.2의 주제가 될 것이다. 만약 단순하게 알고리즘을 짠다면 $n - m + 1$개의 가능한 시작 인덱스가 있고 각각에 대해서 $O(m)$의 시간이 필요하므로 $O(mn)$ 만큼의 시간이 필요하게 될 것이다. 그러나 Section 13.2에서는 길이가 n인 문자열 안에서 길이가 m인 패턴을 찾는 데에는 $O(n)$만큼의 시간으로도 충분함을 보일 것이다.

#### Composing Strings
마지막으로, 여러 문자열을 합치는 방법에 대해 생각해보자. 우리가 `document`라는 이름을 가진 문자열을 갖고 있고, 목표는 원래의 문자열에서 다른 문자들(여백, 숫자, 구두점 등)을 제외하고 알파벳 문자만 포함하는 새로운 문자열 `letters`를 만드는 것이라고 하자. 다음과 같이 코드를 짜면 되지 않을까 생각할 수도 있다.
```python
# WARNING: do not do this
letters = ''                # start with empty string
for c in document:
    if c.isalpha():
        letters += c        # concatenate alphabetic character
```
위의 코드는 작동은 하지만 어마어마하게 비효율적이다. 알다시피 문자열은 immutable하기 때문에 `letters += c` 코드를 실행할 때 파이썬에서는 새로운 문자열 `letters + c`를 만들고 이를 `letters`에 할당한다. 이 때 새로운 문자열을 만드는데 걸리는 시간이 그 길이에 비례하므로, 위 코드의 실행 시간은 $1 + 2 + 3 + ... + n$으로, $O(n^{2})$가 된다.

파이썬을 쓰는 사람 중 많은 사람들이 위와 같은 비효율적인 코드를 작성하는데, 겉으로 보기에는 += 연산이 굉장히 자연스럽게 이루어질 것처럼 보이기 때문이다. 이러한 이유로 이후에 등장한 일부 파이썬 인터프리터들은 위의 코드가 $O(n)$안에 실행되게끔 최적화를 구현했지만, 모든 인터프리터가 지원하는 것은 아니다. 그러면 어떻게 최적화가 이루어질까? 파이썬에서 `letters += c`가 새로운 문자열 인스턴스를 만드는 이유는 프로그램 내에서 다른 변수가 원래의 `letters`가 참조하던 문자열을 참조하고 있다면 그 원래의 문자열에 변화가 생겨서는 안되기 때문이다. 그런데 만약 파이썬이 그 문자열에 대한 다른 참조가 존재하지 않는다는 것을 알 수만 있다면 문자열을 동적 배열로 바꿔서 효율적으로 +=를 구현하는 것이 가능할 것이다. 사실 파이썬 안에는 각 객체에 대해서 **참조 카운트(reference counts)**라는 것이 존재한다. 이 참조 카운트는 가비지 콜렉션(garbage collection)에 이용되지만 여기서는 최적화를 위해 문자열에 대한 다른 참조가 존재하는지 판단하기 위한 수단으로 이용할 수 있다.

위와 같은 최적화를 이용하지 않고 문자열을 $O(n)$에 합치는 더 표준적인 방법은 문자들을 저장하는 `list` 인스턴스를 만들고 `str` 클래스의 `join` 메소드를 이용하는 방법이다. 
```python
temp = []                  # start with empty list
for c in document:
    if c.isalpha():
        temp.append(c)     # append alphabetic character
letters = ''.join(temp)    # compose overall result
```
이미 봤다시피, $n$번의 연속적인 `append` 연산의 실행은 $O(n)$이 필요하다. 또, `join` 메소드도 $O(n)$ 안에 실행된다. 따라서 위의 방법을 이용하면 $O(n)$ 안에 문자열을 합치는 것이 가능하다. 사실 임시 리스트를 만드는 데 리스트 컴프리헨션을 이용하면 작동 시간을 더 줄일 수 있다.
```python
letters = ''.join([c for c in document if c.isalpha()])
```
리스트 컴프리헨션이 아니라 제너레이터 컴프리헨션을 이용하면 아예 임시 리스트를 만들지 않아 더 효율적이다.
```python
letters = ''.join(c for c in document if c.isalpha())
```

## 5.5 Using Array-Based Sequences
### 5.5.1 Storing High Scores for a Game
비디오 게임을 위해 최고 점수를 저장하는 예제를 다룬다. 자세한 설명은 생략하고 코드와 그림만 넣어보았다.

In [3]:
class GameEntry:
    """Represents one entry of a list of high scores."""
    
    def __init__(self, name, score):
        self._name = name
        self._score = score
        
    def get_name(self):
        return self._name
    
    def get_score(self):
        return self._score
    
    def __str__(self):
        return '({0}, {1})'.format(self._name, self._score) # e.g., '(Bob, 98)'

<img width="700" src="https://user-images.githubusercontent.com/20944657/36658619-c3caf846-1b14-11e8-98de-11f0146a9ee7.png">

In [4]:
class Scoreboard:
    """Fixed-length sequence of high scores in nondecreasing order."""
    
    def __init__(self, capacity=10):
        """Initialize scoreboard with given maximum capacity.
        
        All entries are initially None.
        """
        self._board = [None] * capacity             # reserve space for future scores
        self._n = 0                                 # number of actual entries
        
    def __getitem__(self, k):
        """Return entry at index k."""
        return self._board[k]
    
    def __str__(self):
        """Return string representation of the high score list."""
        return '\n'.join(str(self._board[j]) for j in range(self._n))
    
    def add(self, entry):
        """Consider adding entry to high scores."""
        score = entry.get_score()
        
        # Does new entry qualify as a high score?
        # answer is yes if board not full or scores is higher than last entry
        good = self._n < len(self._board) or score > self._board[-1].get_score()
        
        if good:
            if self._n < len(self._board):          # no score drops from list
                self._n += 1                        # so overall number increases
                
            # shift lower scores rightward to make room for new entry
            j = self._n - 1
            while j > 0 and self._board[j-1].get_score() < score:
                self._board[j] = self._board[j-1]   # shift entry from j-1 to j
                j -= 1                              # and decrement j
            self._board[j] = entry                  # when done, add new entry

<img width="700" src="https://user-images.githubusercontent.com/20944657/36658966-2ae395a0-1b16-11e8-9a8d-cea9b183d23a.png">

### 5.5.2 Sorting a Sequence
이전에 `insert`에서 특정 위치에 원소를 넣고 나머지 원소들을 이동시켰던 적이 있다. 이번엔 비슷한 방법을 이용해서 **정렬** 문제를 푸는 법을 다룬다. Chapter 12에서 여러 정렬 알고리즘을 공부할 예정이지만 여기서 맛보기로 **insertion-sort**를 다뤄보자. 역시 자세한 설명은 생략하고 코드와 그림만 넣어보았다.
**Algorithm** DiskUsage(path):<br>
&nbsp;&nbsp;&nbsp;&nbsp;**Input:** An array A of n comparable elements<br>
&nbsp;&nbsp;&nbsp;&nbsp;**Output:** The array A with elements rearranged in nondecreasing order<br>
&nbsp;&nbsp;&nbsp;&nbsp;**for** k from 1 to n - 1 **do**<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;insert A[k] at its proper location within A[0], A[1], ..., A[k].<br>

In [6]:
def insertion_sort(A):
    """Sort list of comparable elements into nondecreasing order."""
    for k in range(1, len(A)):
        cur = A[k]
        j = k
        while j > 0 and A[j-1] > cur:
            A[j] = A[j-1]
            j -= 1
        A[j] = cur

<img width="800" src="https://user-images.githubusercontent.com/20944657/36663700-bf04752e-1b25-11e8-9fe1-96f1fbc01d7f.png">
### 5.5.3 Simple Cryptography
암호학의 간단한 예제인 **시저 암호(Caesar cipher)**를 구현해보자.
<img width="800" src="https://user-images.githubusercontent.com/20944657/36664465-204e43e4-1b28-11e8-97a2-c658f8871484.png">

In [7]:
class CaesarCipher:
    """Class for doing encryption and decryption using a Caesar cipher."""
    
    def __init__(self, shift):
        """Construct Caesar cipher using given integer shift for rotation."""
        encoder = [None] * 26                           # temp array for encryption
        decoder = [None] * 26                           # temp array for decrpytion
        for k in range(26):
            encoder[k] = chr((k + shift) % 26 + ord('A'))
            decoder[k] = chr((k - shift) % 26 + ord('A'))
        self._forward = ''.join(encoder)                # will store as string
        self._backward = ''.join(decoder)               # since fixed
        
    def encrypt(self, message):
        """Return string representing encrypted message."""
        return self._transform(message, self._forward)
    
    def decrypt(self, secret):
        """Return decrpyted message given encrypted secret."""
        return self._transform(secret, self._backward)
    
    def _transform(self, original, code):
        """Utility to perform transformation based on given code string."""
        msg = list(original)
        for k in range(len(msg)):
            if msg[k].isupper():
                j = ord(msg[k]) - ord('A')             # index from 0 to 25
                msg[k] = code[j]                       # replace this character
        return ''.join(msg)
if __name__ == '__main__':
    cipher = CaesarCipher(3)
    message = "THE EAGLE IS IN PLAY; MEET AT JOE'S."
    coded = cipher.encrypt(message)
    print('Secret: ', coded)
    answer = cipher.decrypt(coded)
    print('Message:', answer)

Secret:  WKH HDJOH LV LQ SODB; PHHW DW MRH'V.
Message: THE EAGLE IS IN PLAY; MEET AT JOE'S.


## 5.6 Multidimensional Data Sets
이제 일차원 데이터인 튜플, 리스트, 문자열이 아니라 2차원 배열인 **행렬**을 다루는 법을 알아보자. 파이썬에서 2차원 데이터를 표현하는 방법은 리스트의 리스트를 만드는 것이다. 특히, 우리는 행(row)들의 리스트로 2차원 배열을 표현한다.
```python
data = [[22, 18, 709, 5, 33], [45, 32, 830, 120, 750], [4, 880, 45, 66, 61]]
```

### Constructing a Multidimensional List
일차원 리스트를 빠르게 초기화하기 위해 우리는 주로 `data = [0] * n`과 같은 문법을 이용한다. 우리는 이미 기술적인 관점에서 이러한 코드가 n개 원소가 모두 같은 정수 인스턴스를 참조하는 리스트를 만든다는 것을 본 적이 있다. 그런데 이 경우에는 정수 클래스가 immutable하기 때문에 이렇게 aliasing을 하는 것이 큰 의미를 갖지는 않는다.

그런데 리스트의 리스트를 만들 때에는 좀 더 주의해야 할 필요가 생긴다. 만약 모든 원소가 0이라는 정수 인스턴스를 참조하는 2차원 리스트를 만들고 싶을 때 다음과 같이 코드를 짜면 안된다.
```python
data = ([0] * c) * r       # Warning: this is a mistake
```
위 코드를 실행하면 원소의 갯수가 $r \cdot c$인 1차원 리스트가 나온다. 왜 그럴까? `([0] * c)`가 c개의 0으로 이루어진 리스트인 것은 맞다. 그러나 `[2,4,6] * 2`를 실행하면 `[2,4,6,2,4,6]`이 나온다는 것을 생각하면 왜 2차원 리스트가 아니라 1차원 리스트가 생성되는지 알 수 있을 것이다. 

따라서 좀 더 낫지만 여전히 문제를 갖고 있는 다음의 방법은, $c$개의 0으로 이루어진 리스트를 원소로 갖는 리스트를 만들어 $r$을 곱하는 방법이다.
```python
data = [[0] * c] * r       # Warning: still a mistake
```
원하던 대로 리스트의 리스트를 만드는 데에 성공했는데 왜 여전히 문제가 있다고 하는 걸까? 이는 `data` 리스트에 포함된 $r$개의 원소가 모두 동일하게 $c$개의 0으로 이루어진 리스트의 인스턴스를 참조하고 있기 때문이다. 예를 들어 `data = [[0] * 6] * 3` 를 실행하면 밑의 그림과 같은 상황이 된다.

<img width="500", src="https://user-images.githubusercontent.com/20944657/36665466-fc52d9ac-1b2a-11e8-8f94-ba4dd202cd34.png">

위의 경우 만약 `data[2][0] = 100`을 실행하면 `data[0][0]`과 `data[1][0]`의 값 모두 100으로 변하게 될 것이므로 문제가 된다. 2차원 리스트를 제대로 초기화하기 위해서는 리스트를 원소로 하는 바깥 리스트의 각 셀들이 각각 독립적인 리스트 인스턴스를 참조하게끔 신경을 써야한다. 이는 다음의 코드를 통해 가능하다.
```python
data = [[0] * c for j in range(r)]
```
<img width="700", src="https://user-images.githubusercontent.com/20944657/36665657-816b6316-1b2b-11e8-94b7-70b1b3658bc7.png">

### Two-Dimensional Arrays and Positional Games
#### Tic-Tac-Toe
틱택토 게임을 구현해보자. 역시나 자세한 설명은 생략한다.

In [8]:
class TicTacToe:
    """Management of a Tic-Tac-Toe game (does not do strategy)."""
    
    def __init__(self):
        """Start a new game."""
        self._board = [[' '] * 3 for j in range(3) ]
        self._player = 'X'
        
    def mark(self, i, j):
        """Put an X or O mark at position (i,j) for next player's turn."""
        if not (0 <= i <= 2 and 0 <= j <= 2):
            raise ValueError('Invalid board position')
        if self._board[i][j] != ' ':
            raise ValueError('Board position occupied')
        if self.winner() is not None:
            raise ValueError('Game is already complete')
        self._board[i][j] = self._player
        if self._player == 'X':
            self._player = 'O'
        else:
            self._player = 'X'
    
    def _is_win(self, mark):
        """Check whethere the board configuration is a win for the given player."""
        board = self._board
        return (mark == board[0][0] == board[0][1] == board[0][2] or    # row 0
                mark == board[1][0] == board[1][1] == board[1][2] or    # row 1
                mark == board[2][0] == board[2][1] == board[2][2] or    # row 2
                mark == board[0][0] == board[1][0] == board[2][0] or    # column 0
                mark == board[0][1] == board[1][1] == board[2][1] or    # column 1
                mark == board[0][2] == board[1][2] == board[2][2] or    # column 2
                mark == board[0][0] == board[1][1] == board[2][2] or    # diagonal 
                mark == board[0][2] == board[1][1] == board[2][0])      # rev diag 
    
    def winner(self):
        """Return mark of winning player, or None to indicate a tie"""
        for mark in 'XO':
            if self._is_win(mark):
                return mark
        return None
    
    def __str__(self):
        """Return string representation of current game board."""
        rows = ['|'.join(self._board[r]) for r in range(3)]
        return '\n-----\n'.join(rows)

In [9]:
game = TicTacToe()
game.mark(1,1)
game.mark(0,2)
game.mark(2,2)
game.mark(0,0)
print(game)

O| |O
-----
 |X| 
-----
 | |X
