# Part II. 파이썬 기초 정복
# 3장 자료형과 자료구조
> 나쁜 프로그래머는 코드를 걱정한다.  좋은 프로그래머는 자료구조와 그 관계에 대해 걱정한다.
  -리누스 토르발스(Linus Torvalds)


## 3.1 기본 자료형
파이썬은 동적 자료형(dynamically typed)을 가진 언어입니다. 즉, 실행 시에 파이썬 인터프리터가 객체의 자료형을 결정합니다. 반면, C와 같은 언어는 정적 자료형(statically typed)을 가지며 컴파일 이전에 이미 객체마다 자료형이 결정되어 있습니다.

### 3.1.1 정수
정수형 `int`는 가장 기본적인 자료형입니다.

In [1]:
a = 10
type(a)

int

`type` 함수는 표준 자료형과 사용자가 새로 생성한 클래스를 포함한 모든 객체의 자료형 정보를 보여줍니다. 사용자가 생성한 클래스일 경우 클래스 안에 저장한 정보에 기반해 자료형 정보를 보여줍니다.  
'파이썬에서 모든 것은 객체다'라는 말이 있습니다. 이는 방금 우리가 생성한 정수형 객체와 같이 지극히 간단한 객체조차도 내장 메서드를 가지고 있음을 말합니다. 예를 들어, 정수형 객체를 메모리상에서 표현하는 데 필요한 비트 수는 `bit_length()` 메서드를 호출해서 구할 수 있습니다.

In [2]:
a.bit_length()

4

숫자가 커질수록 객체에 필요한 비트 수가 커지는 것을 확인할 수 있습니다.

In [3]:
a = 100000
a.bit_length()

17

클래스와 객체가 지닌 메서드의 수는 굉장히 많아서 메서드를 모두 외우는 것은 어렵습니다. IPython과 진보된 형태의 파이썬 개발 환경에서는 탭 키를 눌렀을 때 객체가 가진 메서드 등을 보여주는 자동완성 기능이 있습니다. 객체 이름을 입력하고 점을 찍은 후 탭 키를 누르면 그 객체가 가진 메서드 목록이 나타납니다. 파이썬 정수형의 특징은 크기 제한이 없다는 점입니다. 예를 들어 구골($10^{100}$)과 같은 큰 수도 파이썬에서는 문제 없이 사용할 수 있습니다.

In [4]:
googol = 10 ** 100
googol.bit_length()

333

> **TIP** 큰 정수  
파이썬의 정수 크기는 제한이 없습니다. 파이썬 인터프리터는 숫자를 표시하기 위해 필요한 만큼의 비트/바이트를 얼마든지 사용할 수 있습니다.  


정수의 산술 연산을 구현하는 것은 아주 쉽습니다.

In [5]:
1 + 4

5

In [6]:
1 / 4

0.25

In [7]:
type(1 / 4)

float

### 3.1.2 부동소수점 (floating point)
위 스크립트 중 마지막 표현식(1 / 4)은 0.25라는 수학적으로 올바른 답을 반환합니다. 이 답은 부동소수점 자료형입니다. 정수형 값에 `1.`이나 `1.0`과 같이 소수점을 붙이면 파이썬은 이를 부동소수점 객체로 인식합니다. 부동소수점을 포함한 식은 일반적으로 부동소수점을 반환합니다.

In [8]:
1.6 / 4

0.4

In [9]:
type(1.6 / 4)

float

부동소수점은 유리수나 실수를 컴퓨터로 표현한 것이지만 정확한 값이 아니라 수치 오차가 있을 수 있으며 그 오차값도 기술적인 방식에 따라 달라질 수 있습니다. 다음 코드의 `b`를 예로 들면, 이런 부동소수점 객체는 항상 특정한 값 이하의 오차를 갖습니다. `b` 값에 `0.1`을 더해보면 이 점이 확실해집니다.

In [10]:
b = 0.35
type(b)

float

In [11]:
b + 0.1

0.44999999999999996

이러한 오차가 발생하는 이유는 부동소수점이 내부적으로 이진법을 사용하기 때문입니다. 예를 들어 0과 1 사이의 숫자는 $n = \frac{x}{2} + \frac{y}{4} + \frac{z}{8} + \cdots$와 같은 형식으로 표현됩니다. 숫자에 따라서는 유한 개의 분수의 합으로는 표현하지 못하는 무한수열이 될 수도 있습니다. 그러나 컴퓨터에서 사용할 수 있는 비트 수는 한정되어 있기 때문에 결과적으로는 부정확한 값을 가지게 됩니다. 값에 따라서는 운 좋게 유한 개의 비트로 표현이 가능해서 정확한 값을 가질 수도 있습니다. 다음 예를 보죠.

In [12]:
c = 0.5
c.as_integer_ratio()

(1, 2)

0.5는 이진법으로 표현할 수 있으므로 정확하게 저장할 수 있습니다. 그러나 0.35와 같은 숫자는 예상한 $0.35=\frac{7}{20}$과는 다른 결과가 나옵니다.

In [13]:
b.as_integer_ratio()

(3152519739159347, 9007199254740992)

정밀도는 그 수를 표현하기 위해 사용된 비트 수에 따라 달라집니다. 일반적으로 파이썬은 모든 플랫폼에서 부동소수점 내부 표현 방식으로 IEEE 754 배정도 표준을 사용합니다. 이는 15자리 상대정확도를 가집니다.  
이 주제는 특히 금융 분야에서 중요하기 때문에 되도록이면 정확한 숫자 표현을 사용할 필요가 있습니다. 예를 들어 많은 숫자의 합계를 구하는 경우에 숫자 표현의 방식이나 정밀도에 따라 합계 오차가 심각하게 커질 수도 있습니다.  
`decimal` 모듈을 사용하면 부동소수점을 임의의 정밀도로 표시할 수 있습니다. 또 이러한 숫자를 다룰 때 발생하는 정밀도와 관련된 문제를 처리하기 위한 옵션도 있습니다.

In [14]:
import decimal
from decimal import Decimal

In [15]:
decimal.getcontext()

Context(prec=28, rounding=ROUND_HALF_EVEN, Emin=-999999, Emax=999999, capitals=1, clamp=0, flags=[], traps=[InvalidOperation, DivisionByZero, Overflow])

In [16]:
d = Decimal(1) / Decimal(11)
d

Decimal('0.09090909090909090909090909091')

`Context` 객체의 속성값을 바꾸면 숫자 표현 정밀도를 바꿀 수 있습니다.

In [17]:
decimal.getcontext().prec = 4 # 디폴트보다 낮은 정밀도

In [18]:
e = Decimal(1) / Decimal(11)
e

Decimal('0.09091')

In [19]:
decimal.getcontext().prec = 50 # 디폴트보다 높은 정밀도

In [20]:
f = Decimal(1) / Decimal(11)
f

Decimal('0.090909090909090909090909090909090909090909090909091')

이런 방식으로 필요에 따라 주어진 문제에 맞게 정밀도를 조절하면 됩니다. 서로 다른 정밀도를 가진 부동소수점에 대해 산술 연산을 하는 것도 가능합니다.

In [21]:
g = d + e + f
g

Decimal('0.27272818181818181818181818181909090909090909090909')

> **TIP** 임의 정밀도 부동소수점  
`decimal` 모듈은 임의 정밀도 부동소수점 객체를 제공한다. 금융 분야에서는 때떄로 64비트 배정도 표준보다 높은 정밀도가 필요한 경우도 있을 수 있습니다.

### 3.1.3 불리언
프로그래밍에서는 (`4 > 3`, `(4 > 3) and (3 > 2)`) 같은 비교나 논리 연산을 해서 `True` 혹은 `False`라는 값을 출력으로 얻습니다. 이 값은 `def`, `for`, `if`와 같은 파이썬 키워드에 해당합니다. 파이썬의 전체 키워드 목록은 `keyword` 모듈을 사용해서 볼 수 있습니다.

In [22]:
import keyword

In [23]:
keyword.kwlist

['False',
 'None',
 'True',
 '__peg_parser__',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']

`True`와 `False`는 불리언 값(Boolean value)을 뜻하는 `bool` 자료형입니다. 다음 코드에서는 파이썬의 비교 연산자를 적용한 여러 가지 예를 보여줍니다.

In [24]:
4 > 3

True

In [25]:
type(4 > 3)

bool

In [26]:
type(False)

bool

In [27]:
4 >= 3

True

In [28]:
4 < 3

False

In [29]:
4 <= 3

False

In [30]:
4 == 3

False

In [31]:
4 != 3

True

논리 연산을 불리언 객체에 적용하면 불리언 객체를 얻을 수 있습니다.

In [32]:
True and True

True

In [33]:
True and False

False

In [34]:
False and False

False

In [35]:
True or True

True

In [36]:
True or False

True

In [37]:
False or False

False

In [38]:
not True

False

In [39]:
not False

True

In [40]:
(4 > 3) and (2 > 3)

False

In [41]:
(4 == 3) or (2 != 3)

True

In [42]:
not (4 != 4)

True

In [43]:
(not (4 != 4)) and (2 == 3)

False

불리언 값의 응용 분야는 `if`와 `while`과 같은 파이썬 키워드와 같이 코드 흐름을 제어하는 것입니다(이 장 후반부에서 더 많은 예제를 볼 수 있습니다).

In [44]:
if 4 > 3:
    print('condition true')

condition true


In [45]:
i = 0
while i < 4:
    print('condition true, i =', i)
    i += 1

condition true, i = 0
condition true, i = 1
condition true, i = 2
condition true, i = 3


파이썬은 수치적으로 `False` 값에 0을, `True` 값에 1을 대응시킵니다. 숫자를 불리언 객체로 바꿀 때는 `bool()` 함수를 사용합니다. 0을 넣으면 `False`, 다른 숫자를 넣으면 `True`를 반환합니다.

In [46]:
int(True)

1

In [47]:
int(False)

0

In [48]:
float(True)

1.0

In [49]:
float(False)

0.0

In [50]:
bool(0)

False

In [51]:
bool(0.0)

False

In [52]:
bool(1)

True

In [53]:
bool(10.5)

True

In [54]:
bool(-2)

True

### 3.1.4 문자열
지금까지 배운 내용으로 정수와 부동소수점을 표현할 수 있게 되었습니다. 다음으로 다룰 파이썬의 기본 자료형은 글자를 표현하는 문자열인 `str` 자료형입니다. 문자열 객체는 유용한 내장 메서드가 많습니다. 사실 종류나 크기에 상관없이 텍스트 파일을 다루는 일이라면 파이썬을 사용하는 것이 좋은 선택입니다. 문자열 객체는 큰따옴표, 작은따옴표로 정의하거나 `str()` 함수를 사용하여 다른 자료형 객체를 문자열로 변환하여 만듭니다(`str()` 함수를 이용한 변환 시에는 객체가 가진 표준 방식이나 사용자가 정의한 방식으로 문자열이 생성됩니다).

In [55]:
t = 'this is a string object'

여러 가지 문자열 메서드 중에서 첫 번째 글자만 대문자로 만드는 메서드를 사용해봅시다.

In [56]:
t.capitalize()

'This is a string object'

문자열을 단어별로 나누어 리스트 객체로 만들 수도 있습니다(리스트 객체에 대해서는 곧 설명할 것입니다).

In [57]:
t.split()

['this', 'is', 'a', 'string', 'object']

특정한 단어가 처음으로 나타나는 위치(인덱스)를 알아낼 수도 있어서 해당 단어를 검색할 수 있습니다.

In [58]:
t.find('string')

10

만약 찾으려는 단어가 문자열 객체 내에 없다면 이 메서드는 `-1`을 반환합니다.

In [59]:
t.find('Python')

-1

문자열 내의 특정한 글자를 치환하려면 `replace()` 메서드를 사용합니다.

In [60]:
t.replace(' ', '|')

'this|is|a|string|object'

때로는 문자열 앞뒤 특정 문자를 없애야 할 경우도 있습니다.

In [61]:
'http://www.python.org'.strip('htp:/')

'www.python.org'

아래 표는 문자열 객체가 가진 몇 가지 유용한 메서드 목록입니다.  

|메서드|인수|반환값/결과|
|---|---|---|
|`captialize`|`()`|문자열의 첫 번째 문자를 대문자로 바꾼 문자열|
|`count`|`(sub[, start[, end]])`|문자열이 나타난 횟수|
|`decode`|`([encoding[, errors]])`|문자열을 디코딩한 결과|
|`encode`|`([encoding[, errors]])`|문자열을 인코딩한 결과|
|`find`|`(sub[, start[, end]])`|특정 문자열이 처음으로 나타난 위치|
|`join`|`(seq)`|시퀀스 `seq`의 문자열을 이어 붙인 문자열|
|`replace`|`(old, new[, count])`|문자열 `old`를 처음부터 `count` 수만큼 문자열 `new`로 치환|
|`split`|`([sep[, maxsplit]])`|문자열을 `sep` 구분자로 구분한 리스트|
|`splitlines`|`([keepends])`|문자열을 개행 구분자로 구분한 리스트. `keepends` 값이 `True`이면 개행 구분자를 남겨놓습니다.|
|`strip`|`(chars)`|문자열 앞뒤에서 `chars` 글자를 없앤 문자열|
|`upper`|`()`|모든 문자를 대문자로 변환한 문자열|  

> **CAUTION**_ 유니코드 문자열   
이 책의 초판에서 사용한 파이썬 2.7과 2판에서 사용한 파이썬 3.7의 근본적인 차이는 문자열 객체의 인코딩/디코딩과 유니코드의 도입입니다(http://bit.ly/1x41ytu). 이번 장에서는 이 주제를 더 깊이 다루지는 않습니다. 이 책의 목적상 숫자 데이터나 영어를 포함하는 표준 문자열만 다루기 때문에 상관없습니다.

### 3.1.5 출력과 문자열 치환
문자열 객체나 다른 파이썬 객체의 문자열을 출력할 때는 보통 `print()` 함수를 사용합니다.

In [62]:
print('Python for Finance')

Python for Finance


In [63]:
print(t)

this is a string object


In [64]:
i = 0
while i < 4:
    print(i)
    i += 1

0
1
2
3


In [65]:
i = 0
while i < 4:
    print(i, end='|') # 출력할 때 마지막 글자를 줄넘기기(\n)가 아닌 다른 값으로 지정합니다
    i += 1

0|1|2|3|

파이썬은 강력한 문자열 치환 연산을 제공합니다. 구식 방법으로는 `%` 연산자를 이용할 수 있고 신식 방법으로는 중괄호와 `format()` 연산을 사용할 수 있습니다. 두 방법 모두 많이 사용됩니다. 이 절에서는 모든 옵션을 설명하지는 않을 것이고, 다음 예제 코드를 통해 몇 가지 중요한 방법만 보입니다. 먼저 구식 방법을 사용한 예입니다.

In [66]:
'this is an integer %d' % 15 # 정수형 값 치환

'this is an integer 15'

In [67]:
'this is an integer %4d' % 15 # 글자 수 고정

'this is an integer   15'

In [68]:
'this is an integer %04d' % 15 # 필요한 경우 앞에 0을 붙입니다

'this is an integer 0015'

In [69]:
'this is a float %f' % 15.3456 # 부동소수점 값 치환

'this is a float 15.345600'

In [70]:
'this is a float %.2f' % 15.3456 # 소수점 고정

'this is a float 15.35'

In [71]:
'this is a float %8f' % 15.3456 # 글자 수 고정

'this is a float 15.345600'

In [72]:
'this is a float %8.2f' % 15.3456 # 글자 수와 소수점 고정

'this is a float    15.35'

In [73]:
'this is a float %08.2f' % 15.3456 # 글자 수와 소수점을 고정하고 필요한 경우 앞에 0을 붙입니다

'this is a float 00015.35'

In [74]:
'this is a string %s' % 'Python' # 문자열 치환

'this is a string Python'

In [75]:
'this is a string %10s' % 'Python' # 글자 수 고정

'this is a string     Python'

다음은 신식 방법으로 구현한 예입니다. 구식 방법과 비교하면 출력에서 약간의 차이가 있습니다.

In [76]:
'this is an integer {:d}'.format(15)

'this is an integer 15'

In [77]:
'this is an integer {:4d}'.format(15)

'this is an integer   15'

In [78]:
'this is an integer {:04d}'.format(15)

'this is an integer 0015'

In [79]:
'this is a float {:f}'.format(15.3456)

'this is a float 15.345600'

In [80]:
'this is a float {:.2f}'.format(15.3456)

'this is a float 15.35'

In [81]:
'this is a float {:8f}'.format(15.3456)

'this is a float 15.345600'

In [82]:
'this is a float {:8.2f}'.format(15.3456)

'this is a float    15.35'

In [83]:
'this is a float {:08.2f}'.format(15.3456)

'this is a float 00015.35'

In [84]:
'this is a string {:s}'.format('Python')

'this is a string Python'

In [85]:
'this is a string {:10s}'.format('Python')

'this is a string Python    '

문자열 치환은 `while`문 등에서 데이터를 바꿔가면서 출력을 반복할 경우 특히 유용합니다.

In [86]:
i = 0
while i < 4:
    print('the number is %d' % i)
    i += 1

the number is 0
the number is 1
the number is 2
the number is 3


In [87]:
i = 0
while i < 4:
    print('the number is {:d}'.format(i))
    i += 1

the number is 0
the number is 1
the number is 2
the number is 3


### 3.1.6 정규표현식
문자열 객체를 다루는 강력한 도구는 정규표현식(regular expression)입니다. 파이썬은 `re`라는 정규표현식 모듈을 제공합니다.

In [88]:
import re

시계열이나 날짜/시간 정보를 가진 csv 파일과 같은 큰 크기의 텍스트 파일이 있다고 하죠. 보통 이런 파일의 날짜/시간 정보는 파이썬이 직접 해석하기는 힘들지만 정규표현식으로 기술하는 것은 가능합니다. 예를 들어 다음과 같이 3개의 정수와 3개의 문자열로 표시된 날짜/시간 정보가 있다고 해보겠습니다. 3개의 연속 큰따옴표를 사용하면 여러 줄에 걸친 문자열을 정의하는 것이 가능합니다.

In [89]:
series = """
'01/18/2014 13:00:00', 100, '1st';
'01/18/2014 13:30:00', 110, '2nd';
'01/18/2014 14:00:00', 120, '3rd'
"""

다음 정규표현식을 쓰면 앞의 날짜/시간 부분만을 구분하여 기술하는 것이 가능합니다.  
> 이 책에서 정규표현식을 더 자세히 다루기는 어렵습니다. 인터넷에 정규표현식과 파이썬에서 정규표현식을 사용하는 방법에 대한 정보가 이미 많습니다. 입문용으로는 '처음 시작하는 정규표현식: 언어와 플랫폼을 뛰어넘는 정규표현식을 만나다'(한빛미디어, 2013) 등을 참고해도 좋습니다.

In [90]:
dt = re.compile("'[0-9/:\s]+'") # 날짜/시간

In [91]:
result = dt.findall(series)
result

["'01/18/2014 13:00:00'", "'01/18/2014 13:30:00'", "'01/18/2014 14:00:00'"]

> **TIP** 정규표현식  
문자열을 파싱할 때는 정규표현식 사용을 고려해보세요. 성능과 편의성을 높일 수 있습니다.  

정규표현식으로 찾은 문자열은 파이썬 `datetime` 객체로 변환할 수 있습니다(파이썬에서 시간과 날짜를 다루는 방법에 대해서는 [부록 A]를 참조하세요). 문자열을 파싱해서 날짜/시간 정보를 알아낼 때는 구체적으로 어떻게 파싱해야 하는지를 지정해야 합니다.

In [92]:
from datetime import datetime
pydt = datetime.strptime(result[0].replace("'", ""), '%m/%d/%Y %H:%M:%S')
pydt

datetime.datetime(2014, 1, 18, 13, 0)

In [93]:
print(pydt)

2014-01-18 13:00:00


In [94]:
print(type(pydt))

<class 'datetime.datetime'>


날짜/시간 정보는 금융 분야에서 중요하기 때문에 뒤에서 날짜/시간 정보를 다루는 `datetime` 객체와 메서드를 다시 자세히 설명하겠습니다.

## 3.2 기본 자료구조
### 3.2.1 튜플
튜플은 고급 자료구조이지만 아주 단순하며 활용이 제한됩니다. 튜플을 만들려면 원소가 될 객체를 괄호 안에 넣거나, 괄호 없이 그냥 여러 개의 객체를 쉼표로 연결해도 됩니다.

In [95]:
t = (1, 2.5, 'data')
type(t)

tuple

In [96]:
t = 1, 2.5, 'data'
type(t)

tuple

파이썬의 다른 자료구조와 마찬가지로 튜플도 인덱스를 내장하고 있습니다. 인덱스를 사용하면 튜플에 속한 한 개 혹은 여러 개의 원소를 참조하는 것이 가능합니다. 주의할 점은 파이썬에서는 인덱스가 0부터 시작(**0 기반 인덱스**)한다는 점입니다. 따라서 세 번째 원소는 인덱스가 2입니다.

In [97]:
t[2]

'data'

In [98]:
type(t[2])

str

> **TIP** 0 기반 인덱스  
매트랩과 같은 프로그래밍 언어와 달리 파이썬은 0 기반 숫자 체계를 사용합니다. 따라서 튜플 객체의 첫 번째 원소의 인덱스는 0입니다.  

튜플 객체는 `count()`와 `index()` 메서드만을 제공합니다. 전자는 튜플 내에 특정한 객체가 몇 개 있는지 세는 메서드이고, 후자는 특정한 객체가 처음으로 나타나는 위치를 표시하는 인덱스를 반환하는 메서드입니다.

In [99]:
t.count('data')

1

In [100]:
t.index(1)

0

튜플 객체는 불변(immutable) 객체로 한 번 정의하면 바꿀 수가 없기 때문에 유연성이 떨어집니다.
### 3.2.2 리스트
리스트 자료형은 튜플보다 훨씬 유연하고 강력합니다. 리스트 객체는 대괄호를 사용하여 정의하며, 기본적인 기능은 튜플과 유사합니다.

In [101]:
l = [1, 2.5, 'data']
l[2]

'data'

`list()` 함수를 사용하여 리스트 객체를 생성하거나 다른 자료형 객체를 리스트로 변환할 수 있습니다. 다음은 앞의 예제에서 만든 튜플 객체를 리스트 객체로 바꾸는 코드입니다.

In [102]:
l = list(t)
l

[1, 2.5, 'data']

In [103]:
type(l)

list

리스트 객체는 여러 가지 메서드를 이용하여 확장, 축소하는 것이 가능합니다. 문자열과 튜플 객체는 불변 시퀀스 객체이며 한 번 정의하면 원소를 변경할 수 없지만, 리스트 객체는 가변(mutable) 시퀀스 객체로 원소를 변경할 수 있습니다. 리스트 객체를 다른 리스트 객체의 원소로 추가하는 것도 가능합니다.

In [104]:
l.append([4, 3]) # 리스트 끝에 원소 추가
l

[1, 2.5, 'data', [4, 3]]

In [105]:
l.extend([1.0, 1.5, 2.0]) # 리스트 자료형인 원소 추가
l

[1, 2.5, 'data', [4, 3], 1.0, 1.5, 2.0]

In [106]:
l.insert(1, 'insert') # 특정 인덱스 앞에 원소 추가
l

[1, 'insert', 2.5, 'data', [4, 3], 1.0, 1.5, 2.0]

In [107]:
l.remove('data') # 처음으로 나타나는 특정 원소 삭제
l

[1, 'insert', 2.5, [4, 3], 1.0, 1.5, 2.0]

In [108]:
p = l.pop(3) # 특정 인덱스의 원소를 삭제하고 그 값을 반환
print(l, p)

[1, 'insert', 2.5, 1.0, 1.5, 2.0] [4, 3]


슬라이싱(slicing)은 자료 모음을 더 작은 자료모음으로 나누는 작업을 말하며 다음과 같이 수행합니다.

In [109]:
l[2:5]

[2.5, 1.0, 1.5]

세 번째부터 다섯 번째 원소를 반환했습니다.  
리스트 객체가 가진 몇 가지 유용한 메서드 목록을 요약하면 다음 표와 같습니다.  

|메서드|인수|반환값/결과|
|---|---|---|
|`l[i] = x`|`[i]`|인덱스가 `i`인 원소를 `x`로 바꿉니다.|
|`l[i:j:k] = s`|`[i:j:k]`|인덱스가 `i`부터 `j-1`까지 `k`개 간격의 원소를 `s`로 바꿉니다.|
|`append`|`(x)`|원소 `x`를 추가합니다.|
|`count`|`(x)`|원소 `x`가 포함된 수를 셉니다.|
|`del l[i:j:k]`|`[i:j:k]`|인덱스 `i`부터 `j-1`까지 `k`개 간격의 원소를 삭제합니다.|
|`extend`|`(s)`|`s`의 모든 원소를 주어진 리스트 객체의 원소로 추가합니다.|
|`index`|`(x[, i[, j]])`|인덱스 `i`부터 `j-1` 사이인 원소 중 `x` 값이 처음으로 나타나는 위치|
|`insert`|`(i, x)`|`x`를 인덱스 `i` 위치에 삽입|
|`remove`|`(i)`|인덱스 `i` 위치의 원소를 삭제|
|`pop`|`(i)`|인덱스 `i` 위치의 원소를 삭제하고 그 값을 반환|
|`reverse`|`()`|모든 원소의 위치를 뒤바꿈(반전)|
|`sort`|`([cmp[, key[, reverse]]])`|모든 원소를 재정렬|  



### 3.2.3 제어구조
파이썬의 제어구조(control structure), 특히 반복문은 리스트 자료형과 함께 살펴보는 것이 가장 좋습니다. 다른 언어와 달리 파이썬에서는 대부분의 반복문이 특정한 리스트 객체에 기반하여 실행되기 때문입니다.  
다음 예를 보죠. 리스트 객체 `l`의 인덱스 2부터 4까지의 원소에 대해 `for` 문이 실행되며 각 원소의 제곱을 출력합니다. 두 번째 줄에 들여쓰기가 적용된 것을 주의해야 합니다.

In [110]:
for element in l[2:5]:
    print(element ** 2)

6.25
1.0
2.25


이 방식은 일반적으로 사용하는 카운터 변수를 사용한 반복문 방식에 비해 유연성이 아주 높습니다. 파이썬에서도 카운터 변수를 사용하는 것이 불가능하지는 않지만 보통 `range` 객체로 생성한 카운터 변수용 리스트를 다음과 같이 사용하는 것이 일반적입니다.

In [111]:
r = range(0, 8, 1)
r

range(0, 8)

In [112]:
type(r)

range

In [113]:
for i in range(2, 5):
    print(l[i] ** 2)

6.25
1.0
2.25


> **TIP** 리스트에 기반한 반복문  
파이썬에서는 리스트 원소가 무엇이든 임의의 리스트 객체이 기반하여 반복문을 실행할 수 있습니다. 따라서 카운터 변수를 사용할 필요가 없습니다.  

파이썬에서도 `if`, `elif`, `else`와 같은 조건 제어 구문을 사용할 수 있습니다. 사용법은 다른 프로그래밍 언어와 유사합니다.

In [114]:
for i in range(1, 10):
    if i % 2 == 0:
        print("%d is even" % i)
    elif i % 3 == 0:
        print("%d is multiple of 3" % i)
    else:
        print("%d is odd" % i)

1 is odd
2 is even
3 is multiple of 3
4 is even
5 is odd
6 is even
7 is odd
8 is even
9 is multiple of 3


In [115]:
total = 0
while total < 100:
    total += 1
print(total)

100


파이썬만의 고유한 반복문 방식으로 리스트 조건제시법(list comprehension)이 있습니다. 새로운 리스트 객체를 만들 때 외부에서 반복문을 돌리면서 이미 존재하는 리스트 객체에 원소를 추가하거나 수정하는 것이 아니라 더 간결한 방식으로 반복문에 기반한 리스트를 직접 생성하는 방법입니다.

In [116]:
m = [i ** 2 for i in range(5)]
m

[0, 1, 4, 9, 16]

리스트 조건제시법은 반복문을 외부에 명시적으로 만들지 않기 때문에 어떤 의미로는 코드 벡터화와 유사합니다(코드 벡터화는 4장과 5장에서 자세히 다룹니다).

### 3.2.4 함수형 프로그래밍
파이썬은 함수형 프로그래밍을 위한 `filter()`, `map()`, `reduce()`와 같은 도구를 제공합니다. 이들을 사용하면 입력값에 대해 함수를 적용하는 작업을 효율적으로 할 수 있습니다. 우선 함수를 정의해보죠. 입력 변수 `x`의 제곱을 출력하는 가장 간단한 함수 `f()`를 만들어보겠습니다.

In [117]:
def f(x):
    return x ** 2
f(2)

4

물론 복수의 입출력 인수를 가지는 훨씬 더 복잡한 함수를 만드는 것도 가능합니다. 다음 코드처럼 함수를 만듭니다.

In [118]:
def even(x):
    return x % 2 == 0
even(3)

False

이 함수는 불리언 값을 반환합니다. `map()` 함수를 사용하면 리스트 객체의 모든 원소에 대해 각각 함수를 적용할 수 있습니다.

In [119]:
list(map(even, range(10)))

[True, False, True, False, True, False, True, False, True, False]

`map()`에 들어가는 함수 인수를 직접 정의하지 않고 람다(lambda) 함수, 즉 익명(anonymous) 함수를 사용할 수도 있습니다.

In [120]:
list(map(lambda x: x ** 2, range(10)))

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

`filter()` 함수로 리스트 객체에 함수를 적용할 수도 있습니다. 다음 예제에서 `filter()` 함수는 `even()` 함수의 반환값이 `True`가 되는 원소만을 뽑아서 만든 새로운 리스트를 반환합니다.

In [121]:
list(filter(even, range(15)))

[0, 2, 4, 6, 8, 10, 12, 14]

> **TIP** 리스트 조건제시법, 함수형 프로그래밍, 익명 함수  
되도록 파이썬 레벨에서는 반복문을 구현하지 말아야 합니다. 리스트 조건제시법이나 `map()`, `filter()`, `reduce()`와 같은 함수형 프로그래밍 도구를 사용하면 반복문을 사용하지 않고 더 간결하며 읽기 좋은 코드를 만들 수 있습니다. 람다 익명 함수도 좋은 도구가 됩니다.  

### 3.2.5 사전
사전(dict) 객체는 변환 가능한 사전형(dictionary) 자료 모음으로, 문자열 같은 키-값을 사용하여 값을 참조할 수 있는 이른바 키-값 자료 저장소입니다. 리스트 객체는 원소의 순서가 있고 정렬 가능하지만, 사전 객체는 원소의 순서도 없고 정렬도 불가능합니다. 다음 예제 코드를 보면 두 자료형의 차이를 쉽게 알 수 있습니다. 사전 객체를 만들 때는 중괄호 기호를 사용합니다.  
> 표준 사전 객체의 변형인 `OrderedDict` 서브클래스에서는 각 원소가 추가된 순서를 기억합니다. 다음 문서를 참고하세요.(https://docs.python.org/3/library/collections.html)

In [122]:
d = {
    'Name' : 'Angela Markel',
    'Country' : 'Germany',
    'Profession' : 'Chancelor',
    'Age' : 64
}
type(d)

dict

In [123]:
print(d['Name'], d['Age'])

Angela Markel 64


사전 객체도 다양한 내장 메서드를 가집니다.

In [124]:
d.keys()

dict_keys(['Name', 'Country', 'Profession', 'Age'])

In [125]:
d.values()

dict_values(['Angela Markel', 'Germany', 'Chancelor', 64])

In [126]:
d.items()

dict_items([('Name', 'Angela Markel'), ('Country', 'Germany'), ('Profession', 'Chancelor'), ('Age', 64)])

In [127]:
birthday = True
if birthday:
    d['Age'] += 1
print(d['Age'])

65


사전 객체에서 반복자 객체를 반환하는 메서드를 사용하면 리스트 객체와 같이 사전 객체를 기반으로 반복문을 실행할 수 있습니다.

In [128]:
for item in d.items():
    print(item)

('Name', 'Angela Markel')
('Country', 'Germany')
('Profession', 'Chancelor')
('Age', 65)


In [129]:
for value in d.values():
    print(type(value))

<class 'str'>
<class 'str'>
<class 'str'>
<class 'int'>


사전 객체가 가진 몇 가지 연산과 메서드 목록은 다음 표와 같습니다.  

|메서드|인수|반환값/결과|
|---|---|---|
|`d[k]`|`[k]`|키 `k`에 대응하는 `d`의 원소|
|`d[k] = x`|`[k]`|`x`를 키 `k`에 대응하는 원소로 설정|
|`del d[k]`|`[k]`|키 `k`에 대응하는 `d`의 원소를 삭제|
|`clear`|`()`|모든 원소를 삭제|
|`copy`|`()`|복사본 생성|
|`items`|`()`|모든 키-값 쌍의 복사본|
|`keys`|`()`|모든 키의 복사본|
|`values`|`()`|모든 값의 복사본|
|`popitem`|`(k)`|키 `k`에 대응하는 `d`의 원소를 삭제하고 반환합니다|
|`update`|`([e])`|객체 `e`를 사용해 원소를 갱신합니다|  


### 3.2.6 집합
이 장에서 다룰 마지막 자료구조는 집합(set) 객체입니다. 집합 이론은 수학과 금융 분야에서 중요한 초석이 되지만 정작 실제로 집합 객체를 응용하는 경우는 많지 않습니다. 집합 객체는 중복되지 않고 순서가 존재하지 않는 여러 가지 객체의 모음입니다.

In [130]:
s = set(['u', 'd', 'ud', 'du', 'd', 'du'])
s

{'d', 'du', 'u', 'ud'}

In [131]:
t = set(['d', 'dd', 'uu', 'u'])

집합 객체를 이용하면 집합 이론에서 사용되는 연산을 쓸 수 있습니다. 예를 들어 두 집합의 합집합, 교집합, 차집합을 다음과 같이 구할 수 있습니다.

In [132]:
s.union(t) # 합집합

{'d', 'dd', 'du', 'u', 'ud', 'uu'}

In [133]:
s.intersection(t) # 교집합

{'d', 'u'}

In [134]:
s.difference(t) # 차집합

{'du', 'ud'}

In [135]:
t.difference(s) # 차집합

{'dd', 'uu'}

In [136]:
s.symmetric_difference(t) # s와 t 둘 중 하나에만 속하는 원소의 집합

{'dd', 'du', 'ud', 'uu'}

특히 리스트 객체에서 중복된 원소를 제거할 때 집합 객체를 활용할 수 있습니다.

In [137]:
from random import randint
l = [randint(0, 10) for i in range(1000)]
len(l)

1000

In [138]:
l[:20]

[2, 9, 10, 1, 10, 0, 9, 3, 10, 0, 4, 3, 0, 9, 4, 1, 4, 10, 6, 2]

In [139]:
s = set(l)
s

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}

## 3.3 마치며
기본 파이썬 인터프리터도 다양한 자료구조를 제공합니다. 금융공학 관점에서는 다음과 같은 것들이 중요합니다.  
* 기본 자료형: 금융에서는 정수, 부동소수점, 불리언, 문자열 자료형이 가장 기본이 되는 자료형입니다.
* 기본 자료구조: 튜플, 리스트, 사전, 집합 자료형은 금융에서 많이 응용됩니다. 특히 리스트 자료형은 가장 유연하며 많이 사용되는 자료형입니다.