# 문자열 자료형

주의: [Think Python](http://greenteapress.com/thinkpython2/html/thinkpython2009.html) 내용을 번역 및 요약수정한 내용입니다.

## 주요 내용
* 문자열 다루기
* 문자열 관련 메소드 활용

## 문자열이란?

문자열은 문자들의 나열(시퀀스, sequence)이다. 

문자열에 포함된 항목에 접근하기 위해서 대괄호(`[]`)를 이용한다.

In [47]:
fruit = 'banana'
letter = fruit[1]

둘째 변수 할당 명령문에서 `fruit` 문자열의 1번 색인에 해당하는 문자를 선택해서 `letter` 변수에 할당한다.
대괄호 안의 표현식을 __색인(인덱스, index)__라 부른다. 
그런데 색인은 0부터 시작하는 자연수로 왼쪽 문자부터 번호를 붙혀서 사용한다.
따라서 1번 색인 문자열은 'b'가 아니라 'a'가 된다.

In [48]:
print(letter)

a


즉, `b`는 `banana`의 0번 문자, `a`는 1번 문자, `n`은 2번 문자가 된다. 

__주의:__ 
* 색인은 0부터 시작한다. 
* 색인은 문자열의 처음부터 몇 번째에 위치하는가를 나타내는 __오프셋(offset)__ 개념과 동일하다.
* 색인으로 정수만 사용하며 다른 경우엔 오류가 발생한다. 

In [49]:
letter = fruit[1.5]

TypeError: string indices must be integers

물론 정수를 할당 받은 변수를 색인으로 사용해도 된다.

In [50]:
i = 1
fruit[i]

'a'

In [51]:
fruit[i+1]

'n'

## `len` 함수

`len` 함수는 문자열에 포함된 문자의 개수를 알아내어 되돌려준다.

In [6]:
fruit = 'banana'
len(fruit)

6

__주의:__
* `len` 함수는 문자열 이외에 리스트, 튜플 등 다른 자료형도 인자로 받을 수 있다.
* 즉, 여러 값을 동시에 들고 다니는 컨테이너 자료형에도 사용된 값들의 개수를 계산하는 데에 사용된다.
* 이후에 좀 더 다룰 것이다.

* 색인이 0부터 시작하기 때문에 문자열에 포함된 마지막 문자를 가리키는 색인은 
`len` 함수가 되돌려 주는 값보다 1이 작아야 한다.

In [52]:
length = len(fruit)
last = fruit[length]

IndexError: string index out of range

색인 오류(`IndexError`)가 발생하는 이유는 ’banana’의 길이가 6이지만 마지막 문자의 색인은 5이기 때문이다. 
따라서 아래와 같이 실행하면 마지막 문자를 얻을 수 있다.

In [55]:
length = len(fruit)
last = fruit[length-1]
print(last)

a


### 거꾸로 세는 색인

마지막 문자열부터 색인을 정할 수 있으며, -1, -2, -3 등등으로 사용한다. 
따라서 `fruit[-1]` 표현식은 마지막 문자를, `fruit[-2]`는 끝에서 두 번째 문자를 추출한다.

In [56]:
fruit[-1]

'a'

In [58]:
fruit[-2]

'n'

## 문자열과 반복 명령문

반복 명령문은 프로그래밍의 주요 요소 중의 하나이며, 
특히 문자열을 이용한 반복 명령문이 자주 활용된다. 

### 색인과 `while` 반복 명령문

아래 예제는 문자열의 길이 정보를 활용하여 문자열에 사용된 항목들을 하나씩 차례대로 추출하는 코드이다. 

In [59]:
index = 0
while index < len(fruit):
    letter = fruit[index]
    print(letter)
    index = index + 1

b
a
n
a
n
a


위 코드 설명:
* `while` 반복의 조건인 `index < len(fruit)`가 거짓이 될 때까지 `index`의 값이 0, 1, 2 등으로 변한다.
* `index`에 할당된 값이 `len(fruit)`인 6이 되는 순간에 `while` 반복을 멈춘다.
* `index`가 0, 1, ..., 5의 값을 가지면 해당 색인이 가리키는 위치의 문자를 출력한다. 

#### 예제

문자열을 인자로 받아서 한 줄에 하나씩 문자를 역순으로 인쇄하는 함수를 아래와 같이 작성할 수 있다.

In [63]:
def reverse_str(s):
    index = 1
    while index < len(s) + 1:
        letter = fruit[-index]
        print(letter)
        index = index + 1

이제 `fruit` 변수에 할당된 문자열을 역순으로 출력하기 위해 `reverse_str` 함수를 호출하면 된다.

In [64]:
reverse_str(fruit)

a
n
a
n
a
b


### 문자열과 `for` 반복 명령문

문자열의 각 항목을 탐색하면서 특정 일을 반복적으로 하는 명령문을 만들 수 있으며,
이를 위해 `for` 반복 명령문을 활용한다.
예를 들어, 아래 코드는 `fruit`에 할당된 문자열의 각 항목을 차례대로 출력한다.

In [65]:
for char in fruit:
    print(char)

b
a
n
a
n
a


위 코드 설명:
* `car` 변수에 `b`, `a`, `n`, `a`, `n`, `a` 의 문자가 순서대로 할당된다.
* 반복은 `car` 변수에 더 이상 할당한 문자가 없을 때까지 진행된다.

#### 예제

* `for` 반복 명령문을 활용하여 특정 단어들을 생성하는 예제이다. 
* `JKLMNOPQ`에 포함된 문자를 하나씩 꺼내어 `ack`라는 문자열의 맨 앞에 붙힌 단어들을 생성한다. 

In [66]:
prefixes = 'JKLMNOPQ'
suffix = 'ack'

for letter in prefixes:
    print(letter + suffix)

Jack
Kack
Lack
Mack
Nack
Oack
Pack
Qack


#### 연습

위 코드를 수정하여 `Qack` 대신에 `Quack`가 출력되도록 하라.

__힌트:__ `if ... else ...` 명령문을 활용할 수 있다.

## 문자열 슬라이싱

문자열의 일부분을 __슬라이스(slice)__, 슬라이스를 선택하는 방법을 __슬라이싱(slicing)__이라 부른다.
슬라이싱은 해당 슬라이스의 처음 문자와 끝문자의 색인을 이용한다.

예를 들어, `"파이썬이 너무 좋다"`라는 문자열에서 `"파이썬이"`를 추출하려면 
0번 색인부터 4번 색인까지의 문자를 추출하면 된다.

In [72]:
like_python = '파이썬이 너무 좋다'
print(like_python[0:5])

파이썬이 


__주의사항:__
* `like_python[0:4]` 가 아님에 주의한다.
* 슬라이싱의 구간을 적을 때 끝나는 색인은 마지막 문자의 색인보다 1이 큰 숫자를 사용한다.

#### 예제

In [73]:
s = 'Monty Python'
print(s[0:5])

Monty


In [74]:
print(s[6:12])

Python


콜론(`:`) 앞에 있는 첫째 색인을 생략하면, 슬라이스는 문자열의 처음부터 시작한다. 

In [13]:
fruit = 'banana'
fruit[:3]

'ban'

즉, `fruit[:3]`과 `fruit[0:3]`은 동일하다.

In [76]:
fruit[:3] == fruit[0:3]

True

반면에 콜론(`:`) 뒤에 있는 둘째 색인을 생략하면, 슬라이스는 문자열의 끝까지를 의미한다.

In [77]:
fruit[3:]

'ana'

즉, `fruit[3:]`과 `fruit[3:len(fruit)]`은 동일하다.

In [80]:
fruit[3:] == fruit[3:len(fruit)]

True

첫 번째 지수가 두 번째보다 크거나 같으면 결과는 빈 문자열(`''`)이 슬라이싱 된다.

In [81]:
fruit = 'banana'
fruit[3:3]

''

__주의:__ 빈 문자열(`''`)은 문자를 포함하지 않고 길이가 0인 특수한 문자열이다.

#### 연습

`fruit[:]`는 어떤 의미의 슬라이싱인가?

## 수정이 불가능한 문자열

인덱싱을 이용하여 기존의 문자열을 수정하려 시도하면 오류가 발생한다.

아래 예제는, `greeting` 이라는 변수에 할당된 `Hello, world!` 문자열의 맨 첫문자인
`H`를 `J`로 교체하고자 하면서 발생하는 오류를 보여준다.

In [82]:
greeting = 'Hello, world!'
greeting[0] = 'J'

TypeError: 'str' object does not support item assignment

앞서 자료형 오류(TypeError)가 발생하는 이유는 간단하다.
> __문자열은 수정이 불가능하다!__

따라서 `'Hello, world!'`를 이용하여 `'Jello, world!'`를 생성하고자 한다면
아래와 같이 기존의 문자열은 건드리지 않으면서 활용만 해야 한다.

In [84]:
greeting = 'Hello, world!'
new_greeting = 'J' + greeting[1:]
print(new_greeting)

Jello, world!


위 코드에서 사용한 기술은 다음과 같다.
* 문자열 이어 붙이기
* 문자열 슬라이싱

## 검색함수 구현하기

인터넷 검색에서 가장 중요한 요소는 원하는 단어 또는 문장을 포함한 웹사이트, 문서 등을 찾는 일이다. 
그리고 인터넷 검색엔진은 기본적으로 문자열만을 대상으로 해서 
사용자가 지정한 단어 또는 문장이 포함되어 있는지 여부를 판단한다. 
반면에 사진 또는 그림에 함께 그려진 문자는 검색 대상에서 제외된다. 

이제 아래 코드를 잘 살펴보고 `find`라는 함수가 어떤 기능을 갖고 있는지 생각해 보자.

In [85]:
def find(word, letter):
    index = 0
    while index < len(word):
        if word[index] == letter:
            return index
        index = index + 1
    return -1

`find` 함수의 특성은 다음과 같다.
* 두 개의 인자를 받는다.
* 각각의 인자는 `word`와 `letter` 두 개의 매개변수를 통해 `find` 함수에 전달된다.
    즉, `find` 함수를 호출하려면 아래와 같이 사용해야 한다.
    ```python
    find(주어진문자열, 찾고자하는문자)
    ```
* 즉, `find` 함수는 어떤 주어진 문자열에 특정 문자가 포함되어 있으면 그 문자가 가장 먼저 나타나는 곳의
    색인을 찾아주고, 그렇지 않으면 -1을 리턴한다. 
    * `while index < len(word)`: `word` 매개변수를 통해 전달된 문자열 전체를 대상으로 탐색함을 의미한다.
    * `if word[index] == letter`: `index`가 가리키는 곳의 문자가 `letter` 매개변수를 
        통해 전달된 찾고자 하는 문자인지를 확인하고, 확인결과에 따라 탐색을 지속할지 여부를 결정한다.
        * 확인 결과가 `True`이면, 즉, 찾고자 하는 문자를 만났다면, 그 자리에서 그 위치의 색인을 리턴하고
            프로그램을 멈춘다.
        * 확인 결과가 `False`이며, 즉, 찾고자 하는 문자가 아니면 `word`에 전달된 문자열 끝까지
            문자열 검색을 이어간다. 
        * 문자열 끝까지 확인했지만 원하는 문자열을 만나지 못했다면 `while`문을 종료하고, 즉, 탐색을 
            중지하고 -1을 리턴하고 프로그램을 종료한다.
    
            __주의:__ 색인은 0부터 시작함에 주의하라.

### 함수의 실행과 리턴값

함수를 호출하여 실행하다가 실행과정 중에 `return` 명령문이 실행되면 그 함수의 실행은 바로 멈춘다.

#### 연습

아래 조건을 만족시키도록 `find` 함수를 수정하라. 

* 인자를 세 개 받는다. 예를 들어, `word`와 `letter` 두 개의 매개변수와 더불어 
    `position`이라는 매개변수를 하나 더 사용하도록 한다. 
* `position` 매개변수는 정수가 `find` 함수에 전달되는 기능을 수행한다.
* `position`을 통해 전달된 정수는 탐색을 시작할 위치를 나타내도록 한다.
    즉, 앞서 정의된 `find` 함수는 `position`이 0인 특수한 경우가 되도록 한다.

## 순환과 세기

다음 프로그램은 문자열에서 a가 나타나는 횟수를 셉니다:
```python
word = 'banana'
count = 0
for letter in word:
    if letter == 'a':
        count = count + 1
print(count)
```
이 프로그램은 계수기(counter)라고 불리는 다른 하나의 계산 유형을 예시합니다. 변수 count는 0으로 초기화된 다음 a가 발견될 때마다 1씩 증가합니다. 순환이 종료할 때, count는 결과를 갖게 됩니다—a의 총 개수.

### 연습 8.5.

이 코드를 count라는 이름의 함수로 캡슐화하고, 문자열과 문자를 인자로 받아들이도록 일반화하세요.

### 연습 8.6.

문자열을 탐색하는 대신, 앞 절에서 나온 인자 세 개 버전의 find를 사용하도록 이 함수를 다시 작성하세요.

## 문자열 메쏘드
메쏘드(method)는 함수와 비슷합니다—인자를 받아들이고 값을 돌려줍니다—. 하지만 문법이 다릅니다. 예를 들어, 메쏘드 upper는 문자열을 받아들여서 모두 대문자로 된 새 문자열을 돌려줍니다:

함수 문법 upper(word) 대신에, 메쏘드 문법 word.upper()를 사용합니다.

In [18]:
word = 'banana'
new_word = word.upper()
print(new_word)

BANANA


이런 형식의 점 표기법은 메쏘드의 이름, upper,와 메쏘드를 적용할 문자열의 이름, word,을 지정합니다. 빈 괄호는 이 메쏘드가 아무런 인자도 받아들이지 않음을 가리킵니다.

메쏘드를 실행하는 것을 호출(invocation)이라고 부릅니다; 이 경우에, word에 대해 upper를 호출한다고 말합니다.

알고 보면, 우리가 작성한 함수와 아주 비슷한 find 라는 이름의 문자열 메쏘드가 있습니다:

In [19]:
word = 'banana'
index = word.find('a')
print(index)

1


이 예에서, 우리는 word에 대해 find를 호출하고, 우리가 찾는 문자를 매개변수로 전달했습니다.

사실, find 메쏘드는 우리 함수보다 더 일반적입니다; 문자뿐만 아니라 부분 문자열을 찾을 수 있습니다.

In [20]:
word.find('na')

2

검색을 시작할 지수를 두 번째 인자로 받을 수 있습니다:

In [21]:
word.find('na', 3)

4

그리고 세 번째 인자는 멈춰야 할 지수를 가리킵니다:

In [22]:
name = 'bob'
name.find('b', 1, 2)

-1

이 검색이 실패하는 이유는 b가 1 에서 2까지의 지수 범위(2는 포함하지 않음)에 나타나지 않기 때문입니다.

### 연습 8.7.

count라는 이름의 문자열 메쏘드가 있는데, 앞의 연습에서 나온 함수와 유사합니다. 이 메쏘드에 관한 설명서를 읽고, 'banana'에 등장하는 a를 세는 호출을 작성하세요.

[연습 8.8.]

http://docs.python.org/2/library/stdtypes.html#string-methods에서 문자열 메쏘드에 관한 설명서를 읽으세요. 어떻게 동작하는지 정확히 이해하기 위해, 그 중 몇 가지로 실험해 보고 싶을 겁니다 strip 과 replace는 특히 유용합니다.

설명서는 헛갈릴 수 있는 문법을 사용합니다. 예를 들어, find(sub[, start[, end]]) 에서, 대괄호는 생략 가능한 인자를 나타냅니다. 그래서, sub는 필수고, start는 선택사항입니다. 그리고, 만약 start 를 포함시킨다면, end가 선택사항이 됩니다.

## in 연산자

in은 두 개의 문자열을 받아들여서, 첫 번째가 두 번째에 부분 문자열로 등장하면 True를 돌려주는 논리 연산자입니다:

In [23]:
'a' in 'banana'

True

In [24]:
'seed' in 'banana'

False

예를 들어, 다음 함수는 word2에도 동시에 등장하는 word1의 모든 문자들을 인쇄합니다:

In [26]:
def in_both(word1, word2):
    for letter in word1:
        if letter in word2:
            print(letter)

잘 선택된 변수 명을 사용할 때, 파이썬은 때로 영어처럼 읽힙니다. 여러분은 이 순환을 이렇게 읽을 수 있습니다, “for (each) letter in (the first) word, if (the) letter (appears) in (the second) word, print (the) letter.”

apples 과 oranges를 비교하면 이렇게 됩니다:

In [27]:
in_both('apples', 'oranges')

a
e
s


## 문자열 비교
비교 연산자를 문자열에 사용할 수 있습니다. 두 문자열이 같은지 보기 위해:

In [30]:
if word == 'banana':
    print('All right, bananas.')

All right, bananas.


다른 비교 연산자들은 단어들을 알파벳 순으로 배치하는데 유용합니다:

In [32]:
if word < 'banana':
    print('Your word,' + word + ', comes before banana.')
elif word > 'banana':
    print('Your word,' + word + ', comes after banana.')
else:
    print('All right, bananas.')

All right, bananas.


파이썬은 대문자와 소문자를 사람들과 같은 방식으로 다루지 않습니다. 모든 대문자는 모든 소문자 앞에 옵니다, 그래서:
```
Your word, Pineapple, comes before banana.
```
이런 문제를 다루는 일반적인 방법은 비교전에 문자열들을 표준 형식, 가령 모두 소문자,으로 바꾸는 것입니다. 수류탄(Pineapple)으로 무장한 사람으로부터 스스로를 지켜야 할 때를 위해 명심해 두세요.

## 디버깅

시퀀스의 값들을 탐색하려고 지수를 사용할 때, 탐색의 처음과 끝에서 틀리기 쉽습니다. 두 단어를 비교해서, 한 단어가 다른 하나의 역이면 True를 돌려주기로 되어있는 함수가 있습니다만, 두 개의 오류를 갖고 있습니다:

In [33]:
def is_reverse(word1, word2):
    if len(word1) != len(word2):
        return False

    i = 0
    j = len(word2)

    while j > 0:
        if word1[i] != word2[j]:
            return False
        i = i+1
        j = j-1

    return True

첫 번째 if 문은 단어들의 길이가 같은지 검사합니다. 다르면 즉시 False를 돌려줄 수 있습니다. 그러고는, 함수의 남은 부분에서, 우리는 단어들의 길이가 같다고 가정할 수 있습니다. 이 것은 [guardian] 절에서 나온 파수꾼 패턴의 예입니다.

i 와 j는 지수입니다: i 는 word1를 정 방향으로 탐색하고, j는 word2를 역방향으로 탐색합니다. 만약 두 글자가 다른 경우를 발견하면, 즉시 False를 돌려줄 수 있습니다. 순환 전체를 통과해서 모든 글자들이 같음이 확인되면 True를 돌려줍니다.

이 함수를 단어 “pots” 와 “stop” 으로 검사하면, True를 돌려주리라고 기대합니다만, IndexError가 발생합니다:

In [34]:
is_reverse('pots', 'stop')

IndexError: string index out of range

이런 종류의 오류를 디버깅할 때, 제가 첫 번째로 하는 일은, 오류가 발생한 줄 바로 앞에서 지수의 값을 인쇄해보는 것입니다.

In [37]:
def is_reverse(word1, word2):
    if len(word1) != len(word2):
        return False

    i = 0
    j = len(word2)

    while j > 0:
        print(i, j)
        if word1[i] != word2[j]:
            return False
        i = i+1
        j = j-1

    return True

이제 프로그램을 다시 실행하면, 정보를 좀 더 얻게 됩니다:

In [39]:
is_reverse('pots', 'stop')

0 4


IndexError: string index out of range

첫 번째 순환에서, j의 값은 4인데, 문자열 'pots'의 범위를 벗어납니다. 마지막 문자의 지수는 3이기 때문에 j의 초기값은 len(word2)-1이 되어야 합니다.

이 오류를 고치고 프로그램을 다시 실행하면, 이렇게 됩니다:

In [44]:
def is_reverse(word1, word2):
    if len(word1) != len(word2):
        return False

    i = 0
    j = len(word2)-1

    while j > 0:
        print(i, j)
        if word1[i] != word2[j]:
            return False
        i = i+1
        j = j-1

    return True

In [45]:
is_reverse('pots', 'stop')

0 3
1 2
2 1


True

이번에는 올바를 답을 얻었지만, 순환이 단지 세 번만 실행된 것처럼 보이는 게 수상쩍습니다. 무슨 일이 일어나고 있는지 더 잘 파악하는데, 상태도가 유용합니다. 첫 번째 반복에서, is_reverse의 프레임이 그림 [fig.state4]에 나와있습니다.
```
state4

[fig.state4]
```
프레임에 변수들을 배치하고, i 와 j의 값이 word1 와 word2의 문자를 가리키는 것을 보이도록 점선을 추가함으로써 약간의 융통성을 발휘했습니다.

### 연습 8.9.

이 다이어그램으로 시작해서, 각 반복마다 i 와 j 의 값을 바꾸면서, 프로그램을 종이에서 실행해 보세요. 이 함수의 두 번째 오류를 찾아서 고치세요.

## 연습문제
1. 문자열 슬라이스는 “스텝(step size)”을 지정하는 세 번째 지수를 취할 수 있습니다. 
    스텝은 연속된 문자 사이에 있는 공백의 수입니다. 스텝 2는 하나 건너 한 글자를, 3은 3개에 한 글자를 뜻합니다.
    ```python
    fruit = 'banana'
    fruit[0:5:2]
    'bnn'
    ```
    스텝 -1은 단어를 역순으로 만드는데, 슬라이스 [::-1] 는 뒤집힌 문자열을 만듭니다.
    이 숙어를 사용해서, 연습 [palindrome]에서 나온 is_palindrome의 한 줄짜리 버전을 작성하세요.
1. 다음 함수들은 모두 문자열이 소문자를 포함하고 있는지를 조사하기로 되어있습니다만, 
    적어도 일부는 잘못되었습니다. 
    각각의 함수마다, 함수가 실제로 무엇을 하는지 설명하세요(매개변수는 문자열이라고 가정합니다).
    ```python
    def any_lowercase1(s):
        for c in s:
            if c.islower():
                return True
            else:
                return False

    def any_lowercase2(s):
        for c in s:
            if 'c'.islower():
                return 'True'
            else:
                return 'False'

    def any_lowercase3(s):
        for c in s:
            flag = c.islower()
        return flag

    def any_lowercase4(s):
        flag = False
        for c in s:
            flag = flag or c.islower()
        return flag

    def any_lowercase5(s):
        for c in s:
            if not c.islower():
                return False
        return True
    ```
1. ROT13은 단어의 각 글자를 13자리만큼 “회전” 시키는 방식의 간단한 암호 법입니다.
    글자를 회전한다는 것은 알파벳 상의 위치를 이동, 필요하면 처음으로 돌아가서, 한다는 뜻인데, 
    ’A’ 를 3만큼 이동하면 ’D’가, ’Z’ 를 1만 큼 이동하면 ’A’가 됩니다.

    문자열과 정수를 매개변수로 받아들여서 원래 문자열을 요청한 양만큼 “회전”시킨 
    문자열을 돌려주는 함수 rotate_word를 작성하세요.

    예를 들어, “cheer” 를 7만큼 회전하면 “jolly” 이고 “melon” 을 -10만큼 회전하면 “cubed”가 됩니다.

    아마 내장함수 ord, 문자를 숫자 코드로 바꿉니다, 와 chr, 숫자 코드를 문자로 바꿉니다,를 
    사용하고 싶을 겁니다.

    인터넷 상에서 잠재적으로 공격적인 농담들은 때로 ROT13으로 암호화됩니다. 
    쉽게 상처입지 않는다면, 찾아서 해독해보세요. 답: http://thinkpython.com/code/rotate.py.