(ch:strings)=
# 문자열

## 소개

문자들을 나열한 값들을 일컫는 자료형으로 작은 따옴표(`'`) 또는 큰 따옴표(`"`)를 사용한다. 

```python
'Hello, Python!'
```

```python
"Hello, Python!"
```

문자열은 순차 자료형이며, 따라서 항목의 순서 또는 개수가 다르면 서로 다른 문자열로 처리된다.

In [1]:
'ab' == 'ba'

False

In [2]:
'aa' == 'aaa'

False

**빈 문자열**

빈 문자열은 아무것도 포함하지 않는 문자열이다.
빈 문자열을 만드는 방법은 다음 세 가지 방법이 있다.

```python
empty_str = ''
empty_str = ""
empty_str = str()
```

### 문자열 연산

**`in` 연산자** 

문자열의 일부로 포함된 부분 문자열인지 여부를 판단하는 논리 연산자이다. 

In [3]:
'app' in 'apple'

True

In [4]:
'h' in 'banana' 

False

In [5]:
'ca' not in 'coconut'

True

**크기 비교 연산**

문자열은 사전식의 순서를 사용하며 공백문자, 소문자, 대문자 순으로 크기가 정해진다.

In [6]:
'a' >= 'A'

True

In [7]:
'apple' < 'Hello, World!'

False

In [8]:
'Hello, World!' < ' hello'

False

**`min()`/`max()` 함수**

문자열에 사용된 가장 작은 또는 가장 큰 값의 기호를 반환한다.

In [9]:
max('apple')

'p'

In [10]:
max('Hello, World!')

'r'

In [11]:
min('banana')

'a'

In [12]:
min('Hello, World!')

' '

**`len()` 함수**

문자열의 길이, 즉 문자열에 포함된 기호의 개수를 반환한다.

In [13]:
len('apple')

5

In [14]:
len('hello, world!')

13

화이트 스페이스는 모두 하나의 기호로 간주된다.

In [15]:
len('hello,\t\nworld!')

14

### 문자열 인덱싱

문자열에 포함된 모든 문자는 인덱스<font size = "2">index</font>라는 고유한 번호를 갖는다.
인덱스는 0부터 시작하며, 오른쪽으로 한 문자씩 이동할 때마다 증가한다.
**인덱싱**<font size = "2">indexing</font>은 인덱스를 활용하여 문자열에 포함된 특정 문자를 확인한다.

In [16]:
colors = 'red, blue, yellow'

In [17]:
colors[0] #0번 인덱스 값

'r'

In [18]:
colors[5] #3번 인덱스 값

'b'

문자열의 길이와 같거나 큰 인덱스를 사용하면 오류가 발생한다. 

```python
>>> len(colors)
17
>>> colors[50]
IndexError                                Traceback (most recent call last)
/tmp/ipykernel_1817/3232567937.py in <module>
----> 1 colors[50]

IndexError: string index out of range
```

인덱스 값으로 음의 정수를 사용할 수 있다. 
-1을 마지막 문자의 인덱스로 사용하고, 왼쪽으로 한 문자씩 이동할 때마다 감소한다.  

In [19]:
colors[-1] # 오른쪽 끝에 위치한 문자

'w'

In [20]:
colors[-2] # 오른쪽 끝에서 두 번째 문자

'o'

### 문자열 슬라이싱

인덱스의 특정 구간에 해당하는 부분 문자열을 확인하려 할 때는 
**슬라이싱**<font size = "2">slicing</font>을 사용한다.
슬라이싱은 다음과 같이 실행한다.  

* 시작 인덱스 : 해당 인덱스부터 문자 확인
* 끝 인덱스 : 해당 인덱스 이전까지의 문자 확인
* 계단: 시작 인덱스부터 몇 계단씩 건너뛰며 문자를 추출할지 결정. 
    계단의 크기가 1이면 생략 가능.

In [21]:
colors = 'red, blue, yellow'

`colors`에서 `red`를 추출하고 싶다면 다음과 같이 하면 된다. 

In [22]:
colors[0 : 3 : 1]

'red'

`colors`에서 `b`부터 끝까지 하나씩 건너서 추출하려면 다음과 같이 하면 된다. 

In [23]:
colors[5 : len(colors) : 2]

'bu,ylo'

양의 정수와 음의 정수를 섞어서 인덱스로 사용할 수 있다.

In [24]:
colors[5 : -1 : 2]

'bu,ylo'

시작인덱스, 끝인덱스, 계단 각각의 인자는 경우에 따라 생략될 수도 있다. 
그럴 때는 각각의 위치에 대해 설정된 기본값이 사용된다.

* `시작 인덱스`의 기본값 : `0`  
* `끝 인덱스`의 기본값 : 문자열의 길이  
* `계단`의 기본값 : `1`

In [25]:
colors[ : 3 : ]

'red'

In [26]:
colors[ : 3] #계단을 생략할 떄는 콜론(:)도 함께 생략가능

'red'

In [27]:
colors[5 : : 2]

'bu,ylo'

**역순 슬라이싱**

슬라이싱은 기본적으로 작은 인덱스에서 큰 인덱스 방향으로 확인한다. 
하지만 역순으로 확인하고자 한다면 계단에 음의 정수를 사용하면 된다.
계단이 `-1`이고, 시작 인덱스와 끝 인덱스를 생략하면 문자열 전체를 역순으로 확인한다.

In [28]:
colors[ : : -1]

'wolley ,eulb ,der'

:::{admonition} 주의
:class: caution  

문자열은 불변 자료형이라 인덱싱 또는 슬라이싱을 사용하여 값의 일부를 변경할 수 없다.

```python
>>> a_word = 'hello'
>>> a_word[0] = 'H'
TypeError                                 Traceback (most recent call last)
/tmp/ipykernel_1817/217255829.py in <module>
      1 a_word = 'hello'
----> 2 a_word[0] = 'H'

TypeError: 'str' object does not support item assignment
```
:::

### 문자열 메서드 

문자열 자료형에만 사용하는 함수들이 있다. 이와같이 특정 자료형에만 사용하는 함수들을 메서드<font size = "2">method</font>라 부른다.
메서드는 일반적인 함수들과는 달리, 특정 자료형의 값을 먼저 언급하고 바로 이어서 점(`.`)을 찍은 다음 호출한다.

문자열 자료형이 제공하는 주요 메서드는 아래 표와 같다. 

|메서드|설명|
|:---|:---|
|`count()`|지정된 문자열이 등장한 횟수 반환|
|`find()`|지정된 문자열이 처음 등장한 위치 반환. 지정된 문자열이 없다면 -1반환|
|`index()`|지정된 문자열이 처음 등장한 위치 반환. 지정된 문자열이 없다면 오류발생|
|`lower()`|문자열에 사용된 문자를 모두 소문자로 변환한 문자열 반환|`words.lower()`|
|`upper()`|문자열에 사용된 문자를 모두 대문자로 변환한 문자열 반환|`words.upper()`|
|`replace()`|하나의 문자열을 다른 문자열로 대체한 문자열 반환|`words.replace('so ', '')`|
|`lstrip()`|문자열 왼쪽에서 지정된 부분 문자열을 삭제한 문자열 반환. 지정된 부분 문자열이 없는 경우 왼쪽 공백들을 삭제한 문자열 반환|
|`rstrip()`|문자열 오른쪽에서 지정된 부분 문자열을 삭제한 문자열 반환. 지정된 부분 문자열이 없는 경우 오른쪽 공백들을 삭제한 문자열 반환|
|`strip()`|문자열 양쪽에서 지정된 부분 문자열을 삭제한 문자열 반환. 지정된 문자열이 없는 경우 양쪽 공백들을 삭제한 문자열 반환|
|`split()`|문자열을 지정된 기준으로 쪼개서 생성된 문자열들로 구성된 리스트 반환. 지정된 문자열이 없는 경우 공백을 기준 사용|
|`join()`|지정된 문자열에 포함된 모든 문자들 사이에 지정된 문자열이 삽입된 문자열 반환|

**`count()` 메서드**

In [29]:
words = " My life is so cool, my life is so cool "

In [30]:
words.count('so')

2

**`find()` 메서드**

In [31]:
words.find('life')

4

**`index()` 메서드**

In [32]:
words.index('My')

1

**`lower()` 메서드**

In [33]:
words.lower()

' my life is so cool, my life is so cool '

**`upper()` 메서드**

In [34]:
words.upper()

' MY LIFE IS SO COOL, MY LIFE IS SO COOL '

**`replace()` 메서드**

In [35]:
words.replace('so ', 'that')

' My life is thatcool, my life is thatcool '

**`lstrip()` 메서드**

In [36]:
words.lstrip()

'My life is so cool, my life is so cool '

**`rstrip()` 메서드**

In [37]:
words.rstrip()

' My life is so cool, my life is so cool'

**`strip()` 메서드**

In [38]:
words.strip()

'My life is so cool, my life is so cool'

**`split()` 메서드**

In [39]:
words.split()

['My', 'life', 'is', 'so', 'cool,', 'my', 'life', 'is', 'so', 'cool']

**`join()` 메서드**

In [40]:
'--'.join('Hello')

'H--e--l--l--o'

## 연습문제

참고: [(실습) 문자열](https://colab.research.google.com/github/codingalzi/pybook/blob/master/practices/practice-strings.ipynb)