# Chapter 5 : 문자열 다루기

문자열 데이터를 다루는 다양한 방법을 배워봅시다.

## 1. 문자열에 사용할 수 있는 연산자

- 앞서 배운 연산자 중, "이항 산술 연산자" `+`, `*` 는 문자열에서도 사용할 수 있다.
- `S1 + S2` : 문자열 `S1` 뒤에 문자열 `S2` 를 이어 붙여준다.
- `S1 * N` : 문자열 `S1` 을 정수 `N` 개 만큼 생성하여 서로 이어 붙여준다.

In [1]:
message = '파이썬은 ' + '정말 ' + '재밌어요!'
print(message)

message = '우와! ' * 5
print(message)

파이썬은 정말 재밌어요!
우와! 우와! 우와! 우와! 우와! 


## 2. 다양한 함수

- 문자열 데이터를 다룰 때 자주 사용하는 "함수"를 배워봅시다.
> "함수"는 나중에 자세히 다룰 예정입니다.

---
- `len(S1)` : 문자열 `S1` 의 길이를 반환

In [2]:
my_name = '홍길동'
print(len(my_name))

my_name = 'Jason Mraz'
print(len(my_name))

3
10


- `str.lower(S1)` : 문자열 `S1` 의 모든 문자를 소문자로 변환
- `str.upper(S1)` : 문자열 `S1` 의 모든 문자를 대문자로 변환

In [3]:
message = 'Hello Python World!'
print(str.lower(message))
print(message.upper())

hello python world!
HELLO PYTHON WORLD!


- `str.replace(S1, Old, New)` : 문자열 `S1` 에서 문자열 `Old` 를 문자열 `New` 로 변환

In [4]:
ticket = 'Gate: E13 / From: Incheon / To: Tokyo'
print(str.replace(ticket, 'Tokyo', 'Paris'))
print(ticket.replace('E13', 'C47'))

Gate: E13 / From: Incheon / To: Paris
Gate: C47 / From: Incheon / To: Tokyo


- `str.index(S1, T)` : 문자열 `S1` 에서 문자열 `T` 를 찾아서 해당 문자열의 시작 위치를 반환
- `str.find(S1, T)` : `str.index()` 함수와 동일
- 문자열 `T` 가 없는 경우, `-1` 을 반환

In [5]:
message = 'This is sample message'
print(str.index(message, 's'))
print(str.find(message, 's'))

print(message.index('sample'))
print(message.find('sample'))

print(message.find('python'))

3
3
8
8
-1


- `str.count(S1, T)` : 문자열 `S1` 에서 문자열 `T` 의 갯수를 반환

In [6]:
fruits = 'banana'
print(str.count(fruits, 'a'))
print(fruits.count('a'))
print(fruits.count('ana'))

3
3
1


- `str.split(S1, T)` : 문자열 `S1` 을 문자열 `T` 를 기준으로 분할

In [7]:
fruits = 'apple, orange, banana, kiwi'
print(str.split(fruits, ','))
print(fruits.split(', '))

message = '''
Hello
My name is John
Nice to meet you
'''
print(message.split('\n'))  # '\n' 은 "이스케이프" 문자라고 하며, 아래에서 자세히 다룰 예정

['apple', ' orange', ' banana', ' kiwi']
['apple', 'orange', 'banana', 'kiwi']
['', 'Hello', 'My name is John', 'Nice to meet you', '']


- `str.strip(S1)` : 문자열 `S1` 의 맨 앞/뒤의 공백을 제거
- `str.lstrip(S1)` : 문자열 `S1` 의 맨 앞의 공백을 제거
- `str.rstrip(S1)` : 문자열 `S1` 의 맨 뒤의 공백을 제거

In [8]:
message = '     this is sample message     '
print(str.strip(message))
print(message.strip())

print(message.lstrip())  # 아래 출력을 마우스 드래그 해보면, 오른쪽 공백이 남아 있음
print(message.rstrip())

this is sample message
this is sample message
this is sample message     
     this is sample message


- `str.startswith(S1, T)` : 문자열 `S1` 이 문자열 `T` 로 시작되는지 여부 반환
- `str.endswith(S1, T)` : 문자열 `S1` 이 문자열 `T` 로 끝나는지 여부 반환

In [9]:
message = 'My name is John'
print(str.startswith(message, 'My'))
print(message.endswith('Mike'))

True
False


- `str.join(T, Iterable[str])` : 문자열 `T` 를 기준으로 문자열 모음을 서로 연결
- `Iterable` 은 "반복 가능한" 이라는 뜻으로, "6장, 자료구조"에서 자세히 다룰 예정

In [10]:
print(str.join('-', ['Hello', 'Python', 'World!']))
print(', '.join(('banana', 'apple', 'orange')))

Hello-Python-World!
banana, apple, orange


- `str.isdecimal(S1)` : 문자열 `S1` 이 "0 ~ 9" 까지 숫자 문자로만 이루어져 있는지 여부 반환
- 주로 `int` 자료형으로 형 변환이 가능한지 확인할 때 사용

In [11]:
number = '1234'
print(str.isdecimal(number))
print('-222'.isdecimal())

# Tip! : 음수 숫자 문자열은 앞서 배운 "startswith()" 함수를 조합하여
# int 자료형 변환이 가능한지 확인 할 수 있음
number = '-222'
if number.startswith('-') and number[1:].isdecimal():
    # 'number[1:]' 과 같은 사용법은, "6장, 자료구조"에서 자세히 다룰 예정
    # 'if' 조건문은, "7장, 흐름 제어"에서 자세히 다룰 예정
    print(int(number))

True
False
-222


## 3. 문자열 포맷팅(formatting)

- 문자열 안에 어떤 값을 넣어서 새로운 문자열을 만드는 방법

1. `%` 포맷 코드를 이용한 포맷팅

|포맷 코드|의미|
|:---:|---|
|`%s`|문자열(string)|
|`%c`|문자(character)|
|`%d`|정수(interger)|
|`%f`|부동 소수점(floating-point)|
|`%x`|16진수|
|`%%`|문자 `%`|

In [12]:
my_name = '홍길동'
print('제 이름은 %s 입니다.' % my_name)

age = 23
print('나이는 %d 살 입니다.' % age)

habit_1 = '축구'
habit_2 = '영화 감상'
print('제 취미는 %s, %s 입니다.' % (habit_1, habit_2))

# '%'를 사용하고 싶을 땐, '%%'를 사용
print('비율은 %d%% 입니다.' % 12)

제 이름은 홍길동 입니다.
나이는 23 살 입니다.
제 취미는 축구, 영화 감상 입니다.
비율은 12% 입니다.


2. `%` 포맷 코드, 고급 사용법

- 정렬 / 공백

In [13]:
# 삽입 할 데이터를, 길이 10 문자열에 우측 정렬하여 삽입 (남은 공간은 공백으로 채움)
print('%10s' % 'hi')

# 숫자 앞에 '-'를 붙이면 좌측 정렬
print('%-10s' % 'hi')
print('%-10smike' % 'hi')
print('age:%10d' % 23)

# 지정한 크기를 넘어가면, 크기를 무시하고 그냥 삽입함
print('%-5s' % 'hello world')

        hi
hi        
hi        mike
age:        23
hello world


- 소수점 표현

In [14]:
# 삽입 할 소수점 데이터를, 3번째 자리까지 반올림
print('%0.3f' % 3.14159265)

# 길이 10, 우측 정렬, 소수점 2번째 자리까지 반올림
print('%10.2f' % 3.14159265)

3.142
      3.14


> 포맷 코드 규칙 정리
> > `%[-]x[.y]f`
> > - `[-]` : 좌/우 정렬
> > - `x` : 길이
> > - `[.y]` : 소수점 반올림, `%f` 에서만 사용
> > - `[]` 로 묶은 부분은 생략이 가능하다는 의미

3. `str.format()` 함수를 이용한 포맷팅

- 기본 사용법

In [15]:
# 자료형을 크게 신경쓰지 않고 사용할 수 있음
print('제 이름은 {} 입니다.'.format('Jason'))
print('저는 {} 살 입니다.'.format(32))

# 인덱스(index)를 이용하여 데이터를 삽입
print('제 취미는 {1}, {0} 입니다.'.format('농구', '음악 감상'))
# 인덱스가 없으면 들어온 순서대로 삽입
print('제 취미는 {}, {} 입니다.'.format('농구', '음악 감상'))

# 이름으로도 삽입할 수 있음
print('저는 {city}, {country} 에 살고 있습니다.'.format(city='수원', country='대한민국'))

# 인덱스와 이름을 혼용할 수 있음
# 단, 'format()' 함수에 '인덱스 > 이름' 순으로 전달해야함
print('제가 좋아하는 과일은 {0}, {1}, {it} 입니다.'.format('귤', '바나나', it='사과'))

# '{', '}' 를 추가하고 싶을 땐, '{{', '}}' 로 사용
print('가격은 {{ {0} }} 원 입니다.'.format(3500))

제 이름은 Jason 입니다.
저는 32 살 입니다.
제 취미는 음악 감상, 농구 입니다.
제 취미는 농구, 음악 감상 입니다.
저는 수원, 대한민국 에 살고 있습니다.
제가 좋아하는 과일은 귤, 바나나, 사과 입니다.
가격은 { 3500 } 원 입니다.


- 정렬 / 공백

In [16]:
# 좌측 정렬, 길이 10
print('{0:<10}'.format('hi'))

# 우측 정렬, 길이 10
print('{0:>10}'.format('hi'))

# 중앙 정렬, 길이 10
print('{0:^10}'.format('hi'))

# 공백 채우기
print('{0:-^10}'.format('hi'))  # 좌우 공백에 '-' 채움
print('{0:.<10}'.format('hi'))  # 우측 공백에 '.' 채움

hi        
        hi
    hi    
----hi----
hi........


- 소수점 표현

In [17]:
# 소수점 4번째 자리까지 반올림
print('{0:0.4f}'.format(3.14159265))

# '~' 공백 채우기, 가운데 정렬, 길이 10, 소수점 2번째 자리까지 반올림
print('{0:~^10.2f}'.format(3.14159265))

3.1416
~~~3.14~~~


4. f 문자열 포맷팅
    - 문자열 앞에 `f` 접두사를 붙여서 사용

> ※ 파이썬 3.6 버전부터 사용 가능

In [18]:
# 문자열 앞에 'f'를 붙이고, 중괄호 안에 데이터를 넣는다
print(f'제 이름은 {"홍길동"} 입니다.')  # '문자열' 안에 문자열을 넣기 위해 ""을 사용했다

# 변수도 넣을 수 있다
name = '홍길동'
age = 24
print(f'제 이름은 {name} 이고, 나이는 {age} 입니다.')

# 값 또는 변수에 연산한 결과를 넣을 수 있다
print(f'내년에는 {age + 1} 살이 됩니다.')

# "format()"" 함수와 동일한 방법으로 "정렬", "공백 채우기", "소수점 표현"이 가능하다
print(f'{123:<10}')  # 좌측 정렬
print(f'{123:>10}')  # 우측 정렬
print(f'{123:^10}')  # 중앙 정렬
print(f'{123:=^10}') # 공백 채우기
print(f'{3.14159265:0.3}')  # 소수점 표현

# 문자열에 중괄호를 사용하는 것도 "format()" 함수와 방식이 동일하다
print(f'{{ and }}')

제 이름은 홍길동 입니다.
제 이름은 홍길동 이고, 나이는 24 입니다.
내년에는 25 살이 됩니다.
123       
       123
   123    
===123====
3.14
{ and }


5. 이스케이프 문자 (escape character)

|기호|의미|
|:---:|---|
|`\n`|줄 바꿈|
|`\t`|탭(Tab)|
|`\'`|작은 따옴표(')|
|`\"`|큰 따옴표(")|
|`\\`|백 슬래쉬(\\)|

※ 이스케이프 문자의 길이는 `2` 로 보이지만, 이름 그대로 "문자"이므로 길이가 `1` 이다.

In [19]:
# 줄 바꿈
print('Hello\nPython!')

# 탭
print('Hello\tPython!')

# 따옴표
print('Hello \'Python\'')
print("Hello \"Python\"")

# 백 슬래쉬
print('Hello \\ Python')

Hello
Python!
Hello	Python!
Hello 'Python'
Hello "Python"
Hello \ Python


6. Raw string
    - 작성한 문자열 그대로를 쓰고 싶을 때 사용
    - 주로 `\`, `%` 처럼 이스케이프 문자나 포맷 코드의 적용을 무시하기 위해서 사용

In [20]:
print('Hello\nWorld')
print(r'Hello\nWorld')

Hello
World
Hello\nWorld
