# 문자열
---
## 시퀀스 자료형
### 시퀀스 자료형이란
* 여러 객체를 저장하는 자료형
* 각 객체는 순서를 가진다.
* 각 요소는 인덱스를 사용하여 참조할 수 있다.

In [5]:
s = '안녕하세요'  # 문자열
L = [100, 200, 300]  # 리스트
t = ('튜플', '객체', 1, 2)  # 튜플

* 시퀀스 자료형이 가지는 공통적인 연산
    * 인덱싱
        * [k]
        * k번의 위치에서 값 하나를 취한다.
    * 슬라이싱
        * [s:t:p] 
        * s부터 t사이 구간의 값을 p간격으로 구한다.
    * 연결하기
        * `+` 연산자
        * 두 시퀀스형 데이터를 붙여서 새로운 데이터를 만든다.
    * 반복하기
        * `*` 연산자
        * 시퀀스형 데이터를 여러 번 반복해서 새로운 데이터를 만든다.
    * 멤버 검사
        * in 연산자
        * 어떤 값이 시퀀스 자료형에 손하는지를 검사한다.
    * 길이 정보
        * len() 연산자
        * 시퀀스형 데이터의 크기를 나타낸다.

## 문자열 정의하기
### 한 줄 문자열

In [3]:
s = ''  # 빈 문자열이다.
str1 = '고양이'  # 작은 따옴표
str2 = "냐옹냐옹"  # 큰 따옴표
str3 = "고양이가 생각했다. '냐옹냐옹냐냐옹'"

print(type(s))
print(isinstance(s, str))

print(str3)

<class 'str'>
True
고양이가 생각했다. '냐옹냐옹냐냐옹'


### 여러 줄 문자열
* 작은 따옴표나 큰 따옴표를 연속 세번 사용하여 감싼다.

In [13]:
multiline = """
I'm not gonna kill you.
I'm gonna hurt you.
really
really
bad.
"""
print(multiline.__repr__())
print(multiline)
print(type(multiline))

"\nI'm not gonna kill you.\nI'm gonna hurt you.\nreally\nreally\nbad.\n"

I'm not gonna kill you.
I'm gonna hurt you.
really
really
bad.

<class 'str'>


In [21]:
'hello\012'

'hello\n'

## 문자열 서식 지정하기
### 이전 방식의 서식 지정

* 파이썬 1과 2에서 주로 사용하던 방식으로 문자열 안에 서식 문자를 지정하고 튜플로 데이터를 공급하는 방식


In [23]:
int_val = 23  # 은 마이클 조던
float_val =  2.34567
print("%d %s %0.2f" % (int_val, 'any value', float_val))

23 any value 2.35


### 파이썬 3에서 권장하는 방식

* format() 함수를 이용한다.

In [26]:
print(format(int_val, '3d'), format(float_val, '.2f'))

 23 2.35


In [27]:
format(int_val, '3d')

' 23'

In [28]:
format(123456789, ',d')

'123,456,789'

In [29]:
format(123456789, ',.2f')

'123,456,789.00'

### forma() 메서드를 사용한 서식 지정
* 문자열의 format() 메서드를 이용하여 여러 값을 출력할 때 가장 많이 사용되는 방식

In [30]:
'{} {}'.format(23, 2.12345)

'23 2.12345'

* {0}은 format() 메서드의 첫 번째 인수, {1}은 두 번째 인수로 치환된다.

In [34]:
L = [1, 3, 4, 5, 6, 2, 0]
'{0} {1}'.format(max(L), min(L))

'6 0'

In [39]:
print('sqrt({:3} = {:0.5})'.format(2, 2 ** 0.5))  # 자릿수 지정
print('sqrt({0:3} = {1:0.5})'.format(2, 2 ** 0.5))  # 앞의 결과와 동일
print('sqrt({:3d} = {:0.5f})'.format(2, 2 ** 0.5))  

sqrt(  2 = 1.4142)
sqrt(  2 = 1.4142)
sqrt(  2 = 1.41421)


#### 인덱싱 참조

In [40]:
L = ['real world', 'to the', 'Welcome']
'{0[2]} {0[1]} {0[0]}'.format(L)

'Welcome to the real world'

#### 사전 참조

In [46]:
D = {'name': '임덕규', 'age': '서른마흔다섯'}
birth_msg = '''
안녕하세요? {name} 님. {age} 살 생일을 축하합니다.
'''
print(birth_msg.format_map(D))


안녕하세요? 임덕규 님. 서른마흔다섯 살 생일을 축하합니다.



#### 모듈 직접 참조

In [47]:
import sys
print(sys.float_info.max)

1.7976931348623157e+308


In [48]:
'실수 최댓값 : {0.float_info.max}'.format(sys)

'실수 최댓값 : 1.7976931348623157e+308'

In [52]:
class TestModule:
    value = 20140416
    
tm = TestModule()
print("Never forget {0.value}".format(tm))

Never forget 20140416


#### 수치 변환 기호
* 수치 자료형에 맞는 변환 기호가 별도로 준비되어 있다.
* locale이 적절하게 설정이 되어 있다면 큰 숫자를 세 자리마다 쉼표로 분리하는 형식으로 출력할 수 있다.

In [53]:
import locale
locale.setlocale(locale.LC_ALL, '')

'ko_KR.UTF-8'

In [54]:
'{0:b} {0:d} {0:o} {0:x} {0:X} {1:d} {1:n}'.format(13, 123456789)

'1101 13 15 d D 123456789 123,456,789'

#### 보조서식 문자

In [55]:
'{0:5s}'.format('egg')  # m 개의 최소 자리를 확보한다.

'egg  '

In [57]:
'{0:10.3f}'.format(123.45678)  # m개의 최소 자리를 확보하고 n개의 소수점 이하 자리를 출력한다.

'   123.457'

In [58]:
'{0:>5d}'.format(123)  # 오른쪽에 맞추어 출력

'  123'

In [59]:
'{0:<5d}'.format(123)  # 왼쪽에 맞추어 출력

'123  '

In [63]:
'{0:+d}'.format(+123)  # + 부호 출력

'+123'

In [62]:
'{0:+d}'.format(-123)  # - 부호 출력

'-123'

In [68]:
'{0: d}'.format(123)  # 양수일 경우는 공백 출력

' 123'

In [69]:
'{0:#o} {0:#x}'.format(123)  # 8진수 출력에는 O, 16진수 출력에는 x

'0o173 0x7b'

In [74]:
'{0:05d}'.format(123)  # 왼쪽 빈공간을 0으로 채운다

'00123'

### 문자열 메서드
#### 대소문자 변환에 관련된 메서드

In [76]:
s = 'show me the money'
print(s)

show me the money


In [77]:
s.upper()  # 대문자로 변환

'SHOW ME THE MONEY'

In [78]:
s.lower()  # 소문자로 변환

'show me the money'

In [79]:
'sHow me thE mOney'.swapcase()

'ShOW ME THe MoNEY'

In [80]:
s.capitalize()  # 첫 문자를 대문자로 변환한다.

'Show me the money'

In [81]:
s.title()  # 각 단어의 첫 글자를 대문자로 변환한다.

'Show Me The Money'

#### 검색 관련 메서드

In [96]:
s = '안 촉촉한 초코칩 나라에 살던 안 촉촉한 초코칩이 \
촉촉한 초코칩 나라의 촉촉한 초코칩을 보고 \
촉촉한 초코칩이 되고 싶어서 촉촉한 초코칩 나라에 갔는데 \
촉촉한 초코칩 나라의 문지기가 "넌 촉촉한 초코칩이 아니고 안 \
촉촉한 초코칩이니까 안 촉촉한 초코칩 나라에서 살아"라고 해서 안 \
촉촉한 초코칩은 촉촉한 초코칩이 되는 것을 포기하고 안 \
촉촉한 초코칩 나라로 돌아갔다.'

s.count('촉촉한')

13

In [87]:
s.find('촉촉한')  # 문자열 s에서 '촉촉한'의 오프셋을 반환한다.

2

In [88]:
s.find('촉촉한', 5)  # 문자열 5번째 위치부터 검색

19

In [89]:
s.find('여자친구')  # 찾는 문자열이 없을 경우 -1을 반환한다.

-1

In [90]:
s.rfind('촉촉한')  # find()와 같지만 뒤쪽부터 검색

187

In [91]:
s.index('촉촉한')  # find() 메서드와 같지만,

2

In [92]:
s.index('여자친구')  # 찾는 여ㅈ 문자열이 없으면 예외를 발생한다.

ValueError: substring not found

In [93]:
s.rindex('여자친구')  # index()와 같지만 뒤쪽부터 검색

ValueError: substring not found

In [94]:
s.startswith('촉촉한')  # 촉촉한 으로 시작하는 문자열인가?

False

In [97]:
s.endswith('돌아갔다.') # 돌아갔다. 으로 끝나는 문자열인가?

True

#### 편집과 치환에 관련된 문자열

In [105]:
u = ' 나 그리고 여친 '
u .strip()  # 좌 우 공백을 없앤다.

'나 그리고 여친'

In [99]:
u.rstrip() # 오른쪽 공백을 없앤다.

' 나 그리고 여친'

In [100]:
u.lstrip()  # 왼쪽 공백을 없앤다.

'나 그리고 여친 '

In [103]:
'ㅎㅎ나 그리고 여친ㅎ'.strip('ㅎ')

'나 그리고 여친'

In [107]:
u.replace('여친', '시작되는 저축')  # 여친을 없애고 시작되는 저축으로 바꾼다.

' 나 그리고 시작되는 저축 '

#### 문자열 분리·결합 

In [108]:
u = '나 그리고 여친'

In [109]:
u.split()  # 공백을 기준으로 분리

['나', '그리고', '여친']

In [110]:
u.split('그리고')

['나 ', ' 여친']

In [111]:
u

'나 그리고 여친'

In [113]:
t = u.split()
print(t)

['나', '그리고', '여친']


In [114]:
':'.join(t)  # ':' 문자로 결합

'나:그리고:여친'

In [115]:
print('\n'.join(t))  # 줄 바꾸기로 결합

나
그리고
여친


In [116]:
lines = '''안 촉촉한 초코칩 나라에 살던 
안 촉촉한 초코칩이 
촉촉한 초코칩 나라의 
촉촉한 초코칩을 보고 
촉촉한 초코칩이 되고 싶어서 
촉촉한 초코칩 나라에 갔는데 
촉촉한 초코칩 나라의 문지기가 "넌 
촉촉한 초코칩이 아니고 안 
촉촉한 초코칩이니까 안 
촉촉한 초코칩 나라에서 살아"라고 해서 안 
촉촉한 초코칩은 
촉촉한 초코칩이 되는 것을 포기하고 안 
촉촉한 초코칩 나라로 돌아갔다.'''

lines.splitlines()

['안 촉촉한 초코칩 나라에 살던 ',
 '안 촉촉한 초코칩이 ',
 '촉촉한 초코칩 나라의 ',
 '촉촉한 초코칩을 보고 ',
 '촉촉한 초코칩이 되고 싶어서 ',
 '촉촉한 초코칩 나라에 갔는데 ',
 '촉촉한 초코칩 나라의 문지기가 "넌 ',
 '촉촉한 초코칩이 아니고 안 ',
 '촉촉한 초코칩이니까 안 ',
 '촉촉한 초코칩 나라에서 살아"라고 해서 안 ',
 '촉촉한 초코칩은 ',
 '촉촉한 초코칩이 되는 것을 포기하고 안 ',
 '촉촉한 초코칩 나라로 돌아갔다.']

In [117]:
s = 'one:two:three:four'
s.split(':', 2)

['one', 'two', 'three:four']

In [118]:
s.rsplit(':', 1)

['one:two:three', 'four']

#### 정렬 메서드

In [119]:
u = '나 그리고 여친'
u.center(60)  # 가운데 정렬

'                          나 그리고 여친                          '

In [120]:
u.ljust(60)

'나 그리고 여친                                                    '

In [121]:
u.rjust(60)

'                                                    나 그리고 여친'

In [125]:
u.center(30, '👬')  # 공백을 두 번째 인자로 받은 문자로 바꾼다.

'👬👬👬👬👬👬👬👬👬👬👬나 그리고 여친👬👬👬👬👬👬👬👬👬👬👬'

#### 숫자로 된 문자열인지 영문자로 구성된 문자열인지 구분

In [126]:
'2134'.isdigit()  # 문자열이 숫자인가?

True

In [128]:
'\u0661'

'١'

In [130]:
'\u0661'.isdecimal()  # 일반 수치 혹은 유니코드수치 문자인가?

True

In [131]:
'Python파이썬'.isalpha()  # 문자열이 영문자 혹은 유니코드 letter 문자인가?

True

In [132]:
'python3'.isalnum()  # 문자열이 숫자나 영문자 혹은 유니코드 letter 문자인가?

True