In [1]:
%%html
<style>
  table {margin-left: 0 !important;}
</style>

# 1. 일반적인 문자열 조작하기

## 1.1 문자열 검사 메서드

문자열 객체(str)에는 문자열이 지정된 형식인지 아닌지를 검사하는 메서드가 있다. 이들 메서드의 반환값은 모드 bool(True/False) 이다.

#### 문자열 검사 메서드
|메서드 이름|설명|
|:--------------|:---|
|isalnum()      |문자열이 숫자와 문자일 때만 True를 반환|
|isalpha()      |문자열이 문자일 때만 True를 반환. 한국어 등 ASCII 문자열이 아니더라도 숫자나 기호가 포함되어 있지 않으면 True를 반환|
|isdecimal()    |문자열이 십진수 숫자를 나타내면 True 반환|
|isdigit()      |문자열이 숫자를 나타내는 문자로만 이루어졌으면 True 반환|
|isidentifier() |식별자로 사용할 수 있는 문자열이면 True 반환|
|islower()      |문자열이 모두 소문자면 True 반환|
|isnumeric()    |수를 나타내는 문자열이면 True 반환. 한자 숫자 등도 포함|
|isprintable()  |프린트 가능한 문자열이면 True 반환|
|isspace()      |스페이스, 탭, 등의 공백 문자면 True 반환|
|istitle()      |맨 처음만 대문자이고 뒤는 소문자인 문자열이면 True 반환|
|isupper()      |문자열이 모두 대문자면 True 반환|

In [7]:
text1 = 'system-notification-00257'
text2 = '58.111.111.113'
text3 = '가나다라'
text4 = 'NetScreen'
text5 = '<133>DD_FW#2:'

In [9]:
print(text1.isalnum(), text1.isalpha())

False False


In [11]:
print(text2.isdecimal(), text2.isdigit(), text2.isnumeric())

False False False


In [12]:
print(text3.isalpha())

True


In [16]:
print(text4.istitle(), text4.isupper())
print(text5.isupper())

False False
True


In [17]:
' '.isspace()

True

In [18]:
'\t'.isspace()

True

## 1.2 문자열 변환 메서드

문자열 객체(str)를 변환하는 메서드의 반환값은 모두 문자열이다. 아래 메서드는 대소문자 구분이 있는 알파벳일 때만 유효하며 일본어, 한국어 등 기타 언어에서는 무효.

#### 문자열 변환 메서드
|메서드 이름|설명|
|:---|:---|
|upper()                   |문자열을 모두 대문자로 변환|
|lower()                   |문자열을 모두 소문자로 변환|
|swapcase()                |대문자는 소문자로, 소문자는 대문자로 변환|
|capitalize()              |맨 처음 한 문자를 대문자로, 그 외는 소문자로 변환|
|title()                   |단어마다 capitalize() 적용 한 것과 동일|
|replace(old, new[, count])|old를 new로 변환한 문자열을 반환. count가 지정된 경우에는 맨 처음부터 지정된 수 만큼 변환|

In [19]:
text = 'HELLO world!'
text.upper()

'HELLO WORLD!'

In [20]:
text  # 원본은 변하지 않고, 새로운 문자열을 리턴함

'HELLO world!'

In [21]:
text.lower()

'hello world!'

In [22]:
text.swapcase()

'hello WORLD!'

In [23]:
text.capitalize()

'Hello world!'

In [24]:
text.title()

'Hello World!'

In [25]:
text.replace('world', 'python')

'HELLO python!'

In [27]:
text.replace('L', 'l', 1)  # 첫 번째 'L'만 변환

'HElLO world!'

## 1.3 서식화 메서드

서식화 메서드란 미리 포멧을 지정하여 그 포맷에 따라 인수를 배치해서 문자열을 작성하는 것이다. {}로 감싼 부분에 format()의 인수로 지정된 값이 대입되어 문자열이 작성된다.

#### format() 메서드
|||
|:---|:---|
|형식|format(\*args, \*\*kwargs)|
|인수|\* args - 서식화할 값을 인수로 지정한다.|
|인수|\* kwargs - 서식화할 값을 키워드 인수로 지정한다.|

#### format_map() 메서드
|||
|:---|:---|
|형식|format_map(mapping)|
|인수|\* mapping - 서식화할 값을 사전 형식으로 지정한다.|

### 치환 필드 지정 방법
#### 기본적인 치환필드 지정 방법
|형식|설명|
|:--|:--|
|{}{}|왼쪽부터 순서대로 인수로 지정한 값으로 치환된다.|
|{0}{1}{2}|지정된 위치릐 인수 값으로 치환된다.|
|{name}{key}|kwargs 또는 format_map()에서 지정한 사전의 키에 해당하는 값으로 치환된다|

In [28]:
'{} is better than {}'.format('Beautiful', 'ugly')

'Beautiful is better than ugly'

In [29]:
'{1} is better than {0}'.format('implicit', 'Explicit')

'Explicit is better than implicit'

In [30]:
'My name is {name}'.format(name='DK')

'My name is DK'

In [32]:
person = {'name': 'DK', 'twitter': 'bbdklee'}
'My twitter id is {twitter}'.format_map(person)

'My twitter id is bbdklee'

#### 복잡한 치환 필드 지정 방법
인수에 list, dict 등을 지정할 때는 치환 필드를 다음과 같이 지정할 수 있음.

|형식|설명|
|:--|:--|
|{0[0]}{name[0]}|지정된 인수의 0번째 요소가 배치됨|
|{1[key]}{name[key]}|지정된 인수의 지정된 키워드(여기서는 key)의 값이 배치됨|
|{0.attr}{name.attr}|지정된 인수의 지정된 속성(여기서는 attr) 값이 배치됨|

In [33]:
words = ['spam', 'ham', 'eggs']
'I like {0[2]}'.format(words)

'I like eggs'

In [34]:
person = {'twitter': 'bbdklee', 'name': 'DK'}
'My name is {person[name]}'.format(person=person)

'My name is DK'

In [38]:
from datetime import datetime
now = datetime.now()
'Today is {0.year}-{0.month}-{0.day}'.format(now)

'Today is 2017-4-17'

### 포맷 지정 방법

서식을 지정할 때 문자열 변환을 위한 포맷을 함께 지정할 수 있다. 예를들어, 문자열로 변환할 때 수치 자릿수를 지정하거나, 공백을 메우는 등, 레이아웃을 조정할 수 있다. 이러한 포맷은 콜론(:)의 뒤에 지정한다.

#### 포맷 지정 방법
|형식|설명|
|:--|:--|
|`:<30 :>30 :^30`|지정한 폭(여기에서는 30)으로 왼쪽 맞춤, 오른쪽 맞춤, 가운데 맞춤|
|`:-<30 :->30 :-^30`|왼쪽 맞춤, 오른쪽 맞춤, 가운데 맞춤에서 공백(스페이스)을 지정한 문자(여기서는 '-')로 메움|
|`:b :o :d :x :X`|2진수, 8진수, 10진수, 16진수(소문자). 16진수(대문자)로 변환|
|`:f`|고정소수점 수의 문자열로 변환|
|`:%`|백분율 표기로 변환|
|`:,`|수치에 세 자리마다 쉼표(,)를 삽입|
|`:6.2f`|표시할 자릿수를 지정. 6은 전체 자리수, 2는 소수점 이하 자릿수를 나타냄|
|`:Y-%m-%d %H:%M:%S`|날짜 형식 특유의 서식으로, 연월일 등으로 변환|

** 서식 지정에 대한 자세한 내용은 공식 문서의 ["Format String Syntax"](https://docs.python.org/3/library/string.html)를 참고하라. **

In [40]:
'|{:<30}|'.format('left align')

'|left align                    |'

In [41]:
'|{:>30}|'.format('right align')

'|                   right align|'

In [42]:
'|{:^30}|'.format('center')

'|            center            |'

In [43]:
'|{:-^30}|'.format('center')

'|------------center------------|'

In [44]:
'{0:b} {0:o} {0:d} {0:x} {0:X}'.format(1000)

'1111101000 1750 1000 3e8 3E8'

In [45]:
from math import pi
'{0} {0:f}'.format(pi)

'3.141592653589793 3.141593'

In [46]:
'{:%}'.format(0.045)

'4.500000%'

In [47]:
'{:,}'.format(10000000000)

'10,000,000,000'

In [48]:
'{:4.2f} {:2.2%}'.format(pi, 0.045)

'3.14 4.50%'

In [49]:
now = datetime.now()
'Today is {:%Y-%m-%d}'.format(now)

'Today is 2017-04-17'

In [50]:
'Current time is {:%H:%M:%S}'.format(now)

'Current time is 10:59:16'

## 1.4 기타 문자열 메서드

#### 기타 문자열 메서드
|메서드 이름|설명|반환값|
|:---|:---|---:|
|find(sub[, start[, end]])|문자열 중에 sub이 존재하는 위치를 반환. 없으면 -1을 반환|int|
|split(sep=None, maxsplit=-1)|문자열을 분할함. 기본으로는 공백 문자로 분할|list|
|join(iterable)|인수로 지정된 여러 문자열을 결합|str|
|startswith(prefix[, start[, end]])|지정된 접두사를 가진 문자열을 검색. prefix에는 튜플로 여러 개의 후보를 지정할 수 있음. start, end는 조사할 위치 지정에 사용|bool|
|endswith(suffix[ , start[, end]])|지정된 접미사를 가진 문자열을 검색. suffix에는 튜플로 여러 개의 후보를 지정할 수 있음. start, end는 조사할 위치 지정에 사용|bool|
|encode(encoding='utf-8', errors='strict')|문자열을 지정한 인코딩 형식으로 변환. errors에는 변환 불가능한 문자열이 있을 때 대응 방법을 기술. strict이면 오류가 발생하며, ignore이면 해당 문자를 무시, replace이면 ?로 변환|bytes|

In [51]:
'python'.find('th')

2

In [52]:
'python'.find('TH')

-1

In [53]:
'python'.upper().find('TH')

2

In [54]:
words = '''Beautiful is better than ugly.
Explicit is better than implicit.'''.split()
words

['Beautiful',
 'is',
 'better',
 'than',
 'ugly.',
 'Explicit',
 'is',
 'better',
 'than',
 'implicit.']

In [56]:
'-'.join(words[:5])

'Beautiful-is-better-than-ugly.'

In [57]:
'python'.startswith('py')

True

In [58]:
image_suffix = ('jpg', 'png', 'gif')
'image.png'.endswith(image_suffix)

True

In [59]:
'test.txt'.endswith(image_suffix)

False

In [60]:
text = '가abcd나'
text.encode('ascii')

UnicodeEncodeError: 'ascii' codec can't encode character '\uac00' in position 0: ordinal not in range(128)

In [61]:
text.encode('ascii', 'ignore')

b'abcd'

In [62]:
text.encode('ascii', 'replace')

b'?abcd?'

## 1.5 문자열 상수 이용하기

#### string 모듈 상수
|상수이름|설명|
|:---|:---|
|string.ascii_lowercase|영문 소문자(abcdefghijklmnopqrstuvwxyz)|
|string.ascii_uppercase|영문 대문자(ABCDEFGHIJKLMNOPQRSTUVWXYZ)|
|string.ascii_letters|소문자와 대문자를 합친 영문자 전체|
|string.digits|10진수 숫자(0123456789)|
|string.hexdigits|16진수 숫자(0123456789abcdefABCDEF)|
|string.octdigits|8진수 숫자(01234567)|
|string.punctuation|기호 문자열`(!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~)`|
|string.whitespace|공백으로 취급되는 문자열(`\t \n \r \x0b \x0c`)|
|string.printable|ascii_letter, digits, punctuation, whitespace를 포함한 문자열|

In [72]:
import string
print(string.ascii_lowercase)
print(string.ascii_uppercase)
print(string.ascii_letters)
print(string.digits)
print(string.hexdigits)
print(string.octdigits)
print(string.punctuation)
print(string.whitespace)
print(string.printable)

abcdefghijklmnopqrstuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
0123456789
0123456789abcdefABCDEF
01234567
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
 	

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



In [73]:
'a' in string.ascii_lowercase

True

In [74]:
'a' in string.ascii_uppercase

False

In [76]:
'|||{:-^50}|||'.format(' aaaaaaaaaaaaaaa ')

'|||---------------- aaaaaaaaaaaaaaa -----------------|||'

In [78]:
print('src_ip: {:>15} dst_ip: {:>15}'.format('112.175.10.100', '112.175.135.113'))
print('src_ip: {:>15} dst_ip: {:>15}'.format('112.175.10.100', '112.175.135.113'))
print('src_ip: {:>15} dst_ip: {:>15}'.format('112.175.10.100', '112.175.135.113'))
print('src_ip: {:>15} dst_ip: {:>15}'.format('112.175.10.100', '112.175.135.113'))
print('src_ip: {:>15} dst_ip: {:>15}'.format('112.175.10.100', '112.175.135.113'))
print('src_ip: {:>15} dst_ip: {:>15}'.format('112.175.10.100', '112.175.135.113'))
print('src_ip: {:>15} dst_ip: {:>15}'.format('112.175.10.100', '112.175.135.113'))
print('src_ip: {:>15} dst_ip: {:>15}'.format('112.175.10.100', '112.175.135.113'))
print('src_ip: {:>15} dst_ip: {:>15}'.format('112.175.10.100', '112.175.135.113'))
print('src_ip: {:>15} dst_ip: {:>15}'.format('112.175.10.100', '112.175.135.113'))
print('src_ip: {:>15} dst_ip: {:>15}'.format('112.175.10.100', '112.175.135.113'))

src_ip:  112.175.10.100 dst_ip: 112.175.135.113
src_ip:  112.175.10.100 dst_ip: 112.175.135.113
src_ip:  112.175.10.100 dst_ip: 112.175.135.113
src_ip:  112.175.10.100 dst_ip: 112.175.135.113
src_ip:  112.175.10.100 dst_ip: 112.175.135.113
src_ip:  112.175.10.100 dst_ip: 112.175.135.113
src_ip:  112.175.10.100 dst_ip: 112.175.135.113
src_ip:  112.175.10.100 dst_ip: 112.175.135.113
src_ip:  112.175.10.100 dst_ip: 112.175.135.113
src_ip:  112.175.10.100 dst_ip: 112.175.135.113
src_ip:  112.175.10.100 dst_ip: 112.175.135.113


In [91]:
from datetime import datetime
now = datetime.now()
today = '{0.year}-{0.month}-{0.day}'.format(now)
print(today)
today2 = '{:%Y-%m-%d}'.format(now)
print(today2)
time = '{:%H:%M:%S}'.format(now)
print(time)
today3 = '{:%Y%m%d}'.format(now)
print(today3)

2017-4-17
2017-04-17
16:28:59
20170417


In [88]:
str_dir = dir('')
print(str_dir)

['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']


In [89]:
i = 0
for item in str_dir:
    if item.startswith('__'): pass
    else:
        print(item)
        i += 1
i

capitalize
casefold
center
count
encode
endswith
expandtabs
find
format
format_map
index
isalnum
isalpha
isdecimal
isdigit
isidentifier
islower
isnumeric
isprintable
isspace
istitle
isupper
join
ljust
lower
lstrip
maketrans
partition
replace
rfind
rindex
rjust
rpartition
rsplit
rstrip
split
splitlines
startswith
strip
swapcase
title
translate
upper
zfill


44