# 일반적인 문자열 조작하기

## 문자열 검사 메서드

In [2]:
'123abc'.isalnum() # 문자열이 숫자와 문자열일때만 True

True

In [3]:
'123abc#'.isalnum()

False

In [4]:
'abcd'.isalpha()

True

In [5]:
'가나다라'.isalpha()  # 특수문자만 없다면 한글도 True

True

In [6]:
'UPPERCASE'.isupper()

True

In [7]:
'lowercase'.islower()

True

In [19]:
'Title String'.istitle()  # 각 단어의 첫 문자가 대문자이고, 뒤는 소문자이면 True

False

In [10]:
num = '123456789'
num.isdecimal(), num.isdigit(), num.isnumeric()
# 십진수, 숫자로만 이루어진 문자, 수를 나타내는 문자(한자, 숫자 포함)

(True, True, True)

## 문자열 변환 메서드

In [12]:
text = 'HELLO world'
text.upper()

'HELLO WORLD'

In [14]:
text.lower()

'hello world'

In [15]:
text.swapcase()  # 대문자는 소문자로, 소문자는 대문자로 변환

'hello WORLD'

In [16]:
text.capitalize()  # 첫 문자만 대문자, 나머지는 소문자로 변환

'Hello world'

In [17]:
text.title()   # 각 단어의 첫문자는 대문자, 나머지는 소문자

'Hello World'

In [21]:
text.replace('world', 'python')

'HELLO python'

In [22]:
text.replace('L', 'l', 1)  # 첫 번째 L만 변환

'HElLO world'

## 서식화 메서드

In [23]:
'1 + 2 = {0}'.format(1+2)

'1 + 2 = 3'

In [24]:
a = 2
b = 3
'{0} * {1} = {2}'.format(a, b, a*b)

'2 * 3 = 6'

In [25]:
'{} is better than {}'.format('Beautiful', 'ugly')

'Beautiful is better than ugly'

In [26]:
'{1} is better than {0}'.format('implicit', 'Explicit')

'Explicit is better than implicit'

In [27]:
'My name is {name}'.format(name='dk')

'My name is dk'

In [28]:
# format_map: dict 형식을 지정한다.
person = {'name': 'dk', 'instagram': 'makingfunk'}

'My instagram id is {instagram}'.format_map(person)

'My instagram id is makingfunk'

In [29]:
words = ['spam', 'ham', 'eggs']
'I like {0[2]}'.format(words)

'I like eggs'

In [30]:
person = {'name': 'dk', 'instagram': 'makingfunk'}

'My name is {person[name]}'.format(person=person)

'My name is dk'

In [31]:
from datetime import datetime
now = datetime.now()
'Today is {0.year}-{0.month}-{0.day}'.format(now)

'Today is 2019-11-26'

## 포맷 지정 방법

In [32]:
'|{:<30}|'.format('left align')  # 지정한 폭으로 왼쪽 맞춤

'|left align                    |'

In [34]:
'|{:>30}|'.format('left right')  # 지정한 폭으로 오른쪽 맞춤

'|                    left right|'

In [35]:
'|{:^30}|'.format('center')  # 지정한 폭으로 중앙 맞춤

'|            center            |'

In [37]:
'|{:-^30}|'.format('center')  # 지정한 폭으로 중앙 맞춤, 공백은 지정문자로 채움

'|------------center------------|'

In [38]:
'{0:b} {0:o} {0:d} {0:x} {0:X}'.format(1000) # 2,8, 10,16(소문자),16(대문자) 진수

'1111101000 1750 1000 3e8 3E8'

In [39]:
import math
'{0} {0:f}'.format(math.pi)

'3.141592653589793 3.141593'

In [40]:
'{:%}'.format(0.045)  # 백분율로 반환

'4.500000%'

In [41]:
'{:,}'.format(1000000000000)

'1,000,000,000,000'

In [42]:
'{:4.2f} {:2.2%}'.format(math.pi, 0.045)  # 소수점 뒤 자릿수 지정

'3.14 4.50%'

In [46]:
from datetime import datetime
now = datetime.now()
'Today is {:%Y-%m-%d}'.format(now)

'Today is 2019-11-26'

In [47]:
'Current time is {:%H:%M:%S}'.format(now)

'Current time is 20:02:46'

## 기타 문자열 메서드

In [48]:
'python'.find('th')  # 찾으면 index 반환

2

In [49]:
'python'.find('TH')  # 없으면 -1

-1

In [50]:
words = '''Beutiful is better than ugly.
Explicit is better than implicit.'''.split()

In [51]:
words

['Beutiful',
 'is',
 'better',
 'than',
 'ugly.',
 'Explicit',
 'is',
 'better',
 'than',
 'implicit.']

In [52]:
'-'.join(words[:5])

'Beutiful-is-better-than-ugly.'

In [53]:
'python'.startswith('py')

True

In [54]:
image_suffix = ('jpg', 'png','gif')
'image.png'.endswith(image_suffix)

True

In [55]:
'text.txt'.endswith(image_suffix)

False

In [56]:
text = '가abcd나'
text.encode('ascii')

UnicodeEncodeError: 'ascii' codec can't encode character '\uac00' in position 0: ordinal not in range(128)

In [57]:
text.encode('ascii', 'ignore')  # 한국어 무시

b'abcd'

In [58]:
text.encode('ascii', 'replace')  # 한국어를 ?을 변환

b'?abcd?'

## 문자열 상수 이용하기

In [59]:
import string
'a' in string.ascii_lowercase

True

In [60]:
'a' in string.ascii_uppercase

False

# 정규 표현 다루기

## 기본 함수

In [61]:
import re

re.match('a.c', 'abc')  # 일치하면 매치 객체를 반환

<re.Match object; span=(0, 3), match='abc'>

In [62]:
re.search('a.c', 'abc')  # 일치하면 매치 객체를 반환

<re.Match object; span=(0, 3), match='abc'>

In [63]:
re.match('b', 'abc')  # match는 맨 앞글자를 확인하기때문에 불일치

In [64]:
re.search('b', 'abc')

<re.Match object; span=(1, 2), match='b'>

## re 모듈의 상수 (플래그)

상수 | desc
---|---
A | `\w` 등의 매치 처리에서 ASCII 문자만을 사용
I | 대소문자 구별하지 않고 매치
M | ^와 $를 각행의 맨 처음와 맨 끝에 매치
S | 점(.)을 줄바꿈까지 포함하여 매치

In [65]:
re.search('\w', '가나다라마ABC')

<re.Match object; span=(0, 1), match='가'>

In [66]:
re.search('\w', '가나다라마ABC', flags=re.A)  # ascii문자만 매치

<re.Match object; span=(5, 6), match='A'>

In [67]:
re.search('[abc]+', 'ABC')

In [70]:
re.search('[abc]+', 'ABC', re.I)  # 대소문자 무시

<re.Match object; span=(0, 3), match='ABC'>

In [71]:
re.match('a.c', 'A\nC', re.I)

In [72]:
re.match('a.c', 'A\nC', re.I | re.S)  # 여러 플래그 지정

<re.Match object; span=(0, 3), match='A\nC'>

## 정규 표현 객체

In [73]:
regex = re.compile('[a-n]+')
type(regex)

re.Pattern

In [74]:
regex.search('python')

<re.Match object; span=(3, 4), match='h'>

In [75]:
regex.match('python')  # 맨 앞글자가 불일치

In [76]:
regex.fullmatch('eggs')  # 문자열 전체 일치 검사

In [77]:
regex.fullmatch('egg')

<re.Match object; span=(0, 3), match='egg'>

In [78]:
regex2 = re.compile('[-+()]')  # 전화번호 기호 패턴 정의
regex2.split('080-1234-5678')

['080', '1234', '5678']

In [79]:
regex2.split('(080)1234-5678')

['', '080', '1234', '5678']

In [80]:
regex2.split('+81-80-1234-5678')

['', '81', '80', '1234', '5678']

In [81]:
regex2.sub('', '+81-80-1234-5678')  # 기호를 삭제

'818012345678'

In [82]:
regex3 = re.compile('\d+')  # 문자 한 개 이상으로 된 숫자의 정규 표현
regex3.findall('080-1234-5678')

['080', '1234', '5678']

In [84]:
for m in regex3.finditer('+81-80-1234-5678'):
    print(m)

<re.Match object; span=(1, 3), match='81'>
<re.Match object; span=(4, 6), match='80'>
<re.Match object; span=(7, 11), match='1234'>
<re.Match object; span=(12, 16), match='5678'>


## 매치 객체

In [85]:
regex = re.compile('(\d+)-(\d+)-(\d+)')  # 전화번호 정규표현

In [86]:
m = regex.match('080-1234-5678')
m.group()  # 일치한 문자열 전체를 얻음

'080-1234-5678'

In [87]:
m.group(1), m.group(2)  # 각 서브 그룹의 문자열을 얻음

('080', '1234')

In [88]:
regex2 = re.compile(r'(?P<first>\w+) (?P<last>\w+)') # 이름을 구하는 정규표현

In [109]:
m2 = regex2.match('Do Kyung: PyCon KR member')

In [113]:
m2.group(1)

'Do'

In [115]:
m2.group('first'), m2.group('last')  # 서브 그룹을 그룹 이름으로 지정

('Do', 'Kyung')

In [116]:
regex = re.compile(r'(?P<first>\w+) (?P<last>\w+)')

In [117]:
m = regex.match('Do Kyung: #python study')

In [118]:
m.group()

'Do Kyung'

In [119]:
m.groupdict()

{'first': 'Do', 'last': 'Kyung'}

In [123]:
m.expand(r'last: \2, first: \1')

'last: Kyung, first: Do'

In [124]:
m.expand(r'last: \g<last>, first: \g<first>')

'last: Kyung, first: Do'

# Unicode 데이터베이스에 접근하기

In [125]:
import unicodedata

데이터베이스에 접근하는 기능을 제공.

In [126]:
unicodedata.lookup('LATIN SMALL LETTER A') # 지정된 이름에 대응하는 문자를 반환

'a'

In [127]:
unicodedata.lookup('SNOWMAN')

'☃'

In [128]:
unicodedata.lookup('UNKNOWN CHARACTER')

KeyError: "undefined character name 'UNKNOWN CHARACTER'"

In [130]:
for chr in ('A', 'A', '1', '1', 'ㄱ', '가'):
    print(unicodedata.name(chr))

LATIN CAPITAL LETTER A
LATIN CAPITAL LETTER A
DIGIT ONE
DIGIT ONE
HANGUL LETTER KIYEOK
HANGUL SYLLABLE GA


## Unicode 문자열의 정규화

In [131]:
unicodedata.normalize('NFC', '한글aA!@')  # NFC 정규화

'한글aA!@'

In [132]:
unicodedata.normalize('NFKC', '한글aA!@')  # NFKC 정규화

'한글aA!@'