# 09. 문자열 다루기

## - Escape and Raw

파이썬에서 문자열을 표현할 때 `" ... "` 혹은 `' ... '`을 사용한다.

그래서 문법적으로 쓰이는 쌍따옴표(`"`)나 홑따옴표(`'`)를 문자열로써 포함시키고 싶을 수 있다.

Escape는 `\`로 표현하고 프로그래밍 문법적 요소로 쓰이는 문자를 문자열로서 사용할 수 있게 해준다.

raw는 `r`이란 단어를 맨 앞에 붙여줌으로써 문자열 안에 적힌 그대로 사용할 수 있게 도와준다

In [1]:
print("I'am \"Iron Man\"") #Escape

I'am "Iron Man"


In [2]:
print(r'c:\Program Files\Python39') #Raw

c:\Program Files\Python39


## - 문자 합체와 반복

In [3]:
'Py'"thon" #이런식으로 문자열을 합칠 수 있다.

'Python'

In [4]:
'문''자열''합치기'

'문자열합치기'

In [5]:
"파이썬""은""문자열을""다루기""좋다"

'파이썬은문자열을다루기좋다'

In [6]:
#  - 두 개 이상의 문자열 리터럴 (즉, 따옴표로 둘러싸인 것들) 가 연속해서 나타나면 자동으로 이어 붙여집니다.
text = ('Put several strings within parentheses '
        'to have them joined together.')
text

'Put several strings within parentheses to have them joined together.'

이것은 오직 두 개의 리터럴에만 적용될 뿐 변수나 표현식에는 해당하지 않습니다: prefix 'thon' -- Error
변수들끼리 혹은 변수와 문자열를 이어붙이려면 `+` 를 사용해야 합니다: prefix + 'thon'

In [7]:
prefix = "py"
prefix"thon"

SyntaxError: invalid syntax (Temp/ipykernel_10884/3139416424.py, line 2)

In [8]:
prefix = "py"
prefix + "thon"

'python'

`*`를 통해 n번 반복할 수도 있다

In [9]:
3 * 'Hi ' + 'Welcome'

'Hi Hi Hi Welcome'

## - 문자열 확인

### * len()

In [10]:
s = 'supercalifragilisticexpialidocious' 
len(s) # 문자열의 길이를 돌려줌

34

### * in

In [11]:
'Py' in 'Python' # include

True

## - 문자열 Literal 확장

### * `''' '''` || `""" """`

In [12]:
print('''
Usage: python
    --version
''') 


Usage: python
    --version



In [13]:
# 개행 없애기
print("""\
Usage: python
    --version
""") 

Usage: python
    --version



### * 인덱스

In [14]:
# 문자 인덱스
word = 'Python'
print(word[0])
print(word[-1]) # 0과 -0은 같음. 맨 끝 숫자는 -1

P
n


In [15]:
print(word[:2] + word[2:])
print(word[:2] )

Python
Py


In [16]:
word[100] # 문자 인덱스를 넘을 시 에러

IndexError: string index out of range

In [17]:
# 하지만, 범위를 벗어나는 슬라이스 인덱스는 슬라이싱할 때 부드럽게 처리됨
word[4:42]

'on'

### * 문자열은 immutable하다

파이썬 문자열은 변경할 수 없다 — 불변(immutable) 이라고 합니다. 그래서 문자열의 인덱스로 참조한 위치에 대입하려고 하면 에러를 일으킵니다:

In [18]:
word[0] = 'J'

TypeError: 'str' object does not support item assignment

다른 문자열이 필요하면, 새로 만들어야 합니다:

In [19]:
'J' + word[1:]

'Jython'

## - 문자 메서드

### * str.capitalize()
 - 첫 문자가 대문자이고 나머지가 소문자인 문자열의 복사본을 돌려줍니다. 

In [20]:
word = "hello world"
word.capitalize()

'Hello world'

### * str.center(width[, fillchar])
 - 길이 width 인 문자열의 가운데에 정렬한 값을 돌려줍니다. 
 - 지정된 fillchar (기본값은 ASCII 스페이스)을 사용하여 채웁니다. 
 - width 가 len(s) 보다 작거나 같은 경우 원래 문자열이 반환됩니다.

In [21]:
word = "I Love Python"
print(word)
print(word.center(len(word)+10))
print(word.center(len(word)+10, '-'))

I Love Python
     I Love Python     
-----I Love Python-----


### * str.encode(encoding="utf-8", errors="strict")
 - 문자열의 바이트열 객체로 인코딩된 버전을 돌려줍니다. 기본 인코딩은 'utf-8' 입니다.
 - errors 의 기본값은 'strict' 인데, 인코딩 오류가 있으면 UnicodeError 를 일으키라는 뜻
 - 다른 가능한 값은 'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' 와 codecs.register_error() 를 통해 등록된 다른 이름들

In [22]:
result = "something".encode(encoding="utf-8", errors="strict")
print(result)
type(result)

b'something'


bytes

### * str.endswith(suffix[, start[, end]])
 - 문자열이 지정된 suffix 로 끝나면 True 를 돌려주고, 그렇지 않으면 False 를 돌려줍니다. 
 - 선택적 start 가 제공되면 그 위치에서 검사를 시작
 - 선택적 end 를 사용하면 해당 위치에서 비교를 중단
#### str.startswith(prefix[, start[, end]]) 도 같은 원리로 동작하고 지정된 prefix로 시작하면 True를 반환

In [23]:
word = "abcd"
print(word.endswith('d'))
print(word.endswith('e'))
print(word[0:2], word.endswith('b',0,2))

True
False
ab True


### * str.expandtabs(tabsize=8)

TAB을 나타내는 이스케이프(Escape) 문자 `\t`가 있는 자리에서 얼마나 띄어쓸것인지 지정

기본값은 8

In [24]:
'01\t012\t0123\t01234'.expandtabs(10)

'01        012       0123      01234'

### * str.count(sub[, start[, end]])
 - 범위 [start, end] 에서 부분 문자열 sub 가 중첩되지 않고 등장하는 횟수를 돌려줍니다. 

In [25]:
word = "the count function returns number of some words"
word.count('u')

4

### * str.format(`*args`, `**kwargs`)
 - 문자열 포맷 연산을 수행
 - `kwargs`는 keyword arguments를 의미한다

In [26]:
"The sum of 1 + 2 is {0}".format(1+2)

'The sum of 1 + 2 is 3'

In [27]:
'{name} was born in {country}'.format(name="ABC", country="DDD")

'ABC was born in DDD'

In [28]:
print('%(language)s has %(number)03d quote types.' %{'language': "Python", "number": 2})

Python has 002 quote types.


### * str.isdecimal()
 - int형으로 캐스팅 할 수 있는지 확인

In [29]:
word="123"
print(word.isdecimal())

word="안녕"
print(word.isdecimal())

True
False


### * str.find(sub[,start[,end]])
 - index()를 사용하면 부분 문자열을 찾을 수 없는 경우 ValueError을 일으킬 수 있습니다.

In [30]:
"Python is awesome programming langauge".find("is")

7

### * str.replace(old, new[, count])
 - 모든 부분 문자열 old 가 new 로 치환된 문자열의 복사본을 돌려줍니다. 
 - 선택적 인자 count 가 주어지면, 앞의 count 개만 치환됩니다.

In [31]:
"oldWord oldWord oldWord oldWord oldWord oldWord".replace("oldWord", "newWord")

'newWord newWord newWord newWord newWord newWord'

In [32]:
"oldWord oldWord oldWord oldWord oldWord oldWord".replace("oldWord", "newWord", 2)

'newWord newWord oldWord oldWord oldWord oldWord'

### * str.join(iterable)

In [33]:
" : ".join(["python", "java", "JS", "go", "processing","C#"])

'python : java : JS : go : processing : C#'

### * str.strip([chars])
#### str.lstrip([chars])은 왼쪽만
#### str.rstrip([chars])은 오른쪽만

 - 선행 문자가 제거된 문자열의 복사본을 돌려줍니다.
 - chars 인자는 제거할 문자 집합을 지정하는 문자열입니다. 
 - 생략되거나 None 이라면, chars 인자의 기본값은 공백을 제거하도록 합니다. chars 인자는 접두사가 아닙니다;

In [34]:
' ---Hello--- '.strip()

'---Hello---'

In [35]:
' ---Hello--- '.strip().strip('---')

'Hello'

In [36]:
'   spacious   '.lstrip()

'spacious   '

In [37]:
'www.example.com'.lstrip('www.').rstrip('.com')

'example'

### * str.split(sep=None, maxsplit=-1)
 - sep 를 구분자 문자열로 사용하여 문자열에 있는 단어들의 `리스트`를 돌려줍니다. 
 - maxsplit 이 주어지면 최대 maxsplit 번의 분할이 수행됩니다 (따라서, 리스트는 최대 maxsplit+1 개의 요소를 가지게 됩니다)
 - maxsplit 이 지정되지 않았거나 -1 이라면 분할 수에 제한이 없습니다

In [38]:
'1,2,3'.split(',')

['1', '2', '3']

In [39]:
'1,2,3'.split(',', maxsplit=1)

['1', '2,3']

## - 문자 포맷팅

다양한 문자 포맷팅(formatting) 방식이 있다.

 - `!r`과 `!s`

In [40]:
word = "repr() shows quotes: {!r}; str() doesn't: {!s}".format('test1', 'test2')
print(word)

repr() shows quotes: 'test1'; str() doesn't: test2


In [41]:
word = "repr() shows quotes: {}; str() doesn't: {}".format('test1', 'test2')
print(word) # `{}`라고만 표현하면 quotes없이 문자열이 표현된다

repr() shows quotes: test1; str() doesn't: test2


 - 공백 포맷팅

In [42]:
'{:<30}'.format('left aligned')

'left aligned                  '

In [43]:
'{:>30}'.format('right aligned')

'                 right aligned'

In [44]:
'{:^30}'.format('centered')

'           centered           '

In [45]:
'{:*^30}'.format('centered')  # use '*' as a fill char

'***********centered***********'

 - 숫자 표현 형식 포맷팅

In [46]:
'{:,}'.format(1234567890)

'1,234,567,890'

In [47]:
points = 19
total = 22
'Correct answers: {:.2%}'.format(points/total)

'Correct answers: 86.36%'

In [48]:
yes_votes = 42_572_654 # 실제값은 42572654이지만 어떤 단위의 숫자인지 알아보기 쉽다.
no_votes = 43_132_495
percentage = yes_votes / (yes_votes + no_votes)
print('{:-11} YES votes  {:2.2%}'.format(yes_votes, percentage)) # {:-11} == {:>11}

   42572654 YES votes  49.67%


 - 튜플을 통한 포맷팅

In [49]:
coord = (3, 5)
'X: {0[0]};  Y: {0[1]}'.format(coord)

'X: 3;  Y: 5'

 - 딕셔너리를 통한 포맷팅

In [50]:
coord = {'latitude': '37.24N', 'longitude': '-115.81W'}
'Coordinates: {latitude}, {longitude}'.format(**coord)

'Coordinates: 37.24N, -115.81W'

In [51]:
table = {'Sjoerd': 4127, 'Jack': 4098, 'Dcab': 7678}
for name, phone in table.items():
    print(f'{name:10} ==> {phone:10d}')

Sjoerd     ==>       4127
Jack       ==>       4098
Dcab       ==>       7678


In [52]:
table = {'Sjoerd': 4127, 'Jack': 4098, 'Dcab': 8637678}
print('Jack: {Jack:d}; Sjoerd: {Sjoerd:d}; Dcab: {Dcab:d}'.format(**table))

Jack: 4098; Sjoerd: 4127; Dcab: 8637678


In [53]:
year, event = 2016, 'Hackerton'
f'Results of the {year} {event}'

'Results of the 2016 Hackerton'

 - 날짜 형식 포맷팅

In [54]:
import datetime
d = datetime.datetime(2010, 7, 4, 12, 15, 58)
print(d)
print(type(d)) # 객체 자료형보기
result = '{:%Y-%m-%d %H:%M:%S}'.format(d)
print(result)
print(type(result))

2010-07-04 12:15:58
<class 'datetime.datetime'>
2010-07-04 12:15:58
<class 'str'>


<br>
<br>
<br>
<br>
<br>
<br>
<hr>
<br>
<br>
<br>
<br>
<br>
<br>