# Overview

* 프로그래밍중 꽤 많은 부분은 사용자의 입력이 문자열로 입력되고, 그 문자열을 적절한 자료형으로 변경하거나, 문자열 자체를 핸들링을 많이 하게 된다. 
  * 주민등록번호나 이메일 주소
  * 문자열 중에 시스템을 공격하는 코드는 없는가?
    * sql 인젝션 공격
      * [https://namu.wiki/w/SQL injection](https://namu.wiki/w/SQL%20injection)
      * [https://noirstar.tistory.com/264](https://noirstar.tistory.com/264)

## 시퀀스(Sequence)와 Collections

* Collections : 여러개의 요소를 갖는 데이터 타입
  * 종류 : list, set, tuple, dict
* Sequence : 순서가 존재하는 데이터 타입
* 문자열은 우리가 처음 접하는 Python Sequence이다. 
  * 인덱스로 접근 가능
  * flat sequence, container sequence로 구분
    * flat : string, byte 등과 같이 데이터 형이 같은 형태
    * container : 객체의 참조값이 들어갈수 있다 (tuple, list등)

# 문자열 만들기
## 따옴표

* 따옴표를 이용해서 만든다. 

* ‘과 “ 어느것을 써도 무방하나, 짝을 맞춰야 한다

```python
str1 = 'Finger Snap'
print(str1, type(str1))

str2 = "Bomb"
print(str2, type(str2))
```

‘, “ 둘다 사용하는 이유

```python
print("'Nay!' said the naysayer. 'Neigh?' said the horse.")
# 문자열 안에 ", ' 기호를 표기하기 위함
# \를 붙여도 제대로 동작한다
print('\'Nay!\' said the naysayer. \'Neigh?\' said the horse.')
```

In [1]:
print("'Nay!' said the naysayer. 'Neigh?' said the horse.")
# 문자열 안에 ", ' 기호를 표기하기 위함
# \를 붙여도 제대로 동작한다
print('\'Nay!\' said the naysayer. \'Neigh?\' said the horse.')

'Nay!' said the naysayer. 'Neigh?' said the horse.
'Nay!' said the naysayer. 'Neigh?' said the horse.


## Raw / F / B / U string

raw string 
* 원시 문자열, 따옴표 앞에 r이라는 문자를 붙인다.
* Escape 문자를 그대로 출력하거나, html, json같은 문서에서 특수문자나 태그등을 변환하지 않고 그대로 사용 (특히 파일 경로 표기할때)

```python
plain = 'abc\nabc'
print(f"{plain}")
raw = r'abc\nabc'
print(raw)
```

F- string
* 파이썬에서 지원하는 문자열 포맷팅의 한 종류,
* 문자열 인터폴레이션 (String interpolation)이라고 한다. 다른 언어들도 비슷하게 지원

B-string :
* byte로 저장되는 문자열
```python
bstring = b'iamstring'
bstring = 'iamstring'.encode('utf-8')

```

## 멀티라인 문자열

* 따옴표 3개를 연속으로 사용한다.

```python
m_string1 = '''
MulitLine
String
'''

m_string2 = """
MulitLine
String
"""
```

* example

```python
poem =  '''There was a Young Lady of Norway,
 Who casually sat in a doorway;
			When the door squeezed her flat,
 She exclaimed, "What of that?"
This courageous Young Lady of Norway.'''

print(poem)
```

* 공백문자 출력 부분확인

* 짝을 맞추지 않을 경우 에러 발생

```python
poem = 'There was a young lady of Norway,
print(poem)
```

In [4]:
poem =  '''There was a Young Lady of Norway,
 Who casually sat in a doorway;
			When the door squeezed her flat,
 She exclaimed, "What of that?"
This courageous Young Lady of Norway.'''

print(poem)

There was a Young Lady of Norway,
 Who casually sat in a doorway;
			When the door squeezed her flat,
 She exclaimed, "What of that?"
This courageous Young Lady of Norway.


In [5]:
poem = 'There was a young lady of Norway,
print(poem)

SyntaxError: unterminated string literal (detected at line 1) (3919337470.py, line 1)

## print 함수

프린트 함수에 쉼표로 구분하면, 문자열이 나열되며 출력된다.

```python
print('Give', "us", '''some''', """space""")
```

# Str() 함수

숫자나 다른 형태의 데이터를 문자열로 바꾸는 함수

format string 형태를 더 많이 쓴다

```python
print(str(98.6), type(str(98.6)))
print(str(1.0e4), type(str(1.0e4)))
print(str(True), type(str(True)))
```

# Escape with \

문자열 안에서 특수기호를 표현하기 위해서 사용

문자앞에 \(back slash) 를 넣어서 쓴다

```python
"\n" #줄바꿈
"\t" # tab
"\\" # 백슬래시(\)
"\"" # 큰 따옴표(")
"\'" # 작은 따옴표(')
```

In [6]:
palindrome = 'A man,\nA plan,\nA canal:\nPanama.'
print(palindrome)
# A man,
# A plan,
# A canal: Panama
print('\tabc')
#     abc
print('a\tbc')
# a    bc
print('ab\tc')
# ab	c
print('abc\t')
# abc
print('[abc\t]')

testimony = "\"I did nothing!\" he said. \"Or that other thing.\""
print(testimony)
# "I did nothing!" he said. "Or that other thing."

fact = "The world's largest rubber duck was 54'2\" by 65'7\" by 105'"
print(fact)
# The world's largest rubber duck was 54'2" by 65'7" by 105'

A man,
A plan,
A canal:
Panama.
	abc
a	bc
ab	c
abc	
[abc	]
"I did nothing!" he said. "Or that other thing."
The world's largest rubber duck was 54'2" by 65'7" by 105'


* 원시 문자열은 특수문자가 아닌 실제 공백문자나 줄바꿈은 취소하지 않는다

In [7]:
info = r'Type a \n to get a new line in a normal string'
print(info)
poem = r'''Boys and girls, come out to play.
 The moon doth shine as bright as day.'''
print(poem)
# Boys and girls, come out to play.
# The moon doth shine as bright as day.

Type a \n to get a new line in a normal string
Boys and girls, come out to play.
 The moon doth shine as bright as day.


# Combine by Using `+`

* `+`  문자를 사용해서 문자열 결합 할수 있다. (Concat)

In [9]:
print('Release the kraken! ' + 'No, wait!')
str1 = "Release the kraken!"
str2 = "No, wait!"

print(str1 + " " + str2)

# print함수는 여러개의 인수를 받아서 하나의 문자열로 표현가능
# 인수와 인수 사이에 공백을 자동으로 추가
print(str1, str2)

Release the kraken! No, wait!
Release the kraken! No, wait!
Release the kraken! No, wait!


* 리터럴 문자열은 차례로 결합가능

In [10]:
str = "My word! " "A gentleman caller!"
print(str)

My word! A gentleman caller!


* 괄호로 묶을수 있다

In [12]:
vowels = ( 'a'
"e"
'''i'''
'o'
 """u"""
)
print(vowels)

print('a' in vowels)

aeiou
True


# Duplicate with `*`

* `*`  는 문자열을 복사할수 있다.

In [13]:
start = 'Na ' * 4 + '\n'
middle = 'Hey ' * 3 + '\n'
end = 'Goodbye.'
print(start + start + middle + end)

Na Na Na Na 
Na Na Na Na 
Hey Hey Hey 
Goodbye.


# Get a Character with []

* 길이를 벗어난 문자 인덱스를 호출하면 `index out of range` 에러 발생

In [None]:
a = "Life is too short, You need Python"

print(a[1])
print(a[1])
print(a[4])

print(a[100]) # index out of range

* 인덱스로 접근해서 값을 변경할수 없다. 변경을 위해서는 replace함수를 쓰거나 슬라이싱을 이용한다

In [None]:
name = 'Henny'
print(name[0]) # print H
name[0] = 'P' # strings are immutable

name.replace("H", "P")
print(name)

print("H" + name[1:])

# **Get a Substring with a Slice**

* 슬라이싱이라고 표현

* `[ *start* : [*end* [: *step* ]]]` 

* start, end, step 모두 생략 가능

* 생략하면 기본값으로 표시

![slice](./images/ch05-1-slice.png)

In [14]:
a = "Life is too short, You need Python"

print(f"{a[:] = }")
print(f"{a[0:] = }")
print(f"{a[:-1] = }")

print(f"{a[0:4] = }")
print(f"{a[0:10:2] = }")
print(f"{a[2::3] = }")
print(f"{a[::2] = }")
print(f"{a[::-1] = }")
print(f"{a[::7] = }")


a[:] = 'Life is too short, You need Python'
a[0:] = 'Life is too short, You need Python'
a[:-1] = 'Life is too short, You need Pytho'
a[0:4] = 'Life'
a[0:10:2] = 'Lf st'
a[2::3] = 'fit o,ondyo'
a[::2] = 'Lf stosot o edPto'
a[::-1] = 'nohtyP deen uoY ,trohs oot si efiL'
a[::7] = 'L ouP'


# Get Length with `len()`

* 파이썬 내장 함수
* 문자열 뿐 아니라 파이썬의 시퀀스 타입에 사용 가능한 함수

In [15]:
a = "Life is too short, You need Python"
print(len(a))

empty = ""
print(len(empty))

34
0


# 문자열 함수

- len()함수와 다르게 문자열에 특화된 함수가 존재
- `string.function(arguments)` 형태로 사용

## split()과 join()

- split : 문자열을 구분자 단위로 나눠서 list 형태로 결과 제공
    - 정규식을 이용하면 여러개의 구분자 사용 가능
- join : 구분자 단위로 list of string을 합쳐준다.

In [17]:
# split
tasks = 'get gloves,get mask,give cat vitamins,call ambulance'
print(tasks.split()) # 공백문자 단위
print(tasks.split(",")) # 쉼표 단위
print(tasks)


# 정규식
import re
print(re.split(r'[,|\n]', tasks))
print(tasks)

# join
crypto_list = ['Yeti', 'Bigfoot', 'Loch Ness Monster']
crypto_string = ', '.join(crypto_list)

['get', 'gloves,get', 'mask,give', 'cat', 'vitamins,call', 'ambulance']
['get gloves', 'get mask', 'give cat vitamins', 'call ambulance']
get gloves,get mask,give cat vitamins,call ambulance
['get gloves', 'get mask', 'give cat vitamins', 'call ambulance']
get gloves,get mask,give cat vitamins,call ambulance


## 그외 문자열 함수

- `replace()`
- `strip()`
- find()
- index()
- startswith()
- endswith()
- count()
- title()
- capitalize()
- `upper()`
- `lower()`
- swapcase()
- center()
- ljust()
- rjust()

# Formatting (Format String)

`+`  로 문자열 연결이 가능하지만, format string은 간편하게 문자열을 원하는데로 만들수 있다

- old style (python 2, 3 모두 지원)
- new style(python 2.6 이상에서 지원)
- f-string (python 3.6 이상에서 지원, 일부 기능 3.8이상에서 사용)

## Old Style

- % 로 시작하는 포맷팅은 다른 언어에서 비슷하게 사용 가능

```python
thing = 9876

print('[%d]' % thing)
print('[%12d]' % thing)

# padding
print(str(thing).zfill(8))
```

- 포맷 코드는 대부분의 언어에서 공통으로 사용

| 기호 | 설명 |
| --- | --- |
| **`%s`** | **string** |
| **`%d`** | **decimal integer** |
| **`%x`** | **hex integer** |
| **`%o`** | **octal integer** |
| **`%f`** | **decimal float** |
| **`%e`** | **exponential float** |
| **`%g`** | **decimal or exponential float** |
| **`%%`** | **a literal `%`** |

## New Style : `{}.format(data)`

```python
thing = 'woodchuck'
print('{}'.format(thing))

place = 'lake'
print('The {} is in the {}.'.format(thing, place))

# 비추천 : 실제로 사용해 보니 헷갈린다.
print('The {1} is in the {0}.'.format(place, thing))

# print('The {thing} is in the {place}'.format(thing, place)) error
print('The {thing} is in the {place}'.format(thing='duck', place='bathtub'))

# dictionary
d = {'thing': 'duck', 'place': 'bathtub'}
print('The {0[thing]} is in the {0[place]}.'.format(d))
```

- 문자열 포맷팅 방법
    - 처음 시작 - `:`
    - 채우기 문자 (padding, 옵션) - 문자열이 최소 너비보다 짧은 경우 이 문자로 채운다 (기본값 공백문자’ ’)
    - 선택적 정렬(alignment) 문자 (옵션) - 왼쪽 정렬이 기본, `<` 왼쪽 정렬, `>` 오른쪽 정렬, `^` 가운데 정렬
    - 숫자에 대한 부호문자 (옵션)
    - 최소 너비 (옵션)
    - 최대 문자 (옵션)
    - 변환 타입 - old style 표 참고 (대부분이 s)

```python
thing = 'wraith'
place = 'window'

print('The {} is at the {}'.format(thing, place))

print('The {:10s} is at the {:10s}'.format(thing, place))

print('The {:<10s} is at the {:<10s}'.format(thing, place))

print('The {:^10s} is at the {:^10s}'.format(thing, place))

print('The [{:>10s}] is at the {:>10s}'.format(thing, place))
print('The [{:>15s}] is at the {:>10s}'.format(thing, place))

print('The [{:!^10s}] is at the {:!^10s}'.format(thing, place))
print('The [{:!^15s}] is at the {:!^10s}'.format(thing, place))

```

## Newest Style : `f-strings`

- 문자열 첫 시작에 f 또는 F가 있어야 한다.
- 변수 이름이나 식(expressions)를 중괄호(`{}`) 안에 포함해서 값을 갖고 온다
- 인터폴레이션 : 언어별로 구현되어 있는데, 파이썬은 fstring이 제일 간결 (스칼라, ruby와 비슷)
    - 대부분 f-strings 사용
- 주의 사항 : 미리 변수가 선언되어 있어야 하고, 한번 적용되면 변수의 내용을 바꿔도 값이 바뀌지 않는다.


In [18]:
thing = 'wereduck'
place = 'werepond'
print(f'The {thing} is in the {place}')

# 식 또는 함수 사용 가능
print(f'things length : {len(thing)} \nplace length : {len(place)}')

# 문자열 포맷팅
print(f'The {thing:>20} is in the {place:.^20}')

# 3.8 부터 이름과 값을 쉽게 출력할수 있다.
# 변수값을 그대로 출력해서 볼수 있기 때문에 디버깅 용으로 유용하다
print(f'{thing =}, {place =}')

The wereduck is in the werepond
things length : 8 
place length : 8
The             wereduck is in the ......werepond......
thing ='wereduck', place ='werepond'


In [19]:
name = ""
age = 0

temp01 = f"{name}, {age}"  # 변수가 뭐라도 선언되어 있어야 한다. 나중에 변수의 내용이 바뀌어도 문자열이 변하지 않는다. 
temp02 = "{0}, {1}" # 문서의 템플릿을 미리 만들고 값을 바꿔 가면서 쓸수 있다.

print(temp01)
print(temp02.format(name, age))

name = "alex"
age = 100

print(temp01)
print(temp02.format(name, age))

, 0
, 0
, 0
alex, 100


# 더 많은 스트링 함수

[https://docs.python.org/3/library/stdtypes.html#string-methods](https://docs.python.org/3/library/stdtypes.html#string-methods)