# [문자열](https://docs.python.org/ko/3/tutorial/introduction.html#strings) 사용법 ([Strings](https://docs.python.org/3/tutorial/introduction.html#strings))

문자열(string)은 순서대로 나열되어 있는 문자들을 다루기에 편리한 자료형입니다.  
글자를 여러 개 담을 수 있다는 점에서 넓은 의미로 **컨테이너(container)** 자료형 중의 하나로 분류가 됩니다.  
컨테이너 자료형들 중에서도 원소(element)들이 순서대로 나열되어 있다는 점에서 **시퀀스(sequence)** 로 다시 분류가 됩니다.  
시퀀스로 분류되는 자료형에는 문자열(string) 외에도 리스트(list)와 튜플(tuple)이 더 있습니다.  
시퀀스에서는 **인덱싱(indexing)** 과 **슬라이싱(slicing)** 을 사용할 수 있습니다.

1. 문자열 리터럴 만들기
1. 문자열 출력하기
1. 인덱싱(indexing)과 슬라이싱(slicing)
1. 문자열의 불변성
1. 문자열의 메써드
1. 문자열의 포매팅

**[참고]** 한국에서는 Method를 '메소드'라고 적는 경우가 많은데 요즘은 원어에 보다 가까운 표기를 원하시는 분들이 많아서 여기서는 '메써드'라고 표기하겠습니다.  
[정확한 발음은 여기를 참고하세요.](https://www.google.com/search?q=meaning+of+method&rlz=1C1RXQR_koUS982US982&oq=meaning+of+method&aqs=chrome..69i57j0i512l9.1999j0j7&sourceid=chrome&ie=UTF-8) 스피커 버튼 클릭해서 발음 확인해보세요.

### 문자열(string) 리터럴 만들기

*Black은 문자열에 큰따옴표를 선호하기 때문에 여기서는 포매터를 끄고 진행하겠습니다.*

**[참고]** 문자열 리터럴에 큰따옴표(")만을 사용하는 프로그래밍 언어들이 많습니다. 특히 C, C++, 자바에서는 작은따옴표는 글자 하나에, 큰따옴표는 여러 글자에 사용하기 때문에 아예 용도가 다릅니다. 입력하기에는 작은따옴표가 편하지만 다른 프로그래밍 언어도 공부하실 계획이라면 큰따옴표로 습관들이시는 것을 추천합니다.

In [5]:
# 큰따옴표 안에서 작은따옴표 or 작은따음표 안에 큰따음표 사용 ok
"I'm a programmer."
'I"m a programmer.'
# 작은따옴표 안에서 작은따옴표 or 큰따음표 안에 큰따음표 사용 NOT ok-> 백슬래쉬 사용
"나는 \"재밌어!\""

'나는 "재밌어!"'

위에 사용된 \\', \\"와 같이 앞에 백슬래쉬(\)를 붙여서 다른 의미를 갖게 된 문자들을 확장문자(**escape character**)라고 부릅니다. 아래에 더 나와요.

### 문자열 출력하기

In [6]:
# 탭 규칙 : 8칸씩 줄을 맞춰줌. 8칸이 넘어가면 다음 칸으로 밀려남
print("\t12345678")
print("1\t12345678")
print("12\t12345678")
print("123\t12345678")
print("1234\t12345678")
print("12345\t12345678")
print("123456\t12345678")
print("1234567\t12345678")
print("12345678\t12345678")

	12345678
1	12345678
12	12345678
123	12345678
1234	12345678
12345	12345678
123456	12345678
1234567	12345678
12345678	12345678


In [7]:
# 백스페이스(backspace)
print("안녕하세요?")
print("안녕하세요?\b")

# 백슬래쉬(backslash)
print("백슬래쉬\\")

안녕하세요?
안녕하세요


In [10]:
# 의도치 않는 결과 (윈도우에서는 파일 경로 표시에 백슬래쉬를 사용합니다.)
print("C:\jmhong\name")
# Raw strings: 앞에 r을 붙이며 백슬래쉬를 일반적인 문자로 처리합니다.
print(r"C:\jmhong\name")

C:\jmhong
ame
C:\jmhong\name


In [12]:
# 여러 줄로 리터럴을 만들고 싶은 경우. 큰따옴표 or 작은따옴표 3개를 사용
m = """안녕하세요?\
반갑습니다.
저는 꼭 여러 줄을 사용하고 싶네요.
"""
# 리터럴을 여러줄로 만들더라도 출력될 때는 줄바꿈을 없애고 싶은경우 '\'를 넣어준다.
print(m) 

# 문자열 2개는 자동으로 합쳐짐
mm = "헬로우" "월드"
print(mm)

안녕하세요?반갑습니다.
저는 꼭 여러 줄을 사용하고 싶네요.

헬로우월드


In [13]:
# 더하기 연산자 +
"일이삼" + str(123)

'일이삼123'

In [14]:
# 곱하기 연산자는 반복
"일이삼" * 3

'일이삼일이삼일이삼'

[참고] **표현식(expression)** 은 계산해서 어떤 값이 나오는 식을 의미합니다. 예를 들어서 3 * 4 와 같이 연산자와 피연산자로 이루어집니다. 피연산자에는 리터럴 외에도 변수나 함수 호출 등이 포함됩니다.

### 인덱싱(indexing)과 슬라이싱(slicing)

In [15]:
# 길이 재기
len("ABC DE") #빈칸도 글자

6

In [19]:
# 한글 길이 재기
len("안녕하세요")

5

여러 글자로 이루어진 문자열에서 글자 하나를 가져오기 위해서는 대괄호 [] 안에 위치를 의미하는 숫자(**인덱스**)를 넣어줍니다.  
이것을 **인덱싱**이라고 부릅니다. 문자열 외의 리스트나 튜플 같은 시퀀스(sequence)에도 사용이 가능합니다.


In [1]:
# ABCDEF
# 012345
a = "ABCDEF"
print(a[2])
# 인덱스 -1은 마지막
print(a[-1])

C
F


인덱싱의 기능을 확장해서 일부를 잘라서 가져오는 것을 **슬라이싱**이라고 부릅니다.

In [2]:
# 콜론 앞의 숫자는 잘라내기 시작하는 위치입니다.
# ABCDEF
# 012345
print(a[1:])

# 콜론만 넣으면 전체
print(a[:])

# 첫 번째 콜론 오른쪽의 숫자는 '포함되지 않는' 마지막 위치입니다.
# 마지막 위치의 하나 전까지 포함됩니다.
print(a[:3])

# a[:i] + a[i:]는 a와 동일
print(a[:3] + a[3:])

# 마지막 위치에 음의 인덱스를 사용할 수도 있습니다.
print(a[:-1])

# 시작과 끝을 모두 사용할 수 있습니다.
print(a[2:4])

# 시작에 len(a) 이상의 인덱스 사용시, 빈 문자열 출력
print(a[1000:]) 

# 범위가 넘어가면 전체
print(a[0:1000])

# 건너 뛰면서 가져오고 싶을 때는 두번째 콜론 오른쪽에 1외의 숫자를 사용(step)
# 한걸음 두걸음 할 때와 같은 의미의 step이라고 부릅니다.
print(a[::2])

# 스텝(step)에 음수를 사용하면 역순으로 가져옵니다.
print(a[::-1])

# 시작, 종료, 스텝 세 가지를 모두 사용할 수 있습니다.
print(a[1:5:2])

# 음의 스텝을 사용할 때는 시작과 종료도 순서가 역순이어야 합니다.
print(a[-1:0:-1])

# 종료를 생략하면 마지막까지 포함
print(a[-1::-1])

BCDEF
ABCDEF
ABC
ABCDEF
ABCDE
CD

ABCDEF
ACE
FEDCBA
BD
FEDCB
FEDCBA


### 문자열의 불변성
파이썬의 문자열(str)은 불변(immutable) 자료형입니다. 일부를 수정할 수 없고 대신에 수정된 객체를 새로 만들어야 합니다.

In [1]:
# 불변 객체의 일부를 바꿀 수 없습니다.
# ABCDEF
# 012345
a = "ABCDEF"
a[2] = "X"

TypeError: 'str' object does not support item assignment

In [41]:
# 특정 위치의 한 글자만 바꾸고 싶다면?
# ABCDEF
# 012345

a = a[:2] + "X" + a[3:]
print(a)

ABXDEF


### 문자열의 매써드
문자열 객체는 다양한 메써드들을 이용해서 문자열을 다룰 수 있습니다.

In [43]:
# 대문자, 소문자로 바꾸기
s = "Hello, World"
print(s.upper())
print(s.lower())

HELLO, WORLD
hello, world


In [45]:
# 공백을 기준으로 문자열을 나누기
s = "Hello, World! I love you!"
l = s.split(',')
print(l[0])
print(l[1])

Hello
 World! I love you!


In [48]:
# 멤버쉽 연산자 in
s = "Hello"
print('H' in s)

# 반복문과 함께 사용
for c in s:
    print(c)

True
H
e
l
l
o


더 다양한 메써드들의 사용법은 [공식 문서](https://docs.python.org/3/library/stdtypes.html#string-methods)와 아래 예제들을 참고하세요.  
특히 [여기](https://www.w3schools.com/python/python_ref_string.asp)에서는 온라인 파이썬으로 빠르게 테스트해볼 수도 있습니다. 메써드 이름을 클릭해보세요.

In [51]:
print("abc def".capitalize())  # 첫 글자를 대문자로
print("abc def".title())  # 각 단어의 첫 글자를 대문자로

txt = "I love apples, apple are my favorite fruit"
print(txt.count("apple"))  # "apple"이 txt에 몇 번 나오는지를 세줍니다.

filename = "blakpink.png"
print(filename.endswith("png"))  # filename의 마지막이 "png"로 끝나는지 확인합니다.

txt = "ABCDEF"
print(txt.find("CD"))  # "CD"의 위치를 찾아서 인덱스를 알려줍니다.

txt = "1234"
print(txt.isdigit())  # 모든 글자가 숫자인지를 확인합니다. input()과 함께 많이 사용됩니다.

txt = "ABABCBAOOOOABC"
print(txt.lstrip("ABC"))  # 왼쪽에서부터 A 또는 B 또는 C를 모두 제거

txt = "OOOOABCOOOOABC"
print(txt.replace("ABC", "HELLO"))  # "ABC"를 "HELLO"로 교체

# z는 zero의 약자입니다. 최소 5글자가 되도록 왼쪽에서부터 0으로 채워줍니다.
# 연속되는 파일들을 저장할때 많이 사용합니다.
txt = "123"
print(txt.zfill(5) + ".jpg")

Abc def
Abc Def
2
True
2
True
OOOOABC
OOOOHELLOOOOOHELLO
00123.jpg


### 문자열 포매팅(formatting)
문자열을 원하는 형식에 맞출 수 있습니다. 보통 화면에 출력할 때 많이 사용합니다.

1. 수동으로 문자열을 만들어서 맞춰주기
1. [% 연산자를 사용하는 옛날 방식](https://docs.python.org/3/library/stdtypes.html#old-string-formatting)
1. [문자열의 format() 메써드](https://docs.python.org/3/tutorial/inputoutput.html#the-string-format-method)
1. [형식을 맞춘 문자열 리터럴(파이썬 3.6 이상 F-String)](https://docs.python.org/3/tutorial/inputoutput.html#formatted-string-literals)
1. 한글 줄맞춤


수동으로 문자열을 만들어서 맞춰주기

In [52]:
# .ljust() 메써드는 모자르는 글자수 만큼 빈칸을 넣어줍니다.
"ABCDEFG".ljust(10)

'ABCDEFG   '

In [53]:
# 줄을 맞춰주기 위해서 .ljust()를 이용해서 빈칸을 넣어줍니다.
print("ABCDEFG".ljust(10), "HIJKLMN".ljust(10))

# 한글에서는 이 방식이 제대로 작동하지 않습니다.

ABCDEFG    HIJKLMN   


[% 연산자를 사용하는 옛날 방식](https://docs.python.org/3/library/stdtypes.html#old-string-formatting)

In [55]:
# 문자열 삽입
print("나는 %s를 좋아합니다." % "피자")
print("원주율은 %d 입니다." % 3.141592)
print("원주율은 %.2f 입니다." % 3.141592)

나는 피자를 좋아합니다.
원주율은 3 입니다.
원주율은 3.14 입니다.


[문자열의 format() 메써드](https://docs.python.org/3/tutorial/inputoutput.html#the-string-format-method)

In [64]:
print("나는 {}를 좋아합니다.".format("피자"))

# 여러 개를 삽입할때는 인덱스를 사용할 수 있습니다.
print("{} {} {}".format("Apple", "Banana", "Cherry"))
print("{2} {1} {0}".format("Apple", "Banana", "Cherry"))

# 이름을 반복해서 사용할 수도 있습니다.
print("{a} {b} {c}".format(a = "Apple", b = "Banana", c = "Cherry"))

# <, ^, > : left, center, right
print("{0:8} | {1:5}".format("Name", "Count")) #0번째 요소(Name)을 8글자로, 1번째 요소(Count)를 5글자로 가져오라는 뜻. 빈 부분은 빈 문자열로 채워줌
print("{0:8} | {1:5}".format("Mango", 5))

print("{0:<10} | {1:^10} | {2:>10}".format("Left", "Center", "Right")) #글짜 정렬 지정

print("{0:t<8} | {1:*^8} | {2:_>8}".format("Left", "Center", "Right")) #정렬 하되 빈곳을 특정 문자로 채움

# float precision
print("The result is {0:10.4f}".format(123.456789)) # 총 10글자가 되도록 빈칸 추가, 소수점 아래 자리가 4개가 되도록 절삭


나는 피자를 좋아합니다.
Apple Banana Cherry
Cherry Banana Apple
Apple Banana Cherry
Name     | Count
Mango    |     5
Left       |   Center   |      Right
Lefttttt | *Center* | ___Right
The result is   123.4568


[형식을 맞춘 문자열 리터럴(파이썬 3.6 이상 F-String)](https://docs.python.org/3/tutorial/inputoutput.html#formatted-string-literals)

In [2]:
name = "아이언맨"

# 리터럴 앞에 f 또는 F를 붙여주고 물결 괄호 안에 표현식(expression)을 넣습니다.
print(f"나는 {name} 이다.")

# 물결괄호 자체를 출력하고 싶은 경우
print(f"나는 {{{name}}} 이다.")

# 리터럴 연산
print(f"Added: {1+2}")

# 변수와 연산자
a, b = 1, 2
print(f"{a} 더하기 {b}는 {a + b}")

# 함수도 사용 가능
print(f"Result: {abs(-10)}")



나는 아이언맨 이다.
나는 {아이언맨} 이다.
Added: 3
1 더하기 2는 3
Result: 10


In [None]:
# 백슬래쉬를 직접 사용할 수 없음
f"Newline is {\n}"

In [71]:
# 간접적으로는 사용 가능
newline = "\n"
f"Newline is {newline}"

'Newline is \n a'

In [74]:
# float 정밀도 조절에서 .format()과 f-string의 사용법이 약간 달라요
# f-string에서는 {width}.{precision} 형식으로 float 출력을 조절할 수 있습니다.

num = 123.56789
print(str(num))
print("계산 결과:{0:10.4f}".format(num))  # 4는 소수점 이하
print(f"계산 결과:{num:{10}.{6}}")  # 10은 빈칸 포함 총 글자수, 6은 출력되는 숫자수('.'은 포함안하고 계산)

num = 1.23
print("계산 결과:{0:10.4f}".format(num)) # 4는 소수점 이하, 0으로 패딩해줌
print(f"계산 결과:{num:{10}.{6}}") # 6을 출력되는 총 숫자, 0으로 패딩을 해주지 않음
print(f"계산 결과:{num:10.4f}") # f-string 사용시에도, {} 없이 format에서의 사용방법으로 패딩 가능


123.56789
계산 결과:  123.5679
계산 결과:   123.568
계산 결과:    1.2300
계산 결과:      1.23
계산 결과:    1.2300


In [75]:
# f-string에서는 width와 precision에도 변수를 사용할 수 있습니다.
# 사용하기에 따라서는 큰 장점이 될 수도 있습니다.
num = 1.23
width = 10
precision = 6
print(f"계산 결과:{num:{width}.{precision}}")

계산 결과:      1.23


[정리] float 출력 정밀도 조절
> format() : 10.4f와 같은 형식 지정자(format specifier)만 사용 가능. 10이나 4 자리에 변수 사용 불가  
> f-string : 10.4f 같은 형식 지정자와 {10}.{6} 방식 **둘 다 사용 가능**. 물결괄호 안에 **변수 사용 가능**

[보충] f-string에서 ```{name}```과 같이 나중에 다른 데이터로 치환(교체) 될 부분을 ```{}```로 표시해놓은 것을 [치환 필드(replacement field)](https://docs.python.org/ko/3/reference/lexical_analysis.html#formatted-string-literals)라고 부릅니다.
```{num:{width}.{precision}}```와 같이 치환 필드 안에 다시 치환 필드가 들어있는 것을 [중첩된 필드(nested field)](https://docs.python.org/ko/3/reference/lexical_analysis.html#formatted-string-literals)라고 부릅니다. 
'필드(field)'는 단순하게 설명하면 데이터의 일부를 의미하는 용어인데 보통 '데이터베이스(database)'에서 자세히 배웁니다. 
유사한 기능을 하는 ```{}``` 문법을 [format()의 공식 문서](https://docs.python.org/ko/3/tutorial/inputoutput.html#the-string-format-method)에서는 '포맷 필드(format field)'라고 부르고 있습니다.  
파이썬은 발전 속도가 빨라서 공식문서도 아직 애매한 부분들이 있기 때문에 용어 자체에 너무 신경쓰지 마시고 개념만 이해해두시면 됩니다.

[선택] 한글 줄맞춤

In [76]:
# 앞에서 영문으로 줄맞춤 하는 방식을 한글에 그대로 적용시 원하는대로 동작 안함. 한글의 width가 영문 및 빈칸보다 크기 때문
print("{0:12} | {1:12}".format("첫 번째 단어", "두 번째 단어"))
print("{0:12} | {1:12}".format("셋째", "넷째"))

첫 번째 단어      | 두 번째 단어     
셋째           | 넷째          


In [5]:
# 앞에 느낌표를 붙여서 주피터 노트북에서도 패키지 설치를 할 수 있습니다.
#!pip install wcwidth
# 알파벳 외의 다른 글자들도 width를 정확히 알려주는 모듈

from wcwidth import wcswidth

print(wcswidth("안녕AB"), len("안녕AB"))


def wcpadding(s, l):
    return s + " " * (l - wcswidth(s))


print(wcswidth("첫 번째 단어"))

# 스크립트 모드의 터미널 출력에서는 정확하게 줄맞춤 가능. 
# 지금은 쥬피터 노트북이기 때문에 살짝 어긋나는것을 볼수 있음. 터미널과 출력방식이 약간 다르기 때문. 
print("{0}|{1}".format(wcpadding("첫 번째 단어", 12), wcpadding("두 번째 단어", 12)))
print("{0}|{1}".format(wcpadding("셋째", 12), wcpadding("넷째", 12)))

# 쥬피터 노트북 에서도 정확하게 줄맞춤 하기위해 \t를 사용
print("{0}\t|{1}".format(wcpadding("첫 번째 단어", 12), wcpadding("두 번째 단어", 12)))
print("{0}\t|{1}".format(wcpadding("셋째", 12), wcpadding("넷째", 12)))

6 4
12
첫 번째 단어|두 번째 단어
셋째        |넷째        
첫 번째 단어	|두 번째 단어
셋째        	|넷째        
