# 문자열 (string) 더 살펴보기
------------------------------------------


## [문자열](https://docs.python.org/3/library/string.html) 개요

<p> &#9635 <font color=#00008B> 문자열 (string) </font> - 문자들로 이루어진 단어나 문장 등을 의미한다.

* 파이썬에서는 문자열(string)을 쉽게 다룰 수 있다.

* 앞에서 설명하였듯이, 문자열을 표현할 때는 큰 따옴표나 작은 따옴표를 이용한다.

In [1]:
name = "Kyungsub Lee"

In [2]:
name

'Kyungsub Lee'

In [3]:
print(name)

Kyungsub Lee


다음은 숫자 45가 아니라 문자열로서 `"45"`로 사용되었음을 유의

In [4]:
age = "45"

In [5]:
age

'45'

In [6]:
age + 1

TypeError: can only concatenate str (not "int") to str

<div class="alert alert-block alert-danger">  
<b>에러:</b> 문자열은 다른 숫자들과의 사칙연산에 이용할 수 없다.
</div>

In [7]:
# 정수로 변환하여 사용
int(age) + 1

46

긴 문자열을 입력할 때는 다음과 같이 사용하기도 한다.

In [7]:
long_string = '''
It was the best of times, it was the worst of times, 
it was the age of wisdom, it was the age of foolishness, 
it was the epoch of belief, it was the epoch of incredulity, 
it was the season of Light, it was the season of Darkness, 
it was the spring of hope, it was the winter of despair, 
we had everything before us, we had nothing before us, 
we were all going direct to Heaven, we were all going direct the other way - 
in short, the period was so far like the present period, 
that some of its noisiest authorities insisted on its being received, 
for good or for evil, in the superlative degree of comparison only.

Tale of Two Cities
by Charles Dickens
'''

### 문자열 연결 (concatenation)

Python에서 문자열은 ```+``` 기호를 이용하여 쉽게 연결할 수 있다.
* 다음은 이름 `"Kyungsub"`과 공백 글자 `" "`, 성 `"Lee"`을 연결하여 출력하는 예제이다.

In [8]:
first_name = "Kyungsub"
family_name = "Lee"
full_name = first_name + " " + family_name
print(full_name)

Kyungsub Lee


숫자형 값을 같이 연결하고 싶을 경우 ```str```이라는 함수를 이용하여 문자열로 변경 후 연결하면 편리하다.

In [9]:
print("I am " + str(20) + " years old.")

I am 20 years old.


In [10]:
print("I am " + "20" + " years old.")

I am 20 years old.


In [11]:
# 숫자를 문자열로 변경하지 않고 연결하였기 때문에 에러가 발생하는 코드이다.
print("I am " + 20 + " years old.")

TypeError: can only concatenate str (not "int") to str

In [12]:
# 비슷한 예제
age = 20
print("I am " + str(age) + " years old.")

I am 20 years old.


### 문자열 관련 예제

다음의 결과를 테스트해 보자.

In [13]:
'a' + 'bcde'

'abcde'

In [14]:
5 * 'abc'

'abcabcabcabcabc'

In [15]:
3 + 'three'

TypeError: unsupported operand type(s) for +: 'int' and 'str'

문자열끼리 부등호 비교를 할 때는 알파벳 순서 (사전 순서)를 기반으로 한다.

In [16]:
"apple" < "banana"

True

In [17]:
"Apple" < "apple"

True

In [18]:
'a' < 3

TypeError: '<' not supported between instances of 'str' and 'int'

In [19]:
'3' > 3

TypeError: '>' not supported between instances of 'str' and 'int'

### 연산자 오버로딩 (overloading)

<p> &#9635 <font color=#00008B> 연산자 오버로딩 </font>- 같은 연산자가 적용되는 데이터 타입에 따라 다르게 작동하는 것 </p>

* 더하기(+) 기호는 연산되는 변수의 타입에 따라 다르게 작동한다.
  * ```3 + 4``` : 덧셈
  * ```"ab" + "cd"``` : 문자열 연결

In [20]:
3 + 4

7

In [21]:
"ab" + "cd"

'abcd'

이를 연산자 overloading라고 한다.

### Type checking

파이썬에서 연산에 어울리지 않는 잘못된 타입의 객체를 사용하면 에러가 발생한다.

In [22]:
'a' * 'a'

TypeError: can't multiply sequence by non-int of type 'str'

`type` 명령은 해당 객체의 타입을 알려준다.

In [23]:
type('a')

str

In [24]:
type(10)

int

In [25]:
type(1.1)

float

### 확장 문자 (escaping character)

문자열 중간에 따옴표 ' 기호를 넣고 싶을 때

* 잘못된 예

In [26]:
'This isn't flying, this is falling with style!'

SyntaxError: invalid syntax (2251010213.py, line 1)

* 올바른 예 : backslash ```\```를 삽입하여 문자열 내의 따옴표 사용임을 알림

In [27]:
'This isn\'t flying, this is falling with style!'

"This isn't flying, this is falling with style!"

```\"``` : 큰 따옴표  
```\\``` : backslash(\\)

In [28]:
print('\"')

"


In [29]:
print('\\')

\


### 인덱스를 통한 특정 문자 접근

<p> <font color=#00008B> &#9635 인덱스 (index) </font> - 문자열이나 리스트 등에서 각 원소의 위치를 나타내는 숫자</p>


* 인덱스를 통하여 문자열의 특정 문자에 쉽게 접근할 수 있다.
* 파이썬에서 첫 번째 문자의 인덱스는 **0**부터 시작함 (1이 아님)


In [30]:
first_letter = "uncopywritable"[0]
print(first_letter)

u


In [31]:
my_word = "uncopywritable"
second_letter = my_word[1]
print(second_letter)

n


In [32]:
i = 2
third_letter = my_word[i]
print(third_letter)

c


In [33]:
fourth_letter = my_word[i + 1]
print(fourth_letter)

o


<div class="alert alert-block alert-warning">  
<b>주의:</b> 인덱스의 값으로는 정수형 데이터를 입력해야 한다.
</div>

In [37]:
j = 4
k = j ** (1/2)  # 4의 제곱근은 2
my_word[k]  # k는 정수가 아닌 실수로 간주되어 에러가 발생

TypeError: string indices must be integers

In [38]:
type(k)

float

In [39]:
j = 4
k = j ** (1/2)  # 4의 제곱근은 2
k = int(k)      # 정수로 변환
my_word[k]

'c'

In [40]:
type(k)

int

### 문자열 관련 함수와 method
-----

#### 함수와 메서드

<p> <font color=#00008B> &#9635 함수 (function) </font> - 특정 기능을 수행하기 위해 작성된 코드 블록</p>
<p> <font color=#00008B> &#9635 메서드 (method) </font> - 특정 클래스에 종속되어 그 클래스로 생성된 객체에서만 호출할 수 있는 함수</p>



* Python에 내장된 많은 method와 function들은 다양한 기능을 제공한다.  
  * method와 function은 일부 다른 특징이 있지만, 근본적인 작동 원리는 비슷하다.
* ```lower()```와 ```upper()``` 등의 method는 dot(`.`)을 이용하며 특정 객체(object), 여기서는 특정 문자열(string)에 종속되어 있다고 한다.
* ```str()```, ```len()``` 등은 built-in function으로 dot(`.`)을 이용하지 않으며, 이는 특정 객체에 종속되어 있지 않다. 
   *  괄호 안에 인자로서 여러 형태의 데이터형이 올 수 있음

#### ```len()```  
  * python에 미리 만들어진 built-in 함수로 문자열이나 리스트의 길이를 구할 때 사용

In [41]:
my_name = "KS Lee"
len(my_name)

6

#### ```lower()```, ```upper()```
* 소문자 혹은 대문자로 바꾸어주는 method
* 문자열 뒤에 마침표(.)와 함께 사용
    * ```lower()```, ```upper()``` 등은 생성한 문자열에 종속된 method로써 python에서 제공함
* 변수에 저장된 문자열과 따옴표로 표현된 문자열 모두에 method를 적용할 수 있다.

In [42]:
"EGG".lower()

'egg'

In [43]:
my_string = "spam_egg"
my_string.upper()

'SPAM_EGG'

#### ```str()```
  * 다른 데이터형을 문자열로 바꾸기

In [44]:
this_year = 2016

  * ```this_year```는 2016이라는 값을 지닌 정수형 데이터
  * 이를 정수가 아닌 문자열로 바꾸고 싶을 때

In [45]:
this_year_string = str(this_year)

  * ```this_year = 2016```이고 ```this_year_string = "2016"```으로 데이터형이 다름에 주의
  * 다음의 값이 무엇이 나올지 살펴 보자.

In [46]:
this_year + this_year

4032

In [47]:
this_year_string + this_year_string

'20162016'

#### ```endswith()```와 ```startswith()```

이름을 통해 이 두 method의 기능을 추측해 보자.

In [48]:
'March2019.csv'.endswith('.csv')

True

In [49]:
'March2019.csv'.endswith('sv')

True

In [50]:
'March2019.csv'.endswith('abc')

False

In [51]:
'March2019.ppt'.startswith('March')

True

In [52]:
'March2019.ppt'.startswith('march')

False

#### ```strip()```
* 문자열 앞, 뒤의 빈 공간(white space)을 제거

In [53]:
" Introduction to Python    ".strip()

'Introduction to Python'

#### ```split()```
* 문자열을 공백 혹은 주어진 규칙을 바탕으로 분리하여 리스트로 반환한다.
  * 리스트에 대해서는 추후 공부할 예정

In [54]:
"How are you? I am fine, and you?".split()

['How', 'are', 'you?', 'I', 'am', 'fine,', 'and', 'you?']

In [55]:
"Split_this_string_please".split("_")

['Split', 'this', 'string', 'please']

## 문자열을 이용한 입출력
---------

### `%s`를 이용한 문자열 출력

아래는 C 스타일 형식의 문자열 출력 방식이다.

문자열은 `%s`, 정수는 `%d`, 실수는 `%f`에 대응되며, 실수는 출력할 소수점 개수를 명시할 수 있다.

In [56]:
name = "Tom"
home = "New York"
print("My name is %s and I am from %s." % (name, home))

My name is Tom and I am from New York.


<img src="https://github.com/ksublee/SPuP/blob/master/figure/print.png?raw=true" width="450">

In [57]:
age = 20
nationality = 'Korea'
formatted = "I am %d years old and from %s." % (age, nationality)
print(formatted)

I am 20 years old and from Korea.


In [58]:
x = 12.31645
print("Today's temperature is %.1f degrees." % x)

Today's temperature is 12.3 degrees.


In [59]:
x = 12.31645
print("Today's temperature is %.2f degrees." % x)

Today's temperature is 12.32 degrees.


### `f`-문자열을 이용한 출력 방법

파이썬 3.6부터 도입된 방법으로 문자열 앞에 `f`로 시작하며, 위에서 사용했던 `%` 대신, `{ }`를 사용한다. 

`{ }`안에 변수명을 넣어준다.

In [60]:
name = "Tom"
home = "New York"
print(f"My name is {name} and I am from {home}.")

My name is Tom and I am from New York.


In [61]:
age = 20
nationality = 'Korea'
formatted = f"I am {age} years old and from {nationality}."
print(formatted)

I am 20 years old and from Korea.


In [62]:
x = 12.31645
print(f"Today's temperature is {x:.2f} degrees.")

Today's temperature is 12.32 degrees.


```f```를 누락하지 않도록 주의하자.

In [63]:
name = "Tom"
home = "New York"
print("My name is {name} and I am from {home}.")

My name is {name} and I am from {home}.


### 문자열 입력 - 다시 살펴보기

Python 3.x 에서는 ```input``` 함수를 이용하여 문자열을 입력받는다.  
```input()```의 괄호 안에는 문자열 입력 전 화면에 보여주고 싶은 문장을 입력한다.

In [64]:
name = input('Enter your name: ')

Enter your name: Kyungsub Lee


In [65]:
print('Are you really ' + name + '?')

Are you really Kyungsub Lee?


### 입력 받은 문자열 type 변경

만약 입력 받은 문자열을 숫자로 활용하고자 하면 ```int()```나 ```float()``` 함수를 이용하여 type을 변경

In [74]:
num = input('Input any number: ')

Input any number: 1.1


* ```num```은 문자열이지만 ```float(num)```을 통해서 실수로, 혹은 ```int(num)```을 통해서 정수로 바꿀 수 있다.
* 숫자형을 변경할 경우 각종 사칙연산 등에 활용할 수 있다.

In [75]:
sqr = float(num) * float(num)
print('The square of num ' + num + ' is ' + str(sqr))

The square of num 1.1 is 1.2100000000000002


In [76]:
#다른 print 방법, %f는 실수를 의미
print('The square of num %s is %f' %(num, sqr))

The square of num 1.1 is 1.210000


In [77]:
print(f'The square of num {num} is {sqr}')

The square of num 1.1 is 1.2100000000000002
