# 문자열(string)

수학 시간에 배우는 **수의 열**(a seqence of numbers)인 **수열**과 유사하게 **문자의 열**(a sequence of characters)을 **문자열(string)**이라고 한다.
컴퓨터는 문자를 이진수로 변환하여 저장하고, 저장된 이진수를 다시 문자로 변환하여 화면에 나타낸다.
문자를 이진수로 변환하는 것을 **암호화**(encoding)라고 하고 이진수를 다시 문자로 변환하는 것을 **복호화**(decoding)라고 한다.
암호화하고 복호화하는 여러 가지 표준적인 규정이 있는데 가장 자주 사용하는 방법은 **아스키**(American Standard Code for Information Interchange, ASCII)와 **유니코드**(Unicode)이다.
파이썬은 기본적으로 유니코드를 사용하기 때문에 **파이썬에서 문자열은 유니코드의 열**이다.
그렇다고 다른 코드 체계를 다룰 수 없는 것은 아니다.

**Note**

자료처리에서 성별을 측정하여 남자는 'M', 'F'로 기록했다고 하자. 그러면 자료는 'M', 'F'로 구성되어 있을 것이다. 통계분석이든 기계학습이든 이런 자료는 숫자로 변환해야 한다. 예를 들어, 'M', 'F'를 0과 1로 변환하는 것이다. 이런 작업을 coding이라고도 한다.(엄밀히 말하면 encoding이라고 해야 할 것이다.) 변환된 자료는 0과 1로만 구성되어 있을 것이고 이 자료를 분석한 결과를 해석할 때는 다시 0과 1이 각각 남자와 여자를 의미한다는 것을 알아야 할 것이다.(decoding 과정) 만약 'M', 'F'가 0과 1로 변환되었다는 것을 모른다면 분석 결과를 이해할 수 없을 것이다. 마찬가지로 문자를 숫자로 저장하고 저장된 숫자를 문자로 변환할 때도 유사한 변환 규칙이 있어야 한다. 아스키코드와 유니코드가 바로 문자를 숫자로 변환하는 규칙이며 서로 다른 규칙이다.

# 텍스트 파일

파일은 **이진 파일**(binary file)과 **텍스트 파일**(text file)로 구분된다.
**텍스트 파일은 문자열이 저장된 파일**을 가리키는 용어이다.
**텍스트 파일은 문자열과 인코딩에 관한 정보만 가지고 있으며** **서식(굵게 또는 기울임 등과 같은)이 없는 단순 문서 편집기**를 통해 확인하고 생성하고 수정할 수 있다.

텍스트 파일이 아닌 파일을 이진 파일이라고 한다.
이진 파일은 **바이트의 열(a sequence of bytes)**로 생각할 수 있으며 텍스트가 아닌 것을 포함한다.
사진, 소리 등도 이진 파일에 해당한다.
이진 파일은 파일에 저장된 데이터를 해석하는데 필요한 정보(meta data)를 파일의 앞 부분에 저장하고 있는데 이를 **헤더(header)**라고 한다.

**자료를 저장하고 공유하는 가장 기본적인 파일 형식이 텍스트 파일**이다.
텍스트 파일이지만 `.c`, `.cc`, `.cpp`,`.txt`, `.ini`, `.yml`, `.html`, `.md`, `.java`, `.jsp`, `.h`, `.csv`, `.py` 등과 같은 다양한 확장자로 저장된 정보의 종류나 용도 또는 형식을 나타내기 위해 나타내는 것이 관례이다.

## 문자열의 생성

파이썬에서 문자열은 문자들의 열을 **작은따옴표**(single quote) 또는 **큰따옴표**(double quote)로 감싸서 생성한다.
여러 줄에 걸친 문자열은 세 번 연속된 작은따옴표나 큰따옴표로 감싸서 생성할 수 있다.

In [1]:
student_name = '심청'  
father_name = "심학규"
address = """옹진군
경기도 12345
대한민국"""
print(father_name)
print(address)

심학규
옹진군
경기도 12345
대한민국


문자열의 자료형은 `str`이다.

In [None]:
print(type(address))

<class 'str'>


**문자열은 여러 개의 문자를 순서대로 저장하는 일종의 자료구조**이다.
따라서 리스트와 같이 인덱스와 **`[]` 연산자**를 이용하여 특정 문자에 접근할 수 있으며 슬라이싱으로 **부분 문자열**을 추출할 수도 있다.
`in` 연산자 뿐만 아니라 내장함수 `len()`, `enumerate()` 등도 사용할 수 있다.

Note: **문자(character)**와 **문자열(string)**을 구별하여 사용해야 한다.

In [None]:
for ch in father_name:
    print(ch)

심
학
규


In [None]:
for idx, ch in enumerate(father_name):
    print(idx, ': ', ch)

0 :  심
1 :  학
2 :  규


In [None]:
for idx in range(len(father_name)):
    print(idx, ': ', father_name[idx])

0 :  심
1 :  학
2 :  규


**리스트와 다른 점이라면 문자열은 `immutable`하다.**
따라서 문자열 자료구조에 저장된 값을 변경하는 다음과 같은 코드는 `TypeError` 오류를 발생한다.

In [None]:
student_name[1] = '수'

TypeError: 'str' object does not support item assignment

## 이스케이프 시퀀스(escape sequence)

문자열에 엔터키(`enter key`, 줄의 끝을 나타내는 문자)나 탭키(`tab key`, 미리 설정된 위치로 이동하라는 표식의 문자) 또는 따옴표를 포함하고 싶을 때 사용하는 특별한 문자열을 **이스케이프 시퀀스**라고 한다.
이스케이프 시퀀스는 역 슬래시(backslash) `\`로 시작한다.
자주 사용하는 이스케이프 시퀀스는 **`\n`, `\t`, `\"`, `\'`, `\\`**등인데 순서대로 엔터키, 탭키, 큰따옴표, 작은따옴표, 역슬래시이다.

문자열 내에 따옴표를 넣고 싶을 때 그냥 따옴표를 기재하면 문자열이 시작하거나 끝나는 것으로 이해하기 때문에 이스케이프 시퀀스를 사용해서 문자열의 시작이나 끝을 나타내는 따옴표가 아니라 단순한 문장 부호인 따옴표임을 지정해야 한다.

In [None]:
words = '선생님께서 \"너 지금 뭐 하는거야?\" 하고 물으셨다.'
print(words)

선생님께서 "너 지금 뭐 하는거야?" 하고 물으셨다.


문자열을 **`raw string`**으로 지정하면 문자열 내에 있는 모든 이스케이프 시퀀스를 이스케이프 시퀀스로 해석하지 않고 있는 그대로의 문자로 처리한다.
문자열을 `raw string`으로 지정하려면 문자열을 생성할 때 문자열 앞에 `r`을 덧붙인다.

In [None]:
msg = 'This is Brown\'s car'
print(msg)
msg = r'This is Brown\'s car'
print(msg)

This is Brown's car
This is Brown\'s car


여러 줄에 걸친 문자열을 생성할 때는 세개의 따옴표(triple quotes)로 문자열을 시작하고 끝내면 된다.
세개의 따옴표로 감싼 문자열을 입력할 때는 엔터키나 탭키 등을 이스케이프 시퀀스로 입력하지 않고 엔터키와 탭키를 치면 자동적으로 이스케이프 시퀀스로 변환된다.

In [None]:
msg = """Title: Pyhton String
    파이썬 문자열을 특징은 ...
    다음과 같다."""
print(msg)
msg

Title: Pyhton String
    파이썬 문자열을 특징은 ...
    다음과 같다.


'Title: Pyhton String\n    파이썬 문자열을 특징은 ...\n    다음과 같다.'

In [None]:
msg = "Title: Pyhton String\n파이썬 문자열을 특징은 ...\n다음과 같다."
print(msg)
msg

Title: Pyhton String
파이썬 문자열을 특징은 ...
다음과 같다.


'Title: Pyhton String\n파이썬 문자열을 특징은 ...\n다음과 같다.'

## `in` 연산자

`in` 연산자를 사용하면 문자열 내에 특정 문자열이 포함되어 있는지 검사할 수 있다.

In [None]:
test1 = 'Hello' in 'Hello World'
print(test1)
print('hello' in 'Hello World')
test2 = 'cats' not in 'cats and dogs'
print(test2)

True
False
False


## 파이썬 문자열의 메소드

최근에는 텍스트 자료를 처리하는 일이 중요해지고 있다.
인터넷에서 수집하는 많은 자료가 텍스트 자료이며 이들을 주제에 따라 분류하거나 다른 언어로 번역하는 것을 예로 들 수 있다.
파이썬 문자열은 텍스트 자료를 처리하는데 필요한 다양한 메소드를 제공한다.
이들 메소드는 [docs.python.org](https://docs.python.org/3/library/string.html) 사이트를 참고하여 익힐 필요가 있다.

파이썬 문자열의 메소드는 다음과 같이 알아 볼 수있다.

In [None]:
', '.join(dir(msg)[33:])

'capitalize, casefold, center, count, encode, endswith, expandtabs, find, format, format_map, index, isalnum, isalpha, isdecimal, isdigit, isidentifier, islower, isnumeric, isprintable, isspace, istitle, isupper, join, ljust, lower, lstrip, maketrans, partition, replace, rfind, rindex, rjust, rpartition, rsplit, rstrip, split, splitlines, startswith, strip, swapcase, title, translate, upper, zfill'

## 대소문자와 관련한 메소드: `capitalize()`, `upper()`, `lower()`,  `title()`, `swapcase()`, `isupper()`, `islower()`, `istitle()`


* `capitalize()` 메소드는 문자열의 첫 문자를 대문자로 변경한 새로운 문자열을 생성해준다.

* 대소문자가 없는 한글과 숫자로만 이루어진 문자열은 그대로 반환한다.

* `swapcase()` 메소드는 대문자는 소문자로 소문자는 대문자로 변환한 문자열을 반환한다.

* `upper()`, `lower()` 메소드는 문자열의 모든 문자를 대문자 또는 소문자로 변경한 새로운 문자열을 만들어 준다.
하지만 **대소문자를 구별하지 않는 문자**(한글, 숫자, 특수문자 등)는 그대로 반환한다.

* `title()` 메소드는 문자열을 구성하는 각 단어의 첫 글짜를 대문자로 변환한 새로운 문자열을 만들어 준다.

* `isupper()`, `islower()` 메소드는 문자열에 대소문자를 구별하는 문자가 하나 이상 있을 때 그 문자들이 전부 소문자인지 또는 전부 대문자인지 검사한 결과를 논리값으로 준다.
대소문자를 구별하는 문자가 하나도 없으면 `False`를 반환하고, 대소문자를 구별하는 문자가 하나 이상 포함되어 있으면 대소문자를 구별하지 않는 문자는 무시하고 판정한다.

* `istitle()` 메소드는 문자열에서 각 단어의 첫 글자가 대문자이고 그 외는 소문자인지 검사한다. 

* 대소문자 구별이 없는 문자는 대문자도 아니고 소문자도 아닌 것으로 판단한다. 대소문자를 구별하는 문자와 구별하지 않는 문자가 혼용된 문자열인 경우 대소문자를 구별하는 문자에 대해서만 판단한다.

In [None]:
string = "python is awesome."
capitalized_string = string.capitalize()
print('Old String: ', string)
print('Capitalized String:', capitalized_string)

Old String:  python is awesome.
Capitalized String: Python is awesome.


In [None]:
book = 'introductory statistics for information age'
book = book.upper()
print(book)
book = book.lower()
print(book)
book = book.capitalize()
print(book)
book = book.title()
print(book)

INTRODUCTORY STATISTICS FOR INFORMATION AGE
introductory statistics for information age
Introductory statistics for information age
Introductory Statistics For Information Age


In [None]:
book.islower()

False

In [None]:
book_kr = '통계 프로그래밍 abc'
print(book_kr.title())
print(book_kr.upper())
print(book_kr)

통계 프로그래밍 Abc
통계 프로그래밍 ABC
통계 프로그래밍 abc


In [None]:
print(book)
print(book.isupper())
print(book.islower())
print(book.istitle())

Introductory Statistics For Information Age
False
False
True


In [None]:
print(book_kr.islower())
print(book_kr.isupper())
print(book_kr.istitle())

True
False
False


In [None]:
book_kr = "한글 제목"
print(book_kr.islower())
print(book_kr.isupper())
print(book_kr.istitle())

False
False
False


### 문자열 정렬과 관련한 메소드: `center()`, `ljust()`, `rjust()`

* `center()`는 지정한 길이에서 문자열이 가운데 오도록 문자열 앞 뒤에 지정한 문자를 덧붙인 문자열을 만들어 주는 메소드이다.

* `ljust()`는 지정한 길이에서 문자열이 왼쪽에 정렬되도록 문자열 뒤에 지정한 문자를 덧붙인 문자열을 만들어 주는 메소드이다.

* `rjust()`는 지정한 길이에서 문자열이 오른쪽에 정렬되도록 문자열 앞에 지정한 문자를 덧붙인 문자열을 만들어 주는 메소드이다.

* **앞 또는 뒤에 덧붙일 디폴트 문자는 빈 칸**이다.

In [None]:
string = "python is awesome."
print(string, len(string))
cstring1 = string.center(50)
cstring2 = string.center(50, '*')
print("Centered String: ", cstring1, len(cstring1))
print("Centered String: ", cstring2, len(cstring2))
print(string.ljust(50, '='))

python is awesome. 18
Centered String:                  python is awesome.                 50
Centered String:  ****************python is awesome.**************** 50


### 특정 문자열을 제거하기 위한 메소드: `lstrip()`, `rstrip()`, `strip()`

이 메소드들은 문자열 앞과 뒤 또는 양쪽에 나타나는 특정 문자들을 제거한 새로운 문자열을 만들어 준다.
제거할 문자 여러 개를 문자열로 주면 이들 중 어떤 문자라도 나타나면 제거한다.
제거할 문자가 여러 번 나타나면 모두 제거한다.
**제거할 문자를 지정하지 않으면 공백문자(white space)를 제거**한다.

**Note**: 공백문자는 빈칸이 아니다. string 모듈의 whitespace 상수를 참조하면, space, tab(\t), linefeed(\n), return(\r), formfeed(\f), and vertical tab(\v) 등이 공백문자이다. 이들 공백문자를 출력하면 말 그대로 공백으로 보인다.

In [None]:
print(cstring1, cstring2)
lst_string1 = cstring1.lstrip()
lst_string2 = cstring2.lstrip('*')
print(lst_string1)
print(lst_string2)

                python is awesome.                 ****************python is awesome.****************
python is awesome.                
python is awesome.****************


In [None]:
st_string1 = lst_string1.rstrip()
st_string2 = lst_string2.rstrip('*')
print(st_string1)
print(st_string2)

python is awesome.
python is awesome.


In [None]:
print(cstring1.strip())
print(cstring2.strip('*'))

python is awesome.
python is awesome.


In [None]:
website = 'https://github.com/joongyang/'
print(website.lstrip('thps:/.'))

github.com/joongyang/


In [None]:
str_ws = "\n\t  \tIt\'s now or never.\n  \t  \t   \n"
print("\'", str_ws, "\'", sep="")
print("\'", str_ws.lstrip(), "\'", sep="")
print("\'", str_ws.strip(), "\'", sep="")

'
	  	It's now or never.
  	  	   
'
'It's now or never.
  	  	   
'
'It's now or never.'


`\x0b`는 `\v`이고, `\x0c`는 `\f`이다.

In [None]:
import string
print(string.whitespace)
string.whitespace

 	



' \t\n\r\x0b\x0c'

### 문자열 검사를 위한 메소드: `isalpha()`, `isalnum()`, `isdecimal()`, `isdigit()`, `ismumeric()`, `isspace()`, `isprintable()`

문자열의 구성 원소: 글자, 숫자, 공백문자, 문장부호 등

| 메소드 | 설명|
|---------|--------|
| `isalpha()` | 문자열을 구성하는 모든 문자가 글자인지 검사한다. 한글도 글자로 보며, 빈칸과 숫자는 글자가 아니다. |
| `isalnum()` | 문자열을 구성하는 모든 문자가 글자 또는 숫자인지 검사한다. |
| `isspace()` | 문자열을 구성하는 모든 문자가 **공백문자**인지 검사한다. |

In [None]:
string = '이건 한글 문자와 빈칸 그리고 마침표가 있는 문자열이다.'
print(string.isalpha())
string = '이건한글문자만있는문자열이다'
print(string.isalpha())
string = '이건한글문자와3이란숫자가있는문자열이다'
print(string.isalpha())
print(string.isalnum())

False
True
False
True


`isdecimal()`, `isdigit()`, `isnumeric()` 메소드는 문자열의 모든 문자가 숫자이면 `True` 그렇지 않으면 `False`를 반환하는 메소드들이다.
`isdecimal()`은 `\u`로 시작하는 유니코드로 나타낸 숫자는 숫자로 취급하지 않지만 `isdigit()`와`isnumeric()`는 숫자로 취급한다.
대부분의 경우 이 세 메소드의 차이는 거의 없다.

In [None]:
height = '1234.56789'
print(height.isdecimal())
print(height.isnumeric())
print(height.isdigit())
print(height.isalnum())
height = '1234567890'
print(height.isdecimal())
print(height.isnumeric())
print(height.isdigit())
print(height.isalnum())

False
False
False
False
True
True
True
True


키보드에 없는 글자를 입력해야 할 경우에는 그 글자의 유니코드를 이용하면 된다.
예를 들어 윗첨자 2는 키보드에 없는 글자이다. 따라서 윗첨자 2의 유니코드 "\u00B2"를 윗첨자 대신 문자열에 기재하면 된다.
여기서 `\u`는 유니코드임을 나타내는 escape sequence이다.

In [None]:
string = "123\u00B2456"
print(string)
print(string.isdecimal())
print(string.isdigit())
print(string.isnumeric())

123²456
False
True
True


윗첨자 2의 유니코드는 "\u00B2"이고, &frac14;의 유니코드는 "\u00BC"이다.
`isnumeric()`은 이런 문자도 숫자로 취급한다.

In [None]:
string = "123\u00B2456\u00BC"
print(string)
print(string.isdecimal())
print(string.isdigit())
print(string.isnumeric())

123²456¼
False
False
True


명령창에서 `charmap` 명령을 실행하면 문자표가 나타나고 여기서 각 문자에 대한 유니코드를 알 수 있다.

In [None]:
string= "\u2460\u2461\u2463"
print(string)
print(string.isdecimal())
print(string.isdigit())
print(string.isnumeric())

①②④
False
True
True


In [None]:
print("\uac41")

걁


In [None]:
string = "12345①②③④⑤"
print(string)
print(string.isdecimal())
print(string.isdigit())
print(string.isnumeric())


12345①②③④⑤
False
True
True


`isdigit()` 메소드와 `isnumeric()` 메소드의 차이는 숫자로 사용하는 로마문자에 대한 처리에서 나타난다.
숫자로 사용하는 로마문자는 digit은 아니지만 numeric이다.
숫자로 사용하는 로마문자의 유니코드는 `2160`부터 `2179`까지로 Ⅰ, Ⅱ, ..., Ⅹ,ⅰ, ⅱ, ..., ⅹ이다.

In [None]:
string = "ⅠⅡⅣⅨⅩ\u2166\u2176"
print(string)
print(string.isdecimal())
print(string.isdigit())
print(string.isnumeric())

ⅠⅡⅣⅨⅩⅦⅶ
False
False
True


## 검색과 관련한 메소드: `count()`, `find()`, `rfind()`, `index()`, `rindex()`

```python
string.find(검색문자열, start=검색시작위치, end=검색종료할위치 )
string.count(검색문자열, start=검색시작위치, end=검색종료할위치)
string.index(검색문자열, start=검색시작위치, end=검색종료할위치 )
string.rfind(검색문자열, start=검색시작위치, end=검색종료할위치 )
string.rindex(검색문자열, start=검색시작위치, end=검색종료할위치 )
```

* `find()`메소드는 문자열에서 `start`와 `end` 사이를 검색하여 특정 문자열이 처음으로 나타나는 위치의 인덱스를 반환한다.
만약 검색 문자열이 문자열 내에 없으면 -1을 반환한다.
검색을 시작할 위치 `start`와 종료할 위치 `end`는 인덱스로 지정하며, 만약 이들을 지정하지 않으면 처음부터 마지막까지 모두 검색한다.

* `rfind()` 메소드는 검색 문자열이 마지막으로 나타나는 곳의 인덱스를 반환한다.

* `count()` 메소드는 검색 문자열이 나타나는 횟수를 반환한다.

* `index()`메소드는 `find()` 메소드와 같이 검색 문자열이 처음 나타나는 위치를 인덱스로 반환하지만 검색 문자열이 없으면 오류를 발생시킨다.

* `rindex()`메소드와 `rfind()` 메소드의 관계도 이와 같다.

In [None]:
quote = 'Let it be, let it be, let it be'
key = 'let it'
idx = quote.find(key)
print(idx)
print(quote[idx:(idx+len(key))])

idx = quote.find('small')
print(idx)

key = 'be, '
if (quote.find(key) != -1):
  print("Contains " + key)
else:
  print("Doesn't contain " + key)

11
let it
-1
Contains be, 


In [None]:
string = "Python is awesome, isn't it?"
search_string = "is"
count = string.count(search_string)
print(count)
count = string.count(search_string, 10)
print(count)

2
1


### 문자열 결합과 분리를 위한 메소드: `join()`, `split()`, `rsplit()`

```python
연결문자열.join(문자열이저장된자료구조)
문자열.split(구분문자열)
문자열.rsplit(구분문자열, maxsplit)
```

* `join()` 메소드는 자료구조에 저장된 문자열을 연결하여 하나의 문자열을 만들어 준다.
이때 각 문자열 사이에 연결 문자열을 삽입해준다.

* `split()` 메소드는 문자열에 구분 문자열이 나타날 때마다 잘라서 만든 부분 문자열의 리스트를 반환한다.

* `rsplit()` 메소드는 `split()` 메소드와 같이 구분 문자열이 나타날 때마다 잘라서 만든 부분 문자열의 리스트를 반환하지만 이 작업을 뒤에서부터 수행한다.
`maxsplit` 매개변수를 추가로 가지고 있으며 구분 문자열을 몇 번 찾을 때까지 분할 작업을 할 것인지를 이 매개변수에 지정할 수 있다. `maxsplit` 매개변수를 지정하지 않으면 `split()`과 동일한 결과를 준다. 

In [None]:
news = """23일(현지 시각) 아랍에미리트(UAE) 수도 아부다비의 한 교민은
"바라카 원전에 대해서 할 말은 많은데 할 수가 없다"고 했다.
그는 "UAE 교민 대부분이 공기업인 한국전력공사가 수주한 원전과 연계된 사업을 하고 있어
대사관 눈치를 보지 않을 수 없다"면서 서둘러 전화를 끊었다.
두바이 거주 한 교민은 이날 본지 전화 통화에서
"며칠 전 교민 사회에 '기자가 UAE에 취재하러 왔으니 입조심하라'는
말이 카카오톡 등을 통해 확 퍼졌다"면서
"다른 교민에게 전화해도 별 얘기는 못 들을 것"이라고 했다.
"""
sep = '\n'
lines = news.split(sep)
print(lines)

stars = '***'
text = stars.join(lines)
print(text)

print(text.count(stars))

['23일(현지 시각) 아랍에미리트(UAE) 수도 아부다비의 한 교민은', '"바라카 원전에 대해서 할 말은 많은데 할 수가 없다"고 했다.', '그는 "UAE 교민 대부분이 공기업인 한국전력공사가 수주한 원전과 연계된 사업을 하고 있어', '대사관 눈치를 보지 않을 수 없다"면서 서둘러 전화를 끊었다.', '두바이 거주 한 교민은 이날 본지 전화 통화에서', '"며칠 전 교민 사회에 \'기자가 UAE에 취재하러 왔으니 입조심하라\'는', '말이 카카오톡 등을 통해 확 퍼졌다"면서', '"다른 교민에게 전화해도 별 얘기는 못 들을 것"이라고 했다.', '']
23일(현지 시각) 아랍에미리트(UAE) 수도 아부다비의 한 교민은***"바라카 원전에 대해서 할 말은 많은데 할 수가 없다"고 했다.***그는 "UAE 교민 대부분이 공기업인 한국전력공사가 수주한 원전과 연계된 사업을 하고 있어***대사관 눈치를 보지 않을 수 없다"면서 서둘러 전화를 끊었다.***두바이 거주 한 교민은 이날 본지 전화 통화에서***"며칠 전 교민 사회에 '기자가 UAE에 취재하러 왔으니 입조심하라'는***말이 카카오톡 등을 통해 확 퍼졌다"면서***"다른 교민에게 전화해도 별 얘기는 못 들을 것"이라고 했다.***
8


문자열을 연결하는 연산은 `+` 연산자로도 수행할 수 있다.

In [None]:
first_name = 'Charles'
last_name = "Darwin"
name = first_name + " " + last_name
print(name)

Charles Darwin


In [None]:
names = [first_name, last_name]
full_name = ' '.join(names)
print(full_name)

Charles Darwin


## unpacking
 문자열도 자료구조이므로 unpacking이 적용된다.

In [None]:
s = "한글abc"
x, *y = s
print(x, y)

한 ['글', 'a', 'b', 'c']


## 클립보드

** 클립보드 기능은 자신의 컴퓨터에 파이썬을 설치하여 사용할 때 제대로 작동한다. 지금은 구글 드라이브에서 웹으로 파이썬을 사용하기 때문에 제대로 작동하지 않는다.**

프로그램 사이에 데이터를 주고 받으려면 두 프로그램이 공동으로 사용할 수 있는 메모리가 필요하다.
이런 용도로 운영체제가 제공하는 것이 **클립보드**(clipboard)이다.
한 프로그램이 데이터를 클립보드에 저장하면, 다른 프로그램이 클립보드에 저장된 데이터를 읽어가는 방법으로 두 프로그램이 통신할 수 있다.

파이썬 프로그램이 클립보드와 통신하려면 이를 지원하는 `pyperclip` 모듈을 설치해야 한다.

```python
C:\Users\joongyang> conda install -c conda-forge pyperclip
```

이 모듈에 정의된 `copy()` 함수는 클리보드에서 데이터를 읽어 올 때 사용하고, `paste()` 함수는 클립보드에 데이터를 보낼 때 사용한다.

In [None]:
!pip install pyperclip

Collecting pyperclip
  Downloading https://files.pythonhosted.org/packages/2d/0f/4eda562dffd085945d57c2d9a5da745cfb5228c02bc90f2c74bbac746243/pyperclip-1.7.0.tar.gz
Building wheels for collected packages: pyperclip
  Building wheel for pyperclip (setup.py) ... [?25l[?25hdone
  Stored in directory: /root/.cache/pip/wheels/92/f0/ac/2ba2972034e98971c3654ece337ac61e546bdeb34ca960dc8c
Successfully built pyperclip
Installing collected packages: pyperclip
Successfully installed pyperclip-1.7.0


In [None]:
import pyperclip
pyperclip.copy('여기는 파이썬, 응답하라.')
msg = pyperclip.paste()
print(msg)

PyperclipException: ignored

## `string` 모듈

`string` 모듈에는 자주 사용하는 문자열 상수가 정의되어 있다.
다음은 이들 상수를 보여주는 예제 프로그램이다.

In [None]:
import string
print(string.ascii_lowercase)
print(string.ascii_uppercase)
print(string.ascii_letters)  # ascii_letters = ascii_lowercase + ascii_uppercase
print(string.digits)         # 10진수 숫자
print(string.hexdigits)      # 16진수
print(string.octdigits)      # 8진수
print(string.punctuation)
print(string.whitespace) # invisible, 공백문자
print(string.printable) # digits + ascii_letter + punctuation + whitespace

abcdefghijklmnopqrstuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
0123456789
0123456789abcdefABCDEF
01234567
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
 	

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



## 연습문제

1. 이스케이프 시퀀스는 무엇인가?

2. 문자열에 들어 있는 \를 그대로 출력하려면 어떻게 해야 하는가?

3. 표현식` 'Hello world!'[1]`, `'Hello world!'[0:5]`, `'Hello world!'[:5]`, `'Hello world!'[3:]`의 결과는 무엇인가?

4. 표현식 `'Hello'.upper()`, `'Hello'.upper().isupper()`, `'Hello'.upper().lower()`의 결과는 무엇인가?

5. 표현식 `'Remember, remember, the fifth of November.'.split()`, `'-'.join('There can be only one.'.split())`의 결과는 무엇인가?

6. 문자열 'spam and egg'에서 'spam egg'를 만들어보시오.

In [None]:
txt = 'spam and egg'
empty = '' # 빈 문자열, empty string, 공집합
rslt = txt.replace('and ', empty)
print(rslt)

spam egg


In [None]:
'-'.join('There can be only one.'.split())

'There-can-be-only-one.'

In [None]:
txt = 'spam and egg'
sep = 'and'
lst = txt.split(sep)
print(lst)
lst = [w.strip() for w in lst]
print(lst)
blnk = ' '
ans = blnk.join(lst)
print(ans)

['spam ', ' egg']
['spam', 'egg']
spam egg


In [None]:
import string

strng = 'Remember, remember, the fifth of November.'
words = strng.split()  # 빈칸이 나올 때마다 분리
print(words)
words = [wd.strip(string.punctuation) for wd in words]
print(words)


['Remember,', 'remember,', 'the', 'fifth', 'of', 'November.']
['Remember', 'remember', 'the', 'fifth', 'of', 'November']


In [None]:
txt =  'first line\nsecond line\nthird line'
lst = txt.split('\n')
print(lst)
cln = ':'
rslt = cln.join(lst)
print(rslt)

['first line', 'second line', 'third line']
first line:second line:third line


In [None]:
rslt = txt.replace('\n', ':')
print(rslt)

first line:second line:third line


In [None]:
lines = txt.split('\n')
words = lines[1].split()
words[0]
# txt.split('\n')[1].split()[0]

'second'

In [None]:
lyric = 'somewhere on the rainbow'
lyric = lyric.replace('on', 'over')
print(lyric)

somewhere over the rainbow


In [None]:
import string
txt = 'sometimes, I feel like a motherless child.\nHow about you?'
empty = ''
empty.join([c for c in txt if c not in string.punctuation])

'sometimes I feel like a motherless child\nHow about you'

In [None]:
abspath = '/usr/local/bin/python/hello.py'
abspath.rsplit('/', 1)[-1]  # 0, 1, 2,... => -1, -2, -3...

'hello.py'

In [None]:
news = """대선 도전을 공식화한 미래통합당 소속 원희룡 제주도지사가 9일 “진보의 아류가 되어선 영원한 2등이고 영원히 집권할 수 없다”면서 “보수는 우리가 결코 포기할 수 없는 유전자”라고 말했다. 이는 김종인 미래통합당 비상대책위원장이 ‘보수라는 말을 쓰지 말자’고 한 데 작심하고 반기를 든 것이라는 해석이 나온다. 원 지사는 이날 ‘히딩크 용병’이라는 말로 김 위원장을 에둘러 비판했다.

원 지사는 이날 오전 국회에서 열린 ‘대한민국 미래혁신포럼’ 행사 특강에서 “실력을 인정할 수 없는 상대한테 3연속 참패를 당하고, 변화를 주도했던 우리의 자랑스러운 전통을 잃어버리고, 외부의 히딩크 감독에 의해 변화를 강요받는 현실”이라고 말했다. 그는 “외국 히딩크 감독에 의해 변화를 강요 받아야 하는 현실, 이것이 초현실인지 머리를 뭔가로 얻어맞은 기분”이라고 덧붙였다.

그는 “용병과 외국 감독에 의한 승리가 아니라 보수의 유니폼을 입고 승리해야 한다”며 당 안팎에서 ‘좌클릭’ 한다는 비판을 받고 있는 김 위원장을 ‘용병’ ‘외국 감독’으로 빗댔다. 그는 “용병도 자극제를 위해서 필요하지만 우리 동지들이 엔트리를 가지고 이겨야 된다”고 말했다.

원 지사는 “(해방 이후 분단까지) 1945부터 1948년 보수의 선택은 대한민국 100년 현대사에서 우리 운명을 가른 결정적 선택이었고, 위대한 선조의 선택이었다”며 “담대한 변화를 주도했던 보수의 역동성, 그것이 대한민국 현대사의 핵심 동력이고 바로 우리의 정체성”이라고 강조했다."""

# 윈도우즈 운영체제: 엔터키 ==> \r\n
# 유닉스, 리눅스: 엔터키 ==> \n
bsn = '\n'
news = news.replace('\n\n', bsn)
print(news)

대선 도전을 공식화한 미래통합당 소속 원희룡 제주도지사가 9일 “진보의 아류가 되어선 영원한 2등이고 영원히 집권할 수 없다”면서 “보수는 우리가 결코 포기할 수 없는 유전자”라고 말했다. 이는 김종인 미래통합당 비상대책위원장이 ‘보수라는 말을 쓰지 말자’고 한 데 작심하고 반기를 든 것이라는 해석이 나온다. 원 지사는 이날 ‘히딩크 용병’이라는 말로 김 위원장을 에둘러 비판했다.
원 지사는 이날 오전 국회에서 열린 ‘대한민국 미래혁신포럼’ 행사 특강에서 “실력을 인정할 수 없는 상대한테 3연속 참패를 당하고, 변화를 주도했던 우리의 자랑스러운 전통을 잃어버리고, 외부의 히딩크 감독에 의해 변화를 강요받는 현실”이라고 말했다. 그는 “외국 히딩크 감독에 의해 변화를 강요 받아야 하는 현실, 이것이 초현실인지 머리를 뭔가로 얻어맞은 기분”이라고 덧붙였다.
그는 “용병과 외국 감독에 의한 승리가 아니라 보수의 유니폼을 입고 승리해야 한다”며 당 안팎에서 ‘좌클릭’ 한다는 비판을 받고 있는 김 위원장을 ‘용병’ ‘외국 감독’으로 빗댔다. 그는 “용병도 자극제를 위해서 필요하지만 우리 동지들이 엔트리를 가지고 이겨야 된다”고 말했다.
원 지사는 “(해방 이후 분단까지) 1945부터 1948년 보수의 선택은 대한민국 100년 현대사에서 우리 운명을 가른 결정적 선택이었고, 위대한 선조의 선택이었다”며 “담대한 변화를 주도했던 보수의 역동성, 그것이 대한민국 현대사의 핵심 동력이고 바로 우리의 정체성”이라고 강조했다.


7. 문자열 'first line\nsecond line\nthird line'에서 문자열 'first line:second line:third line'을 만들어보시오.

8. 문자열 'first line\nsecond line\nthird line'에서 두 번째 줄 첫 번째 단어를 추출하시오.

9. 문자열의 `replace(oldvalue, newvalue, count)` 메소드에 대해서 알아보시오.

10. 문자열 'somewhere on the rainbow'에서 'somewhere over the rainbow'를 만드시오.

11. 문자열 'sometimes, I feel like a motherless child.'에서 마침표를 제거한 문자열을 구하시오.

12. 주어진 문자열에 포함된 줄바꿈문자(\n)의 개수를 구하시오.

13. 문자열 '/usr/local/bin/python/hello.py'는 리눅스 운영체제에서 `hello.py` 파일의 절대경로이다. 디렉토리에 대한 경로와 파일으로 분리해보시오.

15. 신문기사 일부를 복사하여 변수 news에 저장한 다음 `\r\n`이 이 있는지 검사하고 있으면 전부 `\n`으로  대체하시오.

16. `format()` 메소드에 대해서 알아보시오.

17. 문자열 `s="Hello World!"`에서 "!World Hello"를 만들어 보시오.

18. 웹 문서도 기본적으로 텍스트 파일이다.
다음은 `requests` 모듈을 이용해서 웹 문서를 읽어오는 예이다.
`requests` 모듈의 `get()` 함수로 웹 문서를 읽어오면 `Response` 자료형의 객체가 생성된다.
`Response` 객체의 `text` 속성에 웹 문서의 문서가 저장되어 있다.
`Response` 객체의 여러 메소드를 이용하여 웹 문서에서 필요한 정보만 추출할 수 있다. 

```python
import requets
html = requets.get('https://www.python.org/')
print(type(html))
print(html.text)
```

네이버 홈 페이지의 웹 문서를 추출해보시오.

18. 다음은 문자열을 구성하는 문자와 각 문자가 나타난 횟수를 구하는 예제 프로그램이다. .

In [None]:
from collections import Counter
text = 'google.com'
cntr = Counter(text)
print(cntr)
print(cntr.keys())
print(cntr.values())
print(cntr.items())
print(cntr['g'])

for key in cntr.keys():
    print(key, ': ', cntr[key])

Counter({'o': 3, 'g': 2, 'l': 1, 'e': 1, '.': 1, 'c': 1, 'm': 1})
dict_keys(['g', 'o', 'l', 'e', '.', 'c', 'm'])
dict_values([2, 3, 1, 1, 1, 1, 1])
dict_items([('g', 2), ('o', 3), ('l', 1), ('e', 1), ('.', 1), ('c', 1), ('m', 1)])
2
g :  2
o :  3
l :  1
e :  1
. :  1
c :  1
m :  1


In [None]:
list(text)

['g', 'o', 'o', 'g', 'l', 'e', '.', 'c', 'o', 'm']

아래 리스트 gndr에는 성별 자료가 저장되어 있다.
어떤 값이 저장되어 있으며 각 값이 몇 번씩 저장되어 있는지 알아보시오.

In [None]:
gndr = ['M']*2 + ['F']*4 + ['M'] + ['F']*2 + ['M'] + \
        ['F']*2 + ['M'] + ['F']*4 + ['M']*2

19. 여러 용어를 쉼표로 구분한 아래 문자열에 어떤 용어가 몇 번씩 나타나는지 알아보는 프로그램을 작성하시오.

컴마로 분리/빈칸을 제거/리스트->set/각 용어가 몇번 나타나는지 계산

In [None]:
txt = 'python, programming, best, training,data science, python,   best, data science, programming, learning'
sep = ","
keywords = txt.split(sep)
keywords = [kw.strip() for kw in keywords]
uk_keywords = set(keywords)
freq_keywords = { kw:keywords.count(kw) for kw in uk_keywords}

print(freq_keywords.keys(), freq_keywords.values())
print(freq_keywords)

dict_keys(['data science', 'python', 'training', 'learning', 'programming', 'best']) dict_values([2, 2, 1, 1, 2, 2])
{'data science': 2, 'python': 2, 'training': 1, 'learning': 1, 'programming': 2, 'best': 2}


In [None]:
import collections

txt = 'python, programming, best, training,data science, python,   best, data science, programming, learning'
sep = ","
keywords = txt.split(sep)
keywords = [kw.strip() for kw in keywords]

rslt = collections.Counter(keywords)
print(rslt)

Counter({'python': 2, 'programming': 2, 'best': 2, 'data science': 2, 'training': 1, 'learning': 1})
