### Python으로 텍스트 바꾸기 (정규식)
- 텍스트 파일을 읽은 후 필요한 정보만 추출한다.
- 텍스트 파일을 읽은 후 텍스트 내용을 변환한다.
- 텍스트 파일을 읽고 수정한 후 다른 이름으로 저장한다.

- 대상 텍스트 파일: Moby Dick

#### 텍스트 파일 처리: 정규식(regular expressions)
- 정규식: 문자열의 검색과 치환을 위한 형식 언어이다. 텍스트 파일을 처리할 때 가장 많이 수행하는 작업 중 하나가 정규식을 이용한 문자열 검색과 문자열 찾기/바꾸기이다.
- 몇 개의 파일을 대상으로 고정된 형태의 문자열을 찾기/바꾸기하는 것은 워드프로세서로도 가능하지만 대량의 파일을 처리할 때는 워드프로세서로 처리하는 것이 쉽지 않다.
- 고정된 문자열이 아닌 가변형의 문자열은 정규식을 이용해야 한다.
- 정규식의 문법 체계와 활용 범위는 아주 방대하므로 여기서는 한글 말뭉치 텍스트를 다룰 때 가장 기본적인 것 몇 가지만 소개한다.
- 보다 다양한 정규식 형태에 대한 설명은 https://www.regular-expressions.info/나 https://rstudio-pubs-static.s3.amazonaws.com/74603_76cd14d5983f47408fdf0b323550b846.html 등을 참고하면 된다.

#### 정규식을 이용한 문자열의 검색과 치환
- *re* 라이브러리를 사용한다.
- 정규식을 이용한 문자열 찾기는 search(), findall()을, 문자열 치환은 sub() 함수를 사용한다.
- search() 함수는 찾고자 하는 문자열 패턴의 위치와 해당 문자열을 반환한다.
- findall() 함수는 찾고자 하는 문자열과 일치하는 모든 문자열을 반환한다.
- sub() 함수는 찾는 문자열을 원하는 다른 문자열로 변환한다.

#### 정규식 기초
- 정규식은 기본적으로 워드프로세서나 메모장 등에서 자주 사용하는 '찾기' 또는 '찾기-바꾸기' 방식과 같다.
- 워드 프로세서에서의 찾기-바꾸기 작업은 고정된 형태의 문자열을 찾는 반면 정규식에서는 메타 문자를 이용하여 보다 다양한 형태의 가변형 문자열을 찾을 수 있다.
- 기본적인 정규식 패턴은 다음 표와 같다. 

#### 기본적인 정규식 패턴 (문자 패턴)
| 정규식 패턴 | 의미 |
|:--------:|:--------|
|[가나다]|'가' 혹은 '나' 혹은 '다' 검색|
|[0-9]|숫자 0에서 9까지 전체 검색|
|[a-zA-Z]|알파벳 소문자 a에서 z까지, 대문자 A에서 Z까지 전체 검색|
|[가-힣ㄱ-ㅎㅏ-ㅡ]|한글 문자 '가'에서 '힣'(가, 각, 갂, ..., 힡, 힢, 힣), 자음 'ㄱ'에서 'ㅎ', 모음 'ㅏ'에서 'ㅡ'까지 전체 검색|
|[a-zA-Z0-9]|알파벳 소문자 a에서 z까지, 대문자 A에서 Z까지, 숫자 0에서 9까지 검색|
|.|줄바꿈 문자인 \n을 제외한 임의의 한 문자 검색|
|\d|숫자 검색|
|\s|공백 검색|

#### 기본적인 정규식 패턴 (문자 반복)
| 정규식 패턴 | 의미 |
|:--------:|:--------|
|+|앞 문자의 패턴이 1개 이상 있음|
|*|앞 문자의 패턴이 0개 혹은 1개 이상 있음|
|?|앞 문자가 0개이거나 1개 있음|
|{n, m}|앞 문자 패턴이 n개 이상 m개 이하 있음|
|{n,}|앞 문자 패턴이 n개 이상 있음|
|{n}|앞 문자 패턴이 n개 있음|

#### 기본적인 정규식 패턴 (기타)
| 정규식 패턴 | 의미 |
|:--------:|:--------|
|^|문자열의 시작을 의미|
|$|문자열의 끝을 의미|
|||A 또는 B (or)|

#### 문자열 찾기: search, match, findall

In [12]:
ex = 'an example word:cat!!'
match = re.search(pattern='word:...', string=ex)
# match = re.search('word:[a-z]+', ex)

if match:
  print('found', match.group())
else:
  print('did not find')


found word:cat


1. 1행: 예시 문장을 *ex* 변수에 저장한다.
1. 2행: **re** 라이브러리의 **search()** 함수로 'word:...', 즉 word:로 시작하고 메타 문자 .(아무 문자나 하나) 3개가 연속으로 나오는 패턴을 검색한다. 검색 결과는 *match* 변수에 저장한다. 찾는 패턴이 있으면 *match* 변수에는 값이 저장되어 있을 것이고, 그렇지 않으면 None 즉 아무런 값이 저장되어 있지 않을 것이다. **re** 라이브러리의 정규식 관련 함수들에서는 찾고자 하는 문자열을 *pattern* 항목에, 찾을 대상이 되는 문서나 문장 등은 *string* 항목에 기입한다. 이 때 *pattern*과 *string* 등의 항목명은 생략 가능하다.
1. 5행: 만약 *match* 변수에 값이 저장되어 있으면(if)
1. 6행: 저장된 패턴값을 **group()** 함수로 가져와서 'found'라는 단어와 함께 결합하여 출력한다.
1. 7-8행: *match* 변수에 값이 저장되어 있지 않다면(else), 'did not find'라는 구를 출력한다.

In [17]:
ex = 'an example word:cat!!'
match = re.search(pattern='word:[a-z]+', string=ex)

if match:
  print('found', match.group())
else:
  print('did not find')

found word:cat


1. 2행: 찾을 패턴을 메타 문자 . 대신 [a-z]+로 설정하여 검색한다. 즉 word:로 시작하고 소문자 a에서 z까지의 문자를 찾되 이 문자 패턴이 1개 이상인 경우를 검색한다. 이에 해당하는 문자열은 word:cat이다. 

In [20]:
print(match)

<re.Match object; span=(11, 19), match='word:cat'>


1. 검색 결과를 저장한 *match*를 출력하면 매칭 범위(span)와 매칭 문자열(match)을 출력한다. 매칭 범위는 공백 포함 개별 문자의 위치값이고, 매칭 문자열은 검색 조건에 맞는 문자열을 출력한다.

- **search()**, **match()**, **findall()** 함수의 차이

In [15]:
print(re.match('a', 'aba'))
print(re.match('a', 'bbb'))
print(re.match('a', 'baa'))

<re.Match object; span=(0, 1), match='a'>
None
None


1. 1-3행: **re** 라이브러리 내의 **match()** 함수는 찾고자 하는 문자열(pattern)이 찾는 대상 문자열(string)의 처음부터 일치하는 경우만을 검색한다. 찾고자 하는 문자가 'a'이므로 'a'로 시작하는 문자열은 첫 번째밖에 없다. 따라서 첫 번째 함수 결과에서만 검색 결과값이 저장되고, 다른 두 개는 아무런 값이 저장되지 않는다(None).

In [16]:
print(re.search('a', 'aba'))
print(re.search('a', 'bbb'))
print(re.search('a', 'baa'))

<re.Match object; span=(0, 1), match='a'>
None
<re.Match object; span=(1, 2), match='a'>


1. 1-3행: **re** 라이브러리 내의 **search()** 함수는 찾고자 하는 문자열이 대상 문자열의 처음부터 일치하지 않고 중간에 있는 경우도 검색한다. 즉 찾는 문자 패턴이 있는 것은 위치와 관계없이 모두 찾는다. 따라서 2행 두 번째를 제외한 나머지 두 개에서는 검색 결과가 저장된다.  

In [25]:
x = re.findall('a', 'aba')

In [24]:
print(re.findall('a', 'aba'))
print(re.findall('a', 'bbb'))
print(re.findall('a', 'baa'))
print(re.findall('aaa', 'aaaa'))

['a', 'a']
[]
['a', 'a']
['aaa']


1. 1-4행: **re** 라이브러리 내의 **findall()** 함수는 대상 문자열에서 찾는 패턴과 일치하는 모든 부분을 검색하여 결과를 리스트로 반환한다. 1행에서는 'aba'에서 'a'를 찾아 찾은 결과(첫 번째 글자와 세 번째 글자)를 리스트 ['a'. 'a']로 반환한다. 4행에서는 찾는 패턴이 'aaa'라는 연속 문자이므로 'aaaa'에서 'aaa'에 해당하는 문자열만 가지고 온다. (이 때 반환된 리스트는 서로 겹치지 않는다. 즉 aaa가 하나만 반환된다.)

In [4]:
import re

sents = ["Social worker: Great. Did you bring it with you?",
          "사회복지사: 잘 하셨어요. 일기 가지고 오셨나요?",
          "Joker: (dodging the subject) I'm sorry. Did I bring what?",
          "조커: (못 들은 체하며) 죄송합니다. 뭐라고 하셨죠?",
          "Joker: What time?",
          "조커: 몇 신가요?",
          "Social Worker: It's 2:45.",
          "사회복지사: 2시 45분이예요.",
          "Social Worker: 전화번호를 기입하셔야 해요.",
          "사회복지사: 2시 45분이예요.",
          "Joker: What time?",
          "조커: 몇 신가요?"]

print(sents)

['Social worker: Great. Did you bring it with you?', '사회복지사: 잘 하셨어요. 일기 가지고 오셨나요?', "Joker: (dodging the subject) I'm sorry. Did I bring what?", '조커: (못 들은 체하며) 죄송합니다. 뭐라고 하셨죠?', 'Joker: What time?', '조커: 몇 신가요?', "Social Worker: It's 2:45.", '사회복지사: 2시 45분이예요.']


1. 1행: 정규식을 다루기 위해 필요한 함수들을 가지고 있는 라이브러리(library) **re**를 불러온다.
1. 3-10행: 기본 정규식을 적용할 영어 문장 2개와 한국어 문장 2개를 입력하고 *sents* 변수에 할당한다.
1. 12행: *sents* 변수를 출력한다.

#### search() 함수를 이용하여 영어 문장과 한국어 문장을 찾아 출력하기

In [22]:
for sent in sents:
    x = re.search('[a-zA-Z]+', sent)

    if x:
        print("'%s' is an English sentence." % sent)
    else:
        print("'%s' is a Korean sentence." % sent)

'Social worker: Great. Did you bring it with you?' is an English sentence.
'사회복지사: 잘 하셨어요. 일기 가지고 오셨나요?' is a Korean sentence.
'Joker: (dodging the subject) I'm sorry. Did I bring what?' is an English sentence.
'조커: (못 들은 체하며) 죄송합니다. 뭐라고 하셨죠?' is a Korean sentence.
'Joker: What time?' is an English sentence.
'조커: 몇 신가요?' is a Korean sentence.
'Social Worker: It's 2:45.' is an English sentence.
'사회복지사: 2시 45분이예요.' is a Korean sentence.


1. 1행: **for...** 구문으로 *sents*의 4개 문장을 하나씩 꺼내 *sent* 변수에 할당한다. 
1. 2행: **search()** 함수를 이용하여 하나씩 꺼내온 *sent*에 영어 단어([a-zA-Z]+), 즉 소문자 a부터 z까지 그리고 대문자 A부터 Z까지의 문자가 1개 이상(+) 있는지 찾아서 그 결과를 x에 반환한다.
1. 4-7행: 만약 x의 값이 None이 아니면(즉 영어 단어가 하나라도 포함된 문장이라면), 영어 문장 *sent*를 출력한다. 그렇지 않으면 한국어 문장 *sent*를 출력한다. 출력할 때에는 '찾은 문장 is an English/Korean sentence.'와 같은 형식으로 출력한다.

#### search() 함수를 이용하여 영어 문장과 한국어 문장의 위치 찾기

In [23]:
eng_index = []
kor_index = []
for i, sent in enumerate(sents):
    x = re.search('[a-zA-Z]+', sent)
    
    if x:
        eng_index.append(i)
    else:
        kor_index.append(i)

print(eng_index); print(kor_index)

[0, 2, 4, 6]
[1, 3, 5, 7]


1. 1-2행: 영어 문장과 한국어 문장의 위치를 저장할 변수를 각각 생성한다.
1. 3행: **for...** 구문으로 *sents*의 4개 문장을 하나씩 꺼내 *sent* 변수에 할당한다. 이 때 각 문장의 위치값을 얻기 위해 **enumerate()** 함수를 사용한다. **for...** 구문에서 **enumerate([리스트])**를 사용하면 0부터 시작하는 인데스 값과 리스트의 요소를 하나씩 차례로 얻을 수 있다. 즉 i=0, sent='Social worker: Great. Did you bring it with you?', i=1, sent='사회복지사: 잘 하셨어요. 일기 가지고 오셨나요?' 등의 순서로 변수 *i*와 *sent*가 하나씩 채워진다.
1. 4행: **search()** 함수를 이용하여 *sent*에 영어 단어([a-zA-Z]+)가 존재하는지 찾아서 그 결과를 *x*에 반환한다.
1. 6-9행: 만약 *x*의 값이 None이 아니면(즉 영어 단어가 포함된 문장이라면), 1행에서 생성한 *eng_index* 리스트에 해당 문장의 위치값 *i*를 추가한다. 그렇지 않으면 *kor_index*에 위치값 *i*를 추가한다. 만약 첫 번째 루프에서 영어 단어가 검색된다면 *x*가 None이 아니므로 첫 번째 문장 위치 0이 *i*로서, *eng_index*에 추가된다.

- 위 두 개 블록을 아래처럼 하나로 합할 수도 있다.

In [27]:
eng_index = []
kor_index = []
for i, sent in enumerate(sents):
    x = re.search('[a-zA-Z]+', sent)
    
    if x:
        eng_index.append(i)
    else:
        kor_index.append(i)
    
    if x:
        print("%s is an English sentence." % sent)
    else:
        print("%s is a Korean sentence." % sent)

print(eng_index); print(kor_index)

Social worker: Great. Did you bring it with you? is an English sentence.
사회복지사: 잘 하셨어요. 일기 가지고 오셨나요? is a Korean sentence.
Joker: (dodging the subject) I'm sorry. Did I bring what? is an English sentence.
조커: (못 들은 체하며) 죄송합니다. 뭐라고 하셨죠? is a Korean sentence.
Joker: What time? is an English sentence.
조커: 몇 신가요? is a Korean sentence.
Social Worker: It's 2:45. is an English sentence.
사회복지사: 2시 45분이예요. is a Korean sentence.
[0, 2, 4, 6]
[1, 3, 5, 7]


1. 1-2행: 영어 문장과 한국어 문장의 위치를 저장할 변수를 각각 생성한다.
1. 3행: **for...** 구문으로 *sents*의 4개 문장을 하나씩 꺼내 *sent* 변수에 할당한다. 이 때 각 문장의 위치값을 얻기 위해 **enumerate()** 함수를 사용한다.
1. 4행: **search()** 함수를 이용하여 하나씩 꺼내온 *sent*에 영어 단어([a-zA-Z]+)가 존재하는지 찾아서 그 결과를 *x*에 반환한다.
1. 6-9행: 만약 *x*의 값이 None이 아니면(즉 영어 단어가 포함된 문장이라면), 1행에서 생성한 *eng_index* 변수에 해당 문장의 위치값 *i*를 추가한다. 그렇지 않으면 *kor_index*에 위치값 *i*를 추가한다.
1. 11-14행: 만약 *x*의 값이 None이 아니면, 영어 문장 *sent*를 출력한다. 그렇지 않으면 한국어 문장 *sent*를 출력한다.

- 위에서 만든 eng_index와 kor_index 값을 이용하여 sents에서 영어 문장과 한국어 문장을 분리할 수 있다.

In [28]:
english_sents = []
korean_sents = []

for i in eng_index:
    english_sents.append(sents[i])

for j in kor_index:
    korean_sents.append(sents[j])

print(english_sents); print(korean_sents)

['Social worker: Great. Did you bring it with you?', "Joker: (dodging the subject) I'm sorry. Did I bring what?", 'Joker: What time?', "Social Worker: It's 2:45."]
['사회복지사: 잘 하셨어요. 일기 가지고 오셨나요?', '조커: (못 들은 체하며) 죄송합니다. 뭐라고 하셨죠?', '조커: 몇 신가요?', '사회복지사: 2시 45분이예요.']


1. 1-2행: 영어 문장과 한국어 문장들을 저장할 빈 리스트를 각각 생성한다.
1. 4행: **for...** 구문으로 eng_index에 저장된 값을 하나씩 가지고 와서 *i*에 할당하고
1. 5행: *i*는 영어 문장들의 위치값이므로 sents[i]는 영어 문장들을 차례대로 가지고 오게 된다. 가지고 온 영어 문장을 *engish_sents*에 하나씩 추가해 넣는다.
1. 7-8행: **for...** 구문으로 kor_index에 저장된 값을 하나씩 가지고 와서 *j*에 할당한다. *j*는 한국어 문장들의 위치값이므로 sents[i]는 한국어 문장들을 차례대로 가지고 오게 된다. 가지고 온 한국어 문장을 *korean_sents*에 하나씩 추가해 넣는다.
1. 10행: *engish_sents*와 *korean_sents*를 차례로 출력한다.

In [29]:
print([sents[i] for i in eng_index])
print([sents[i] for i in kor_index])

['Social worker: Great. Did you bring it with you?', "Joker: (dodging the subject) I'm sorry. Did I bring what?", 'Joker: What time?', "Social Worker: It's 2:45."]
['사회복지사: 잘 하셨어요. 일기 가지고 오셨나요?', '조커: (못 들은 체하며) 죄송합니다. 뭐라고 하셨죠?', '조커: 몇 신가요?', '사회복지사: 2시 45분이예요.']


#### findall() 함수를 이용하여 영어 단어와 한글 단어를 찾아서 출력하기 

In [106]:
y = re.findall('[a-zA-Z]+', sents[0])
yy = re.findall('[가-힣]+', sents[1])
print(y); print(yy)

['Social', 'worker', 'Great', 'Did', 'you', 'bring', 'it', 'with', 'you']
['사회복지사', '잘', '하셨어요', '일기', '가지고', '오셨나요']


1. 1행: *sents*에 저장된 첫 번째 문장(Social worker: Great. Did you bring it with you?)에서 대소문자 a-z, A-Z가 1개 이상 연속적으로 나타나는 패턴을 모두 찾아 *y*에 저장한다. 이 때 공백과 기호 등 알파벳 글자 외의 것은 패턴에 포함되지 않는다. 이런 식으로 순수 영단어만을 찾아낼 수 있다.
1. 2행: *sents*에 저장된 두 번째 문장(사회복지사: 잘 하셨어요. 일기 가지고 오셨나요?)에서 한글 낱자(가, 나, 다, ...)가 1개 이상 연속적으로 나타나는 패턴을 모두 찾아 *yy*에 저장한다. 현대 한글의 글자 범위는 '가'에서 '힣'까지이다. 필요에 따라 자모를 추가할 수도 있다. 이 때 공백과 기호 등 알파벳 글자 외의 것은 패턴에 포함되지 않는다. 이런 식으로 순수 한국어 단어만을 찾아낼 수 있다.
1. 3행: *y*와 *yy*를 출력한다.

In [32]:
english_words = []
korean_words = []
for sent in sents:
    eng = re.findall('[a-zA-Z]+', sent)
    kor = re.findall('[ㄱ-ㅎ가-힣]+', sent)
    if eng and not kor:
        english_words.append(eng)
    else:
        korean_words.append(kor)

print(english_words); print(korean_words)

[['Social', 'worker', 'Great', 'Did', 'you', 'bring', 'it', 'with', 'you'], ['Joker', 'dodging', 'the', 'subject', 'I', 'm', 'sorry', 'Did', 'I', 'bring', 'what'], ['Joker', 'What', 'time'], ['Social', 'Worker', 'It', 's']]
[['사회복지사', '잘', '하셨어요', '일기', '가지고', '오셨나요'], ['조커', '못', '들은', '체하며', '죄송합니다', '뭐라고', '하셨죠'], ['조커', '몇', '신가요'], ['사회복지사', '시', '분이예요']]


1. 1-2행: 영어와 함국어 단어를 저장할 빈 리스트를 만든다.
1. 3-5행: *sents*에 저장된 문장들을 하나씩 차례대로 꺼내어 sent에 할당하고, 이 sent에서 영어 단어와 한국어 단어를 모두 찾아 *eng*와 *kor*에 각각 저장한다.
1. 6행: 만약 eng에 값이 저장되어 있고(즉 영어 단어들이 들어있고) kor에는 값이 저장되어 있지 않다면(즉 한국어 단어들이 들어있지 않다면)
1. 7행: *english_words* 리스트에 찾는 영어 단어들을 추가한다.
1. 8-9행: 그렇지 않고 그 반대라면(즉 영어 단어는 없고 한국어 단어들만 있다면), *korean_words* 리스트에 한국어 단어들을 추가한다.
1. 11행: *english_words*와 *korean_words*를 각각 출력한다. 각 문장마다 찾은 단어 정보가 분리되어 들어있다.

In [33]:
english_words_flat = [z for word in english_words for z in word]
print(english_words_flat)

['Social', 'worker', 'Great', 'Did', 'you', 'bring', 'it', 'with', 'you', 'Joker', 'dodging', 'the', 'subject', 'I', 'm', 'sorry', 'Did', 'I', 'bring', 'what', 'Joker', 'What', 'time', 'Social', 'Worker', 'It', 's']


#### 문자열을 찾아 다른 문자열로 바꾸기: sub
- 텍스트 파일을 처리할 때 가장 많이 사용하게 되는 정규식 관련 함수 중의 하나
- 문자열을 찾아서 바꾸는(substitute) 기능을 가진 함수이므로, **search()**나 **findall()** 등의 찾기 함수와 달리 찾기 패턴 외에 바꾸기 패턴도 필요

In [44]:
print(re.sub(pattern='\d{4}', repl='XXXX', string='010-1234-5678'))
print(re.sub(pattern='\d{3}', repl='XXX', string='010-1234-5678'))
print(re.sub(pattern='-', repl=' ', string='010-1234-5678'))
print(re.sub(pattern='Tube ', repl='', string='Tube Ryan'))

010-XXXX-XXXX
XXX-XXX4-XXX8
010 1234 5678
Ryan


1. 1행: '010-1234-5678'라는 대상 문자열(string)에서 숫자(\d)가 4개({4}) 들어간 패턴(pattern)을 찾아서 그 찾은 패턴을 'XXXX'라는 문자열(repl)로 바꾼다.
1. 2행: '010-1234-5678'라는 대상 문자열(string)에서 숫자(\d)가 3개({4}) 들어간 패턴(pattern)을 찾아서 그 찾은 패턴을 'XXX'라는 문자열(repl)로 바꾼다.
1. 3행: '010-1234-5678'라는 대상 문자열(string)에서 구분 기호(-)를 공백으로 바꾼다.
1. 4행: 'Tube Ryan'이라는 문자열에서 'Tube ', 즉 Tube와 바로 다음의 공백 패턴을 찾아 그 패턴을 대상 문자열에서 제거한다. 찾은 패턴을 다른 것으로 교체하지 않고 단순히 삭제하고 싶을 때는 바꾸기 패턴(repl)을 ''로 하면 된다.

*sents*에서 등장인물 이름과 지문을 제거하고 대사만 남기기

In [56]:
sents_no_names_direct = []

for sent in sents:
    x = re.sub('^.*: ', '', sent)
    x = re.sub('\(.*\) ', '', x)
    if x:
        sents_no_names_direct.append(x)

print(sents_no_names_direct)

['Great. Did you bring it with you?', '잘 하셨어요. 일기 가지고 오셨나요?', "I'm sorry. Did I bring what?", '죄송합니다. 뭐라고 하셨죠?', 'What time?', '몇 신가요?', "It's 2:45.", '2시 45분이예요.']


1. 1행: 등장인물 이름과 지문을 제거한 새 문장들을 저장할 리스트 변수 *sents_no_names_direct*를 만든다.
1. 3행: *sents*의 문장을 하나씩 꺼내어 *sent*에 할당하고
1. 4행: *sent*에서 등장인물을 표시하는 패턴, 즉 문자열의 제일 처음(^)부터 :과 바로 다음의 공백(: )까지를 '^.*: '로 나타내고 이를 빈 바꾸기 패턴 즉 ''로 바꾸어 삭제한다. 등장인물 이름이 삭제된 문장을 *x*에 저장한다. 찾기 패턴의 ^는 문자열의 첫 부분, .는 공백/기호/문자 포함 아무 문자, *는 바로 앞의 문자 0개 혹은 1개 이상을 의미한다. 
1. 5행: *x*에서 지문, 즉 괄호((...))로 묶인 부분을 삭제하여 다시 *x*에 저장한다. 정규식에서 둥근 괄호는 특수한 의미를 가진 기호이므로, 찾고자 하는 괄호가 기호가 아닌 문자임을 나타내도록 이스케이프 문자 \를 붙인다. 이스케이프 문자는 바로 다음의 문자가 특수 기호가 아니라 일반 문자라는 것을 나타낸다. (.: 아무 문자 한 개 *vs.* \.: 문자로서의 마침표)
1. 6-7행: *x*에 값이 저장되어 있으면, 즉 교체한 문자열이 들어있으면(if x), *x*를 미리 만들어 둔 sents_no_names_direct 리스트에 하나씩 추가한다(**append()**). 만약 등장 인물 이름과 지문만으로 구성된 문장이라면 *x*에 아무 값도 저장되어 있지 않을 것이므로 **append()** 함수로 추가하지 않는다.
1. 9행: *sents_no_names_direct*를 출력한다.

In [57]:
sents

['Social worker: Great. Did you bring it with you?',
 '사회복지사: 잘 하셨어요. 일기 가지고 오셨나요?',
 "Joker: (dodging the subject) I'm sorry. Did I bring what?",
 '조커: (못 들은 체하며) 죄송합니다. 뭐라고 하셨죠?',
 'Joker: What time?',
 '조커: 몇 신가요?',
 "Social Worker: It's 2:45.",
 '사회복지사: 2시 45분이예요.']

In [58]:
sents_no_names_direct

['Great. Did you bring it with you?',
 '잘 하셨어요. 일기 가지고 오셨나요?',
 "I'm sorry. Did I bring what?",
 '죄송합니다. 뭐라고 하셨죠?',
 'What time?',
 '몇 신가요?',
 "It's 2:45.",
 '2시 45분이예요.']