### Python으로 텍스트 바꾸기 (정규식)
- 텍스트 파일을 읽은 후 필요한 정보만 추출한다.
- 텍스트 파일을 읽은 후 텍스트 내용을 변환한다.
- 텍스트 파일을 읽고 수정한 후 다른 이름으로 저장한다.

- 대상 텍스트 파일: Moby Dick

#### 텍스트 파일 처리: 정규식(regular expressions)
- 정규식: 문자열의 검색과 치환을 위한 형식 언어이다. 텍스트 파일을 처리할 때 가장 많이 수행하는 작업 중 하나가 정규식을 이용한 문자열 검색과 문자열 찾기/바꾸기이다.
- 몇 개의 파일을 대상으로 고정된 형태의 문자열을 찾기/바꾸기하는 것은 워드프로세서로도 가능하지만 대량의 파일을 처리할 때는 워드프로세서로 처리하는 것이 쉽지 않다.
- 고정된 문자열이 아닌 가변형의 문자열은 정규식을 이용해야 한다.
- 정규식의 문법 체계와 활용 범위는 아주 방대하므로 여기서는 한글 말뭉치 텍스트를 다룰 때 가장 기본적인 것 몇 가지만 소개한다.
- 보다 다양한 정규식 형태에 대한 설명은 https://www.regular-expressions.info/나 https://rstudio-pubs-static.s3.amazonaws.com/74603_76cd14d5983f47408fdf0b323550b846.html 등을 참고하면 된다.

#### 정규식을 이용한 문자열의 검색과 치환
- *re* 라이브러리를 사용한다.
- 정규식을 이용한 문자열 찾기는 search(), findall()을, 문자열 치환은 sub() 함수를 사용한다.
- search() 함수는 찾고자 하는 문자열 패턴의 위치와 해당 문자열을 반환한다.
- findall() 함수는 찾고자 하는 문자열과 일치하는 모든 문자열을 반환한다.
- sub() 함수는 찾는 문자열을 원하는 다른 문자열로 변환한다.

#### 문자열 찾기: search, match, findall

In [None]:
ex = 'an example word:cat!!'
match = re.search(pattern='word:...', string=ex)
# match = re.search('word:[a-z]+', ex)

if match:
  print('found', match.group())
else:
  print('did not find')


In [None]:
ex = 'an example word:cat!!'
match = re.search(pattern='word:[a-z]+', string=ex)

if match:
  print('found', match.group())
else:
  print('did not find')

print(match)

- **search()**, **match()**, **findall()** 함수의 차이

In [None]:
print(re.match('a', 'aba'))
print(re.match('a', 'bbb'))
print(re.match('a', 'baa'))

In [None]:
print(re.search('a', 'aba'))
print(re.search('a', 'bbb'))
print(re.search('a', 'baa'))

In [None]:
print(re.findall('a', 'aba'))
print(re.findall('a', 'bbb'))
print(re.findall('a', 'baa'))
print(re.findall('aaa', 'aaaa'))

In [None]:
import re

sents = ["Social worker: Great. Did you bring it with you?",
          "사회복지사: 잘 하셨어요. 일기 가지고 오셨나요?",
          "Joker: (dodging the subject) I'm sorry. Did I bring what?",
          "조커: (못 들은 체하며) 죄송합니다. 뭐라고 하셨죠?",
          "Joker: What time?",
          "조커: 몇 신가요?",
          "Social Worker: It's 2:45.",
          "사회복지사: 2시 45분이예요.",
          "Social Worker: 전화번호를 기입하셔야 해요.",
          "사회복지사: 2시 45분이예요.",
          "Joker: What time?",
          "조커: 몇 신가요?"]

print(sents)

#### search() 함수를 이용하여 영어 문장과 한국어 문장을 찾아 출력하기

In [None]:
for sent in sents:
    x = re.search('[a-zA-Z]+', sent)

    if x:
        print("'%s' is an English sentence." % sent)
    else:
        print("'%s' is a Korean sentence." % sent)

#### search() 함수를 이용하여 영어 문장과 한국어 문장의 위치 찾기

In [None]:
eng_index = []
kor_index = []
for i, sent in enumerate(sents):
    x = re.search('[a-zA-Z]+', sent)
    
    if x:
        eng_index.append(i)
    else:
        kor_index.append(i)

print(eng_index); print(kor_index)

- 위 두 개 블록을 아래처럼 하나로 합할 수도 있다.

In [None]:
eng_index = []
kor_index = []
for i, sent in enumerate(sents):
    x = re.search('[a-zA-Z]+', sent)
    
    if x:
        eng_index.append(i)
    else:
        kor_index.append(i)
    
    if x:
        print("%s is an English sentence." % sent)
    else:
        print("%s is a Korean sentence." % sent)

print(eng_index); print(kor_index)

- 위에서 만든 eng_index와 kor_index 값을 이용하여 sents에서 영어 문장과 한국어 문장을 분리할 수 있다.

In [None]:
english_sents = []
korean_sents = []

for i in eng_index:
    english_sents.append(sents[i])

for j in kor_index:
    korean_sents.append(sents[j])

print(english_sents); print(korean_sents)

In [None]:
print([sents[i] for i in eng_index])
print([sents[i] for i in kor_index])

#### findall() 함수를 이용하여 영어 단어와 한글 단어를 찾아서 출력하기 

In [None]:
y = re.findall('[a-zA-Z]+', sents[0])
yy = re.findall('[가-힣]+', sents[1])
print(y); print(yy)

In [None]:
english_words = []
korean_words = []
for sent in sents:
    eng = re.findall('[a-zA-Z]+', sent)
    kor = re.findall('[ㄱ-ㅎ가-힣]+', sent)
    if eng and not kor:
        english_words.append(eng)
    else:
        korean_words.append(kor)

print(english_words); print(korean_words)

In [None]:
english_words_flat = [z for word in english_words for z in word]
print(english_words_flat)

#### 문자열을 찾아 다른 문자열로 바꾸기: sub
- 텍스트 파일을 처리할 때 가장 많이 사용하게 되는 정규식 관련 함수 중의 하나
- 문자열을 찾아서 바꾸는(substitute) 기능을 가진 함수이므로, **search()**나 **findall()** 등의 찾기 함수와 달리 찾기 패턴 외에 바꾸기 패턴도 필요

In [None]:
print(re.sub(pattern='\d{4}', repl='XXXX', string='010-1234-5678'))
print(re.sub(pattern='\d{3}', repl='XXX', string='010-1234-5678'))
print(re.sub(pattern='-', repl=' ', string='010-1234-5678'))
print(re.sub(pattern='Tube ', repl='', string='Tube Ryan'))

*sents*에서 등장인물 이름과 지문을 제거하고 대사만 남기기

In [None]:
sents_no_names_direct = []

for sent in sents:
    x = re.sub('^.*: ', '', sent)
    x = re.sub('\(.*\) ', '', x)
    if x:
        sents_no_names_direct.append(x)

print(sents_no_names_direct)