### Python으로 텍스트 바꾸기 (정규식)
- 텍스트 파일을 읽은 후 필요한 정보만 추출한다.
- 텍스트 파일을 읽은 후 텍스트 내용을 변환한다.
- 텍스트 파일을 읽고 수정한 후 다른 이름으로 저장한다.

- 대상 텍스트 파일: Moby Dick

#### 텍스트 파일 처리: 정규식(regular expressions)
- 정규식: 문자열의 검색과 치환을 위한 형식 언어이다. 텍스트 파일을 처리할 때 가장 많이 수행하는 작업 중 하나가 정규식을 이용한 문자열 검색과 문자열 찾기/바꾸기이다.
- 몇 개의 파일을 대상으로 고정된 형태의 문자열을 찾기/바꾸기하는 것은 워드프로세서로도 가능하지만 대량의 파일을 처리할 때는 워드프로세서로 처리하는 것이 쉽지 않다.
- 고정된 문자열이 아닌 가변형의 문자열은 정규식을 이용해야 한다.
- 정규식의 문법 체계와 활용 범위는 아주 방대하므로 여기서는 한글 말뭉치 텍스트를 다룰 때 가장 기본적인 것 몇 가지만 소개한다.
- 보다 다양한 정규식 형태에 대한 설명은 https://www.regular-expressions.info/나 https://rstudio-pubs-static.s3.amazonaws.com/74603_76cd14d5983f47408fdf0b323550b846.html 등을 참고하면 된다.

#### 정규식을 이용한 문자열의 검색과 치환
- *re* 라이브러리를 사용한다.
- 정규식을 이용한 문자열 찾기는 match(), search(), findall()을, 문자열 치환은 sub() 함수를 사용한다.
- search() 함수는 찾고자 하는 문자열 패턴의 위치와 해당 문자열을 반환한다.
- findall() 함수는 찾고자 하는 문자열과 일치하는 모든 문자열을 반환한다.
- sub() 함수는 찾는 문자열을 원하는 다른 문자열로 변환한다.

In [2]:
import re

#### 문자열 찾기: search, match, findall

In [None]:
ex = 'an example word:cat!!'
searched = re.search(pattern='word:...', string=ex)
# match = re.search('word:[a-z]+', ex)

if searched:
  print(searched.group())
else:
  print('Nothing')

In [None]:
ex = 'an example word:cat!!'
searched = re.search(pattern='word:[a-z]+', string=ex)

if searched:
  print(searched.group())
else:
  print('Nothing')

print(matched)

- **search()**, **match()**, **findall()** 함수의 차이

In [None]:
print(re.match('a', 'aba'))
print(re.match('a', 'bbb'))
print(re.match('a', 'baa'))

In [12]:
print(re.search('a', 'aba'))
print(re.search('a', 'bbb'))
print(re.search('a', 'baa'))

<re.Match object; span=(0, 1), match='a'>
None
<re.Match object; span=(1, 2), match='a'>


In [None]:
print(re.findall('a', 'aba'))
print(re.findall('a', 'bbb'))
print(re.findall('a', 'baa'))
print(re.findall('aaa', 'aaaa'))

#### 3. 특정 패턴의 단어 추출: **search()** 함수

In [3]:
with open('../data/english_wordlist.txt', 'r') as f:
  wordlist = f.read().splitlines()

searched_1 = []
searched_2 = []
searched_3 = []
for word in wordlist:
  if re.search('ed$', word):
    searched_1.append(word)
  elif re.search('..j..t..$', word):
    searched_2.append(word)
  elif re.search('^[ghi][mno][jlk][def]$', word):
    searched_3.append(word)

print(searched_1[:10])
print(searched_2[:10])
print(searched_3)

['abaissed', 'abandoned', 'abased', 'abashed', 'abatised', 'abed', 'aborted', 'abridged', 'abscessed', 'absconded']
['abjectly', 'adjuster', 'coprojector', 'dejectly', 'injector', 'interjector', 'majestic', 'microprojector', 'munjistin', 'objectee']
['gold', 'golf', 'hold', 'hole']


In [13]:
x = re.search('ed$', 'abaissed')

In [14]:
x.group()

'ed'

1. 1-2행: 영어 단어 목록을 담은 텍스트 파일을 읽어 *wordlist*에 저장한다. **splitlines()** 함수는 **read()**로 읽은 문자열에서 엔터('\n')를 기준으로 분리해 준다. 즉 **f.read()**로 읽은 텍스트에 **splitlines()**를 적용하여 한 단어가 한 줄로 읽히게끔 만든다. 이에 따라 *wordlist*의 길이(**len(wordlist)**)는 총 210,687, 즉 210,687개 단어이다(notepad++로 english_wordlist.txt 파일을 열어 확인할 수 있다). 
1. 4-6행: **search()** 함수로 찾은 단어를 저장한 리스트 변수 3개를 미리 만들어둔다.
1. 7행: *wordlist*에서 한 단어씩 꺼내서 *word*에 할당하고 이 *word*에 대해서
1. 8행: 만약(**if**) 패턴 'ed$'가 *word* 내에 존재하면 
   \$는 문자열의 끝을 의미하므로 ed\$는 ed로 끝나는 단어(e.g. watched, searched)를 의미한다. 즉 *word*가 ed로 끝나는 단어인지 판단해서 패턴에 해당하는 문자열을 반환한다. 반환하는 값이 있으면 **re.search()**는 None이 아니므로 if 조건문에서는 True(참)가 반환된다.
1. 9행: 그 단어(*word*)를 search_1 리스트에 저장하고
1. 10행: 그렇지 않고 만약(**elif**: else if) 패턴 '..j..t..$'가 *word* 내에 존재하면
   패턴에서 ..는 아무 문자나 두 개를 의미한다. ..t는 아무 문자나 두 개 다음에 알파벳 j가 나오는 패턴을 의미한다. 따라서 '..j..t..$'는 아무 문자나 두 개 다음에 j가 나오고 이어 아무 문자나 두 개가 나온 다음에 t가 나오고 다음에 아무 문자나 두 개로 끝나는 단어(e.g. ma-j-est-ic)를 의미한다.
1. 11행: 그 단어(*word*)를 search_2 리스트에 저장하고
1. 12행: 그렇지 않고 만약(**elif**: else if) 패턴 '^[ghi][mno][jlk][def]$'가 *word* 내에 존재하면
   패턴에서 ^는 문자열의 제일 첫 부분, 즉 여기서는 단어의 처음 위치를 의미한다. [ghi]는 g 혹은 h 혹은 i 중의 하나를 뜻한다. 따라서 '^[ghi][mno][jlk][def]$'는 단어의 첫 알파벳이 g나 h나 i로 시작하고 그 다음 알파벳은 m이나 n이나 o이며, ... 마지막 알파벳이 d 혹은 e 혹은 f로 끝나는 단어(e.g. gold)를 말한다. 
1. 13행: 그 단어(*word*)를 search_3 리스트에 저장한다.
1. 15-17행: *searched_1*의 10개 요소, *searched_2*의 10개 요소, *searched_3* 전체 요소를 출력한다.

In [4]:
with open('../data/chat_words.txt', 'r') as f:
  chatwords = f.read().splitlines()

searched_1 = []
searched_2 = []
searched_3 = []
for word in chatwords:
  if re.search('^m+i+n+e+$', word):
    searched_1.append(word)
  elif re.search('^m*i*n*e*$', word):
    searched_2.append(word)
  elif re.search('^[ha]+$', word):
    searched_3.append(word)

print(searched_1[:10])
print(searched_2[:10])
print(searched_3)

['miiiiiiiiiiiiinnnnnnnnnnneeeeeeeeee', 'miiiiiinnnnnnnnnneeeeeeee', 'mine', 'mmmmmmmmiiiiiiiiinnnnnnnnneeeeeeee']
['', 'e', 'i', 'in', 'm', 'me', 'meeeeeeeeeeeee', 'mi', 'min', 'mm']
['a', 'aaaaaaaaaaaaaaaaa', 'aaahhhh', 'ah', 'ahah', 'ahahah', 'ahh', 'ahhahahaha', 'ahhh', 'ahhhh', 'ahhhhhh', 'ahhhhhhhhhhhhhh', 'h', 'ha', 'haaa', 'hah', 'haha', 'hahaaa', 'hahah', 'hahaha', 'hahahaa', 'hahahah', 'hahahaha', 'hahahahaaa', 'hahahahahaha', 'hahahahahahaha', 'hahahahahahahahahahahahahahahaha', 'hahahhahah', 'hahhahahaha']


In [17]:
len(chatwords)

6066

1. 1-2행: 채팅 단어 목록을 담은 텍스트 파일을 읽어 *chatwords*에 저장한다. **splitlines()** 함수는 **read()**로 읽은 문자열에서 엔터('\n')를 기준으로 분리해 준다. 즉 **f.read()**로 읽은 텍스트에 **splitlines()**를 적용하여 한 단어가 한 줄로 읽히게끔 만든다. 이에 따라 *chatwords*의 길이(**len(chatwords)**)는 총 6.066이다. 
1. 4-6행: **search()** 함수로 찾은 단어를 저장한 리스트 변수 3개를 미리 만들어둔다.
1. 7행: *chatwords*에서 한 단어씩 꺼내서 *word*에 할당하고 이 *word*에 대해서
1. 8행: 만약(**if**) 패턴 '^m+i+n+e+$'가 *word* 내에 존재하면
   정규식에서 +는 바로 앞의 문자 패턴 1개 이상을 의미한다. m+는 m이 하나 혹은 두 개 이상인 경우(e.g. mine, mmmnnnn)를 의미한다. '^m+i+n+e+$'는 첫 글자가 m이고 m이 한번 이상 나타나고 이어서 i가 한번 이상 나타나고 이어서 n이 한번 이상, 마지막으로 e가 한번 이상 나타난 후에 끝나는 단어를 말한다.
1. 9행: 그 단어(*word*)를 search_1 리스트에 저장하고
1. 10행: 그렇지 않고 만약(**elif**: else if) 패턴 '^m\*i\*n\*e\*$'가 *word* 내에 존재하면
   정규식에서 \*는 바로 앞의 문자 패턴 0개 혹은 1개 이상을 의미한다. m*는 m이 안 나타나거나 한번 이상 나타나는 경우를 의미한다. '^m\*i\*n\*e\*$'는 첫 글자가 하나 이상의 m 혹은 m이 아니고 이어서 하나 이상의 i 혹은 i가 아니며 이어서 n이 한번 이상 혹은 나타나지 않으며 아지막으로 e가 한번 이상 혹은 나타나지 않는 단어를 말한다.  
1. 11행: 그 단어(*word*)를 search_2 리스트에 저장하고
1. 12행: 그렇지 않고 만약(**elif**: else if) 패턴 '^[ha]+$'가 *word* 내에 존재하면
   '^[ha]+$'는 첫 글자가 h 혹은 a이고 h 혹은 a가 한번 이상 나타난 후 끝나는 단어를 말한다.
1. 13행: 그 단어(*word*)를 search_3 리스트에 저장한다.
1. 15-17행: *searched_1*의 10개 요소, *searched_2*의 10개 요소, *searched_3* 전체 요소를 출력한다.

In [5]:
with open('../data/treebank_words.txt', 'r') as f:
  treebankwords = f.read().splitlines()

searched_1 = []
searched_2 = []
searched_3 = []
searched_4 = []
for word in treebankwords:
  if re.search('^[0-9]+\.[0-9]+$', word):
    searched_1.append(word)
  elif re.search('^[0-9]{4}$', word):
    searched_2.append(word)
  elif re.search('^[0-9]+-[a-z]{3,5}$', word):
    searched_3.append(word)
  elif re.search('(ed|ing)$', word):
    searched_4.append(word)

print(searched_1[:10])
print(searched_2[:10])
print(searched_3)
print(searched_4[:10])

['0.0085', '0.05', '0.1', '0.16', '0.2', '0.25', '0.28', '0.3', '0.4', '0.5']
['1614', '1637', '1787', '1901', '1903', '1917', '1925', '1929', '1933', '1934']
['10-day', '10-lap', '10-year', '100-share', '12-point', '12-year', '14-hour', '15-day', '150-point', '190-point', '20-point', '20-stock', '21-month', '237-seat', '240-page', '27-year', '30-day', '30-point', '30-share', '30-year', '300-day', '36-day', '36-store', '42-year', '50-state', '500-stock', '52-week', '69-point', '84-month', '87-store', '90-day']
['62%-owned', 'Absorbed', 'According', 'Adopting', 'Advanced', 'Advancing', 'Alfred', 'Allied', 'Annualized', 'Anything']


In [22]:
bool(re.search('^[0-9]{4}$', word))

False

1. 1-2행: 트리뱅크(코퍼스의 일종) 단어 목록을 담은 텍스트 파일을 읽어 *treebankwords*에 저장한다. **splitlines()** 함수는 **read()**로 읽은 문자열에서 엔터('\n')를 기준으로 분리해 준다. 즉 **f.read()**로 읽은 텍스트에 **splitlines()**를 적용하여 한 단어가 한 줄로 읽히게끔 만든다. 이에 따라 *treebankwords*의 길이(**len(treebankwords)**)는 총 12,408이다. 
1. 4-6행: **search()** 함수로 찾은 단어를 저장한 리스트 변수 3개를 미리 만들어둔다.
1. 7행: *wordlist*에서 한 단어씩 꺼내서 *word*에 할당하고 이 *word*에 대해서
1. 8행: 만약(**if**) 패턴 '^[0-9]+\.[0-9]+$'가 *word* 내에 존재하면
   패턴 '^[0-9]+'는 단어의 처음이 숫자 하나 이상으로 시작하는 것을 말한다. '\.'는 정규식 패턴인 아무 문자 하나를 의미하는 것이 아니라 문자 그대로의 .을 의미한다. 문자 그대로의 .을 찾는다는 것을 표시하기 위해 이스케이프 문자 \를 앞에 붙인다(만약 +앞에 이스케이프 문자 \를 붙여 \+로 표시하면 바로 앞의 글자 하나 이상을 의미하는 것이 아니라 문자 그대로의 + 기호를 뜻하는 것이다). 따라서 '^[0-9]+\.[0-9]+$'는 숫자로 시작하고 .이 나온 다음 숫자로 끝나는 단어들을 말한다.
1. 9행: 그 단어(*word*)를 search_1 리스트에 저장하고
1. 10행: 그렇지 않고 만약(**elif**: else if) 패턴 '^[0-9]{4}$'가 *word* 내에 존재하면
   {} 안에 숫자 n으로 표기된 것은 바로 앞의 문자가 n개 나오는 경우를 말한다. '^[0-9]{4}$'는 숫자로 시작하고 숫자가 4자리로 된 단어들 말한다.
1. 11행: 그 단어(*word*)를 search_2 리스트에 저장하고
1. 12행: 그렇지 않고 만약(**elif**: else if) 패턴 '^[0-9]+-[a-z]{3,5}$'가 *word* 내에 존재하면
   {} 안에 숫자 m, n으로 표기된 것은 바로 앞의 문자가 m개 이상 n개 이하 있다는 것을 의미한다. '^[0-9]+-[a-z]{3,5}$'는 숫자가 적어도 하나 이상 나오고 -가 나온 후 알파벳 문자가 3개 이상 5개 이하 나타난 후에 끝나는 단어(e.g. 10-day, 10-lap)를 나타낸다.
1.  13행: 그 단어(*word*)를 search_3 리스트에 저장한다.
1. 12행: 그렇지 않고 만약(**elif**: else if) 패턴 '(ed|ing)$'가 *word* 내에 존재하면
    정규식에서 |는 or의 의미이다. 즉 ed 혹은 ing로 끝나는 단어를 말한다.
1. 13행: 그 단어(*word*)를 search_3 리스트에 저장한다.
1. 15-17행: *searched_1*의 10개 요소, *searched_2*의 10개 요소, *searched_3* 전체 요소를 출력한다.

#### 4. 어간과 접사 분리하기(stemming): **findall()**을 사용하여

In [7]:
pattern = '^.*(ing|ly|ed|ist|ious|ies|ive|es|ment|ness)$'

with open('../data/english_wordlist.txt', 'r') as f:
  wordlist = f.read().splitlines()

word_endings = []
for word in wordlist:
  stemming = re.findall(pattern, word)
  if stemming is not None:
    word_endings.extend(stemming)

print(word_endings[:50])

['ist', 'ly', 'ed', 'ed', 'ly', 'ment', 'ed', 'ly', 'ness', 'ment', 'ed', 'ly', 'ness', 'ly', 'ment', 'ment', 'ed', 'es', 'ly', 'ive', 'ive', 'ly', 'ed', 'ment', 'ly', 'ing', 'ing', 'ly', 'ness', 'ist', 'ly', 'ist', 'ly', 'ive', 'ness', 'ive', 'ly', 'ness', 'ive', 'ment', 'ious', 'ive', 'ness', 'ly', 'ly', 'ive', 'ist', 'ly', 'ness', 'ment']


1. 1행: 찾고자 하는 패턴을 *pattern* 변수에 저장한다. ''^.*'는 아무 문자나 0번 혹은 1번 이상 나타나는 단어를 말한다. (ing|ly|ed|ist|ious|ies|ive|es|ment|ness)는 |를 사용하여 10개 문자열을 or로 연결한 것이다. 즉 ing 혹은 ly 혹은 ... ness 앞에 아무 문자나 0번 혹은 1번 이상 나타나는 경우, 즉 이 문자열들로 끝나는 모든 단어들을 말한다. 
1. 3-4행: 영어 단어 목록을 담은 텍스트 파일을 읽어 *wordlist*에 저장한다.
1. 6행: 접미사 목록을 저장할 빈 리스트 *word_endings*를 만든다.
1. 7행: *wordlist*에서 단어를 하나씩 가져와서 *word*에 할당한 후
1. 8행: *word*에서 1행에서 지정한 패턴에 해당하는 문자열을 모두 찾아(**re.findall()**) *stemming*에 저장한다.
1. 9행: 만약 *steemming*이 빈 것이 아니라면, 즉 패턴에 해당하는 문자열을 찾아 정보를 저장하고 있다면
1. 10행: 6행에서 만든 *word_endings* 리스트에 넣어준다. 이 때 **append()**가 아니라 **extend()**를 사용한 것은 *stemming*이 리스트로 반환되어 이 리스트를 *word_endings* 리스트에 개별 요소 단위로 추가해야 하기 때문이다.
1. 12행: *word_endings*을 50개까지 출력한다.

In [29]:
pattern_1 = '^(.*?)(ing|ly|ed|ist|ious|ies|ive|es|ment|ness)$'

word_roots = []
word_endings = []
for word in wordlist:
  matched = re.findall(pattern_1, word)
  if matched:
    matched = matched[0]
    root = matched[0]
    ending = matched[1]
    word_roots.append(root)
    word_endings.append(ending)

for root, ending in zip(word_roots[:10], word_endings[:10]):
  print(root + '\t' + ending)

with open('../result/word_root_endings.txt', 'w') as f:
    for root, ending in zip(word_roots, word_endings):
      f.writelines(root + '\t' + ending + '\n') 

abac	ist
abactinal	ly
abaiss	ed
abandon	ed
abandoned	ly
abandon	ment
abas	ed
abased	ly
abased	ness
abase	ment


In [18]:
idx = [i for i, word in enumerate(wordlist) if re.search('abacist', word)]
matched = re.findall(pattern_1, wordlist[15])
matched

[('abac', 'ist')]

1. 1행: 찾고자 하는 패턴을 *pattern_1* 변수에 저장한다. 바로 위의 *pattern*과 차이는 '.\*' 대신 '((.*?))'이 사용된 점이다. 정규식 메타 문자 \*는 매칭 가능한 최대 범위의 문자열을 찾는 반면, ?를 추가하면 매칭 가능한 최소한의 문자열을 찾는다. 둘의 차이점은 아래의 코드 블록에서 설명한다(\* 단, 위 코드에서는 ?를 사용하지 않아도 원하는 결과를 얻을 수 있다). 
   '^(.*?)(ing|ly|ed|ist|ious|ies|ive|es|ment|ness)$'는 아무 문자로 시작하되 ing, ly, ed, ... 등으로 끝나는 단어를 찾으라는 의미이다. ()는 그룹을 지정하기 위한 것으로 '(.\*?)'와 (ing|ly|ed|ist|ious|ies|ive|es|ment|ness) 등 두 개를 각개의 그룹으로 취급한다는 의미이다. 즉 패턴에 맞는 단어가 나타날 경우 첫 번째 괄호에 해당하는 어간과 두 번째 괄호에 해당하는 접미사를 분리하여 저장한다.
1. 3-4행: 단어의 어간(root, stem)을 저장할 *word_roots*와 접미사를 저장할 *word_endings* 변수를 만든다.
1. 5행: *wordlist*의 각 *word*에 대해
1. 6행: *pattern_1*과 일치하는 모든 문자열을 찾아 *matched*에 저장한다.
1. 7행: 만약 패턴에 일치하는 정보가 있어 *matched*에 저장되어 있다면 (즉 찾은 정보가 저장되어 있다면)
1. 8행: *matched*에는 리스트 내에 어간과 접미사가 (어간, 접미사)의 쌍으로 저장되어 있으므로 어간과 접미사 정보를 확인하려면 인덱스 번호를 이용하여 리스트 안에 있는 쌍 정보에 접근해야 한다. 리스트 안에는 하나의 쌍만 존재하므로 0번 인덱스를 지정하여 쌍 정보를 얻은 후 이를 다시 *matched*에 저장한다.
1. 9행: 어간은 (어간, 접미사) 쌍에서 첫 번째 요소이므로 0번째 인덱스, 즉 matched[0]으로 어간을 얻은 후 *root*에 저장한다.
1. 10행: 접미사는 (어간, 접미사) 쌍에서 두 번째 요소이므로 1번째 인덱스, 즉 matched[1]으로 접미사를 얻은 후 *ending*에 저장한다.
1. 11-12행: *root*와 *ending*을 *word_roots*와 *word_endings*에 각각 순차적으로 추가한다.
1. 14-15행은 어간과 접미사를 10개씩만 출력하되 어간-접미사 의 형태로 출력하라는 명령이다.
1. 14행: *word_roots*와 *word_endings*에서 각각 10개씩 단어를 추출하여 **zip()**으로 묶고, 어간과 접미사의 쌍을 하나씩 꺼내어 *root*와 *ending*에 할당한다.
1. 15행: *root*와 *ending*을 연결하되 사이에 탭(\t) 공백을 삽입한 후 출력한다.
1. 17-19행은 어간과 접미사를 분리한 전체 목록을 파일로 저장하라는 명령이다.
1. 17행: **with open()** 함수로 result 폴더에 word_root_endings.csv라는 파일 이름을 만들어 내용을 적기 위한 준비를 한다. 이 파일은 엑셀에서 스프레드시트 형식으로 열 수 있고, 엑셀 파일로 변환할 수 있다. 
1. 18행: *word_roots*와 *word_endings*에서 단어들을 추출하여 **zip()**으로 묶고, 어간과 접미사의 쌍을 하나씩 꺼내어 *root*와 *ending*에 할당한다.
1. 19행: *root*와 *ending*을 탭(\t) 공백으로 연결하되 마지막에 엔터(\n)를 추가하여 각 단어가 별개 라인으로 저장된다.

In [None]:
import re

sents = ["Social worker: Great. Did you bring it with you?",
          "사회복지사: 잘 하셨어요. 일기 가지고 오셨나요?",
          "Joker: (dodging the subject) I'm sorry. Did I bring what?",
          "조커: (못 들은 체하며) 죄송합니다. 뭐라고 하셨죠?",
          "Joker: What time?",
          "조커: 몇 신가요?",
          "Social Worker: It's 2:45.",
          "사회복지사: 2시 45분이예요.",
          "Social Worker: 전화번호를 기입하셔야 해요.",
          "사회복지사: 2시 45분이예요.",
          "Joker: What time?",
          "조커: 몇 신가요?"]

print(sents)

#### search() 함수를 이용하여 영어 문장과 한국어 문장을 찾아 출력하기

In [None]:
for sent in sents:
    x = re.search('[a-zA-Z]+', sent)

    if x:
        print("'%s' is an English sentence." % sent)
    else:
        print("'%s' is a Korean sentence." % sent)

#### search() 함수를 이용하여 영어 문장과 한국어 문장의 위치 찾기

In [None]:
eng_index = []
kor_index = []
for i, sent in enumerate(sents):
    x = re.search('[a-zA-Z]+', sent)
    
    if x:
        eng_index.append(i)
    else:
        kor_index.append(i)

print(eng_index); print(kor_index)

- 위 두 개 블록을 아래처럼 하나로 합할 수도 있다.

In [None]:
eng_index = []
kor_index = []
for i, sent in enumerate(sents):
    x = re.search('[a-zA-Z]+', sent)
    
    if x:
        eng_index.append(i)
    else:
        kor_index.append(i)
    
    if x:
        print("%s is an English sentence." % sent)
    else:
        print("%s is a Korean sentence." % sent)

print(eng_index); print(kor_index)

- 위에서 만든 eng_index와 kor_index 값을 이용하여 sents에서 영어 문장과 한국어 문장을 분리할 수 있다.

In [None]:
english_sents = []
korean_sents = []

for i in eng_index:
    english_sents.append(sents[i])

for j in kor_index:
    korean_sents.append(sents[j])

print(english_sents); print(korean_sents)

In [None]:
print([sents[i] for i in eng_index])
print([sents[i] for i in kor_index])

#### findall() 함수를 이용하여 영어 단어와 한글 단어를 찾아서 출력하기 

In [None]:
y = re.findall('[a-zA-Z]+', sents[0])
yy = re.findall('[가-힣]+', sents[1])
print(y); print(yy)

In [None]:
english_words = []
korean_words = []
for sent in sents:
    eng = re.findall('[a-zA-Z]+', sent)
    kor = re.findall('[ㄱ-ㅎ가-힣]+', sent)
    if eng and not kor:
        english_words.append(eng)
    else:
        korean_words.append(kor)

print(english_words); print(korean_words)

In [None]:
english_words_flat = [z for word in english_words for z in word]
print(english_words_flat)

#### 문자열을 찾아 다른 문자열로 바꾸기: sub
- 텍스트 파일을 처리할 때 가장 많이 사용하게 되는 정규식 관련 함수 중의 하나
- 문자열을 찾아서 바꾸는(substitute) 기능을 가진 함수이므로, **search()**나 **findall()** 등의 찾기 함수와 달리 찾기 패턴 외에 바꾸기 패턴도 필요

In [None]:
print(re.sub(pattern='\d{4}', repl='XXXX', string='010-1234-5678'))
print(re.sub(pattern='\d{3}', repl='XXX', string='010-1234-5678'))
print(re.sub(pattern='-', repl=' ', string='010-1234-5678'))
print(re.sub(pattern='Tube ', repl='', string='Tube Ryan'))

*sents*에서 등장인물 이름과 지문을 제거하고 대사만 남기기

In [None]:
sents_no_names_direct = []

for sent in sents:
    x = re.sub('^.*: ', '', sent)
    x = re.sub('\(.*\) ', '', x)
    if x:
        sents_no_names_direct.append(x)

print(sents_no_names_direct)

정규식을 이용하여 문자열 분리하기: **split()**

In [None]:
sents = '''Call me Ishmael. Some years ago—never mind how long precisely—having \
little or no money in my purse, and nothing particular to interest me \
on shore, I thought I would sail about a little and see the watery part \
of the world.'''

words = re.split('[\.\?,! ]', sents)
print(words)

*words*에는 빈 요소 즉 ''가 여러 개 포함되어 있다. 이 빈 요소들을 제거하려면 ""로 나타나는 요소들을 제거(remove)하면 된다.  

In [None]:
while '' in words:
  words.remove('')
print(words)

*words*에는 빈 요소 즉 ''가 여러 개 포함되어 있다. 이 빈 요소들을 제거하려면 **filter()** 함수를 다음과 같이 사용해도 된다.

In [None]:
words = re.split('[\.\?,! ]', sents)
words = list(filter(None, words))
print(words)