[ AiDALab 양석환 | NLP - 04 ]

---

- 참고도서
  - 김기현의 자연어 처리 딥러닝 캠프-파이토치 편(김기현 : 한빛미디어)
<br><br>
- 참고사이트
  - http://pythonstudy.xyz/python/article/401-정규-표현식-Regex

---

# **전처리(Preprocessing)**

## Ⅰ. 정규 표현식 사용하기

In [None]:
# Regex를 위한 모듈 임포트
import re

# 정규 표현식 지정
regex1 = r"([\w]+\s*:? \s*)?\(?\+?([0-9]{1,3})?\-?[0-9]{2,3}(\)|\-)?[0-9]{3,4}\-?[0-9]{4}"

In [None]:
x1 = "Seokhwan: +82-10-1234-5678"
print(re.sub(regex1, "REMOVED", x1))      # 해당 정규 표현식을 만족하는 경우 "REMOVED"로 치환

REMOVED


In [None]:
x2 = "Seok hwan: 010-1234-5678"           # 앞의 "Seok공백"은 해당 정규 표현식을 만족하지 않고 hwan부터 이후까지는 만족함
print(re.sub(regex1, "REMOVED", x2))

Seok REMOVED


In [None]:
x2 = "Seok hwan: 010-1234-5678 KOREA"     # "공백KOREA" 부분도 해당 정규 표현식을 만족하지 않음
print(re.sub(regex1, "REMOVED", x2))

Seok REMOVED KOREA


In [None]:
# 단순히 숫자, -의 배열만으로 구성된 정규 표현식 지정
regex2 = r"[0-9]{3}-[0-9]{4}-[0-9]{4}"

In [None]:
x2 = "Seokhwan: 010-1234-5678"
print(re.sub(regex2, "***-****-****", x2))

Seokhwan: ***-****-****


In [None]:
x2 = "010-1234-5678 : Seokhwan"
print(re.sub(regex2, "***-****-****", x2))

***-****-**** : Seokhwan


In [None]:
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
 
regex = re.compile(r'(\d{3})-(\d{3}-\d{4})')
matchobj = regex.search(text)
areaCode = matchobj.group(1)
num = matchobj.group(2)
fullNum = matchobj.group()
print(areaCode, num) # 032 232-3245

032 232-3245


In [None]:
# 인덱싱 대신 그룹 명을 지정하여 사용할 수도 있음(Named Capturing Group)
# Named Capturing Group을 사용하는 방법은 (?P<그룹명>정규식) 와 같이 정규식 표현 앞에 ?P<그룹명>을 사용함
# 이후 MatchObject에서 group('그룹명') 을 호출하면 캡쳐된 그룹 값을 얻을 수 있음

regex = re.compile(r'(?P<area>\d{3})-(?P<num>\d{3}-\d{4})')
matchobj = regex.search(text)
areaCode = matchobj.group("area")
num = matchobj.group("num")
print(areaCode, num)  # 032 232-3245

032 232-3245


## Ⅱ. 분절

### 2.1 NLTK (Natural Language Toolkit)

- Punkt Sentence Tokenizer 모듈
  - sent_tokenize(): 파이썬에서 문자열로 인식하는 텍스트는 무엇이든지 받아서 **문장** 별로 토큰화 할 수 있다.
  - word_tokenize(): 파이썬에서 문자열로 인식하는 텍스트는 무엇이든지 받아서 **단어** 별로 토큰화 할 수 있다.

#### 2.1.1 문장단위 분절

In [None]:
import nltk

# NLTK의 Punkt sentence tokenizer 모듈 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
import nltk

text = "The Matrix is everywhere its all around us, here even in this room. You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes."
tokens = nltk.sent_tokenize(text)
print(tokens)

['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


In [None]:
text = "자연어 처리는 인공지능의 한 줄기 입니다. 시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어 처리는 새로운 전기를 맞이하게 되었습니다. 문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것입니다."
tokens = nltk.sent_tokenize(text)
print(tokens)

['자연어 처리는 인공지능의 한 줄기 입니다.', '시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어 처리는 새로운 전기를 맞이하게 되었습니다.', '문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것입니다.']
