In [None]:
'''
@Author : KIM DONG EON
@Edits : 2022-01-18 17:41:00
@LastEditors : KIM DONG EON 
@LastEdit : 
'''


In [12]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer

from torchtext.data import get_tokenizer

### torchtext의 경우 대문자를 소문자로 변환하여 출력된다. tokenizer마다 조금씩 다른 것을 볼 수 있다.
갖고있는 코퍼스에서 단어를 걸러낼 때, 온점이나 특수문자를 무조건적으로 제외하는 것은 옳지 않은 분석 방법이다. 달러 기호나 슬래시의 경우는 돈을 의미할 수도 있고, 시간을 나타내기 위해서 슬래시를 사용했을 수도 있기 때문이다.

추가적으로 줄임말이나 단어 내 띄어쓰기가 있는 경우를 제대로 처리하는 것도 중요한 과제 중 하나라고 볼 수 있다.

In [6]:
sentence = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

In [9]:
print('word_tokenize', word_tokenize(sentence))

word_tokenize ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [11]:
print('WordPunctTokenizer', WordPunctTokenizer().tokenize(sentence))

WordPunctTokenizer ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [13]:
tokenizer = get_tokenizer('basic_english')
print('torchtext', tokenizer(sentence))

torchtext ['don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'mr', '.', 'jone', "'", 's', 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


### 표준 토큰화 예제
TreebankWordTokenizer는 Penn Treebank Tokenization의 규칙으로 토큰화 해주는 모듈이다.
- home-based는 한 단어로 취급하고 있으며, doesn't의 경우는 does + n't 로 분리된다.

In [14]:
from nltk.tokenize import TreebankWordTokenizer

In [16]:
tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't bave a food chain or restaurant of their own."
print('트리뱅크 워드 토크나이저 : ', tokenizer.tokenize(text))

트리뱅크 워드 토크나이저 :  ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'bave', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### 문장 토큰화(Sentence Tokenization)
갖고 있는 코퍼스 내에서 문장 단위로 구분하는 작업을 할 수 있다. 코퍼스가 정제되지 않은 상태라면, 코퍼스를 문장단위로 바꿔주는 작업이 필요하다.
- 문장을 (.)이나 (?) 등으로 구분하게 된다면 아래의 경우에는 큰 오류를 범할 것이다.

In [17]:
sentence1 = "IP 192.168.56.32 서버에 들어가서 로그 파일 저장해서 aaa@gamil.com로 결과 좀 보내줘. 그 후 점심 먹으러 가자."
sentence2 = "Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."

In [26]:
from nltk.tokenize import sent_tokenize

In [28]:
text = "His barber kept his word. But keeping such a huge secret to himself was driving him craze. Finally, \
the barber went up a cliff. He dug a hole in the midst of sme reeds. He looked about, to make sure no one was nears."

print('문장 토큰화1 : ', sent_tokenize(text))
print('-' * 123)

문장 토큰화1 :  ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him craze.', 'Finally, the barber went up a cliff.', 'He dug a hole in the midst of sme reeds.', 'He looked about, to make sure no one was nears.']
---------------------------------------------------------------------------------------------------------------------------


In [35]:
print(sent_tokenize(sentence1))
print(sent_tokenize(sentence2))

['IP 192.168.56.32 서버에 들어가서 로그 파일 저장해서 aaa@gamil.com로 결과 좀 보내줘.', '그 후 점심 먹으러 가자.']
["Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."]


In [36]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :', sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


NLTK는 단순히 마침표를 구분자로 하여 문장을 구분하지 않았기 때문에 위 문장을 제대로 구분할 수 있었다. 한국어의 경우에는 KSS(Korean Sentence Splitter)가 있다. 

In [37]:
import kss

In [40]:
text = '딥 러닝 자연어 처리가 재미있기는... 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. \
이제 해보면 알걸요?'

print('한국어 문장 토큰화 :', kss.split_sentences(text) )

한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는... 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


### NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습
- PRP : 인칭 대명사
- VBP : 동사
- RB : 부사 
- VBG : 현재부사
- IN : 전치사
- NNP : 고유명사
- NNS : 복수형 명사
- CC : 접속사
- DT : 관사

In [41]:
from nltk.tokenize import word_tokenize 
from nltk.tag import pos_tag

In [43]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 : ', tokenized_sentence)
print('품사 태깅 : ', pos_tag(tokenized_sentence))

단어 토큰화 :  ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 :  [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


In [44]:
from konlpy.tag import Okt 
from konlpy.tag import Kkma

In [45]:
okt = Okt()
kkma = Kkma()

- morphs : 형태소 추출
- pos : 품사 태깅(part-of-speech tagging)
- nouns : 명사 추출

형태소 분석기에 따라 출력하는 값이 조금 차이가 있다. 필요 용도에 따라 어떤 형태소 분석기가 가장 적절한지를 판단하여 사용하면된다. Okt는 SNS와 같은 언어에 좋다고 알려져있고, 속도면에서 빠른 것을 선호하면 Mecab을 사용하는 것을 추천한다.

In [47]:
sentence = "열심히 코딩한 당신, 연휴에는 여행을 가봐요."
print('OKT 형태소 분석 : ', okt.morphs(sentence))
print('OKT 품사 태깅 : ', okt.pos(sentence))
print('OKT 명사 추출 : ', okt.nouns(sentence))

OKT 형태소 분석 :  ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요', '.']
OKT 품사 태깅 :  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb'), ('.', 'Punctuation')]
OKT 명사 추출 :  ['코딩', '당신', '연휴', '여행']


In [48]:
sentence = "열심히 코딩한 당신, 연휴에는 여행을 가봐요."
print('KKMA 형태소 분석 : ', kkma.morphs(sentence))
print('KKMA 품사 태깅 : ', kkma.pos(sentence))
print('KKMA 명사 추출 : ', kkma.nouns(sentence))

KKMA 형태소 분석 :  ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요', '.']
KKMA 품사 태깅 :  [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN'), ('.', 'SF')]
KKMA 명사 추출 :  ['코딩', '당신', '연휴', '여행']
