# 단어 토큰화

In [1]:
from nltk.tokenize import WordPunctTokenizer, word_tokenize

In [2]:
print(
    word_tokenize(
        "Don't be fooled by the dark sounding name,Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
    ),
)

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [3]:
print(
    WordPunctTokenizer().tokenize(
        "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
    ),
)

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


Penn Treebank Tokenization은 표준으로 쓰이고 있는 토큰화 방법 중 하나이다.

규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.<br>
규칙 2. doesn't 와 같이 아포스트로피로 접어가 함께하는 단어는 분리한다.

In [4]:
from nltk.tokenize import TreebankWordTokenizer

In [5]:
tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


# 문장 토큰화

In [6]:
from nltk.tokenize import sent_tokenize

In [7]:
text = (
    "His barber kept his word. But keeping such a huge secret to himself was"
    " driving him crazy. Finally, the barber went up a mountain and almost to the"
    " edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to"
    " make sure no one was near."
)
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [8]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [9]:
import kss

In [10]:
text = (
    "딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로"
    " 할 때 너무 어렵습니다. 이제 해보면 알걸요?"
)
print(kss.split_sentences(text))

[Kss]: Oh! You have mecab in your environment. Kss will take this as a backend! :D



['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


# 품사 태깅 및 한국어 형태소 분석

In [11]:
from nltk.tag import pos_tag

In [12]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print(tokenized_sentence)
print(pos_tag(tokenized_sentence))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
[('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


한국어 자연어 처리를 위해서는 KoNLPy를 사용할 수 있다. 코엔엘파이를 통해 사용할 수 있는 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있다.

In [13]:
from konlpy.tag import Kkma, Okt

In [14]:
okt = Okt()
kkma = Kkma()

text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"

OKT 형태소 분석

In [15]:
okt.morphs(text)

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']

OKT 품사 태깅

In [16]:
okt.pos(text)

[('열심히', 'Adverb'),
 ('코딩', 'Noun'),
 ('한', 'Josa'),
 ('당신', 'Noun'),
 (',', 'Punctuation'),
 ('연휴', 'Noun'),
 ('에는', 'Josa'),
 ('여행', 'Noun'),
 ('을', 'Josa'),
 ('가봐요', 'Verb')]

OKT 명사 추출

In [17]:
okt.nouns(text)

['코딩', '당신', '연휴', '여행']

앞서 언급한 KoNLPy의 형태소 분석기들은 공통적으로 이 메소드들을 제공한다.

In [18]:
kkma.morphs(text)

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']

In [19]:
kkma.pos(text)

[('열심히', 'MAG'),
 ('코딩', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('당신', 'NP'),
 (',', 'SP'),
 ('연휴', 'NNG'),
 ('에', 'JKM'),
 ('는', 'JX'),
 ('여행', 'NNG'),
 ('을', 'JKO'),
 ('가보', 'VV'),
 ('아요', 'EFN')]

In [20]:
kkma.nouns(text)

['코딩', '당신', '연휴', '여행']

각 형태소 분석기는 성능과 결과가 다르니 형태소 분석기의 선택은 사용하고자 하는 필요 용도에 어떤 게 적절할지 판단하고 사용하면 된다.