#### 자연어 처리를 위한 전처리
- 토큰화(Tokenizer): 의미를 가진 최소 단위로 나누는 작업
    - 단어 토큰화
    - 문장 토큰화
    - 바이트 토큰화
    

[1] 모듈 로딩 및 데이터 준비<hr>

In [1]:
# 모듈 로딩
from nltk.tokenize import word_tokenize, sent_tokenize, wordpunct_tokenize

In [8]:
##임시 데이터
text='''Happy, New Year! Don't stop.'''


In [9]:
# [1] 단어 단위 토큰화 -> word_tokenize


result= word_tokenize(text)
print(result)

['Happy', ',', 'New', 'Year', '!', 'Do', "n't", 'stop', '.']


In [10]:
# [2] 문장 단위 토큰화 -> sent_tokenize
# 구두점 (!, ., ?, )
result=sent_tokenize(text)
print(result)

['Happy, New Year!', "Don't stop."]


In [11]:
# [3] 단어와 구두점 단위 토큰화 -> wordpunct_tokenize

result= wordpunct_tokenize(text)
print(result)

['Happy', ',', 'New', 'Year', '!', 'Don', "'", 't', 'stop', '.']


[2] 품사 태깅<hr>

In [12]:
from nltk.tag import pos_tag

In [13]:
text="I am actively looking for Ph.D. students. and you are a Ph.D student."


In [14]:
# 단순 단어기반 토큰화
result= word_tokenize(text)
print(result)

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D', 'student', '.']


In [16]:
# 품사 태깅
pos_tag(tokens=result, tagset='universal')

# => 의미를 이해하는데 필요없는 단어들 (am, for, are, and...)   
#    버려서 데이터를 줄일 수 있음


[('I', 'PRON'),
 ('am', 'VERB'),
 ('actively', 'ADV'),
 ('looking', 'VERB'),
 ('for', 'ADP'),
 ('Ph.D.', 'NOUN'),
 ('students', 'NOUN'),
 ('.', '.'),
 ('and', 'CONJ'),
 ('you', 'PRON'),
 ('are', 'VERB'),
 ('a', 'DET'),
 ('Ph.D', 'NOUN'),
 ('student', 'NOUN'),
 ('.', '.')]

[3] 어간 추출<hr>

In [19]:
# 단어 사전에 존재하는 어간으로 추출, 즉 표제어 추출
from nltk.stem import WordNetLemmatizer

In [20]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly',
'dies', 'watched', 'has', 'starting']

In [26]:
[WordNetLemmatizer().lemmatize(w, pos='v') for w in words]

['policy',
 'do',
 'organization',
 'have',
 'go',
 'love',
 'live',
 'fly',
 'die',
 'watch',
 'have',
 'start']

In [27]:
# 단어사전에 존재하지 않을 수 있는 어간추출
# 단어의 형태학적 측면에서 어간 추출하는 방식
from nltk.stem import PorterStemmer, LancasterStemmer

In [34]:
# Poster 알고리즘 기반 형태적 측면 어간추출
for _ in [PorterStemmer().stem(w) for w in words]:
    print(_, end=' ')

polici do organ have go love live fli die watch ha start 

In [33]:
# Lancaster 알고리즘 기반 형태적 측면 어간추출
for _ in[LancasterStemmer().stem(w) for w in words]: 
    print(_, end=' ' )

policy doing org hav going lov liv fly die watch has start 