#### 자연어 처리를 위한 전처리  
- 토근화(Tokenizer) : 의미를 가진 최소 단위로 나누는 작업  
  
    * 단어 토큰화  
    
    * 문장 토큰화
    * 바이트 토큰화 

[1] 모듈 로딩 및 데이터 준비 
***

In [14]:
# 모듈 로딩 
from nltk.tokenize import *

In [7]:
# 임시 데이터 
text = "We're Good Luck ~!!! Happy New Year 2025. !"

In [8]:
# [1] 단어 단위 토큰화 
result = word_tokenize(text)

print(result)

['We', "'re", 'Good', 'Luck', '~', '!', '!', '!', 'Happy', 'New', 'Year', '2025.', '!']


In [13]:
# [2] 문장 단위 토큰화
text = "We're Good Luck ~ Happy New Year 2025. !"

# 보통 문장는 (! . ? -> 끝을 나타내는 구두점)로 끝나기 때문에 따로 지정해두지 않으면 문장으로 인식 못함 
result = sent_tokenize(text)

print(result)

["We're Good Luck ~ Happy New Year 2025. !"]


In [15]:
# [3] 단어와 구두점 단위 토큰화
result = wordpunct_tokenize(text)

print(result)

# 구두점 단어 다 따로 따로 떼주는 것 

['We', "'", 're', 'Good', 'Luck', '~', 'Happy', 'New', 'Year', '2025', '.', '!']


[2] 품사 태깅
*** 

In [17]:
from nltk.tag import pos_tag

In [18]:
text = 'I am actively looking for Ph.D. sudents. and you are a Ph.D. student.'

In [20]:
# 단순 단어기반 토큰화
result = word_tokenize(text)

print(result)

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'sudents', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [21]:
pos_tag(result)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('sudents', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

[3] 어간 추출 
***

In [25]:
# 단어사전에 존재하는 어간으로 추출 즉, 표제어 추출
from nltk import WordNetLemmatizer

In [23]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly',
'dies', 'watched', 'has', 'starting']

In [27]:
# 표제어 추출 [기본: pos='n' 명사]
[WordNetLemmatizer().lemmatize(w) for w in words]

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

In [38]:
# 품사 지정해줌 
for _ in [WordNetLemmatizer().lemmatize(w, pos='v') for w in words]: print(_, end=' ')

policy
do
organization
have
go
love
live
fly
die
watch
have
start


In [32]:
# 단어사전에 존재하지 않을 수 있는 어간으로 추출 
# 단어의 형태학적 측면에서 어간 추출하는 방식 

from nltk.stem import PorterStemmer, LancasterStemmer

In [37]:
# Porter 알고리즘 기반 형태적 측면 어감추출 - 소문자로 만들어서 어간추출 
# words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

for _ in [PorterStemmer().stem(w) for w in words] : print(_, end=' ')

polici do organ have go love live fli die watch ha start 