#### 자연어 처리를 위한 전처리
 - 토근화(Tokennizer) : 의미를 가진 최소 단위로 나누는 작업
    * 단어 토큰화
    * 문장 토큰화
    * 바이트 토큰화

[1] 모듈 로딩 및 데이터 준비<hr>

In [2]:
from nltk.tokenize import word_tokenize, sent_tokenize, wordpunct_tokenize 

In [6]:
#### 임시 데이터
text = 'Good Luck~!!! Happy New Year 2025. ! '

In [7]:
### [1] 단어 단위 토큰화
result = word_tokenize(text)
result

['Good', 'Luck~', '!', '!', '!', 'Happy', 'New', 'Year', '2025.', '!']

In [8]:
### [2] 문장 단위 토큰화
result = sent_tokenize(text)
result

['Good Luck~!!!', 'Happy New Year 2025. !']

In [9]:
### [3] 단어와 구두점 단위 토큰화
result = wordpunct_tokenize(text)
result

['Good', 'Luck', '~!!!', 'Happy', 'New', 'Year', '2025', '.', '!']

In [10]:
from nltk.tag import pos_tag

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery ascheery goes for a pastry shop."

In [11]:
# 단순 단어기반 토큰화
result = word_tokenize(text)
print(result)

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'ascheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [12]:
# 단어마다 품사 달기
pos_tag(result)

[('Do', 'VBP'),
 ("n't", 'RB'),
 ('be', 'VB'),
 ('fooled', 'VBN'),
 ('by', 'IN'),
 ('the', 'DT'),
 ('dark', 'NN'),
 ('sounding', 'VBG'),
 ('name', 'NN'),
 (',', ','),
 ('Mr.', 'NNP'),
 ('Jone', 'NNP'),
 ("'s", 'POS'),
 ('Orphanage', 'NN'),
 ('is', 'VBZ'),
 ('as', 'IN'),
 ('cheery', 'NN'),
 ('ascheery', 'NN'),
 ('goes', 'VBZ'),
 ('for', 'IN'),
 ('a', 'DT'),
 ('pastry', 'NN'),
 ('shop', 'NN'),
 ('.', '.')]

[3] 어간 추출<hr>

In [13]:
# 단어 사전에 존재하는 어간으로 추출 => 표제어 추출
from nltk.stem import WordNetLemmatizer


In [14]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 
'dies', 'watched', 'has', 'starting']

In [17]:
# 표제어 추출
[WordNetLemmatizer().lemmatize(word) for word in words]

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

In [18]:
# 동사 원형만 뽑기
[WordNetLemmatizer().lemmatize(word, pos='v') for word in words]

['policy',
 'do',
 'organization',
 'have',
 'go',
 'love',
 'live',
 'fly',
 'die',
 'watch',
 'have',
 'start']

In [19]:
## 단어사전에 존재하지 않을 수 있는 어간으로 추출
## 단어의 형태학적 측면에서 추출

from nltk.stem import PorterStemmer, LancasterStemmer

In [21]:
# porter 알고리즘 기반 형태적 측면 어간추출
for _ in[PorterStemmer().stem(w) for w in words]: print(_, end=' ')


polici do organ have go love live fli die watch ha start 

In [22]:
# Lancaster알고리즘 기반 형태적 측면 어간추출
for _ in[LancasterStemmer().stem(w) for w in words]: print(_, end=' ')

policy doing org hav going lov liv fly die watch has start 