#### 자연어 처리를 위한 전처리
- 토큰화(Tokenizer) : 의미를 가진 최소 단위로 나누는 작업
    * 단어 토큰화
    * 문장 토큰화
    * 바이트 토큰화

[1] 모듈 로딩 및 데이터 준비 <hr>

In [2]:
#### 모듈 로딩
from nltk.tokenize import word_tokenize, sent_tokenize, wordpunct_tokenize

In [5]:
#### 임시 데이터
text='Good Luck~!!! Happy New Year 2025. !'

In [6]:
### [1] 단어 단위 토큰화
result=word_tokenize(text)
print(result)

['Good', 'Luck~', '!', '!', '!', 'Happy', 'New', 'Year', '2025.', '!']


In [7]:
### [2] 문장 단위 토큰화
result=sent_tokenize(text)
print(result)

['Good Luck~!!!', 'Happy New Year 2025. !']


In [8]:
### [3] 문장 단위 토큰화
result=wordpunct_tokenize(text)
print(result)

['Good', 'Luck', '~!!!', 'Happy', 'New', 'Year', '2025', '.', '!']


- [2] 품사 태깅 <hr>

In [10]:
from nltk.tag import pos_tag

In [12]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."

In [13]:
# 단순 단어기반 토큰화
result = word_tokenize(text)
print(result)

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [14]:
pos_tag(result)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

- [3] 어간추출 <hr>

In [15]:
### 단어사전에 존재하는 어간으로 추출 즉, 표제어 추출
from nltk.stem import WordNetLemmatizer

In [16]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 
'dies', 'watched', 'has', 'starting']

In [18]:
# 표제어 추출 [기본 : pos='n' 명사]
[WordNetLemmatizer().lemmatize(word) for word in words]

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

In [19]:
[WordNetLemmatizer().lemmatize(word, pos='v') for word in words]

['policy',
 'do',
 'organization',
 'have',
 'go',
 'love',
 'live',
 'fly',
 'die',
 'watch',
 'have',
 'start']

In [20]:
### 단어사전에 존재하지 않을 수 있는 어간으로 추출
### 단어의 형태학적 측면에서 어간 추출

from nltk.stem import PorterStemmer, LancasterStemmer

In [26]:
# Porter 알고리즘 기반 형태적 측면 어간추출
for _ in [PorterStemmer().stem(w) for w in words]: print(_, end=' ')

polici do organ have go love live fli die watch ha start 

In [25]:
# Lancaster 알고리즘 기반 형태적 측면 어간추출
for _ in [LancasterStemmer().stem(w) for w in words]: print(_, end=' ')

policy doing org hav going lov liv fly die watch has start 