#### 자연어 처리를 위한 전처리
- 토큰화(Tokenizer):의미단위로 최소화
    * 단어단위 토큰화
    * 문장단위 토큰화
    * 단어와 구두점 토큰화

In [1]:
#### 모듈로딩
from nltk.tokenize import word_tokenize, sent_tokenize, wordpunct_tokenize


In [2]:
#### 임시데이터
text='Good Luck~!!! Happy New Year 2025 !'

In [3]:
#### [1] 단어단위 토큰화
result=word_tokenize(text)
print(result)

['Good', 'Luck~', '!', '!', '!', 'Happy', 'New', 'Year', '2025', '!']


In [4]:
#### [2] 문장단위 토큰화
result=sent_tokenize(text)
print(result)

['Good Luck~!!!', 'Happy New Year 2025 !']


In [5]:
#### [3] 단어와 구두점 토큰화
result=wordpunct_tokenize(text)
print(result)

['Good', 'Luck', '~!!!', 'Happy', 'New', 'Year', '2025', '!']


##### 품사태깅

In [6]:
from nltk.tag import pos_tag

In [7]:
text="I am actively looking for Ph.D. students. and you are a Ph.D student."

result=word_tokenize(text)
print(result)

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D', 'student', '.']


In [8]:
pos_tag(result)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

##### 어간추출

In [10]:
# 단어사전에 존제하는 어간으로 추출 즉, 표제어 추출
from nltk.stem import WordNetLemmatizer
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly',
'dies', 'watched', 'has', 'starting']

In [13]:
# 표제어 추출 (기본 기준 : 명사)
[WordNetLemmatizer().lemmatize(w) for w in words]

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

In [14]:
# 표제어 추출 (동사기준)
[WordNetLemmatizer().lemmatize(w,pos='v') for w in words]

['policy',
 'do',
 'organization',
 'have',
 'go',
 'love',
 'live',
 'fly',
 'die',
 'watch',
 'have',
 'start']

In [15]:
# 단어사전에 존제하지 않을 수 있는 어간으로 추출
# 단어의 형태학적 측면에서 어간 추출하는 방식
from nltk.stem import PorterStemmer,LancasterStemmer

In [27]:
# Porter 알고리즘 기반으로 형태적 측면으로 어간추출
print(words)
print()
for _ in [PorterStemmer().stem(w) for w in words]:print(_,end=' ')

['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

polici do organ have go love live fli die watch ha start 

In [26]:
# Lancaster 알고리즘 기반으로 형태적 측면으로 어간추출
print(words)
print()
for _ in [LancasterStemmer().stem(w) for w in words]:print(_,end=' ')

['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

policy doing org hav going lov liv fly die watch has start 