### 자연어 처리를 위한 전처리
- 토큰화(Tokenizer) : 의미를 가진 최소 단위로 나누는 작업
    * 단어 토큰화
    * 문장 토큰화
    * 바이트 토큰화

[1] 모듈 로딩 및 데이터 준비 <hr>

In [1]:
# 모듈 로딩
from nltk.tokenize import word_tokenize, sent_tokenize, wordpunct_tokenize

In [2]:
# 임시 데이터
text = "We're Good Luck ~!!! Happy New Year 2025. !"

In [3]:
# [1] 단어 단위 토큰화
result = word_tokenize(text)

print(result)

['We', "'re", 'Good', 'Luck', '~', '!', '!', '!', 'Happy', 'New', 'Year', '2025.', '!']


In [4]:
# [2] 문장 단위 토큰화
result = sent_tokenize(text)

print(result)

["We're Good Luck ~!!!", 'Happy New Year 2025. !']


In [5]:
# [3] 단어와 구두점 단위 토큰화
result = wordpunct_tokenize(text)
print(result)

['We', "'", 're', 'Good', 'Luck', '~!!!', 'Happy', 'New', 'Year', '2025', '.', '!']


[2] 품사 태깅 <hr>

In [6]:
from nltk.tag import pos_tag

In [7]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."

In [8]:
# 단순 단어기반 토큰화
result = word_tokenize(text)
print(result)

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [9]:
pos_tag(result, tagset='universal')

[('I', 'PRON'),
 ('am', 'VERB'),
 ('actively', 'ADV'),
 ('looking', 'VERB'),
 ('for', 'ADP'),
 ('Ph.D.', 'NOUN'),
 ('students', 'NOUN'),
 ('.', '.'),
 ('and', 'CONJ'),
 ('you', 'PRON'),
 ('are', 'VERB'),
 ('a', 'DET'),
 ('Ph.D.', 'NOUN'),
 ('student', 'NOUN'),
 ('.', '.')]

- [3] 어간추출 <hr>

In [10]:
# 단어사전에 존재하는 어간으로 추출 즉, 표제어 추출
from nltk.stem import WordNetLemmatizer

In [11]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love',
         'lives', 'fly', 'dies', 'watched', 'has', 'starting']

In [13]:
# 표제어 추출
print([WordNetLemmatizer().lemmatize(word) for word in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [15]:
print([WordNetLemmatizer().lemmatize(word, pos='v') for word in words])

['policy', 'do', 'organization', 'have', 'go', 'love', 'live', 'fly', 'die', 'watch', 'have', 'start']


In [16]:
# 단어사전에 존재하지 않을 수 있는 어간으로 추출 즉, 어간 추출
# 단어의 형태학적 측면에서 어간 추출하는 방식

from nltk.stem import PorterStemmer, LancasterStemmer

In [19]:
# Porter 알고리즘 기반 형태적 측면 어간추출
# words = ['policy', 'doing', 'organization', 'have', 'going', 'love',
#          'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([PorterStemmer().stem(word) for word in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [20]:
# Lancaster 알고리즘 기반 형태적 측면 어간추출
# words = ['policy', 'doing', 'organization', 'have', 'going', 'love',
#          'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([LancasterStemmer().stem(word) for word in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']
