#### 자연어 처리를 위한 전처리
-토큰화(Tokenizer) : 의미를 가진 최소 단위로 나누는 작업  
    *단어 토큰화  
    *문장 토큰화  
    *바이트 토큰화  

[1] 모듈 로딩 및 데이터 준비 <hr>

In [1]:
from nltk.tokenize import word_tokenize, sent_tokenize, wordpunct_tokenize

In [3]:
### 임시데이터
text = "we're Good Luck! Happy New Year 2025.!"
res = word_tokenize(text)
print(res)

['we', "'re", 'Good', 'Luck', '!', 'Happy', 'New', 'Year', '2025.', '!']


In [4]:
res2 = sent_tokenize(text)
print(res2)

["we're Good Luck!", 'Happy New Year 2025.!']


In [5]:
res3 = wordpunct_tokenize(text)
print(res3)

['we', "'", 're', 'Good', 'Luck', '!', 'Happy', 'New', 'Year', '2025', '.!']


[2] 품사 태깅 <hr>

In [6]:
from nltk.tag import pos_tag

text = 'The Matrix is everywhere its all around us, here even in this room. \
 You can see it out your window or on your television. \
 result = sent_tokenize( text )'

res4 = word_tokenize(text)
print(res4)

['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.', 'You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.', 'result', '=', 'sent_tokenize', '(', 'text', ')']


In [7]:
pos_tag(res4)

[('The', 'DT'),
 ('Matrix', 'NNP'),
 ('is', 'VBZ'),
 ('everywhere', 'RB'),
 ('its', 'PRP$'),
 ('all', 'DT'),
 ('around', 'IN'),
 ('us', 'PRP'),
 (',', ','),
 ('here', 'RB'),
 ('even', 'RB'),
 ('in', 'IN'),
 ('this', 'DT'),
 ('room', 'NN'),
 ('.', '.'),
 ('You', 'PRP'),
 ('can', 'MD'),
 ('see', 'VB'),
 ('it', 'PRP'),
 ('out', 'RP'),
 ('your', 'PRP$'),
 ('window', 'NN'),
 ('or', 'CC'),
 ('on', 'IN'),
 ('your', 'PRP$'),
 ('television', 'NN'),
 ('.', '.'),
 ('result', 'NN'),
 ('=', 'JJ'),
 ('sent_tokenize', 'NN'),
 ('(', '('),
 ('text', 'NN'),
 (')', ')')]

[3] 어간추출 <hr>

In [9]:
### 단어사전에 존재하는 어간으로 추출 즉, 표제어 추출
from nltk.stem import WordNetLemmatizer
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has','starting']

In [12]:
# 표제어 추출
[WordNetLemmatizer().lemmatize(w) for w in words]

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

In [14]:
[WordNetLemmatizer().lemmatize(w, pos='v') for w in words]

['policy',
 'do',
 'organization',
 'have',
 'go',
 'love',
 'live',
 'fly',
 'die',
 'watch',
 'have',
 'start']

In [18]:
### 단어사전에 존재하지 않을 수 있는 억나으로 추출
### 단어의 형태학적 측면에서 어간 추출하는 방식

from nltk.stem import PorterStemmer, LancasterStemmer

# Porter 알고리즘 기반 형택적 측면 어간 추출
[PorterStemmer().stem(w) for w in words]


['polici',
 'do',
 'organ',
 'have',
 'go',
 'love',
 'live',
 'fli',
 'die',
 'watch',
 'ha',
 'start']

In [20]:
for _ in [LancasterStemmer().stem(w) for w in words] : print(_, end=' ')

policy doing org hav going lov liv fly die watch has start 