#### 자연어 처리를 위한 전처리
- 토큰화 (Tokenizer) : 의미를 가진 최소 단위로 나누는 작업
    * 단어 토큰화
    * 문장 토큰화
    * 바이트 토큰화 

[1] Module Loading 및 Data 준비

In [3]:
# Module Loading
from nltk.tokenize import word_tokenize, sent_tokenize, wordpunct_tokenize

In [10]:
# 임시 Data
text = "Happy, New Year! Don't stop. 2025."
text2 = "Happy, New Year ~ Don't stop. 2025."

In [8]:
# [1] 단어 단위 토큰화
result = word_tokenize(text)
result

['Happy', ',', 'New', 'Year', '!', 'Do', "n't", 'stop', '.', '2025', '.']

In [12]:
# [2] 문장 단위 토큰화
result = sent_tokenize(text)
result2 = sent_tokenize(text2)

# 문장을 나누는 것은 . or ! or ? 등을 기준으로 문장을 나눔
print(result)           # 2문장으로 출력
print(result2)          # 1문장으로 출력

['Happy, New Year!', "Don't stop.", '2025.']
["Happy, New Year ~ Don't stop.", '2025.']


In [13]:
# [3] 단위와 구두점 단위 토큰화
result = word_tokenize(text)
result2 = word_tokenize(text2)

# 모두 분리해줌
print(result)
print(result2)

['Happy', ',', 'New', 'Year', '!', 'Do', "n't", 'stop', '.', '2025', '.']
['Happy', ',', 'New', 'Year', '~', 'Do', "n't", 'stop', '.', '2025', '.']


[2] 품사 태깅 <hr>

In [15]:
from nltk.tag import pos_tag

In [16]:
text = "The Matrix is everywhere its all around us, here even in this room"

In [17]:
# 단순 단어기반  토큰화
result = word_tokenize(text)

pos_tag(result)

[('The', 'DT'),
 ('Matrix', 'NNP'),
 ('is', 'VBZ'),
 ('everywhere', 'RB'),
 ('its', 'PRP$'),
 ('all', 'DT'),
 ('around', 'IN'),
 ('us', 'PRP'),
 (',', ','),
 ('here', 'RB'),
 ('even', 'RB'),
 ('in', 'IN'),
 ('this', 'DT'),
 ('room', 'NN')]

In [23]:
# 단어 사전에 존재하는 어간, 표제어 추출 
from nltk.stem import WordNetLemmatizer

In [19]:
# 표제어 추출
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 
'dies', 'watched', 'has', 'starting']

In [20]:
# 표제어 추출 # 기본 명사
[WordNetLemmatizer().lemmatize(w) for w in words]

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

In [21]:
# 표제어 추출 # 기본 동사
[WordNetLemmatizer().lemmatize(w, pos = "v") for w in words]

['policy',
 'do',
 'organization',
 'have',
 'go',
 'love',
 'live',
 'fly',
 'die',
 'watch',
 'have',
 'start']

In [24]:
# 단어 사전에 존재하지 않을 수 있는 어간 추출
# 단어의 형태학적 측면에서 어간 추출하는 방식
from nltk.stem import PorterStemmer, LancasterStemmer

In [28]:
# Poster 알고리즘 기반 형태적 측면 어간 추출
# words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 
#           'dies', 'watched', 'has', 'starting']
for _ in  [PorterStemmer().stem(w) for w in words]: print(_, end = "  ")

# -> 출력하면 형태가 많이 바뀜, 단어사전에 없는 단어들이 출력될 가능성도 있음

polici  do  organ  have  go  love  live  fli  die  watch  ha  start  

In [29]:
# LancasterStemmer 알고리즘 기반 형태적 측면 어간 추출
# words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 
#           'dies', 'watched', 'has', 'starting']
for _ in [LancasterStemmer().stem(w) for w in words] : print(_, end = "  ")

policy  doing  org  hav  going  lov  liv  fly  die  watch  has  start  