# 자연어 처리를 위한 전처리 
- 토큰화(Tokenizer) : 의미를 가진 최소 단위로 나누는 작업 
    - 단어 토큰화 
    - 문장 토큰화 
    - 바이트 토큰화 

## [1] 모듈 로딩 및 데이터 준비 
---

In [1]:
# 모듈 로딩 

from nltk.tokenize import word_tokenize, sent_tokenize, wordpunct_tokenize
# wordpunct_tokenize : 구두점 관련

In [4]:
# 임시 데이터 
text = 'Good Luck~!!! Happy New Year 2025. !'

In [5]:
# [1] 단어 단위 토큰화 
result = word_tokenize(text)
print(result)

['Good', 'Luck~', '!', '!', '!', 'Happy', 'New', 'Year', '2025.', '!']


In [9]:
# [2] 문장 단위 토큰화 
text = 'Good Luck. Happy New Year 2025. !' 
# .이 문장을 끊어주는 구두점
result = sent_tokenize(text)
print(result)

['Good Luck.', 'Happy New Year 2025. !']


In [12]:
# [3] 단어와 구두점 단위 토큰화 

text = "We're Good Luck~!!! Happy New Year 2025. !"
result = wordpunct_tokenize(text)
print(result)

['We', "'", 're', 'Good', 'Luck', '~!!!', 'Happy', 'New', 'Year', '2025', '.', '!']


## [2] 품사 태깅 
---

In [13]:
from nltk.tag import pos_tag

In [14]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."

In [15]:
# 단순 단어 기반 토큰화 
result = word_tokenize(text)
print(result)

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [16]:
pos_tag(result) 
# 품사 달아서 알려줌 

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

## [3] 어간 추출 
---

In [17]:
# 단어 사전에 존재하는 어간으로 추출 즉, 표제어 추출

from nltk.stem import WordNetLemmatizer

In [18]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly','dies', 'watched', 'has', 'starting']

In [19]:
# 표제어 추출 [ default : pos = 'n' (명사)]

[WordNetLemmatizer().lemmatize(word) for word in words]  # WordNetLemmatizer가 클래스라서 인스턴스 생성 후 단어 제공 

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

- doing -> do 나와야 함 
- has -> s 사라짐 

--> 기본이 n으로 명사임을 나타냄으로 매개변수 줘야 함 

In [20]:
# 표제어 추출 

[WordNetLemmatizer().lemmatize(word, pos='v') for word in words] 
# v인 동사를 기준

['policy',
 'do',
 'organization',
 'have',
 'go',
 'love',
 'live',
 'fly',
 'die',
 'watch',
 'have',
 'start']

In [21]:
# 단어 사전에 존재하지 않을 수 있는 어간으로 추출 
# 단어의 형태학적 측면에서 어간 추출하는 방식 

from nltk.stem import PorterStemmer, LancasterStemmer

In [22]:
# Porter 알고리즘 기반 형태학적 측면 어간 추출 

[PorterStemmer().stem(word) for word in words]
# 기본적으로 소문자로 만들어서 어간 추출 

['polici',
 'do',
 'organ',
 'have',
 'go',
 'love',
 'live',
 'fli',
 'die',
 'watch',
 'ha',
 'start']

In [23]:
for _ in [PorterStemmer().stem(word) for word in words]:
    print(_, end = ' ')

polici do organ have go love live fli die watch ha start 

In [24]:
for _ in [LancasterStemmer().stem(word) for word in words]:
    print(_, end = ' ')

# e, s 제거 

policy doing org hav going lov liv fly die watch has start 

In [25]:
words

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'lives',
 'fly',
 'dies',
 'watched',
 'has',
 'starting']