
## 데이터 전처리 단계
* 토큰화
* 정제, 정규화
* 어간추출, 표제어 추출
* 불용어
* 정규 표현식
* 정수 인코딩
* 패딩
* 원-핫 인코딩
* 데이터의 분리

## 단어 토큰화 (word Tokenization)

* NLTK : 영어 코퍼스 토큰화 하는 모듈 (word_tokenize, WordPunctTokenizer)

In [1]:
# 토큰화 과정(텍스트를 더 작은 단위로 나누는 과정)

from nltk.tokenize import word_tokenize

text = 'NLTK provides various tokenizers in English'
tokens = word_tokenize(text)
print('Word Tokenize in English', tokens)

Word Tokenize in English ['NLTK', 'provides', 'various', 'tokenizers', 'in', 'English']


In [2]:
# Don't 를 Do와 n't로 분리, John's를 John과 's 로 나눔 

text = "Don't fool yourself. John's orphanage \
    has as much fun as a trip to the bakery."
    
tokens = word_tokenize(text)
print('Word Tokenize in English', tokens)

Word Tokenize in English ['Do', "n't", 'fool', 'yourself', '.', 'John', "'s", 'orphanage', 'has', 'as', 'much', 'fun', 'as', 'a', 'trip', 'to', 'the', 'bakery', '.']


In [3]:
# 구두점을 별도로 분리함. 예: (쉼표, 마침표, 느낌표 등)을 각각 별도의 토큰으로 간주

from nltk.tokenize import WordPunctTokenizer

text = 'NLTK provides various tokenizers in English'

tokens = WordPunctTokenizer().tokenize(text)

print('Word Tokenize in English', tokens)

Word Tokenize in English ['NLTK', 'provides', 'various', 'tokenizers', 'in', 'English']


In [4]:

text = "Don't fool yourself. John's orphanage \
    has as much fun as a trip to the bakery." 
    
tokens = WordPunctTokenizer().tokenize(text)

print('Word Tokenize in English', tokens)    

Word Tokenize in English ['Don', "'", 't', 'fool', 'yourself', '.', 'John', "'", 's', 'orphanage', 'has', 'as', 'much', 'fun', 'as', 'a', 'trip', 'to', 'the', 'bakery', '.']


* Keras : text_to_word_sequence

In [5]:
# 공백 기준으로 분할 (구두점 제거)
# 특수문자 제거 및 모든 알파벳을 소문자로 변환
# don't, John's 와 같은 아포스트로피는 보존함.
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text = "Don't fool yourself. John's orphanage \
    has as much fun as a trip to the bakery." 
    
    
text_to_word_sequence(text)

["don't",
 'fool',
 'yourself',
 "john's",
 'orphanage',
 'has',
 'as',
 'much',
 'fun',
 'as',
 'a',
 'trip',
 'to',
 'the',
 'bakery']

### 토큰화를 할때 주의 사항
* 문장 부호 및 특수 문자 포함 : 토큰화 과정에서 문장 부호나 특수 문자를 제외하지 말고 의미 있는 단위로 처리 (의미있는 특수문자나 문장부호가 될 수 있음)
* 예) m.p.h , ph.D, AT&T, $(달러), 슬래시(/) - 가격, 날짜, 쉼표 등 이런 중요한 단어들이 있기때문에 제외하면 안됨
* 줄임말, 단어 내의 띄어쓰기가 있을 때 제외하면 안됨
* 예) I'll, Couse I'd, what're, rock 'n' roll, New York

### 표준 토큰화
* Penn Treebank Tokenization 규칙을 가지고 있음
* 문장 부호 유지 : 마침표나 쉼표 등의 문장 부호는 개별 토큰으로 유지
* 아포스트로피 활용 : 약어나 축약된 단어의 아포스트로피의 해당 단어의 일부로 유지
* ex) "can't" 에서 "can"과 "not"은 분리되지 않고 하나의 토큰으로 유지
* 큰 따옴표 내부 : 큰 따옴표 안에 있는 내용은 하나의 토큰으로 취급
* 특수 문자 다루기 : 특수 문자는 개별적으로 처리되거나 단어에 포함될 수 있음
* ex) '$45.55'는 하나의 토큰으로 취급

In [6]:
# reading-book은 유지, doesn't를 'does'와 'n't'로 변환
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
text = "The small bookstore on the corner can be a thrilling space for reading enthusiasts. \
    Having their own little reading-nook will be a really special experience. it doesn't have a food"
tokens = tokenizer.tokenize(text)    
print('TreebankWordTokenizer:',tokens)

TreebankWordTokenizer: ['The', 'small', 'bookstore', 'on', 'the', 'corner', 'can', 'be', 'a', 'thrilling', 'space', 'for', 'reading', 'enthusiasts.', 'Having', 'their', 'own', 'little', 'reading-nook', 'will', 'be', 'a', 'really', 'special', 'experience.', 'it', 'does', "n't", 'have', 'a', 'food']


## 문장 토큰화(Sentence Tokenization)

In [7]:
# 문장 단위로 분할

from nltk.tokenize import sent_tokenize


text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. \
        Finally, the barber went up a mountain and almost to the edge of a cliff. \
        He dug a hole in the midst of some reeds. He looked about, to make sure\
        no one was near."

print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure        no one was near.']


In [8]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print("문장 토큰화2 : ",sent_tokenize(text))

문장 토큰화2 :  ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


## 품사 태깅(Part-of-speech tagging)

In [9]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화:',tokenized_sentence)
print('품사 태깅: ',pos_tag(tokenized_sentence))

# PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사
# NNS는 복수형 명사, CC는 접속사, DT는 관사

단어 토큰화: ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅:  [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


#### 한국어 자연어 처리에 사용되는 도구

* OKT(Okt) 형태소 분석기 - open korean Text(오픈 소스 한국어 텍스트)의 약자, 간단하면서도 빠르게 동작하는 것이 특징

* KMA 형태소 분석기 - 고려대학교에서 만든 형태소 분석기의 약자 / 정교하고 상세한 분석을 제공, 정확한 분석을 위해 더 많은 리소스와 시간이 필요함.

In [10]:

''' 
morphs : 형태소 추출
pos : 품사 태깅
nouns : 명사 추출
'''
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print('OKT 형태소 분석:',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅:',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출:',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

OKT 형태소 분석: ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅: [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출: ['코딩', '당신', '연휴', '여행']


In [11]:
print("꼬꼬마 형태소 분석:",kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print("꼬꼬마 품사 태깅:",kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print("꼬꼬마 명사 추출:",kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

꼬꼬마 형태소 분석: ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅: [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출: ['코딩', '당신', '연휴', '여행']
