# NLP를 위한 데이터 전처리 단계
    순서: 
* 토큰화
* 정제 / 정규화
* 어간추출, 표제어 추출
* 불용어
* 정규 표현
* 정수 인코딩
* 패딩
* 원-핫 인코딩
* 데이터의 분리

## 단어 토큰화 Word Tokenization:
    주의 사항:
1. 문장 부호 및 특수 문자: 토큰화 과정에서 문장 부호나 특수 문자가 포함되어야 하는 경우 의미 있는 단위로 처리 필요
    * ex) Ph.D, $(달러), 날짜를 표시하는 hyphen or slash (1997-02-17), 가격에 포함된 쉼표(49,999 원) 등
2. 줄임말 및 단어 내에서 띄어쓰기
    * ex) I'll, I'd, what're, 'New York'


### nlkt

In [2]:
from nltk.tokenize import word_tokenize

text = "NLTK provides various tokenizers in English"
tokens = word_tokenize(text)
print('word Tokenized in English: ', tokens)

word Tokenized in English:  ['NLTK', 'provides', 'various', 'tokenizers', 'in', 'English']


* word_tokenize

In [3]:
text = "Don't fool yourself, John's orpahnage \
    has as much fun as a trip to the bakery."
tokens = word_tokenize(text)
print('word tokenized in English: ', tokens)

word tokenized in English:  ['Do', "n't", 'fool', 'yourself', ',', 'John', "'s", 'orpahnage', 'has', 'as', 'much', 'fun', 'as', 'a', 'trip', 'to', 'the', 'bakery', '.']


* wordpunct_tokenize

In [4]:
from nltk.tokenize import wordpunct_tokenize

text = "Don't fool yourself, John's orpahnage \
    has as much fun as a trip to the bakery."
tokens = wordpunct_tokenize(text)
print('word tokenized in English: ', tokens)

word tokenized in English:  ['Don', "'", 't', 'fool', 'yourself', ',', 'John', "'", 's', 'orpahnage', 'has', 'as', 'much', 'fun', 'as', 'a', 'trip', 'to', 'the', 'bakery', '.']


### keras text_to_word_sequence
: 전부 대문자 변환 + comma, period, exclamation mark 등은 삭제, apostrophe는 보존

In [5]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text = "Don't fool yourself, John's orpahnage \
    has as much fun as a trip to the bakery."
tokens = text_to_word_sequence(text)
print('word tokenized in English: ', tokens)

word tokenized in English:  ["don't", 'fool', 'yourself', "john's", 'orpahnage', 'has', 'as', 'much', 'fun', 'as', 'a', 'trip', 'to', 'the', 'bakery']


### 표준 토큰화:
* Penn Treebank Tokenization 규칙:
    - 문장 부호 유지: 마침표나 쉼표 등의 문장 부호는 개별 토큰으로 유지
    - apostrophe 활용: 약어나 축약된 단어의 apostrophe는 해당 언어의 일부로 유지 (can't -> can't)
    - 큰따옴표 내부: 큰따옴표 안에 있는 내용은 하나의 토큰으로 취급
    - 특수문자 : 개별적으로 처리되거나 단어에 포함 ($29,99 -> $29,99)

In [12]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
text = "The small bookstore on the corner can be a thrilling space for reading enthusiatsts. Having their own little reading-nook will be a really special experience. It doesn't have a food."

print('TreebankwordTokenizer: ', tokenizer.tokenize(text))


TreebankwordTokenizer:  ['The', 'small', 'bookstore', 'on', 'the', 'corner', 'can', 'be', 'a', 'thrilling', 'space', 'for', 'reading', 'enthusiatsts.', 'Having', 'their', 'own', 'little', 'reading-nook', 'will', 'be', 'a', 'really', 'special', 'experience.', 'It', 'does', "n't", 'have', 'a', 'food', '.']


## 문장 토큰화 Sentence Tokenization

In [13]:
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. \
        Finally, the barber went up a mountain and almost to the edge of a cliff. \
        He dug a hole in the midst of some reeds. He looked about, to make sure\
        no one was near."
        
print('문장 토큰화 1: ', sent_tokenize(text))

문장 토큰화 1:  ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure        no one was near.']


In [15]:
text = "I am actively looking for Ph.D students. and you are a Ph.D student."
print('문장 토큰화 2: ', sent_tokenize(text))

문장 토큰화 2:  ['I am actively looking for Ph.D students.', 'and you are a Ph.D student.']


## 품사 태깅 Part-of-Speech Tagging

In [16]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = 'I am actively lokking for Ph.D students. and you are a Ph.D student.'
tokenized_sentence = word_tokenize(text)

print('단어 토큰화: ', tokenized_sentence)
print('품사 태깅: ', pos_tag(tokenized_sentence))

단어 토큰화:  ['I', 'am', 'actively', 'lokking', 'for', 'Ph.D', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D', 'student', '.']
품사 태깅:  [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('lokking', 'VBG'), ('for', 'IN'), ('Ph.D', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D', 'NNP'), ('student', 'NN'), ('.', '.')]


## 한국어 자연어 처리 도구:
1. OKT 형태소 분쇄기
    * Open Korean Text 오픈소스 한국어 텍스트, 간단하면서도 빠르게 동작
2. KKMA 형태소 분쇄기
    * Korean University Morphological Analyzer(고려대학교 형태소 분쇄기)
    * 정교하고 상세한 분석, 정확한 분석을 위해 더 많은 리소스와 시간 필요

In [24]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()

print('OKT 형태소 분석: ',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅: ',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출: ',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

OKT 형태소 분석:  ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅:  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출:  ['코딩', '당신', '연휴', '여행']


In [25]:
kkma = Kkma()

print('꼬꼬마 형태소 분석: ',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅: ',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출: ',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

꼬꼬마 형태소 분석:  ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅:  [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출:  ['코딩', '당신', '연휴', '여행']


# 끝