all exercises based on [Introduction to Deep Learning for Natural Language Processing, wikidocs](https://wikidocs.net/21698)

## Word Tokenization (단어 토큰화)

- **NLTK**

In [1]:
from nltk.tokenize import word_tokenize
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [2]:
from nltk.tokenize import WordPunctTokenizer # 구두점을 별도로 분류
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


- **keras**

In [4]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence # 알파벳 모두 lower, 컴마 마침표 느낌표 등의 구두점 제거. ' 는 보존.
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [5]:
# 표준 토큰화 예제
# 1. 하이픈으로 구성된 단어는 하나로 유지
# 2. doesn't와 같이, '로 접어가 함께하는 단어는 분리해줌 (doesn't -> does, n't)
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or resaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'resaurant', 'of', 'their', 'own', '.']


## Sentence Tokenization (문장 토큰화)
갖고 있는 코퍼스 내에서 문장 단위로 구분하는 작업. 문장분류(sentence segmentation)라고도 함

- **NLTK**

In [6]:
from nltk.tokenize import sent_tokenize
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text)) # cf. 문장 중간에 마침표 등장하는 case 없음

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [7]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text)) # cf. 문장 중간에 마침표 등장하는 case 있음

# nltk는 단순히 마침표를 구분자로 문장을 구분하지 않음

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


- **KSS (Korean Sentence Splitter)**

In [1]:
import kss

text = "딥러닝 자연어처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담 아니에요. 이제 해보면 알 걸요?"
print(kss.split_sentences(text)) # 정상으로 나뉨

['딥러닝 자연어처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담 아니에요.', '이제 해보면 알 걸요?']


In [2]:
text2 = "잘.들.어.좀. 사실 잘 모르겠어... 진짜? 으악! 이렇게 다 이어쓰면 어떻게 됨?"
print(kss.split_sentences(text2)) # 특이하게 나뉘네... 기준이 뭘까

['잘.들.어.', '좀. 사실 잘 모르겠어...', '진짜? 으악! 이렇게 다 이어쓰면 어떻게 됨?']


## Part-of-speech tagging
품사 태깅 = POS

## NLTK, KoNLPy 패키지로 영어, 한국어 실습

In [2]:
from nltk.tokenize import word_tokenize
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [3]:
# POS
from nltk.tag import pos_tag
x = word_tokenize(text)
pos_tag(x) # tag after tokenization

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

In [4]:
# 한국어 POS _ Okt
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요.")) # 구두점 분리

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요', '.']


In [5]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요.")) # 단어 단위의 tagging (어미 tagging은 없음)

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb'), ('.', 'Punctuation')]


In [6]:
print(okt.nouns('열심히 코딩한 당신, 연휴에는 여행을 가봐요.')) # 명사 추출 (명사 말고는 안되는 듯. verbs 등)

['코딩', '당신', '연휴', '여행']


In [9]:
# 한국어 POS _ Kkma
from konlpy.tag import Kkma
kkma = Kkma()
print(kkma.morphs('열심히 코딩한 당신, 연휴에는 여행을 가봐요.'))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요', '.']


In [10]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요."))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN'), ('.', 'SF')]


In [11]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']


windows10 메캅(Mecab) 설치 https://cleancode-ws.tistory.com/97
<br>
필요에 따라 다른 형태소분석기 사용 가능. 속도를 중시한다면 메캅을 추천
<br><br>

[한국어 형태소분석기 성능 비교 1](https://iostream.tistory.com/144)<br>
[한국어 형태소분석기 성능 비교 2](http://www.engear.net/wp/%ED%95%9C%EA%B8%80-%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D%EA%B8%B0-%EB%B9%84%EA%B5%90/)