In [19]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

### nltk vs tensorflow.keras
nltk: seperating "'" into individual word
- ex: 'Don', "'", 't' 

tensorflow.keras: make every word lower case, Not seperating "'"
- ex: 'don't"

In [36]:
# 특수문자 앞 뒤로 자름
tmp = "Don't be fooled by the dark-sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
result1 = word_tokenize(tmp, language="english")
print(result1)

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark-sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [37]:
# 특수문자를 하나의 객체로 인식
result = WordPunctTokenizer().tokenize(tmp)
print(result)

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', '-', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [38]:
# 특수문자 -, *등을 제거, '<-의 경우 한번에 붙여서 나옴
result = text_to_word_sequence(tmp)
print(result)

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 표준 토큰화 예제

### Penn Treebank Tokenization
- 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
    - dark-sounding
- 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.
    - 'does' & "n't"

In [32]:
# 표준 토큰화 예제
from nltk.tokenize import TreebankWordTokenizer

In [33]:
tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize(tmp))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark-sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


## 문장 토큰화 예제
- 문장 토큰화: 어떻게 문장을 자를것인가...?
    - nltk는 단순히 마침표(.)로 문장을 끝내지 않음.

In [41]:
from nltk.tokenize import sent_tokenize
text = "I'm actively looking for Ph.D. Students who are looking foward to get into post-doctoral degree. and you statisfy all the requirements!"
print(sent_tokenize(text))

["I'm actively looking for Ph.D. Students who are looking foward to get into post-doctoral degree.", 'and you statisfy all the requirements!']


## 한국어 문장 토큰화 예제

In [43]:
import kss
text = 'IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 aaa@gmail.com로 결과 좀 보내줘. 그 후 점심 먹으러 가자.'
print(kss.split_sentences(text))

[Kss]: Because there's no supported C++ morpheme analyzer, Kss will take pecab as a backend. :D
For your information, Kss also supports mecab backend.
We recommend you to install mecab or konlpy.tag.Mecab for faster execution of Kss.
Please refer to following web sites for details:
- mecab: https://cleancode-ws.tistory.com/97
- konlpy.tag.Mecab: https://uwgdqo.tistory.com/363



['IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 aaa@gmail.com로 결과 좀 보내줘.', '그 후 점심 먹으러 가자.']


## 영어와 한국어 품사 태깅

In [1]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 :',tokenized_sentence)
print('품사 태깅 :',pos_tag(tokenized_sentence))

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


위의 예제에서 Penn Treebank POG Tags에서 
- PRP는 인칭 대명사 
- VBP는 동사 
- RB는 부사
- VBG는 현재부사
- IN은 전치사
- NNP는 고유 명사
- NNS는 복수형 명사
- CC는 접속사
- DT는 관사를 의미

In [4]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

text = "이제 기다리고 기다리던 1월 중순이 되었습니다. 나와 함께 놀러가요"
print('OKT 형태소:', okt.morphs(text))
print('OKT 품사태깅: ', okt.pos(text))
print('OKT 명사추출: ', okt.nouns(text))

# okay what if there is no space?!
print('\nNO SPACE HAHAHAHA :)')
text = "이제기다리고기다리던1월중순이되었습니다.나와함께놀러가요"
print('OKT 형태소:', okt.morphs(text))
print('OKT 품사태깅: ', okt.pos(text))
print('OKT 명사추출: ', okt.nouns(text))

OKT 형태소: ['이제', '기다리고', '기다리던', '1월', '중순', '이', '되었습니다', '.', '나와', '함께', '놀러', '가요']
OKT 품사태깅:  [('이제', 'Noun'), ('기다리고', 'Verb'), ('기다리던', 'Verb'), ('1월', 'Number'), ('중순', 'Noun'), ('이', 'Josa'), ('되었습니다', 'Verb'), ('.', 'Punctuation'), ('나와', 'Verb'), ('함께', 'Adverb'), ('놀러', 'Verb'), ('가요', 'Noun')]
OKT 명사추출:  ['이제', '중순', '가요']

NO SPACE HAHAHAHA :)
OKT 형태소: ['이제', '기다리고', '기다리던', '1월', '중순이되었습니다', '.', '나와', '함께', '놀러', '가요']
OKT 품사태깅:  [('이제', 'Noun'), ('기다리고', 'Verb'), ('기다리던', 'Verb'), ('1월', 'Number'), ('중순이되었습니다', 'Foreign'), ('.', 'Punctuation'), ('나와', 'Verb'), ('함께', 'Adverb'), ('놀러', 'Verb'), ('가요', 'Noun')]
OKT 명사추출:  ['이제', '가요']


- 위의 한국어 결과물에서 역시나 뛰어쓰기가 제대로 되어있지 않은 경우, Foreign(외국어)로 간주하는걸 확인 할 수 있음.

In [5]:
text = "이제 기다리고 기다리던 1월 중순이 되었습니다. 나와 함께 놀러가요"
print('OKT 형태소:', kkma.morphs(text))
print('OKT 품사태깅: ', kkma.pos(text))
print('OKT 명사추출: ', kkma.nouns(text))

# okay what if there is no space?!
print('\nNO SPACE HAHAHAHA :)')
text = "이제기다리고기다리던1월중순이되었습니다.나와함께놀러가요"
print('OKT 형태소:', kkma.morphs(text))
print('OKT 품사태깅: ', kkma.pos(text))
print('OKT 명사추출: ', kkma.nouns(text))

OKT 형태소: ['이제', '기다리', '고', '기다리', '던', '1', '월', '중순', '이', '되', '었', '습니다', '.', '나오', '아', '함께', '놀', '러', '가요']
OKT 품사태깅:  [('이제', 'MAG'), ('기다리', 'VV'), ('고', 'ECE'), ('기다리', 'VV'), ('던', 'EFQ'), ('1', 'NR'), ('월', 'NNM'), ('중순', 'NNG'), ('이', 'JKC'), ('되', 'VV'), ('었', 'EPT'), ('습니다', 'EFN'), ('.', 'SF'), ('나오', 'VV'), ('아', 'ECS'), ('함께', 'MAG'), ('놀', 'VV'), ('러', 'ECD'), ('가요', 'NNG')]
OKT 명사추출:  ['1', '1월', '월', '중순', '가요']

NO SPACE HAHAHAHA :)
OKT 형태소: ['이제', '기다리', '고', '기다리', '던', '1', '월', '중순', '이', '되', '었', '습니다', '.', '나오', '아', '함께', '놀', '러', '가요']
OKT 품사태깅:  [('이제', 'MAG'), ('기다리', 'VV'), ('고', 'ECE'), ('기다리', 'VV'), ('던', 'EFQ'), ('1', 'NR'), ('월', 'NNM'), ('중순', 'NNG'), ('이', 'JKC'), ('되', 'VV'), ('었', 'EPT'), ('습니다', 'EFN'), ('.', 'SF'), ('나오', 'VV'), ('아', 'ECS'), ('함께', 'MAG'), ('놀', 'VV'), ('러', 'ECD'), ('가요', 'NNG')]
OKT 명사추출:  ['1', '1월중순', '월', '중순', '가요']


- 위의 한국어 결과물에서 또한 뛰어쓰기가 제대로 되어있지 않은 경우, 결과물이 달라지는 것을 확인 할 수 있음. 
- 다만 문장에서 띄어쓰기가 안되어있을때, Okt보다 결과물이 더 좋은 것을 확인.