## Word Tokenization(단어 토큰화)

In [1]:
from nltk.tokenize import word_tokenize  

In [5]:
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
print(word_tokenize(text))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [23]:
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


#### RP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사

In [24]:
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

#### 1) morphs : 형태소 추출
#### 2) pos : 품사 태깅(Part-of-speech tagging)
#### 3) nouns : 명사 추출

In [25]:
from konlpy.tag import Okt  
okt=Okt()  
print(okt.morphs("열심히 코딩한 당신, 크리스마스에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '크리스마스', '에는', '여행', '을', '가봐요']


In [26]:
print(okt.pos("열심히 코딩한 당신, 크리스마스에는 여행을 가봐요"))  

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('크리스마스', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [27]:
print(okt.nouns("열심히 코딩한 당신, 크리스마스에는 여행을 가봐요"))  

['코딩', '당신', '크리스마스', '여행']


In [28]:
from konlpy.tag import Kkma  
kkma=Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 크리스마스에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '크리스마스', '에', '는', '여행', '을', '가보', '아요']


In [29]:
print(kkma.pos("열심히 코딩한 당신, 크리스마스에는 여행을 가봐요"))  

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('크리스마스', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [30]:
print(kkma.nouns("열심히 코딩한 당신, 크리스마스에는 여행을 가봐요"))  

['코딩', '당신', '크리스마스', '여행']


In [6]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize(text))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [7]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence(text))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [8]:
from nltk.tokenize import TreebankWordTokenizer

In [9]:
tokenizer=TreebankWordTokenizer()
text2="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text2))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## Sentence Tokenization(문장 토큰화)

온점은 문장의 구분을 위한 명확한 구분자가 아니다.
- EX1) IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 ukairia777@gmail.com로 결과 좀 보내줘. 그러고나서 점심 먹으러 가자.

- EX2) Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year.

In [10]:
from nltk.tokenize import sent_tokenize

In [11]:
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


In [31]:
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [13]:
!pip install python-kss

Collecting python-kss
  Downloading python_kss-0.0-py3-none-any.whl (4.9 kB)
Installing collected packages: python-kss
Successfully installed python-kss-0.0


In [14]:
import kss

In [32]:
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


In [33]:
text='딥 러닝 자연어 처리가 재미있기는 합니다 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요 농담아니에요 이제 해보면 알걸요'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요', '농담아니에요', '이제 해보면 알걸요']


In [34]:
text = '회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습'
print(kss.split_sentences(text))

['회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요', '다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다', '강남역 맛집 토끼정의 외부 모습']
