# 단어 토큰화(Word Tokenization)

In [1]:
sentence = '아주대학교 일반 대학원 수학과 데이터 사이언스 전공에 소속된 이규철입니다.'
word_tokenization = sentence.split()
print(word_tokenization)

['아주대학교', '일반', '대학원', '수학과', '데이터', '사이언스', '전공에', '소속된', '이규철입니다.']


In [2]:
sentence = 'I started studying natural language processing.'
word_tokenization = sentence.split()
print(word_tokenization)

['I', 'started', 'studying', 'natural', 'language', 'processing.']


In [3]:
sentence1 = "We are students!"
sentence2 = "We're students!!"
word_tokenization1 = sentence1.split()
word_tokenization2 = sentence2.split()
print(word_tokenization1)
print(word_tokenization2)
print(word_tokenization1[2] == word_tokenization2[1])

['We', 'are', 'students!']
["We're", 'students!!']
False


In [4]:
import re
sentence = "The price of Nintendo is $299.99."
new_sentence = re.sub(r'[^\w\s]', '', sentence)
word_tokenization = new_sentence.split()
print(word_tokenization)

['The', 'price', 'of', 'Nintendo', 'is', '29999']


In [5]:
import nltk
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
sentence = "I'm so happy to be with my hamster."
tokens = tokenizer.tokenize(sentence)
print(tokens)

['I', "'m", 'so', 'happy', 'to', 'be', 'with', 'my', 'hamster', '.']


# 문장 토큰화(Sentence Tokenization)

In [6]:
text1 = "아이피 192.168.56.31 서버에 들어가서 로그 파일을 저장해줘. 내 이메일로 결과 좀 보내줘. 밥 먹으러 가자."
text2 = "햄스터는 너무 귀여워! 너가 더 귀여워! 고마워!"
text3 = "너 포켓몬스터 게임을 하니? 아니 넌 하니? 너 요즘 어떻게 지내?"
sentence_tokenization1 = text1.split('.')
sentence_tokenization2 = text2.split('!')
sentence_tokenization3 = text3.split('?')
print(sentence_tokenization1)
print(sentence_tokenization2)
print(sentence_tokenization3)

['아이피 192', '168', '56', '31 서버에 들어가서 로그 파일을 저장해줘', ' 내 이메일로 결과 좀 보내줘', ' 밥 먹으러 가자', '']
['햄스터는 너무 귀여워', ' 너가 더 귀여워', ' 고마워', '']
['너 포켓몬스터 게임을 하니', ' 아니 넌 하니', ' 너 요즘 어떻게 지내', '']


In [7]:
import nltk
from nltk.tokenize import sent_tokenize

text1 = "아이피 192.168.56.31 서버에 들어가서 로그 파일을 저장해줘. 내 이메일로 결과 좀 보내줘. 밥 먹으러 가자."
text2 = "햄스터는 너무 귀여워! 너가 더 귀여워! 고마워!"
text3 = "너 포켓몬스터 게임을 하니? 아니 넌 하니? 너 요즘 어떻게 지내?"
sentence_tokenization1 = sent_tokenize(text1)
sentence_tokenization2 = sent_tokenize(text2)
sentence_tokenization3 = sent_tokenize(text3)
print(sentence_tokenization1)
print(sentence_tokenization2)
print(sentence_tokenization3)

['아이피 192.168.56.31 서버에 들어가서 로그 파일을 저장해줘.', '내 이메일로 결과 좀 보내줘.', '밥 먹으러 가자.']
['햄스터는 너무 귀여워!', '너가 더 귀여워!', '고마워!']
['너 포켓몬스터 게임을 하니?', '아니 넌 하니?', '너 요즘 어떻게 지내?']


# 영어에서의 토큰화(Tokenization in English)

In [8]:
print('Hello' == 'hello')

False


In [9]:
import nltk
from nltk.tokenize import TreebankWordTokenizer

sentence = "Hello, World!"
lower_sentence = sentence.lower()
print(lower_sentence)

tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(lower_sentence)
print(tokens)

hello, world!
['hello', ',', 'world', '!']


# 한국어에서의 토큰화(Tokenization in Korean)

In [10]:
en_sentence = "I am a graduate student."
new_en_sentence = en_sentence.replace(" ", "")
ko_sentence = "나는 대학원생이다."
new_ko_sentence = ko_sentence.replace(" ", "")
print(new_en_sentence)
print(new_ko_sentence)

Iamagraduatestudent.
나는대학원생이다.


In [11]:
text = "나는 햄스터가 좋아. 햄스터는 해바라기씨를 좋아해. 햄스터를 다시 키우고싶어."
word_tokenization = text.split()
print(word_tokenization)
print(word_tokenization[1] == word_tokenization[3])

['나는', '햄스터가', '좋아.', '햄스터는', '해바라기씨를', '좋아해.', '햄스터를', '다시', '키우고싶어.']
False


In [12]:
from konlpy.tag import Hannanum

hannanum = Hannanum()
text = "나는 햄스터가 좋아. 햄스터는 해바라기씨를 좋아해. 햄스터를 다시 키우고싶어."
nouns_tokens = hannanum.nouns(text)
morphs_tokens = hannanum.morphs(text)
pos_tokens = hannanum.pos(text)
print('명사 추출:', nouns_tokens)
print('형태소 추출:', morphs_tokens)
print('품사 부착:', pos_tokens)

명사 추출: ['나', '햄스터', '햄스터', '해바라기씨', '햄스터']
형태소 추출: ['나', '는', '햄스터', '가', '좋', '아', '.', '햄스터', '는', '해바라기씨', '를', '좋', '아', '하', '어', '.', '햄스터', '를', '다시', '키우', '고', '싶', '어', '.']
품사 부착: [('나', 'N'), ('는', 'J'), ('햄스터', 'N'), ('가', 'J'), ('좋', 'P'), ('아', 'E'), ('.', 'S'), ('햄스터', 'N'), ('는', 'J'), ('해바라기씨', 'N'), ('를', 'J'), ('좋', 'P'), ('아', 'E'), ('하', 'P'), ('어', 'E'), ('.', 'S'), ('햄스터', 'N'), ('를', 'J'), ('다시', 'M'), ('키우', 'P'), ('고', 'E'), ('싶', 'P'), ('어', 'E'), ('.', 'S')]


In [13]:
from konlpy.tag import Kkma

kkma = Kkma()
text = "나는 햄스터가 좋아. 햄스터는 해바라기씨를 좋아해. 햄스터를 다시 키우고싶어."
nouns_tokens = kkma.nouns(text)
morphs_tokens = kkma.morphs(text)
pos_tokens = kkma.pos(text)
print('명사 추출:', nouns_tokens)
print('형태소 추출:', morphs_tokens)
print('품사 부착:', pos_tokens)

명사 추출: ['나', '햄스터', '해바라기', '해바라기씨', '씨']
형태소 추출: ['나', '는', '햄스터', '가', '좋', '아', '.', '햄스터', '는', '해바라기', '씨', '를', '좋아하', '어', '.', '햄스터', '를', '다시', '키우', '고', '싶', '어', '.']
품사 부착: [('나', 'NP'), ('는', 'JX'), ('햄스터', 'NNG'), ('가', 'JKS'), ('좋', 'VA'), ('아', 'ECD'), ('.', 'SF'), ('햄스터', 'NNG'), ('는', 'JX'), ('해바라기', 'NNG'), ('씨', 'NNB'), ('를', 'JKO'), ('좋아하', 'VV'), ('어', 'ECS'), ('.', 'SF'), ('햄스터', 'NNG'), ('를', 'JKO'), ('다시', 'MAG'), ('키우', 'VV'), ('고', 'ECE'), ('싶', 'VXA'), ('어', 'ECD'), ('.', 'SF')]


In [14]:
from konlpy.tag import Komoran

komoran = Komoran()
text = "나는 햄스터가 좋아. 햄스터는 해바라기씨를 좋아해. 햄스터를 다시 키우고싶어."
nouns_tokens = komoran.nouns(text)
morphs_tokens = komoran.morphs(text)
pos_tokens = komoran.pos(text)
print('명사 추출:', nouns_tokens)
print('형태소 추출:', morphs_tokens)
print('품사 부착:', pos_tokens)

명사 추출: ['햄스터', '햄스터', '해바라기', '씨', '햄스터']
형태소 추출: ['나', '는', '햄스터', '가', '좋', '아', '.', '햄스터', '는', '해바라기', '씨', '를', '좋아하', '아', '.', '햄스터', '를', '다시', '키우', '고', '싶', '어', '.']
품사 부착: [('나', 'NP'), ('는', 'JX'), ('햄스터', 'NNP'), ('가', 'JKS'), ('좋', 'VA'), ('아', 'EF'), ('.', 'SF'), ('햄스터', 'NNP'), ('는', 'JX'), ('해바라기', 'NNP'), ('씨', 'NNB'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EF'), ('.', 'SF'), ('햄스터', 'NNP'), ('를', 'JKO'), ('다시', 'MAG'), ('키우', 'VV'), ('고', 'EC'), ('싶', 'VX'), ('어', 'EF'), ('.', 'SF')]


In [15]:
from konlpy.tag import Okt

okt = Okt()
text = "나는 햄스터가 좋아. 햄스터는 해바라기씨를 좋아해. 햄스터를 다시 키우고싶어."
nouns_tokens = okt.nouns(text)
morphs_tokens = okt.morphs(text)
pos_tokens = okt.pos(text)
print('명사 추출:', nouns_tokens)
print('형태소 추출:', morphs_tokens)
print('품사 부착:', pos_tokens)

명사 추출: ['나', '햄스터', '햄스터', '해바라기씨', '햄스터', '다시']
형태소 추출: ['나', '는', '햄스터', '가', '좋아', '.', '햄스터', '는', '해바라기씨', '를', '좋아해', '.', '햄스터', '를', '다시', '키우고싶어', '.']
품사 부착: [('나', 'Noun'), ('는', 'Josa'), ('햄스터', 'Noun'), ('가', 'Josa'), ('좋아', 'Adjective'), ('.', 'Punctuation'), ('햄스터', 'Noun'), ('는', 'Josa'), ('해바라기씨', 'Noun'), ('를', 'Josa'), ('좋아해', 'Adjective'), ('.', 'Punctuation'), ('햄스터', 'Noun'), ('를', 'Josa'), ('다시', 'Noun'), ('키우고싶어', 'Verb'), ('.', 'Punctuation')]
