정규 표현식을 이용한 토큰화
   - 한국어도 정규 표현식을 이용해 토큰화 가능

In [4]:
from nltk.tokenize import RegexpTokenizer

sentence = "안녕하세요 ㅋㅋ 저는 자연어 처리(Natural Language Processing)를ㄹ!! 배우고 있습니다."

tokenizer = RegexpTokenizer('[가-힣]+')

tokens = tokenizer.tokenize(sentence)
tokens

['안녕하세요', '저는', '자연어', '처리', '를', '배우고', '있습니다']

In [5]:
tokenizer = RegexpTokenizer("[ㄱ-ㅎ]+", gaps=True)
tokens = tokenizer.tokenize(sentence)
tokens

['안녕하세요 ', ' 저는 자연어 처리(Natural Language Processing)를', '!! 배우고 있습니다.']

케라스를 이용한 토큰화

In [6]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

sentence = '성공의 비결은 단 한 가지, 잘할 수 있는 일에 광적으로 집중하는 것이다.'

text_to_word_sequence(sentence)

['성공의', '비결은', '단', '한', '가지', '잘할', '수', '있는', '일에', '광적으로', '집중하는', '것이다']

TextBlob을 이용한 토큰화

In [7]:
from textblob import TextBlob

blob = TextBlob(sentence)
blob.words

WordList(['성공의', '비결은', '단', '한', '가지', '잘할', '수', '있는', '일에', '광적으로', '집중하는', '것이다'])

Bag of Words(BoW)
   - 각 단어들이 몇 개가 포함되어 있는지 ...


      - 영어

In [8]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ["Think like a man of action and act like man of thought."]

vector = CountVectorizer()
bow = vector.fit_transform(corpus)

print(bow.toarray())   # 각 단어가 corpus에서의 사용된 횟수(빈도수)
print(vector.vocabulary_)   # 딕셔너리 형태로 배열

[[1 1 1 2 2 2 1 1]]
{'think': 6, 'like': 3, 'man': 4, 'of': 5, 'action': 1, 'and': 2, 'act': 0, 'thought': 7}


In [9]:
vector = CountVectorizer(stop_words='english')
bow = vector.fit_transform(corpus)

print(bow.toarray())
print(vector.vocabulary_)

[[1 1 2 2 1 1]]
{'think': 4, 'like': 2, 'man': 3, 'action': 1, 'act': 0, 'thought': 5}


      - 한글

In [10]:
corpus = ["평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라."]

vector = CountVectorizer()
bow = vector.fit_transform(corpus)

print(bow.toarray())
print(vector.vocabulary_)

# 한국어는 스페이스만을 기준으로 구분하기에는 조금 문제가 있다.(형태소 때문에)

[[2 1 1 1 1 1 1 1 1]]
{'평생': 8, '것처럼': 0, '꿈을': 3, '꾸어라': 2, '그리고': 1, '내일': 4, '죽을': 7, '오늘을': 6, '살아라': 5}


In [13]:
import re
from konlpy.tag import Mecab
tagger = Mecab('C:/mecab/mecab-ko-dic')

corpus = "평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라."
tokens = tagger.morphs(re.sub("(\.)", "", corpus))

vocab = {}
bow = []

for tok in tokens:
    if tok not in vocab.keys():
        vocab[tok] = len(vocab)
        bow.insert(len(vocab)-1, 1)
    else:
        index = vocab.get(tok)
        bow[index] = bow[index]+1
        
print(bow)
print(vocab)

[1, 2, 2, 2, 1, 3, 1, 1, 1, 1, 1, 1, 1]
{'평생': 0, '살': 1, '것': 2, '처럼': 3, '꿈': 4, '을': 5, '꾸': 6, '어라': 7, '그리고': 8, '내일': 9, '죽': 10, '오늘': 11, '아라': 12}
