# NLP 토큰화

In [2]:
# 텍스트 전처리 함수 호출
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [3]:
text = '해보지 않으면 해낼 수 없다' # 전처리할 텍스트

In [4]:
# 해당 텍스트 토큰화
result = text_to_word_sequence(text)
print('\n원문:\n', text)
print('\n토큰화:\n', result)


원문:
 해보지 않으면 해낼 수 없다

토큰화:
 ['해보지', '않으면', '해낼', '수', '없다']


In [5]:
from keras.preprocessing.text import Tokenizer

In [6]:
# 전처리하려는 문장 3개.

docs = ['얻은 것은 이미 끝난 것이다. 기쁨의 본질은 그 과정에 있으므로.',
        '거짓말로 인한 분노는 평생 간다. 진실로 인한 분노는 오래갈 수 없다.',
        '목적없는 공부는 기억에 해가 될 뿐이며, 머리속에 들어온 어떤 것도 간직하지 못한다.',
        ]

In [7]:
token = Tokenizer()
token.fit_on_texts(docs)

In [8]:
print('\n단어 카운트:\n', token.word_counts)


단어 카운트:
 OrderedDict([('얻은', 1), ('것은', 1), ('이미', 1), ('끝난', 1), ('것이다', 1), ('기쁨의', 1), ('본질은', 1), ('그', 1), ('과정에', 1), ('있으므로', 1), ('거짓말로', 1), ('인한', 2), ('분노는', 2), ('평생', 1), ('간다', 1), ('진실로', 1), ('오래갈', 1), ('수', 1), ('없다', 1), ('목적없는', 1), ('공부는', 1), ('기억에', 1), ('해가', 1), ('될', 1), ('뿐이며', 1), ('머리속에', 1), ('들어온', 1), ('어떤', 1), ('것도', 1), ('간직하지', 1), ('못한다', 1)])


In [9]:
print('\n문장 카운트:\n', token.document_count)
print('\n각 단어가 몇 개의 문장에 포함되어 있는가:\n', token.word_docs)
print('\n각 단어에 매겨진 인덱스 값:\n', token.word_index)



문장 카운트:
 3

각 단어가 몇 개의 문장에 포함되어 있는가:
 defaultdict(<class 'int'>, {'기쁨의': 1, '얻은': 1, '것은': 1, '본질은': 1, '끝난': 1, '있으므로': 1, '과정에': 1, '이미': 1, '것이다': 1, '그': 1, '없다': 1, '평생': 1, '인한': 1, '수': 1, '분노는': 1, '오래갈': 1, '진실로': 1, '거짓말로': 1, '간다': 1, '간직하지': 1, '것도': 1, '못한다': 1, '목적없는': 1, '기억에': 1, '어떤': 1, '해가': 1, '뿐이며': 1, '머리속에': 1, '공부는': 1, '들어온': 1, '될': 1})

각 단어에 매겨진 인덱스 값:
 {'인한': 1, '분노는': 2, '얻은': 3, '것은': 4, '이미': 5, '끝난': 6, '것이다': 7, '기쁨의': 8, '본질은': 9, '그': 10, '과정에': 11, '있으므로': 12, '거짓말로': 13, '평생': 14, '간다': 15, '진실로': 16, '오래갈': 17, '수': 18, '없다': 19, '목적없는': 20, '공부는': 21, '기억에': 22, '해가': 23, '될': 24, '뿐이며': 25, '머리속에': 26, '들어온': 27, '어떤': 28, '것도': 29, '간직하지': 30, '못한다': 31}


# 원핫 인코딩

In [12]:
text

'해보지 않으면 해낼 수 없다'

In [13]:
token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)

{'해보지': 1, '않으면': 2, '해낼': 3, '수': 4, '없다': 5}


In [14]:
x = token.texts_to_sequences([text])
print(x)

[[1, 2, 3, 4, 5]]


In [16]:
from tensorflow.keras.utils import to_categorical

# 인덱스 수에 하나를 추가해서 원-핫 인코딩 배열 만들기
word_size = len(token.word_index) + 1
x = to_categorical(x, num_classes = word_size)

print(x)

[[[0. 1. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 1.]]]


# 단어 임베딩

In [21]:
import numpy
import tensorflow as tf
from numpy import array
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding

model = Sequential()
model.add(Embedding(16,4))

In [22]:
docs = ['존잼','최고','명작이네요','추천','2회차','별로','노잼','비추','지루','돈아깝다']

In [32]:
# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스 지정
classes = array([1,1,1,1,1,0,0,0,0,0])

In [25]:
token = Tokenizer() 
token.fit_on_texts(docs)    # 토큰화
print(token.word_index) 

{'존잼': 1, '최고': 2, '명작이네요': 3, '추천': 4, '2회차': 5, '별로': 6, '노잼': 7, '비추': 8, '지루': 9, '돈아깝다': 10}


In [33]:
# 토큰에 지정된 인덱스로 새로운 배열을 생성
x = token.texts_to_sequences(docs)
print(x)

[[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]]


In [34]:
# 패딩, 각각의 데이터의 길이를 4로 맞춤
padded_x = pad_sequences(x, 4)  
"\n패딩 결과\n", print(padded_x)

[[ 0  0  0  1]
 [ 0  0  0  2]
 [ 0  0  0  3]
 [ 0  0  0  4]
 [ 0  0  0  5]
 [ 0  0  0  6]
 [ 0  0  0  7]
 [ 0  0  0  8]
 [ 0  0  0  9]
 [ 0  0  0 10]]


('\n패딩 결과\n', None)

In [27]:
word_size = len(token.word_index)+1 # 임베딩에 입력될 단어 수 지정

In [39]:
model = Sequential()
model.add(Embedding(word_size, 8, input_length=4))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)
 
print("\n Accuracy: %.4f" % (model.evaluate(padded_x, classes)[1]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy: 1.0000


- 최적화 함수 adam()을 사용
- 30번 반복하고나서 정확도를 계산하여 출력하게 했다.

- 학습 결과가 10개의 리뷰 샘플 중 몇 개를 맞추었는지 보여준다.