#### 1. 텍스트의 토큰화
---

In [1]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 전처리 텍스트
text = '해보지 않으면 해낼 수 없다'

# 텍스트 토큰화
result = text_to_word_sequence(text)

print(f'원문: {text}')
print(f'토큰화: {result}')

원문: 해보지 않으면 해낼 수 없다
토큰화: ['해보지', '않으면', '해낼', '수', '없다']


In [5]:
from tensorflow.keras.preprocessing.text import Tokenizer

docs = [
    '먼저 텍스트의 각 단어를 나누어 토큰화합니다.',
    '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
    '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.'
]

token = Tokenizer() # 토큰화 함수
token.fit_on_texts(docs) # 토큰화 함수 적용

In [7]:
print(f'단어 카운트')
print(f'==> {token.word_counts}\n')

print(f'문장 카운트')
print(f'==> {token.document_count}\n')

print(f'각 단어가 몇 개의 문장에 포함되어 있는가')
print(f'==> {token.word_docs}\n')

print(f'각 단어에 매겨진 인덱스 값')
print(f'==> {token.word_index}\n')

단어 카운트
==> OrderedDict({'먼저': 1, '텍스트의': 2, '각': 1, '단어를': 1, '나누어': 1, '토큰화합니다': 1, '단어로': 1, '토큰화해야': 1, '딥러닝에서': 2, '인식됩니다': 1, '토큰화한': 1, '결과는': 1, '사용할': 1, '수': 1, '있습니다': 1})

문장 카운트
==> 3

각 단어가 몇 개의 문장에 포함되어 있는가
==> defaultdict(<class 'int'>, {'먼저': 1, '나누어': 1, '각': 1, '단어를': 1, '텍스트의': 2, '토큰화합니다': 1, '인식됩니다': 1, '단어로': 1, '딥러닝에서': 2, '토큰화해야': 1, '사용할': 1, '수': 1, '있습니다': 1, '결과는': 1, '토큰화한': 1})

각 단어에 매겨진 인덱스 값
==> {'텍스트의': 1, '딥러닝에서': 2, '먼저': 3, '각': 4, '단어를': 5, '나누어': 6, '토큰화합니다': 7, '단어로': 8, '토큰화해야': 9, '인식됩니다': 10, '토큰화한': 11, '결과는': 12, '사용할': 13, '수': 14, '있습니다': 15}



<br>

#### 2. 단어의 원-핫 인코딩
---

In [2]:
text = '오랫동안 꿈꾸는 이는 그 꿈을 닮아간다'

token = Tokenizer()
token.fit_on_texts([text])

print(token.word_index)

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}


In [3]:
x = token.texts_to_sequences([text])

print(x)

[[1, 2, 3, 4, 5, 6]]


In [4]:
from tensorflow.keras.utils import to_categorical

# 인덱스 수 하나 추가 및 원-핫 인코딩 배열 생성
word_size = len(token.word_index) + 1
x = to_categorical(x, num_classes=word_size)

print(x)

[[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


<br>

#### 3. 단어 임베딩
---

In [19]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding

model = Sequential()
model.add(Embedding(16, 4))

<br>

#### 4. 텍스트를 읽고 긍정, 부정 예측하기
---

In [14]:
from numpy  import array

# 텍스트 리뷰 자료
docs = ['너무 재밌네요', '최고예요', '참 잘 만든 영화예요', '추천하고 싶은 영화입니다.', '한번 더 보고싶네요', '글쎄요', '별로예요', '생각보다 지루하네요', '연기가 어색해요', '재미없어요']

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스 지정
classes = array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

In [15]:
# 토큰화
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index) # 토큰화된 결과 출력

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로예요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미없어요': 20}


In [16]:
x = token.texts_to_sequences(docs)
print(f'리뷰 텍스트, 토큰화 결과: {x}')

리뷰 텍스트, 토큰화 결과: [[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20]]


In [17]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

padded_x = pad_sequences(x, 4) # 서로 다른 길이의 데이터를 4로 맞춤
print(f'패딩 결과:\n {padded_x}')

패딩 결과:
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0  0 20]]


In [18]:
word_size = len(token.word_index) + 1

In [20]:
Embedding(word_size, 8, input_length=4)



<Embedding name=embedding_1, built=False>

In [22]:
from tensorflow.keras.layers import Dense, Flatten

# 단어 임베딩을 포함하여 딥러닝 모델 생성 및 결과 출력
model = Sequential()

model.add(Embedding(word_size, 8, input_length=4))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)

print('Accuracy: %.4f' % (model.evaluate(padded_x, classes)[1]))

Epoch 1/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1s/step - accuracy: 0.5000 - loss: 0.6875
Epoch 2/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 50ms/step - accuracy: 0.7000 - loss: 0.6851
Epoch 3/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 41ms/step - accuracy: 0.8000 - loss: 0.6828
Epoch 4/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 40ms/step - accuracy: 0.8000 - loss: 0.6805
Epoch 5/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 42ms/step - accuracy: 0.8000 - loss: 0.6782
Epoch 6/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 42ms/step - accuracy: 0.8000 - loss: 0.6758
Epoch 7/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 43ms/step - accuracy: 0.8000 - loss: 0.6735
Epoch 8/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 39ms/step - accuracy: 0.9000 - loss: 0.6711
Epoch 9/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m

<br>

##### 실습 | 영화 리뷰가 긍정적인지 부정적인지를 예측하기
---

In [23]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
from tensorflow.keras.utils import to_categorical

from numpy import array

# 텍스트 리뷰 자료
docs = ['너무 재밌네요', '최고예요', '참 잘 만든 영화예요', '추천하고 싶은 영화입니다.', '한번 더 보고싶네요', '글쎄요', '별로예요', '생각보다 지루하네요', '연기가 어색해요', '재미없어요']

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스 지정
classes = array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

# 토큰화
token = Tokenizer()
token.fit_on_texts(docs)

x = token.texts_to_sequences(docs)
padded_x = pad_sequences(x, 4) # 서로 다른 길이의 데이터를 4로 맞춤

word_size = len(token.word_index) + 1

# 단어 임베딩을 포함하여 딥러닝 모델 생성 및 결과 출력
model = Sequential()

model.add(Embedding(word_size, 8, input_length=4))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)

print('Accuracy: %.4f' % (model.evaluate(padded_x, classes)[1]))

Epoch 1/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 759ms/step - accuracy: 0.4000 - loss: 0.6885
Epoch 2/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 42ms/step - accuracy: 0.5000 - loss: 0.6865
Epoch 3/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 42ms/step - accuracy: 0.5000 - loss: 0.6844
Epoch 4/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 40ms/step - accuracy: 0.6000 - loss: 0.6824
Epoch 5/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 41ms/step - accuracy: 0.6000 - loss: 0.6803
Epoch 6/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 42ms/step - accuracy: 0.8000 - loss: 0.6783
Epoch 7/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 40ms/step - accuracy: 0.8000 - loss: 0.6762
Epoch 8/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 42ms/step - accuracy: 0.8000 - loss: 0.6742
Epoch 9/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m 