## 1. 텍스트의 토큰화

In [6]:
# Token -> 텍스트를 나누는 기준.
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense,Flatten,Embedding
from tensorflow.keras.utils import to_categorical
from numpy import array

# 케라스의 텍스트 전처리와 관련한 함수 중 text_to_word_sequence 함수를 불러옵니다.
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 전처리할 텍스트를 정합니다.
text = "목욕탕 가서 피로를 싹 풀고 집에서 자고 싶다."

# 해당 텍스트를 토큰화합니다.
result = text_to_word_sequence(text)

print(f"원 문장 : {text}")
print(f"토큰화 된 문장 {result}")

원 문장 : 목욕탕 가서 피로를 싹 풀고 집에서 자고 싶다.
토큰화 된 문장 ['목욕탕', '가서', '피로를', '싹', '풀고', '집에서', '자고', '싶다']


In [7]:
# bag of words

In [12]:
# 단어 빈도수 세기

# 전처리하려는 세 개의 문장을 정합니다.
docs = [ "따뜻한 차 한 잔 마시며 소파에 눕고 싶다.",
 "시원한 바람 맞으며 한강변을 걷고 싶다.",
 "맛있는 저녁 먹고 아무 생각 없이 멍 때리고 싶다."]

# 토큰화 함수를 이용해 전처리 하는 과정입니다.
token = Tokenizer()                               # 토큰화 함수 지정
token.fit_on_texts(docs)       # 토큰화 함수에 문장 적용

# 단어의 빈도수를 계산한 결과를 각 옵션에 맞추어 출력합니다.
# Tokenizer()의 word_counts 함수는 순서를 기억하는 OrderedDict 클래스를 사용합니다.
print("\n word count \n", token.word_counts)
# 출력되는 순서는 랜덤입니다.
print("\n sentence count \n", token.document_count)

print("\n how many sentences each word \n",token.word_docs)

print("\n assigned index values each word \n", token.word_index)


 word count 
 OrderedDict({'따뜻한': 1, '차': 1, '한': 1, '잔': 1, '마시며': 1, '소파에': 1, '눕고': 1, '싶다': 3, '시원한': 1, '바람': 1, '맞으며': 1, '한강변을': 1, '걷고': 1, '맛있는': 1, '저녁': 1, '먹고': 1, '아무': 1, '생각': 1, '없이': 1, '멍': 1, '때리고': 1})

 sentence count 
 3

 how many sentences each word 
 defaultdict(<class 'int'>, {'소파에': 1, '잔': 1, '한': 1, '싶다': 3, '눕고': 1, '마시며': 1, '따뜻한': 1, '차': 1, '한강변을': 1, '걷고': 1, '바람': 1, '맞으며': 1, '시원한': 1, '때리고': 1, '저녁': 1, '먹고': 1, '없이': 1, '생각': 1, '아무': 1, '맛있는': 1, '멍': 1})

 assigned index values each word 
 {'싶다': 1, '따뜻한': 2, '차': 3, '한': 4, '잔': 5, '마시며': 6, '소파에': 7, '눕고': 8, '시원한': 9, '바람': 10, '맞으며': 11, '한강변을': 12, '걷고': 13, '맛있는': 14, '저녁': 15, '먹고': 16, '아무': 17, '생각': 18, '없이': 19, '멍': 20, '때리고': 21}


## 2. 단어의 원-핫 인코딩

In [14]:
text= "가게를 운영하는 것은 사람을 운영하는 것곽 같다."
token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)


{'운영하는': 1, '가게를': 2, '것은': 3, '사람을': 4, '것곽': 5, '같다': 6}


In [15]:
x=token.texts_to_sequences([text])
print(x)

[[2, 1, 3, 4, 1, 5, 6]]


In [16]:
# 인덱스 수에 하나를 추가해서 원-핫 인코딩 배열 만들기
word_size = len(token.word_index) + 1
x = to_categorical(x, num_classes=word_size)
print(x)

[[[0. 0. 1. 0. 0. 0. 0.]
  [0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


## 4.텍스트를 읽고 긍정, 부정 예측하기

In [18]:
# 텍스트 리뷰 자료를 지정합니다.
docs = ["긴장감 넘치는 전개와 훌륭한 연기가 돋보였습니다.", "스토리는 감동적이지만 결말이 아쉬웠어요.", "영상미와 음악이 완벽하게 어우러진 영화입니다.",
        "재미있고 감동적인 스토리가 기억에 남아요.", "연출은 좋았지만 전개가 조금 지루했습니다.", "웃음과 감동이 적절히 섞인 가족 영화입니다.",
        "캐릭터 매력이 부족해 몰입하기 어려웠어요.", "실화를 바탕으로 감동적인 연출이 돋보였습니다.", "전작에 비해 스토리가 약해 아쉽습니다.", "짧지만 강렬한 인상을 남긴 작품이에요."]

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스를 지정합니다.
classes = array([1,0,1,1,0,1,0,1,0,1])

# 토큰화
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)


{'돋보였습니다': 1, '영화입니다': 2, '감동적인': 3, '스토리가': 4, '긴장감': 5, '넘치는': 6, '전개와': 7, '훌륭한': 8, '연기가': 9, '스토리는': 10, '감동적이지만': 11, '결말이': 12, '아쉬웠어요': 13, '영상미와': 14, '음악이': 15, '완벽하게': 16, '어우러진': 17, '재미있고': 18, '기억에': 19, '남아요': 20, '연출은': 21, '좋았지만': 22, '전개가': 23, '조금': 24, '지루했습니다': 25, '웃음과': 26, '감동이': 27, '적절히': 28, '섞인': 29, '가족': 30, '캐릭터': 31, '매력이': 32, '부족해': 33, '몰입하기': 34, '어려웠어요': 35, '실화를': 36, '바탕으로': 37, '연출이': 38, '전작에': 39, '비해': 40, '약해': 41, '아쉽습니다': 42, '짧지만': 43, '강렬한': 44, '인상을': 45, '남긴': 46, '작품이에요': 47}


In [20]:
x = token.texts_to_sequences(docs)
print("\n result of review text tokenizing \n", x)


 result of review text tokenizing 
 [[5, 6, 7, 8, 9, 1], [10, 11, 12, 13], [14, 15, 16, 17, 2], [18, 3, 4, 19, 20], [21, 22, 23, 24, 25], [26, 27, 28, 29, 30, 2], [31, 32, 33, 34, 35], [36, 37, 3, 38, 1], [39, 40, 4, 41, 42], [43, 44, 45, 46, 47]]


In [29]:
# 패딩, 서로 다른 길이의 데이터를 4로 맞추어 줍니다.
padded_x = pad_sequences(x, 5)
print("\n Result of Padding result \n", padded_x)


 Result of Padding result 
 [[ 6  7  8  9  1]
 [ 0 10 11 12 13]
 [14 15 16 17  2]
 [18  3  4 19 20]
 [21 22 23 24 25]
 [27 28 29 30  2]
 [31 32 33 34 35]
 [36 37  3 38  1]
 [39 40  4 41 42]
 [43 44 45 46 47]]


In [30]:
# 임베딩에 입력될 단어의 수를 지정합니다.
word_size = len(token.word_index) +1

# 단어 임베딩을 포함하여 딥러닝 모델을 만들고 결과를 출력합니다.
Embedding(word_size, 8, input_length=5)

<Embedding name=embedding_3, built=False>

In [31]:
model = Sequential()
model.add(Embedding(word_size, 8, input_length=5))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

In [32]:
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)

Epoch 1/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 218ms/step - accuracy: 0.7000 - loss: 0.6854
Epoch 2/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 9ms/step - accuracy: 0.7000 - loss: 0.6814
Epoch 3/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step - accuracy: 0.8000 - loss: 0.6774
Epoch 4/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step - accuracy: 0.8000 - loss: 0.6733
Epoch 5/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - accuracy: 0.9000 - loss: 0.6693
Epoch 6/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step - accuracy: 0.9000 - loss: 0.6653
Epoch 7/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 9ms/step - accuracy: 0.9000 - loss: 0.6614
Epoch 8/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step - accuracy: 1.0000 - loss: 0.6574
Epoch 9/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1

<keras.src.callbacks.history.History at 0x324420bc0>