<a href="https://colab.research.google.com/github/LeeHuiJong/-Deep_learning/blob/main/6_1_using_word_embeddings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import keras
keras.__version__

'2.8.0'

# 단어 임베딩 사용하기

임베딩은 단어와 벡터를 연관짓는 방법이다. 원핫 인코딩은 희소(대부분 0으로 채워짐)하고 고차원입니다(딕셔너리에 있는 단어수와 차원이 같음) 반면 단어 임베딩은 저차원 실수형 벡터

In [2]:
from keras.layers import Embedding

# Embedding 층은 적어도 두 개의 매개변수를 받습니다.
# 가능한 토큰의 개수(여기서는 1,000으로 단어 인덱스 최댓값 + 1입니다)와 임베딩 차원(여기서는 64)입니다
embedding_layer = Embedding(1000, 64)

In [6]:
from keras.datasets import imdb
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 특성으로 사용할 단어의 수
max_features = 10000
# 사용할 텍스트의 길이(가장 빈번한 max_features 개의 단어만 사용합니다)
maxlen = 20

# 정수 리스트로 데이터를 로드합니다.
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)

# 리스트를 (samples, maxlen) 크기의 2D 정수 텐서로 변환합니다.
x_train = pad_sequences(x_train, maxlen=maxlen)
x_test = pad_sequences(x_test, maxlen=maxlen)

In [7]:
from keras.models import Sequential
from keras.layers import Flatten, Dense, Embedding

# 임의의 모델을 생성
model = Sequential()
# 나중에 임베딩된 입력을 Flatten 층에서 펼치기 위해 Embedding 층에 input_length를 지정합니다.
model.add(Embedding(10000, 8, input_length=maxlen)) # 출력값 (samples, maxlen, 8)

model.add(Flatten()) # 3D 임베딩 텐서를 (samples, maxlen * 8) 크기의 2D 텐서로 변형.

model.add(Dense(1, activation='sigmoid')) # sigmoid 를 사용해 이진분류 (부정 = 0, 긍정 = 1)

model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc']) # 모델 컴파일
model.summary() # 모델 구조 요약

history = model.fit(x_train, y_train,
                    epochs=10,
                    batch_size=32,
                    validation_split=0.2)

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding_2 (Embedding)     (None, 20, 8)             80000     
                                                                 
 flatten_1 (Flatten)         (None, 160)               0         
                                                                 
 dense_1 (Dense)             (None, 1)                 161       
                                                                 
Total params: 80,161
Trainable params: 80,161
Non-trainable params: 0
_________________________________________________________________
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
