In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

2024-02-27 02:16:29.959003: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [6]:
# 토큰화 훈련데이터로부터 단어 집합을 생성하고, 문장을 정수인코딩
tokenizer = Tokenizer()
train_text = "The earth is an awesome place live"

# 단어 집합 생성
tokenizer.fit_on_texts([train_text])

# 정수 인코딩
sub_text = "The earth is an great place live"
sequences = tokenizer.texts_to_sequences([sub_text])[0]

print("정수 인코딩: ", sequences)
print("단어 집합: ", tokenizer.word_index) # great는 사전에 없어서 출력되지 않음

정수 인코딩:  [1, 2, 3, 4, 6, 7]
단어 집합:  {'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awesome': 5, 'place': 6, 'live': 7}


In [9]:
# 샘플의 길이를 동일하게 맞춰야할때 padding 과정을 거침
pad_sequences([[1, 2, 3], [3, 4, 5, 6], [7, 8]], maxlen=3, padding='pre')

array([[1, 2, 3],
       [4, 5, 6],
       [0, 7, 8]], dtype=int32)

In [13]:
# Modeling
# NN에서 입력층, 은닉층, 출력층 구조가 있음
# 케라스에서는 이러한 층을 구성하기위해 Sequential을 사용
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 예제
#model = Sequential()
#model.add(...) # 층 추가
#model.add(...) # 층 추가
#model.add(...) # 층 추가

# 임베딩 층 추가 예제
#model.add(Embedding(vocab_size, output_dim, input_length))
 
# 전결합층(fully-connected layer)을 추가하는 예시
#model.add(Dense(1, input_dim=3, activation='relu'))

#- linear : 디폴트 값으로 별도 활성화 함수 없이 입력 뉴런과 가중치의 계산 결과 그대로 출력.
#- sigmoid : 이진 분류 문제에서 출력층에 주로 사용되는 활성화 함수.
#- softmax : 셋 이상의 선택지 중 하나를 택하는 다중 클래스 분류 문제에서 출력층에 주로 사용되는 활성화 함수.
#- relu : 은닉층에 주로 사용되는 활성화 함수.

# 모델의 정보를 요약해서 보여줌
#model.summary()

In [18]:
#컴파일
from tensorflow.keras.layers import SimpleRNN, Embedding, Dense
from tensorflow.keras.models import Sequential

vocab_size = 10000
embedding_dim = 32
hidden_units = 32

model = Sequential()
model.add(Embedding(vocab_size, embedding_dim))
model.add(SimpleRNN(hidden_units))
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc']) # 모델을 기계가 이해할 수 있도록 컴파일

# 문제 유형	손실 함수명	출력층의 활성화 함수명	참고 실습
# 회귀 문제	mean_squared_error	-	선형 회귀 실습
# 다중 클래스 분류	categorical_crossentropy	소프트맥스	로이터 뉴스 분류하기
# 다중 클래스 분류	sparse_categorical_crossentropy	소프트맥스	양방향 LSTM를 이용한 품사 태깅
# 이진 분류	binary_crossentropy	시그모이드	IMDB 리뷰 감성 분류하기



In [20]:
#fit 모델 학습을 시작, 오차로부터 매개 변수를 업데이트 시키는 과정을 학습, 훈련, 적합(fitting)이라고 하는데, 모델이 데이터에 적합해가는 과정이기 때문
#model.fit(X_train, y_train, epochs=10, batch_size=32)
# X_train : 훈련 인자
# y_train : 지도 학습에서 레이블 데이터에 해당함ㄷㄷㄷ
# epochs =  에포크 1은 전체 데이터를 한번 훑고 지나간 것(총 훈련 횟수)
# batch_size = 배치 크기, 기본값은 32, 미니 배치 경사 하강법을 사용하고 싶지 않을 때는 batch_size=None을 기재

#model.fit(X_train, y_train, epochs=10, batch_size=32, verbose=0, validation_data(X_val, y_val))
# validation_data = 검증데이터, 각 에포크 마다 검증 데이터의 정확도, 오차를 함께 출력, 훈련이 잘되고 있는지를 검증할때만 사용하고 훈련데이터로를 사용하지 않음
# 검증 데이터의 오차(loss)가 낮아지다가 높아진다 -> 과적함(overfitting)의 신호

#model.fit(X_train, y_train, epochs=10, batch_size=32, verbose=0, validation_split(=0.2))
# validation split = validation_data와 동일하게 검증 데이터를 사용하기위한 용도, X_train과 y_train에서 일정 비율 분리하여 사용

# verbose = 학습 중 출력되는 문구 설정
# 0 : 아무것도 출력하지 안흠
# 1 : 훈련의 진행도를 보여주는 진행 막대
# 2 : 미니 배치마다 손실 정보

In [None]:
#평가와 예측
# evaluate: 테스트 데이터를 통해 학습한 모델에 대한 정확도를 평가
# model.evaluate(X_test, y_test, batch_size=32)
# X_test 테스트데이터
# y_test 테스트데이터에 대한 레이블
# batch_size 배치크기

# predict: 임의의 입력에 대한 모델의 출력값을 확인합니다.
# X_input 예측하고자하는 데이터
# batch_size = 배치크기

In [None]:
#모델의 저장과 로드
# 학습이 끝난 신경망의 구조를 보존하고 계속하여 사용하기 위함

#model.save("model_name.h5") hdf5 파일에 인공 신경망 모델을 저장

#model = tensorflow.keras.models.load_model("model_name.h5") 저장해둔 모델을 불러옴