In [None]:
import keras
keras.__version__

'2.7.0'

# 신경망의 구조
----
신경망 훈련 관련 요소
* 네트워크(또는 모델)를 구성하는 층
* 입력 데이터와 그에 상응하는 타깃
* 학습에 사용할 피드백 신호를 정의하는 손실 함수
* 학습 진행 방식을 결정하는 옵티마이저


### 층: 딥러닝의 구성 단위
층은 하나 이상의 텐서를 입력으로 받아 하나 이상의 텐서를 처리하는 데이터 처리 모듈. 대부분의 경우 가중치라는 층의 상태를 가지며, 가중치는 확률 경사 하강법에 의해 학습되는 하나 이상의 텐서로 여기에 네트워크가 학습한 지식이 담겨 있음.

층에 따른 적절한 텐서 포맷과 데이터 처리 방식
* 벡터 데이터(2D 텐서): 완전 연결 층, 밀집 연결 층(밀집 층)에 의해 처리
* 시퀀스 데이터(3D 텐서): LSTM 같은 순환 층에 의해 처리
* 이미지 데이터(4D 텐서): 2D 합성곱 픙에 의해 처리

층 호환성은 각 층이 특정 크기의 입력 텐서만 받고 특정 크기의 출력 텐서를 반환한다는 사실을 의미.

In [None]:
from keras import models
from keras import layers
layer = layers.Dense(32, input_shape=(784,))      # 32개의 유닛으로 된 밀집 층

model = models.Sequential()
model.add(layers.Dense(32, input_shape=(784,)))
model.add(layers.Dense(10))

첫 번째 차원이 784인 2D 텐서만 입력으로 받는 층으로 만들었으며(배치 차원인 0번째 축은 지정하지 않기 때문에 어떤 배치 크기도 입력으로 받을 수 있음), 이 층은 첫 번째 차원 크기가 32로 변환된 텐서를 출력. 따라서 32차원의 벡터를 입력으로 받는 하위 층이 연결되어야 함. 이때 케라스에서는 모델에 추가된 층을 자동으로 상위 층의 크기에 맞추어 줌.

두 번째 층에는 input_shape를 지정하지 않았으므로 자동으로 앞선 층의 출력 크기를 입력 크기로 설정됨.

### 모델: 층의 네트워크
딥러닝 모델은 층으로 만든 비순한 유향 그래프로 가장 일반적인 예가 하나의 입력을 하나의 출력으로 매핑하는 층을 순서대로 쌓는 것.

자주 등장하는 네트워크 구조
* 가지가 2개인 네트워크
* 출력이 여러 개인 네트워크
* 인셉션 블록

네트워크 구조는 가설 공간을 정의하며 네트워크 구조를 선택함으로써 가능성 있는 공간(가설 공간)을 입력에서 출력 데이터로 매핑하는 일련의 특정 텐서 연산으로 제한하게 됨.

*우리가 찾아야 할 것은 이러한 텐서 연산에 포함된 가중치 텐서의 좋은 값.


### 손실 함수와 옵티마이저: 학습 과정을 조절하는 열쇠
* 손실 함수(목적 함수): 훈련하는 동안 최소화될 값으로 주어진 문제에 대한 성공 지표가 됨.
* 옵티마이저: 손실 함수를 기반으로 네트워크ㅏ 어떻게 업데이트될지 결정. 특정 종류의 확률적 경사 하강법을 구현.

문제에 맞지 않는 목적 함수를 선택하는 경우 원하지 않는 일을 수행하는 모델이 만들어질 것. 

# 케라스 소개
----
케라스는 거의 모든 종류의 딥러닝 모델을 간편하게 만들고 훈련시킬 수 있는 파이썬을 위한 딥러닝 프레임워크.

케라스 특징
* 동일한 코드로 CPU와 GPU에서 실행할 수 있음.
* 사용하기 쉬운 API를 가져 딥러닝 모델의 프로토타입을 빠르게 만들 수 있음.
* 합성곱 신경망, 순환 신경망을 지원하며 이 둘을 자유롭게 조합하여 사용할 수 있음.
* 다중 입력이나 다중 출력 모델, 층의 공유, 모델 공유 등 어떤 네트워크 구조도 만들 수 있음. 즉 적대적 생성 신경망부터 뉴럴 튜링 머신까지 케라스는 기본적으로 어떤 딥러닝 모델에도 적합함.

### 케라스를 사용한 개발: 빠르게 둘러보기
전형적인 케라스 작업 흐름
1. 입력 텐서와 타깃 텐서로 이루어진 훈련 데이터를 정의.
2. 입력과 타깃을 매핑하는 층으로 이루어진 네트워크(또는 모델)을 정의.
3. 손실 함수, 옵티마이저, 모니터링하기 위한 측정 지표를 선택하여 학습 과정을 설정.
4. 훈련 데이터에 대해 모델의 fit() 메서드를 반복적으로 호출,

모델을 정의하는 방법
* 방법1. 가장 자주 사용하는 구조인 층을 순서대로 쌓아 올린 네트워크인 Sequential 클래스
* 방법2. 완전히 임의의 구조를 만들 수 있는 비순환 유향 그래프를 만드는 함수형 API


In [None]:
# 방법1. Sequential 클래스 사용(첫 번째 층에 입력 데이터의 크기가 전달)
model = models.Sequential()
model.add(layers.Dense(32, activation='relu', input_shape=(784,)))
model.add(layers.Dense(10, activation='softmax'))


# 방법2. 함수형 API 사용(모델이 처리할 데이터 텐서를 만들고 마치 함수처럼 이 텐서에 층을 적용)
input_tensor = layers.Input(shape=(784,))
x = layers.Dense(32, activation='relu')(input_tensor)
output_tensor = layers.Dense(10, activation='softmax')(x)

model = models.Model(inputs=input_tensor, outputs=output_tensor)

컴파일 단계에서 학습 과정이 설정되며, 여기에서 모델이 사용할 옵티마이저와 손실 함수, 훈련하는 동안 모니터링하기 위해 필요한 측정 지표를 지정.

In [None]:
# 손실 함수를 사용하는 가장 흔한 예시
from keras import optimizers
from tensorflow.keras import optimizers

model.compile(optimizer=optimizers.RMSprop(lr=0.001), loss='mse', metrics=['accuracy'])

#model.fit(input_tensor, target_tensor, batch_size=128, epochs=10)

  super(RMSprop, self).__init__(name, **kwargs)


# 영화 리뷰 분류: 이진 분류 예제
----

2종 분류 또는 이진 분류는 아마도 가장 널리 적용된 머신 러닝 문제일 것. 이 예제에서 리뷰 텍스트를 기반으로 영화 리뷰를 긍정과 부정로 분류하는 법을 배울 것.

### IMDB 데이터셋

인터넷 영화 데이터베이스로부터 가져온 양극단의 리뷰 50,000개로 이루어짐. 훈련 데이터 25,000개와 테스트 데이터 25,000개로 나뉘어 있고 각각 50%는 부정, 50%는 긍정 리뷰로 구성되어 있음.

MNIST 데이터셋처럼 IMDB 데이터셋도 케라스에 포함되어 있으며, 전처리되어 있어 각 리뷰(단어 시퀀스)가 숫자 시퀀스로 변환되어 있음. 

*각 숫자는 사전에 있는 고유한 단어를 나타냄.

In [None]:
# 데이터셋 로드
from keras.datasets import imdb

# num_words=10000: 훈련 데이터에서 가장 자주 나타나는 단어 1만 개만 사용하겠다는 의미(드물게 나타나는 단어는 무시)
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz


변수 `train_data`와 `test_data`는 리뷰의 목록. 각 리뷰는 단어 인덱스의 리스트(단어 시퀀스가 인코딩된 것). `train_labels`와 `test_labels`는 부정을 나타내는 0과 긍정을 나타내는 1의 리스트.

In [None]:
train_data[0]

[1,
 14,
 22,
 16,
 43,
 530,
 973,
 1622,
 1385,
 65,
 458,
 4468,
 66,
 3941,
 4,
 173,
 36,
 256,
 5,
 25,
 100,
 43,
 838,
 112,
 50,
 670,
 2,
 9,
 35,
 480,
 284,
 5,
 150,
 4,
 172,
 112,
 167,
 2,
 336,
 385,
 39,
 4,
 172,
 4536,
 1111,
 17,
 546,
 38,
 13,
 447,
 4,
 192,
 50,
 16,
 6,
 147,
 2025,
 19,
 14,
 22,
 4,
 1920,
 4613,
 469,
 4,
 22,
 71,
 87,
 12,
 16,
 43,
 530,
 38,
 76,
 15,
 13,
 1247,
 4,
 22,
 17,
 515,
 17,
 12,
 16,
 626,
 18,
 2,
 5,
 62,
 386,
 12,
 8,
 316,
 8,
 106,
 5,
 4,
 2223,
 5244,
 16,
 480,
 66,
 3785,
 33,
 4,
 130,
 12,
 16,
 38,
 619,
 5,
 25,
 124,
 51,
 36,
 135,
 48,
 25,
 1415,
 33,
 6,
 22,
 12,
 215,
 28,
 77,
 52,
 5,
 14,
 407,
 16,
 82,
 2,
 8,
 4,
 107,
 117,
 5952,
 15,
 256,
 4,
 2,
 7,
 3766,
 5,
 723,
 36,
 71,
 43,
 530,
 476,
 26,
 400,
 317,
 46,
 7,
 4,
 2,
 1029,
 13,
 104,
 88,
 4,
 381,
 15,
 297,
 98,
 32,
 2071,
 56,
 26,
 141,
 6,
 194,
 7486,
 18,
 4,
 226,
 22,
 21,
 134,
 476,
 26,
 480,
 5,
 144,
 30,
 5535,
 18,

In [None]:
train_labels[0]

1

In [None]:
# index의 max
max([max(sequence) for sequence in train_data])

9999

In [None]:
## 리뷰 데이터 하나를 원래 영어 단어로 어떻게 바꾸는지

# word_index는 단어와 정수 인덱스를 매핑한 딕셔너리
word_index = imdb.get_word_index()

# 정수 인덱스와 단어를 매핑하도록 뒤집음
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

# 리뷰를 디코딩
# 0, 1, 2는 '패딩', '문서 시작', '사전에 없음'을 위한 인덱스이므로 3을 뺌
decoded_review = ' '.join([reverse_word_index.get(i - 3, '?') for i in train_data[0]])

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb_word_index.json


In [None]:
decoded_review

"? this film was just brilliant casting location scenery story direction everyone's really suited the part they played and you could just imagine being there robert ? is an amazing actor and now the same being director ? father came from the same scottish island as myself so i loved the fact there was a real connection with this film the witty remarks throughout the film were great it was just brilliant so much that i bought the film as soon as it was released for ? and would recommend it to everyone to watch and the fly fishing was amazing really cried at the end it was so sad and you know what they say if you cry at a film it must have been good and this definitely was also ? to the two little boy's that played the ? of norman and paul they were just brilliant children are often left out of the ? list i think because the stars that play them all grown up are such a big profile for the whole film but these children are amazing and should be praised for what they have done don't you th

### 데이터 준비

신경망에 숫자 리스트를 주입할 수는 없음.

리스트를 텐서로 바꾸는 두 가지 방법

* 같은 길이가 되도록 리스트에 패딩을 추가하고 `(samples, sequence_length)` 크기의 정수 텐서로 변환하고 이 정수 텐서를 다룰 수 있는 층을 신경망의 첫 번째 층으로 사용함(`Embedding` 층을 말함).
* 리스트를 원-핫 인코딩하여 0과 1의 벡터로 변환하고 부동 소수 벡터 데이터를 다룰 수 있는 `Dense` 층을 신경망의 첫 번째 층으로 사용함.

여기서는 두 번째 방식을 사용