<a href="https://colab.research.google.com/github/parkmina365/deep_learning_with_python/blob/main/CH_3%20%EC%8B%A0%EA%B2%BD%EB%A7%9D%20%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 3장. 신경망 시작하기



## 3.1 신경망의 구조
- 층, 입력데이터와 타깃, 손실 함수, 옵티마이저
- 연속된 층으로 구성된 네트워크가 입력 데이터를 예측으로 매핑. 손실 함수는 예측과 타깃을 비교하여 네트워크의 예측이 기댓값에 얼마나 잘 맞는지를 측정하는 손실 값을 만듦. 옵티마이저는 손실 값을 사용하여 네트워크 가중치를 업데이트함

3.1.1 층: 딥러닝의 구성 단위
- 신경망 핵심적인 데이터 구조. 층은 하나 이상의 텐서를 입력으로 받아 하나 이상의 텐서를 출력하는 데이터 처리 모듈. 어떤 종류의 층은 상태가 없지만 대부분의 경우 가중치라는 층의 상태를 가짐. 가중치는 확률적 경사 하강법에 의해 학습되는 하나 이상의 텐서이며 여기에 네트워크가 학습한 지식이 담겨 있음.
- 층마다 적절한 텐서 포맷과 데이터 처리 방식이 다름. 예를 들어 (samples, features) 크기 의 2D 텐서가 저장된 간단한 벡터 데이터는 완전 연결 층(fully connected layer)이나 밀집 층(dense laver) 이라고도 불리는 밀집 연결 층(densely connected layer)에 의해 처리되는 경우가 많습니다(케라스에서는 Dense 클래스입니다)
- (samples, timesteps, features) 크기의 3D 텐서로 저장된 시퀀스 데이터는 보통 LSTM 같은 순환 층(recurrent layer)에 의해 처리됨
- 4D 텐서로 저장되 어 있는 이미지 데이터는 일반적으로 2D 합성곱 층(convolution layer)에 의해 처리됩니다(Conv2D
클래스).
- 플랫튼(Flatten), 풀링(Pooling), 드롭아웃(Dropout)층에는 학습되는 가중치가 없음. 보통 신경망의 가중치를 상태라고 표현하지는 않습니다. 순환 신경망의 셀(Cell) 출력은 셀의 상태라고 표현함




3.1.2 모델: 층의 네트워크\


3.1.3 손실 함수와 옵티마이저: 학습 과정을 조절하는 열쇠\

## 3.2 케라스 소개
3.2.1 케라스, 텐서플로, 씨아노, CNTK\
3.2.2 케라스를 사용한 개발: 빠르게 둘러보기

## 3.3 딥러닝 컴퓨터 셋팅
3.3.1 주피터 노트북: 딥러닝 실험을 위한 최적의 방법\
3.3.2 케라스 시작하기: 두 가지 방법\
3.3.3 클라우드에서 딥러닝 작업을 수행했을 때 장단점\
3.3.4 어떤 GPU 카드가 딥러닝에 최적일까?

## 3.4 영화 리뷰 분류: 이진 분류 예제
3.4.1 IMDB 데이터셋\
3.4.2 데이터 준비\
3.4.3 신경망 모델 만들기\
3.4.4 훈련 검증\
3.4.5 훈련된 모델로 새로운 데이터에 대해 예측하기\
3.4.6 추가 실험\
3.4.7 정리

In [None]:
import tensorflow as tf
from tensorflow import keras
from keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels)\
 = imdb.load_data(num_words=10000)
 # num_words=10000: 훈련 데이터에서 자주 나타나는 단어 1만개만 사용

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz

KeyboardInterrupt: ignored

In [None]:
# train_data 데이터 형태 파악
print(train_data[:5])
print(train_data[0])
print(len(train_data[0]))
print(train_data.shape)
print()

import numpy as np
print(np.sort([max(sequence) for sequence in train_data]))
### 인덱스는 9999를 넘지 않음(자주 등장하는 단어를 1만개로 제한했기에)

print(train_labels[:5])

In [None]:
# 정수 시퀀스를 이진 행렬로 인코딩
import numpy as np 
def vectorize_sequences(sequences, dimension=10000):
  results = np.zeros((len(sequences), dimension))
  for i, sequence in enumerate(sequences):
    results[i, sequence] =1.  # 부동소숫점 넣어줘야함
  return results

x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)

In [None]:
print(x_train[0])
print(len(x_train))

In [None]:
y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

In [None]:
# 모델 정의하기
from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

In [None]:
# 모델 컴파일하기
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])

In [None]:
# 검증 세트 분리
x_val = x_train[:10000]
partial_x_train = x_train[10000:]
y_val = y_train[:10000]
partial_y_train = y_train[10000:]

In [None]:
# 모델 훈련
history = model.fit(partial_x_train, partial_y_train,\
                    epochs=20, batch_size=512,\
                    validation_data=(x_val, y_val))

In [None]:
# 훈련과 검증 손실 그리기
import matplotlib.pyplot as plt

history_dict = history.history
loss = history_dict['loss']
val_loss = history_dict['val_loss']
epochs = range(1, len(loss)+1)

plt.plot(epochs, loss, 'bo', label='Training acc')
plt.plot(epochs, val_loss, 'b', label='Validation acc')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.title('Training and Validation loss')
plt.show()

In [None]:
plt.clf()

acc = history_dict['accuracy']
val_acc = history_dict['val_accuracy']

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()
plt.title('Training and Validation accuracy')
plt.show()

In [None]:
# 모델을 처음부터 다시 훈련하기
model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])

model.fit(x_train, y_train, epochs=4, batch_size=512)
print(model.evaluate(x_test, y_test))  # 정확도 87%
print(model.predict(x_test))

## 3.5 뉴스 기사 분류: 다중 분류 문제
3.5.1 로이터 데이터셋\
3.5.2 데이터 준비\
3.5.3 모델 구성\
3.5.4 훈련 검증\
3.5.5 새로운 데이터에 대해 예측하기\
3.5.6 레이블과 손실을 다루는 다른 방법\
3.5.7 충분히 큰 중간층을 두어야 하는 이유\
3.5.8 추가 실험\
3.5.9 정리

In [None]:
import tensorflow as tf
from tensorflow import keras

keras.__version__

In [None]:
from tensorflow.keras.datasets import reuters
import pandas as pd
(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)  # 매개변수는 데이터에서 가장 자주 등장하는 단어 1만개로 제한
print(len(train_data), len(test_data))
print(train_data[0])  # 단어 인덱스 형태
print(pd.Series(train_labels).nunique())

In [None]:
# 데이터 인코딩(벡터 변환)
import numpy as np 
def vectorize_sequences(sequences, dimension=10000):
  results = np.zeros((len(sequences), dimension))
  for i, sequence in enumerate(sequences):
    results[i, sequence] =1.  # 부동소숫점 넣어줘야함
  return results

x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)

In [None]:
len(x_train[0])

In [None]:
# 원핫 인코딩 방법
def to_one_hot(labels, dimension=46):
  results = np.zeros((len(labels), dimension))
  for i, label in enumerate(labels):
    results[i, label] = 1.
  return results

one_hot_train_labels = to_one_hot(train_labels)
one_hot_test_labels = to_one_hot(test_labels)

In [None]:
len(one_hot_train_labels[0])

In [None]:
from keras.utils.np_utils import to_categorical

one_hot_train_labels = to_categorical(train_labels)
one_hot_test_labels = to_categorical(test_labels)

In [None]:
# 모델 정의하기
from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))

In [None]:
# 모델 컴파일
model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

In [None]:
# 검증 세트 준비하기
x_val = x_train[:1000]
partial_x_train = x_train[1000:]

y_val = one_hot_train_labels[:1000]
partial_y_train = one_hot_train_labels[1000:]

In [None]:
# 모델 훈련하기
history = model.fit(partial_x_train, partial_y_train, epochs=20, batch_size=512, validation_data=(x_val, y_val))

In [None]:
# 훈련과 검증 손실 그리기
import matplotlib.pyplot as plt

loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(loss)+1)

plt.plot(epochs, loss, 'bo', label='Training loss') 
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.title('Training and Validation loss')
plt.show()

In [None]:
# 훈련과 검증 정확도 그리기
plt.clf()

acc = history.history['accuracy']
val_acc = history.history['val_accuracy']

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()
plt.title('Training and Validation acc')
plt.show()

### 9번째 epoch이후에 과대적합. 아홉번의 에포크로 새로운 모델 훈련하고 테스트 세트에서 평가 필요

In [None]:
# 모델 처음부터 다시 훈련
model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))

model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])
model.fit(partial_x_train, partial_y_train, epochs=9, batch_size=512, validation_data=(x_val, y_val))
results = model.evaluate(x_test, one_hot_test_labels)
results

In [None]:
predictions = model.predict(x_test)
print(predictions[0].shape)
print(np.sum(predictions[0]))
print(np.argmax(predictions[0]))

In [None]:
# 정보 병목이 있는 모델
model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(4, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))

model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])
model.fit(partial_x_train, partial_y_train, epochs=20, batch_size=128, validation_data=(x_val, y_val))

### 중간층의 차원이 출력층의 차원보다 작은 경우, 많은 정보를 저차원의 표현 공간으로 압축하려 하기에 정보 손실이 발생함

## 3.6 주택 가격 예측: 회귀 문제
3.6.1 보스턴 주택 가격 데이터셋\
3.6.2 데이터 준비\
3.6.3 모델 구성\
3.6.4 K-겹 검증을 사용한 훈련 검증\
3.6.5 정리

## 3.7 요약

3.6.1 보스턴 주택 가격 데이터셋
- CRIM - per capita crime rate by town
- ZN - proportion of residential land zoned for lots over 25,000 sq.ft.
- INDUS - proportion of non-retail business acres per town.
- CHAS - Charles River dummy variable (1 if tract bounds river; 0 otherwise)
- NOX - nitric oxides concentration (parts per 10 million)
- RM - average number of rooms per dwelling
- AGE - proportion of owner-occupied units built prior to 1940
- DIS - weighted distances to five Boston employment centres
- RAD - index of accessibility to radial highways
- TAX - full-value property-tax rate per $10,000
- PTRATIO - pupil-teacher ratio by town
- B - 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
- LSTAT - % lower status of the population


In [None]:
from keras.datasets import boston_housing
(train_data, train_targets), (test_data, test_targets) = boston_housing.load_data()

In [None]:
print(train_data.shape, test_data.shape)

In [None]:
train_data[0]

In [None]:
train_targets[0]

3.6.2 데이터 준비
- 피쳐별로 스케일이 다르기에 정규화가 필요함
- 각 관측에서 평균을 빼고 표준편차로 나누어 직접 계산

In [None]:
mean = train_data.mean(axis=0)
std = train_data.std(axis=0)

train_data -= mean
train_data /= std

test_data -= mean
test_data /= std  # test 데이터도 train 데이터에서 나온 mean, std로 표준화 해줘야함

print(train_data[0])
print(test_data[0])

### test 데이터를 정규화할때 사용한 값이 훈련 데이터에서 계산한 값이어야 함
### 머신러닝 작업과정에서 절대로 test 데이터에서 사용한 어떤 값도 사용하면 안됨
### train, test를 다른 스케일로 변환하게 되면 train에서 학습한 정보가 쓸모없게 됨

3.6.3 모델 구성

In [None]:
from tensorflow.keras import models
from tensorflow.keras import layers
from tensorflow.keras import metrics

def build_model():
  model = models.Sequential()
  model.add(layers.Dense(64, activation='relu', input_shape=(train_data.shape[1],)))
  model.add(layers.Dense(64, activation='relu'))
  model.add(layers.Dense(1))
  # 모델의 훈련 데이터가 적기에, 과대적합 피하기 위해 은닉층의 수가 적은 모델(1~2개)이 좋음
  model.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])
  # model.compile(optimizer='rmsprop', loss='mse', metrics=[metrics.MeanAbsoluteError()])

  # 회귀이기에 손실함수:mse, 평가지표:mae
  return model

3.6.4 K-겹 검증을 사용한 훈련 검증

In [None]:
# K-fold 검증하기
import numpy as np
k=4
num_val_samples = len(train_data) // k  # k로 나눈 몫만 사용
num_epochs = 100
all_scores = []

for i in range(k):
  print('처리중인 폴드 #',i)
  val_data = train_data[i*num_val_samples: (i+1)*num_val_samples]
  val_targets = train_targets[i*num_val_samples: (i+1)*num_val_samples]

  partial_train_data = np.concatenate(
      [train_data[:i*num_val_samples],
       train_data[(i+1)*num_val_samples:]],axis=0)
  partial_train_targets = np.concatenate(
      [train_targets[:i*num_val_samples],
       train_targets[(i+1)*num_val_samples:]], axis=0)
  
  model = build_model()
  model.fit(partial_train_data, partial_train_targets, epochs=num_epochs, batch_size=1, verbose=0)
  val_mse, val_mae = model.evaluate(val_data, val_targets, verbose=0)
  all_scores.append(val_mae)

In [None]:
print(all_scores)
print(np.mean(all_scores))

In [None]:
test_mse_score, test_mae_score = model.evaluate(test_data, test_targets)

In [None]:
# 각 폴드에서 검증 점수를 로그에 저장하기
num_epochs =  500
all_mae_histories = []

for i in range(k):
  print('처리중인 폴드 #',i)
  val_data = train_data[i*num_val_samples:(i+1)*num_val_samples]
  val_targets = train_targets[i*num_val_samples: (i+1)*num_val_samples]

  partial_train_data = np.concatenate(
      [train_data[:i*num_val_samples],
       train_data[(i+1)*num_val_samples:]], axis=0)
  partial_train_targets = np.concatenate(
      [train_targets[:i*num_val_samples],
       train_targets[(i+1)*num_val_samples:]], axis=0)
  
  model = build_model()
  history = model.fit(partial_train_data, partial_train_targets,
                      validation_data=(val_data, val_targets),
                      epochs=num_epochs, batch_size=1, verbose=0)
  mae_history = history.history['val_mae']
  all_mae_histories.append(mae_history)

In [None]:
# K-fold 검증 점수 평균 기록
average_mae_history = [np.mean([x[i] for x in all_mae_histories]) for i in range(num_epochs)]

In [None]:
# 검증 점수 그래프
import matplotlib.pyplot as plt
plt.plot(range(1, len(average_mae_history)+1), average_mae_history)
plt.xlabel('Epochs')
plt.ylabel('Validataion MAE')
plt.show()

In [None]:
# 처음 10개 데이터 제외한 검증 점수 그래프 그리기

def smooth_curve(points, factor=0.9):
  smoothed_points = []
  for point in points:
    if smoothed_points:
      previous = smoothed_points[-1]
      smoothed_points.append(previous*factor + point*(1-factor))
    else:
      smoothed_points.append(point)
  return smoothed_points

smooth_mae_history = smooth_curve(average_mae_history[10:])

plt.plot(range(1,len(smooth_mae_history)+1), smooth_mae_history)
plt.xlabel('Epochs')
plt.ylabel('Validation MAE')
plt.show()

In [None]:
# 최종 모델 훈련하기

model = build_model()
model.fit(train_data, train_targets, epochs=80, batch_size=16, verbose=0)
test_mse_score, test_mae_score = model.evaluate(test_data, test_targets)