## 4 신경망 시작하기: 분류와 회귀 

1 영화리뷰분류: 이진 분류 문제 <br>
2 뉴스 기사 분류: 다중 분류 문제 <br>
3 주택 가격 예측: 회귀 문제 <br>
4 요약 <br>


### 분류와 회귀에서 사용하는 용어 

- <b>샘플</b> 또는 <b>입력</b>: 모델에 주입될 하나의 데이터 포인트(data point) <br>
- <b>예측</b> 또는 <b>출력</b>: 모델로부터 나오는 값 <br>
- <b>타깃</b>: 정답. 외부 데이터 소스에 근거하여 모델이 완벽하게 예측해야 하는 값 <br>
- <b>예측 오차</b> 또는 <b> 손실 값</b>: 모델의 예측과 타깃 사이의 거리를 측정한 값 <br>
- <b>클래스</b>: 분류 문제에서 선택할 수 있는 가능한 레이블의 집합. ex, 모델에 주입될 하나의 데이터 포인트(data point) <br>
- <b>레이블</b>: 분류 문제에서 클래스 할당의 구체적인 사례.ex, #1234에 '강아지' 클래스가 들어 있다고 표시한다면 '강아지'는 사진 #1234의 레이블이 된다 <br>
- <b>참값(ground-truth)</b> 또는 <b>애너테이션(annotation)</b>: 데이터셋이 대한 모든 타깃. 일반적으로 사람에 의해 수집됨 <br>
- <b>이진 분류</b>: 각 입력 샘플이 2개의 배타적인 범주로 구분되는 분류 작업 <br>
- <b>다중 분류</b>: 각 입력 샘플이 2개 이상의 범주로 구분되는 분류 작업. ex, 손글씨 숫자 분류를 말함 <br>
- <b>다중 레이블 분류</b>: 각 입력 샘플이 여러개의 레이블에 할당될 수 있는 분류 작업. ex, 하나의 이미지에 고양이와 강아지가 모두 들어 있을 떄는 '고양이' 레이블과 '강아지' 레이블을 모두 할당해야 한다. 보통 이미지마다 레이블의 개수는 다름 <br>
- <b>스칼라 회귀</b>: 타깃이 연속적인 스칼라 값인 작업. 주택 가격 예측이 좋은 예, 각기 다른 타깃 가격이 연속적인 공간을 형성함 <br>
- <b>벡터 회귀</b>: 타깃이 연속적인 값의 집합인 작업. 예를 들어 연속적인 값으로 이루어진 벡터. (이미지에 있는 경계 사자 (bounding box)의 좌표 같은) 여러개의 값에 대한 회귀를 한다면 벡터 회귀 <br>
- <b>미니 배치</b> 또는 <b>배치</b>: 모델에 의해 동시에 처리되는 소량의 샘플 묶음(일반적으로 8개 에서 128개 사이). 샘플 개수는 GPU 메모리의 할당이 용이하도록 2의 거듭제곱으로 하는 경우가 많다. 훈련할 떄 미니 배치마다 한번씩 모델의 가중치에 적용할 경사 하강법 업데이트 값을 계산 <br><br>


### 4.1 영화 리뷰 분류: 이진 분류 문제
two-class classification or binary classification이라고도 부름 <br>

#### 4.1.1 IMDB 데이터셋 
5만개가 있고 부정, 긍정 각각 50%, 50% <br>

#### 코드 4-1 IMDB 데이터셋 로드하기

In [1]:
from tensorflow.keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

In [5]:
print(train_data[0])
print(len(train_data[0])) # 218
print(train_labels[0])

[1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65, 458, 4468, 66, 3941, 4, 173, 36, 256, 5, 25, 100, 43, 838, 112, 50, 670, 2, 9, 35, 480, 284, 5, 150, 4, 172, 112, 167, 2, 336, 385, 39, 4, 172, 4536, 1111, 17, 546, 38, 13, 447, 4, 192, 50, 16, 6, 147, 2025, 19, 14, 22, 4, 1920, 4613, 469, 4, 22, 71, 87, 12, 16, 43, 530, 38, 76, 15, 13, 1247, 4, 22, 17, 515, 17, 12, 16, 626, 18, 2, 5, 62, 386, 12, 8, 316, 8, 106, 5, 4, 2223, 5244, 16, 480, 66, 3785, 33, 4, 130, 12, 16, 38, 619, 5, 25, 124, 51, 36, 135, 48, 25, 1415, 33, 6, 22, 12, 215, 28, 77, 52, 5, 14, 407, 16, 82, 2, 8, 4, 107, 117, 5952, 15, 256, 4, 2, 7, 3766, 5, 723, 36, 71, 43, 530, 476, 26, 400, 317, 46, 7, 4, 2, 1029, 13, 104, 88, 4, 381, 15, 297, 98, 32, 2071, 56, 26, 141, 6, 194, 7486, 18, 4, 226, 22, 21, 134, 476, 26, 480, 5, 144, 30, 5535, 18, 51, 36, 28, 224, 92, 25, 104, 4, 226, 65, 16, 38, 1334, 88, 12, 16, 283, 5, 16, 4472, 113, 103, 32, 15, 16, 5345, 19, 178, 32]
218
1


In [3]:
max([max(sequence) for sequence in train_data])  # 9999

9999

#### 코드 4-2 리뷰를 다시 텍스트로 디코딩하기

In [6]:
word_index = imdb.get_word_index()
reverse_word_index = dict(
    [(value, key) for (key, value) in word_index.items()])  # 정수 인덱스와 단어를 매핑하도록 뒤집는다
decoded_review = " ".join(
    [reverse_word_index.get(i-3, "?") for i in train_data[0]]) 
# 리뷰를 디코딩한다. 0,1,2는 '패딩', '문서 시작', '사전에 없음'을 위해 예약되어 있으므로 인덱스에서 3을 뺌

### 4.1.2 데이터 준비

리스트를 텐서로 바꾸는 2가지 방법)
- 리스트에 패딩(padding)을 추가하고 (samples, max_length) 크기의 정수 텐서로 변환 <br>
- 리스트를 멀티-핫 인코딩(multi-hot encoding)하여 0과 1의 벡터로 변환 <br>
- 여기서는 2번째 방법을 적용

#### 코드 4-3 정수 시퀀스를 멀티-핫 인코딩으로 인코딩하기

In [None]:
import numpy as np 

def vectorize_sequences(sequences, dimension=100000):
    results = np.zeros((len(sequences), dimension))  # 크기가 (len(sequences), dimension)이고 모든 원소가 0인 행렬을 만듦
    for i, sequence in enumerate(sequences):
        for j in sequence:
            results[i,j] = 1  # results[i]에서 특정 인덱스의 위치를 1로 만듦
    return results

x_train = vectorize_sequences(train_data)   # 훈련 데이터를 벡터로 변환함
x_test = vectorize_sequences(test_data)   # 테스트 데이터를 벡터로 변홤함

In [None]:
print(x_train[0])

In [None]:
y_train = np.asarray(train_labels).astype("float32")
y_test = np.asarray(test_labels).astype("float32")

# 신경망에 주입할 데이터가 준비되었음!

### 4.1.3 신경망 모델 만들기

- 레이블은 스칼라(1 또는 0)
- Dense층을 쌓을 때 2가지 중요한 구조상의 결정이 필요:
    - 얼마나 많은 층을 사용할 것인가? <br>
    - 각 층에 얼마나 많은 유닛을 둘 것인가? <br>
    (책에서는) <br>
    - 16개의 유닛을 가진 2개의 증간층 <br>
    - 현재 리뷰의 감정을 scalar 값의 예측으루 출력하는 3번째 층 <br>
    
#### 코드 4-4 모델 정의하기

In [None]:
from tensorflow import keras
from tensorflow.keras import layers

model = keras.Sequential([
    layers.Dense(16, activation='relu'), # 첫번째 매개변수는 층의 unit개수
    layers.Dense(16, activation='relu'),
    layers.Dense(1, activation='sigmoid')
])

In [None]:
output = relu(dot(W, input)+b)

#### 활성화 함수? 필요한 이유?

- relu와 같은 활성화 함수( or non-linearity)라고도 부름, 이게 없다면 Dense층은 선형적인 연산인 점곱과 덧셈 2개로 구성 <br>
output = dot(W, input) + b <br><br>

- 선형변환(아핀변환)만 학습 <br>
- 이 층의 가설 공간은 입력 데이터를 16차원의 공간으로 바꾸는 가능한 모든 선혀 변환의 집합 <br>
- 가설 공간을 풍부하게 만들어 층을 깊게 만드느 장점을 살리기 위해서는 비선형성 or 활성화 함수를 추가해야 함 <br><br>


마지막으로 손실 함수와 옵티마이저를 선택 <br>
crossentropy는 정보이론(information theory)분야에서 온 개념으로 확률분포간의 차이를 측정 <br>

#### 코드 4-5 모델 컴파일하기

In [None]:
model.compile(optimizer="rmsprop",
             loss="binary_crossentropy",
             metrics=["accuracy"])

### 4.1.4 훈련검증

검증세트를 활용하여 훈련 과정 중에 모델의 정확도를 모니터링하는 것이 표준 관행.

#### 코드 4-6 검증 세트 준비하기

In [None]:
x_val = x_train[:10000]
partial_x_train = x_train[:10000]
y_val = y_train[:10000]
partial_y_train = y_train[:10000]

#### 코드 4-7 모델 훈련하기

In [None]:
history = model.fit(partial_x_train,
         partial_y_train, 
         epochs = 20,
         batch_size = 512,
         validation_data=(x_val, y_val))

In [None]:
history_dict= history.history
print(history_dict.keys())

#### 코드 4-8 훈련과 검증 손실 그리기

In [None]:
import matplotlib.pyplot as plt

hitorry_dict = history.history
loss_values = history_dict["loss"]
val_loss_values = history_dict["val_loss"]
epochs = range(1, len(loss_values)+1)
plt.plot(epochs, loss_values, "bo", label="Training loss")  # 'bo'는 파란색점을 의미
plt.plot(epochs, val_loss_values, "b", label="Validation loss")  # 'b'는 파란색 실선을 의미
plt.title("Training and validation loss")
plt.xlabel("Epochs")
plt.ylabel("Loss")
plt.legend()
plt.show()

#### 코드 4-9 훈련과 검증 정확도 그리기

In [None]:
plt.clf()  # 그래프를 초기화
acc = history_dict["accuracy"]
val_acc = history_dict["val_accuracy"]
plt.plot(epochs, acc, "bo", label="Training acc")
plt.plot(epochs, val_acc, "bo", label="Validation acc")
plt.title("Training and validation accuracy")
plt.xlabel("Epochs")
plt.ylabel("Accuracy")
plt.legend()
plt.show()

# 결과가 훈련 손실이 에포크마다 감소하고 훈련 정확도는 에포크마다 증가
# 경사 하강법 최적화를 사용했을 떄 반복마다 최소화된느 것이 손실이므로 기대했던 대로
# 과대적합(overfitting) 되었다고 할 수 있음

#### 코드 4-10 모델을 처음부터 다시 훈련하기

In [None]:
model = keras.Sequential([
    layers.Dense(16, activation='relu'),
    layers.Dense(16, activation='relu'),
    layers.Dense(1, activation='sigmoid'),
    
])
model.compile(optimizer="rmsprop",
             loss ="binary_crossentropy",
             metrics=["accuracy"])
model.fit(x_train, y_train, epochs=4, batch_size=512)
results = model.evaluate(x_test, y_test)

In [None]:
print(results)

### 4.1.5 훈련될 모델로 새로운 데이터에 대해 예측하기 

In [None]:
model.predict(x_test)

### 4.1.6 추가 실험

- 여기서는 최종 분류 층 이전에 2개의 표현층을 사용했음, 1개 or 3개의 표현 층을 사용하고 검증과 테스트 정확도에 어떤 영향을 미치는지 확인 <br>
- 층의 유닛을 추가하거나 줄여보세요, 32개의 유닛, 64개의 유닛 <br>
- binary_crossentropy대신 mse 손실 함수를 사용 <br>
- relu 대신 tanh 활성화 함수(초창기 신경망에서 인기 있었던 함수) <br>

### 4.1.7 정리

- 원본 데이터를 신경망에 텐서로 주입하기 위해서는 꽤 많은 전처리가 필요
- relu활성화 함수와 함께 Dense층을 쌓은 모델은 (감성 분류를 포함하여) 여러 종류의 문제에 적용할 수 있어 앞으로 자주 사용하게 될 것
- 이진 분류 문제에서 모델은 하나의 유닛과 sigmoid 활성화 함수를 가진 Dense층으로 끝나야 함. 이 모델의 출력은 확률을 나타내는 0과 1 사이의 스칼라 값
- 이진 분류 문제에서 이런 스칼라 시그모이드 출력에 대해 사용할 손실 함수는 binary_crossentropy
- rmsprop 옵티마이저는 문제에 상관없이 일바적으로 충분히 좋은 선택
- 훈련 데이터에 대해 성능이 향상됨에 따라 신경망은 과대적합되기(overfitting) 시작하고 이전에 본적없는 데이터에서는 결과자 점점 나빠짐, 항상 훈련 세트 이외의 데이터에서 성능을 모니터링해야 함

## 4.2 뉴스 기사 분류: 다중 분류 문제 

- 다중분류(multicalss classification): 클래스가 많음
- 단일 레이블 다중 분류(single-label, multiclass classfication)문제: 각 데이터 포인트가 정확히 하나의 범주로 분류됨 <br>
- 다중 레이블 다중 분류(multi-label, multiclass classification)문제: 각 데이터 포인트가 여러개의 점주에 속할 수 있다면, 이건 이런 문제 <br>

### 4.2.1 로이터 데이터셋

#### 코드 4-11 로이터 데이터셋 로드하기

In [None]:
from tensorflow.keras.datasets import reuters

(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)

print(len(train_data))
print(len(test_data))

In [None]:
print(train_data[0])

#### 코드 4-12 로이터 데이터셋을 텍스트로 디코딩하기

In [None]:
word_index = reuters.get_word_index()
reverse_word_index= dict(
    [(value, key) for (key, value) in word_index.items()])
decoded_newswire = " ".join(
    [reverse_word_index.get(i-3, "?") for i in train_data[0]])  
# 0, 1, 2는 '패딩', '문서 시작', '사전에 없음'을 위해 예약되어 있으므로 인덱스에서 3을 뺌

In [None]:
print(train_labels[0])  # 샘플에 연결된 레이블은 토픽의 인덱스로 0과 45 사이의 정수

### 4.2.2 데이터 준비

이전의 예제와 동일한 코드를 사용해서 데이터를 벡터로 변환

#### 코드 4-13 데이터 인코딩하기

In [None]:
x_train = vectorize_sequences(train_data)  # 훈련 데이터 벡터 변환
x_test = vectorize_sequences(test_data)  # 훈련 데이터 벡터 변환

레이블을 벡터로 바꾸는 방법은 2가지: <br>

1. 레이블의 리스트를 정수 텐서로 변환하는 것 <br>
2. one-hot encoding을 시용 <br>
    - one-hot encoding이 범주형 데이터에 널리 사용되기 때문에 범주형 인코딩(categorical encoding)이라고도 부름 <br>
    - 이 경우 레이블의 원-핫 인코딩은 각 레이블의 인덱스 자리는 1이고 나머지는 모두 0인 벡터, 밑에 코드는 예시 <br><br>
    
#### 코드 4-14 레이블 인코딩하기

In [None]:
def to_one_hot(labels, dimension=46):
    results = np.zeros((len(labels), dimension))
    for i, label in enumerate(labels):
        results[i, label] =1.
    return results
y_train = to_one_hot(train_labels)   # 훈련 레이블 벡터 변환
y_test = to_one_hot(test_labels)  # 테스트 레이블 벡터 변환

In [None]:
from keras.utils.np_utils import to_categorical

y_train = to_categorical(train_labels)
y_test = to_categorical(test_labels)

### 4.2.3 모델 구성

- 출력 클래스의 개수가 2에서 46개로 늘어남, 출력 공간의차원이 훨씬 커졌다. <br>
- 각 층은 잠재적으로 정보의 병목(information bottleneck)이 될 수 있음 <br><br>

#### 코드 4-15 모델 정의하기

In [None]:
from tensorflow import keras
from tensorflow.keras import layers

model = keras.Sequential([
    layers.Dense(64, activation="relu"),
    layers.Dense(64, activation="relu"),
    layers.Dense(46, activation="softmax")
])

주목해야할 점 2가지

1) 마지막 Dense층의 크기가 46, 각 입력 샘플에 대해 46차원의 벡터를 출력한다는 뜻 <br>
2) 마지막 층에 softmax 활성화 함수가 사용, 즉 46차원의 출력 벡터를 만들면 output[i]는 어떤 샘플이 클래스 i에 속할 확률 <br><br>
=> 이런 문제에 사용활 최선의 손실 함수는 categorical_crossentropy, 이 함수는 두 확률 분포 사이의 거리를 측정 <br>
여기에서는 모델이 출력한 확률 분포와 진짜 레이블의 분포 사이의 거리, 두 분포 사이의 거리를 최소화함으로써 진짜 레이블에 가능한 가까운 출력을 내도록 모델을 훈련하게 된다. <br>

In [None]:
model.compile(optimizer="rmsprop",
             loss="categorical_crossentropy",
             metrics=["accuracy"])

#### 코드 4-17 검증 세트 준비하기

In [None]:
x_val = x_train[:10000]
partial_x_train = x_train[:10000]
y_val = y_train[:10000]
partial_y_train = y_train[10000:]

#### 코드 4-18 모델 훈련하기

In [None]:
history = model.fit(partial_x_train,
         partial_y_train,
         epochs=20,  # 20번 줌 
         batch_size=512,
         validation_data=(x_val, y_val))

#### 코드 4-19 훈련과 검증 손실 그리기

In [None]:
loss = history.history["loss"]
val_loss = history.history["val_loss"]

epochs = range(1, len(loss)+1)
plt.plot(epochs, loss, "bo", label="Training loss")
plt.plot(epochs, val_loss, "b", label="Validation loss")
plt.title("Training and validation loss")
plt.xlabel("Epochs")
plt.ylabel("Loss")
plt.legend()
plt.show()