# 심층신경망 1

## 심층신경망

우리는 비선형 함수 형태를 근사계산해야 할 수도 있다. 만약 데이터의 흐름이 비선형이라면 선형 회귀와 로지스틱으로는 예측할 수 없음.

기존의 머신러닝 기법들로는 비선형적이고 높은 차원의 데이터를 다루는 데에 어려움이 많았다.

심층신경망이란 것이 이러한 문제를 해결하는 데 큰 힘을 발휘하기 시작. 따라서 심층신경망으로 이러한 문제를 어떻게 해결하는지 알아보자.

### 심층신경망이란?

심층신경망은 **서로 다른 선형 계층을 깊게 쌓아 구성**할 수 있다.

하지만 단순히 선형 계층을 많이 쌓는 것으로 충분할까?

$$ h = x \cdot W_1 + b_1 \\
y = h \cdot W_2 + b_2 $$

위와 같이 두 개의 선형 계층을 가진 모델을 생각해보자. 이 모델은 그럼 두 개의 계층을 지닌 심층신경망이 되는 것일까?

이를 정리해보면, 또 다른 선형 계층이 나오게 된다($W \cdot x + b$의 형태). 즉, **두 선형 계층을 통과하는 것은 또 다른 하나의 선형 계층을 통과하는 것과 같다**라는 것을 확인할 수 있다.

그래서 이런 방법으로는 **비선형 문제를 풀 수 없음**.

그렇다면 어떻게 풀어야할까? 가장 간단한 방법으로 **선형 계층을 쌓을 때 그 사이에 비선형 함수**를 끼어넣는 것이 있다. 비선형 함수는 앞에서 배운 활성화 함수, 즉 시그모이드나 tanh함수들이 있다.

### 심층신경망의 크기

심층신경망으로 세상에 존재하는 그 어떤 형태의 함수도 근사계산할 수 있음이 증명되었다.

보통 신경망을 구성할 때는 **계층이 진행될수록 너비가 줄어드는 형태로 설계**를 하게 된다. 이 때 너비가 줄어드는 양을 조절하거나 계층을 더 깊게 쌓을수록 네트워크의 표현 능력은 일반적으로 더 향상된다.

따라서 **신경망을 더 넓고, 깊게 쌓아 더 복잡하고 어려운 데이터의 관계를 배우거나 문제를 풀 수 있다**. 

하지만 깊이가 깊어지거나 너비가 넓어지게 되면 **계층들의 가중치 파라미터 크기가 늘어나게** 된다. 경사하강법을 통해 최적화해야 하는 공간의 차원 크기도 같이 늘어나게 된다.

그렇기 때문에 신경망이 커지더라도 최적화에 어려움을 겪을 수 있어 실제로는 성능 향상의 한계가 있을 수 있다.

## 심층신경망의 학습

### 심층신경망의 학습 개요

심층신경망 또한 경사하강법을 활용하여 각 가중치 파라미터를 업데이트한다.

심층신경망은 계층이 많아진 만큼, 가중치 파라미터도 늘어나게 된다. 따라서 업데이트되어야 할 가중치 파라미터들이 늘어난 만큼 손실 함수에 대해 미분을 해야 하는 일도 늘어나게 된다.

더 큰 문제는 입력으로부터 가까운 계층의 파라미터일수록 **훨씬 복잡한 함수 꼴**이 된다는 것이다. 이것을 미분하는 일은 **신경망이 깊어질수록 점점 더 비효율적이게 될 것**이다.

### 역전파

역전파 알고리즘은 chain rule을 통해 구현 됨.

$$ y = g(f(x)) \\
y = g(x), h = f(x) \\
\frac{\partial y}{\partial x} = \frac{\partial y}{\partial h} \frac{\partial h}{\partial x} $$

y가 g와 f로 이루어진 합성함수일 때, 위 명제가 성립한다. 이것을 chain rule이라고 함.

따라서 이런 성질을 이용하여 **심층 신경망의 미분도 간단한 수식에 대한 미분의 곱으로 표현**될 수 있음. 간단한 수식들에 대한 미분은 다른 계층의 미분을 구할 때 다시 재활용할 수 있어 훨씬 효율적인 계산이 가능하다.

미분 계산 과정이 **계속해서 뒤 쪽 계층으로 전달되는 것**을 **역전파**라고 한다.

## 역전파 알고리즘의 수식

심층신경망을 사용하여 회귀 문제를 풀고자 할 때, 다음 수식과 같이 MSE 손실 함수를 활용할 수 있음.

$$\zeta(\theta) = \sum_{i=1}^{N} \left \Vert y_i - \hat y_i \right \|_2^2$$

심층신경망이 구성될 때, 이들 심층 신경망의 파라미터를 하나하나 업데이트 하는 것은 매우 비효울적임.

그렇지만 chain rule을 이용해 간단한 수식들의 미분 곱으로 표현할 수 있음.

(3층 신경망 가정)
$$\frac {\partial \zeta}{\partial W_3} = \frac {\partial \zeta}{\partial \hat y} \frac {\partial \hat y}{\partial W_3}
\\ \frac {\partial \zeta}{\partial W_2} = \frac {\partial \zeta}{\partial \hat y} \frac {\partial \hat y}{\partial h_2} \frac{\partial h_2}{\partial W_2}
\\ \cdots$$

(주의!) $\frac {\partial W_2}{\partial W_3}$과 같은꼴은 없다!

## 그레디언트 소실 문제 

심층신경망이 너무 깊어지면 최적화가 잘 수행되지 않는 문제가 종종 발생.

특히 입력에 가까운 계층의 가중치 파라미터가 잘 업데이트되지 않아 생기는데 이러한 것을 **그레디언트 소실 문제**라고 부른다.

다음과 같은 계층을 생각해보자.

$$\zeta(\theta) = \sum^{N}_{i=1} \left \Vert y_i - \hat y_i \right \Vert _2^2
\\ \hat y = h_{2,i} \cdot W_3 + b_3
\\ h_{2,i} = \sigma(\tilde h_{2,i})
\\ \tilde h_{2,i} = h_{1,i} \cdot W_2 + b_2
\\ h_{1,i} = \sigma(\tilde h_{1,i})
\\ \tilde h_{1,i} = x_{i}^T \cdot W_1 + b_1$$

시그모이드 계층이 추가되었으므로, tilde(틸다)가 추가되었다.

즉, 선형 계층의 결과값을 $\tilde h$ 으로 표현하고, 이것을 활성 함수에 넣어 얻은 결과를 $h$으로 배정했다.

그런데, 시그모이드는 **전 구간에서 1보다 한참 작은 기울기**를 가지며, 탄에이치의 경우에는 **전 구간에서 1보다 같거나 작은 값**을 가진다.

따라서 계속해서 chain rule로 역전파 알고리즘을 수행할 때, 계속해서 1보다 작은 값이 반복적으로 곱해진다.

gradient로 업데이트를 해야 하는데, 이것이 0과 가까워지는 것이다.

이렇게 깊어지는 신경망에서 역전파 과정으로 그레디언트가 소실되어 입력과 가까운 계층이 잘 학습되지 않는 문제를 **그레디언트 소실**이라고 한다.

## ReLU

시그모이드와 같은 비선형 활성 함수는 미분 계수가 전 구간에서 1보다 작기 때문에 발생한다.

ReLU는 이러한 기존 활성 함수의 단점을 보완하기 위해 제안된 새로운 활성화 함수이다.

$$ y = ReLU(x) = max(0,x)$$

보다시피, 양수 구간에서 **기울기가 1**이기 때문에 매우 빠른 최적화가 간으하다.

하지만 음수 구간에서의 기울기가 0이 되므로 ReLU의 입력이 0이 되면 뒷 단의 가중치 파라미터들에 학습을 진행할 수 없다.

혹시 데이터셋의 모든 샘플이 ReLU의 음수 구간으로 입력되면, 해당 ReLU에 값을 전달해주는 노드와 관련된 가중치 파라미터들은 이후 학습 과정에서 영원히 업데이트될 수 없는 문제가 발생한다.

이러한 문제를 해결하기 위해 Leaky ReLU가 제안되었다.

$$y = LeakyReLU(x) = max(a \cdot x, x), where 0 \le a < 1$$

음수 구간에서 비록 1보다 작지만 0이 아닌 기울기를 갖는 것이 특징이다.

LeakyReLU가 ReLU의 문제점을 보완한 것은 맞지만, 데이터에 따라 LeakyReLU가 잘 맞을수도, ReLU가 잘 맞을 수도 있다.

## Deep Regression 실습

### 데이터 준비

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_boston

boston = load_boston()
df = pd.DataFrame(boston.data, columns = boston.feature_names)
df['TARGET'] = boston.target


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

전체 속성을 통해 심층신경망을 학습시켜 보자. 이에 앞서, 좀 더 쉽고 수월한 최적화 및 성능 향상을 위해 표준 스케일링도 입력 값을 정규화해보자.

In [2]:
scaler = StandardScaler()
scaler.fit(df.values[:, :-1])
df.values[:, :-1] = scaler.transform(df.values[:, :-1]).round(4)

df.tail()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,TARGET
501,-0.4132,-0.4877,0.1157,-0.2726,0.1581,0.4393,0.0187,-0.6258,-0.9828,-0.8032,1.1765,0.3872,-0.4181,22.4
502,-0.4152,-0.4877,0.1157,-0.2726,0.1581,-0.2345,0.2889,-0.7166,-0.9828,-0.8032,1.1765,0.4411,-0.5008,20.6
503,-0.4134,-0.4877,0.1157,-0.2726,0.1581,0.985,0.7974,-0.7737,-0.9828,-0.8032,1.1765,0.4411,-0.983,23.9
504,-0.4078,-0.4877,0.1157,-0.2726,0.1581,0.7257,0.737,-0.6684,-0.9828,-0.8032,1.1765,0.4032,-0.8653,22.0
505,-0.415,-0.4877,0.1157,-0.2726,0.1581,-0.3628,0.4347,-0.6132,-0.9828,-0.8032,1.1765,0.4411,-0.6691,11.9


정규화를 적용하기 전, **데이터셋의 분포의 특징을 파악하고 어떤 정규화 방법이 가장 어울릴지 결정**해야 한다.

보스턴 주택 가격 데이터셋의 각 열이 **정규분포**를 따른다고 가정하고 표준 스케일링을 적용했다. 다음 테이블은 표준 스케일링을 적용한 결과를 보여주고 있다.

### 학습 코드 구현

In [3]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

data = torch.from_numpy(df.values).float()
y = data[:, -1:]
x = data[:, :-1]

In [4]:
# 하이퍼파라미터

n_epochs = 200000
learning_rate = 1e-4
print_interval = 10000

이제 심층신경망을 정의하자.

**마지막 계층은 활성 함수를 씌우지 않도록** 주의!

In [5]:
class MyModel(nn.Module):
    def __init__(self, input_dim, output_dim):
        self.input_dim = input_dim
        self.output_dim = output_dim
        
        super().__init__()

        self.layer = nn.Sequential(
            nn.Linear(input_dim, 3),
            nn.LeakyReLU(),
            nn.Linear(3,3),
            nn.LeakyReLU(),
            nn.Linear(3,3),
            nn.LeakyReLU(),
            nn.Linear(3, output_dim)
        )
    
    def forward(self, x):
        y = self.layer(x)
        return y

In [7]:
model = MyModel(x.shape[-1], x.shape[-1])
optimizer = optim.SGD(model.parameters(), lr = learning_rate)

In [None]:
for i in range(n_epochs):
    y_hat = model(x)
    loss = F.mse_loss(y_hat, y)

    optimizer.zero_grad()
    loss.backward()

    optimizer.step()

    if (i+1) % print_interval == 0:
        print('Epoch %d: loss = %.4e' % (i+1, loss))

  loss = F.mse_loss(y_hat, y)


Epoch 10000: loss = 1.0022e+01
Epoch 20000: loss = 9.2713e+00
Epoch 30000: loss = 9.0126e+00
Epoch 40000: loss = 8.8279e+00
Epoch 50000: loss = 8.6944e+00
Epoch 60000: loss = 8.5939e+00
Epoch 70000: loss = 8.5118e+00
Epoch 80000: loss = 8.4524e+00
Epoch 90000: loss = 8.3992e+00
Epoch 100000: loss = 8.3428e+00
Epoch 110000: loss = 8.2946e+00
Epoch 120000: loss = 8.2022e+00
Epoch 130000: loss = 8.0899e+00
Epoch 140000: loss = 8.0530e+00
Epoch 150000: loss = 7.9715e+00
Epoch 160000: loss = 7.7899e+00
Epoch 170000: loss = 7.6288e+00
Epoch 180000: loss = 7.4861e+00
Epoch 190000: loss = 7.3655e+00
Epoch 200000: loss = 7.2679e+00


### 결과 확인

In [10]:
df = pd.DataFrame(torch.cat([y, y_hat], dim = 1).detach().numpy(), columns = ["y", "y_hat"])
sns.pairplot(df, height = 5)
plt.show()

ValueError: Shape of passed values is (506, 14), indices imply (506, 2)

In [11]:
y_hat.shape

torch.Size([506, 13])

In [12]:
y.shape

torch.Size([506, 1])