# 2020.05.23 머신러닝 알고리즘 스터디
# Neural Network (NN), Artificial Neural Network (ANN)
# 신경망, 인공신경망

## Connect to Google Drive

In [0]:
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)
import sys
sys.path.append("/content/gdrive/My Drive/Colab Notebooks")

Mounted at /content/gdrive


## 1. 개요

### 1-1. 생물학적인 뉴런

- 인간의 뇌 : 1000억 개가 넘는 신경세포 (뉴런) 가 100조 개 이상의 시냅스를 통해 병렬적으로 연결되어 있다.
- 각각의 뉴런은 수상돌기 (Dendrite) 를 통해 다른 뉴런에서 입력 신호를 받아서 축색돌기 (Axon)를 통해 다른 뉴런으로 신호를 내보낸다.
- 시냅스 (Synapse)는 뉴런과 뉴런을 연결하는 역할을 한다.
- 출력신호는 입력된 신호가 모여서 일정한 용량을 넘어설 때 일어난다.
- 즉, 신경세포는 시냅스를 거쳐 수상돌기 (dendrite)로 받아들인 외부의 전달물질을 세포체에 저장하다가, 자신의 용량을 넘어서면 축색돌기 (Axon)를 통해 외부의 전달물질을 내보낸다.

![alt text](https://drive.google.com/uc?id=17mthmy_-LuJSaG9khYwru2XX253QfuAQ)

### 1-2. 인공신경망 뉴런

- 생물학적인 뉴런을 수학적으로 모델링한 것.
- 여러 입력값을 받아, 일정 수준이 넘어서면 활성화되어 출력값을 내보낸다.

![alt text](https://drive.google.com/uc?id=1wSkkZePc79G_z6Zcriiuy7qvMKq4OUfF)

- x1, x2, x3: 뉴런의 수상돌기 (Dendrite) 역할
- 활성화 함수 또한 일정 값을 넘어서면 1, 그 이하는 0 값을 출력하기 위해 시그모이드 (Sigmoid function) 를 사용한다.
- Sigmoid Function은 활성화 함수로 많이 사용되었으며, 0.5 이상의 값은 1, 0.5 미만의 값은 0에 대응되도록 한다.

## 2. 동작

## 3. 종류

![alt text](https://drive.google.com/uc?id=1WtVYzMpJ4rATY1U0mdHbmu3WiccKbAbF)
![alt text](https://drive.google.com/uc?id=1mPr_pWw4q1DijFjAznfj4e6Tua1rbt_d)

### 3-1. Deep Feedforward Network (DFN)

- 가장 기본적으로 이용되는 인공신경망
- 입력층, 은닉층, 출력층으로 구성.
- 입력되었던 데이터들의 정보는 저장되지 않음.
- 문제점: 입력 순서에 따라 데이터 간의 종속성이 존재하는 시계열 데이터를 처리하는 데 한계점이 존재한다.

![alt text](https://drive.google.com/uc?id=1wMTQoiBFKEyT69nqC_eUJsNrq9c-GP8i)

### 3-2. Recurrent Neural Network (RNN)
- 시계열 데이터( EX. 문자열 및 센서 데이터) 와 같이 시간적으로 연속성이 있는 데이터 처리.
- 은닉층의 각 뉴런에 순환 (recurrent) 연결을 추가하여 이전 시간에 입력된 데이터에 대한 은닉층의 출력을 현재 시간의 데이터를 예측할 때 다시 은닉층 뉴런에 입력한다.
- 문제점: 오랜 시간에 걸쳐 경향성이 나타나는 데이터를 학습할 때 gradient가 비정상적으로 감소하거나 증가하는 vanishing / exploding gradient problem이 발생한다.

![alt text](https://drive.google.com/uc?id=1jhY30GQmVLCOnTLgW_pL1L995poD1bWH)

### 3-3. Long Short-Term Memory (LSTM)
- RNN에서 발생하는 vanishing / exploding gradient problem 해결하기 위해 제안.
- forget gate, input gate, output gate라는 새로운 요소를 은닉층의 각 뉴런에 추가.
- Forget gate: 과거의 정보를 어느정도 기억할지 결정한다. 과거의 정보와 현재 데이터를 입력받아 sigmoid 취한 뒤에 그 값을 과거의 정보에 곱한다.
- input gate: 현재의 정보를 기억하기 위해 만들어졌다.
- output gate: 과거의 정보와 현재 데이터를 이용하여 뉴런의 출력을 결정한다.

![alt text](https://drive.google.com/uc?id=1MvkliW3PjrHdk5z4QQjZGV6SFGVDrr_j)

### 3-4. Autoencoder
- 비지도 학습 (unsupervised learning)을 기반으로 학습된다.
- 입력층, 은닉층, 출력층을 거쳐 입력 데이터가 그대로 다시 출력되도록 동작한다.
- autoencoder는 은닉층의 출력을 이용하는 데 목적이 있다.
- Data compression: 은닉층 뉴런의 수를 입력층이나 출력층 뉴런의 수보다 작게 설정하기 때문에 은닉층의 출력은 입력 데이터에 대한 압축 데이터로 볼 수 있다.
- Latent representation: 은닉층은 그 자체로 입력 데이터를 잘 표현하기 위한 새로운 공간을 형성하기 때문에, 은닉층의 출력은 입력 데이터에 대한 latent representation으로 활용될 수 있다.

![alt text](https://drive.google.com/uc?id=1d-MvU4pSfyev4tGNZGXflX5JqvzvEZWr)

### 3-5. Variational Autoencoder (VAE)
- 기존 Autoencoder 에 확률 개념을 추가한 모델.
- 입력 데이터의 확률 분포를 근사하기 위해 학습이 진행.
- 입력 데이터를 생성하는 확률 분포의 확률밀도함수를 학습한다. 
- 이 과정에서 VAE는 계산 및 학습의 편의성, 범용성 등을 위해 입력 데이터의 확률 분포를 Gaussian이라고 가정한다.
- VAE는 Generative model로도 활용할 수 있다.

![alt text](https://drive.google.com/uc?id=1hYpUDAk2tLcOTaRpRfIfKyIoChMLmoEx)

### 3-6. Convolutional Neural Network (CNN)
- 뉴런들이 느슨하게 연결되어 있다.
- DFN 이나 RNN에 비해 학습해야 하는 가중치의 수가 적다.
- 학습 및 예측이 빠르다.

![alt text](https://drive.google.com/uc?id=1GCQ8CTnp9FO0ldBUhQijz4qBVqgQSMlu)

## Reference



- https://brunch.co.kr/@gdhan/6
- https://untitledtblog.tistory.com/154