In [None]:
# 데이터 적재 - 폐암 수술 환자의 의료 기록과 1년 후 사망 여부
# 종양의 유형, 폐활량, 호흡 곤란 여부, 고통 정도, 기침, 흡연, 천식 여부 등 16가지 환자 상태를 조사해서 기록
# 수술 1년 후의 생존 결과

In [None]:
# 은닉층 갯수, 은닉층 노드 갯수, activation, epochs, batch_size 조합으로 모델 디자인

In [2]:
# 텐서플로 라이브러리 안에 있는 케라스 API에서 필요한 함수들을 불러옵니다.
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 데이터를 다루는 데 필요한 라이브러리를 불러옵니다.
import numpy as np

# 준비된 수술 환자 데이터를 불러옵니다.
Data_set = np.loadtxt("data/ThoraricSurgery3.csv", delimiter=",") 

X = Data_set[:,0:16]  # 환자의 진찰 기록을 X로 지정합니다.
y = Data_set[:,16]    # 수술 1년 후 사망/생존 여부를 y로 지정합니다.

# 딥러닝 모델의 구조를 결정합니다.
# 딥러닝의 모델을 설정하고 구동하는 부분
# 딥러닝의 구조를 짜고 층을 설정하는 부분
# 딥러닝이란 입력층과 출력층 사이에 은닉층들을 차곡차곡 추가하면서 학습시키는 것임
# 케라스에서는 Sequential() 함수를 통해 쉽게 구현
# 맨 마지막 층은 결과를 출력하는 ‘출력층’이 됩니다. 나머지는 모두 ‘은닉층’의 역할을 합
model = Sequential()

# Dense() 함수의 첫 번째 인자에 몇 개의 노드를 이 층에 만들 것인지 숫자를 적어 줍니다. 
# 노드란 앞서 소개된 ‘가중합’에 해당하는 것으로 
# 이전 층에서 전달된 변수와 가중치, 바이어스가 하나로 모이게 되는 곳
# keras는 입력층을 따로 만드는 것이 아니라, 
# 첫 번째 은닉층에 input_dim을 적어 줌으로써 
# 첫 번째 Dense가 은닉층 + 입력층의 역할을 겸합니다. 
# 16 -> 30
model.add(Dense(30, input_dim=16, activation='relu'))
# 출력 값을 하나로 정해서 보여 주어야 하므로 출력층의 노드 수는 한 개
# 그리고 이 노드에서 입력받은 값은 활성화 함수를 거쳐 최종 출력 값으로 나와야 합니다. 
# 여기서는 활성화 함수로 시그모이드(sigmoid) 함수를 사용
model.add(Dense(1, activation='sigmoid'))

# 딥러닝 모델을 실행합니다.
# 앞에서 정한 모델을 컴퓨터가 알아들을 수 있게끔 컴파일하는 부분
# 앞서 지정한 모델이 효과적으로 구현될 수 있게 여러 가지 환경을 설정해 주면서 컴파일하는 부분
# loss : 어떤 오차 함수를 사용할지 정해야, 최적의 가중치를 학습하기 위해 필수적인 부분
# 선형 회귀 모델은 평균 제곱 계열(mean_squared_error, mean_absolute_error, 
#    mean_absolute_percentage_error, mean_squared_logarithmic_error) 중 하나를, 
# 이항 분류를 위해서는 binary_crossentropy를, 
# 그리고 다항 분류에서는 categorical_crossentropy를 사용
# optimizer : 학습률 변화에 사용할 알고리즘 지정
# metrics : 모델이 컴파일될 때 모델 수행의 결과를 나타내게끔 설정하는 부분
# 학습셋에 대한 손실 값을 나타내는 loss, 
# 테스트셋을 적용할 경우 테스트셋에 대한 정확도를 나타내는 val_acc, 
# 테스트셋에 대한 손실 값을 나타내는 val_loss 등을 사용가능
model.compile(loss='binary_crossentropy', optimizer='adam',
metrics=['accuracy'])

# 모델을 실제로 수행하는 부분
# 에포크 : 각 샘플이 처음부터 끝까지 다섯 번 재사용될 때까지 실행을 반복
# batch_size : 샘플을 한 번에 몇 개씩 처리할지 정하는 부분
# batch_size가 너무 크면 학습 속도가 느려지고, 
# 너무 작으면 각 실행 값의 편차가 생겨서 전체 결괏값이 불안정
history = model.fit(X, y, epochs=5, batch_size=16)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


### 손실함수loss function
* 손실함수loss function
* 비용cost함수라고도 함
* 신경망이 잘 학습하고 있는지를 나타내주는 지표
* 손실loss,비용cost은 출력값과 실제값 사이의 오차를 의미
* 신경망에서는 이것들이 최소화되도록 하는 과정이 학습임
* 따라서, 손실이 최소화된다는 것은 학습이 잘되고 있음을 의미
* 딥러닝에서 손실함수는 평균제곱오차MSE(회귀)와
* 교차엔트로피오차CEE(분류)를 사용함

### 학습최적화 방법
* 텐서플로에서는 optimizer로 설정
* 경사하강법SGD - 확률적 경사하강법 : 무작위 값을 대입
* 모멘텀        - SGD + 무작위값에 탄성을 부여 (정확도 개선)
* 아다그라드adagrad - 학습률에 탄성을 부여 (보폭크기 개선), 무작위값 대입 횟수를 조절
* RMSprop - adagrad의 보폭 민감도를 개선 (보폭크기 개선)
* Adam - 무작위값에 탄성부여, 학습률에도 탄성 부여, 즉, 정확도 개선 + 보폭크기 개선
    + keras.optimizer.Adam(lr=0.0001,beta_1=0.9, beta_2=0.9999, elpsilon=1e-08, decay=0.0)

### 활성화 함수의 중요성
* 입력값과 가중치의 곱의 합으로 나온 결과를 한번 더 정재하기 위한 목적의 함수
* 여러 노드가 보내주는 값을 적절하게 필터링해서 출력층으로 값을 보내줘야만 올바른 분석을 할 수 있는 결과 도출
* 활성화 함수의 종류
    + 시그모이드 : 초기 신경망에서 사용했던 활성화 함수, MLP 신경망에서 발생된 문제 때문에
      더이상 사용하지 않는 활성화 함수, 가중치 소멸문제 : vanishing gradient
    + tanh : 하이퍼블릭 탄첸트, 시그모이드 함수의 y값의 범위를 -1~1로 확장
      여전히 은닉층 수가 증가하면 가중치 소멸문제 발생
    + ReLu : 힌튼 교수가 제안 - 시그모이드 함수의 대안,
            x가 0보다 작으면 모든 값을 0으로, x가 0보다 크면 x값 그대로 사용
    + ReLu-6 : x가 0보다 크면 그대로 사용하되 6을 넘지 않도록 조정
    + softmax : 입력값에 대해 0 ~ 1사이의 값(확률)으로 출력하되
               출력값의 총합이 항상 1이 되도록 함,
               주로 범주형 데이터분석시 사용하는 활성화 함수