데이터를 입력하고 분석하는 과정을 training이라고한다. 텅빈 좌표평면에 data를 하나씩 놓는 과정이다. 이 data들을 분류하는 과정을 training하여 분류 경계선을 찾는 것이 machine learning의 목표다

환자의 dataset을 보면
1~17번째까지는 분석하고, 그 분석 데이터를 기반으로 18번째 항목을 분류(문제풀이)하는 것이다.

여기서 18번째를 class, 1~17를 attribute라고 한다.

Sequential()은 deeplearning의 각 layer를 차례로 쌓을 수 있게 해준다.
model.add()를 이용해 필요한 layer를 쌓는다.
Dense()는 각 layer의 특성을 결정한다.
compile()을 통해 딥러닝을 실행한다.

딥러닝 모델을 설정하고 구동하는 것은 `model = Sequential()`로 함수를 선언하면서 시작한다.
`model.compile()`은 층을 쌓은 모델을 기계어로 컴파일하는 부분.
`model.fit()`은 모델을 가동해서 학습을 실시하는 부분.

`model.compile()`의 오차함수를 나타내 주자면
평균 제곱오차 함수
mean_squared_error
mean_absolute_error
mean_absolute_percentage_error
mean_absolute_logarithmic_error
교차 엔트로피 함수
categorical_crossentropy
binary_crossentropy

등이 있다.

실행 때마다 같은 가중치를 받게하기 위해
variable 객제를 생성하기 전에 다음과 같은 code를 붙인다.
```
np.random.seed(3)
tf.random.set_seed(3)
```


참고할만한 사이트

개발 블로그
https://junstar92.tistory.com/98

스택오버플로
https://stackoverflow.com/questions/36288235/how-to-get-stable-results-with-tensorflow-setting-random-seed

텐서플로우 set_seed 공식문서
https://www.tensorflow.org/api_docs/python/tf/random/set_seed?hl=ko

In [1]:
# 파일 선택을 통해 예제 데이터를 내 컴퓨터에서 불러옵니다.
from google.colab import files
uploaded = files.upload()
my_data = 'ThoraricSurgery.csv'

# 딥러닝을 구동하는 데 필요한 케라스 함수를 불러옵니다.
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
# 라이브러리 소환시 import를 사용한다

# 필요한 라이브러리를 불러옵니다.
import numpy as np
import tensorflow as tf
# 라이브러리 소환시 import를 사용한다

# 실행할 때마다 같은 결과를 출력하기 위해 설정하는 부분입니다.
np.random.seed(3)
tf.random.set_seed(3)

# 불러온 데이터를 적용합니다.
Data_set = np.loadtxt(my_data, delimiter=",")

# 환자의 기록과 수술 결과를 X와 Y로 구분하여 저장합니다.
# [row, column] 형식을 따른다.
X = Data_set[:,0:17]
Y = Data_set[:,17]
# 세로줄(1~470)은 전체, 가로줄(1~18)은 니눠서 dataset생성한다.

# 딥러닝 구조를 결정합니다(모델을 설정하고 실행하는 부분입니다).
# model.add() 딥러닝 모델에 새로운 층을 추가한다.
# 이를 통해서 추가되는 층은 마지막 층을 제외하면 모두 은닉층으로 처리된다.
# 맨 처음 Dense는 은닉층과 입력층의 기능을 동시에 하게 된다.
model = Sequential()
# Dense(30, input_dim=17, activation='relu')는 30개의 노드, input_dim은 입력층 노드의 개수, activation은 사용할 활성화 함수를 지정
model.add(Dense(30, input_dim=17, activation='relu'))
# Dense(1, activation='sigmoid')는 출력층. 출력층의 노드의 수는 1, 입력층은 아니므로 input_dim은 지정하지 않고, activation은 sigmoid로 지정
model.add(Dense(1, activation='sigmoid'))

# 딥러닝을 실행합니다.
# compile()에서 딥러닝의 여러가지 환경을 설정할 수 있다.
# loss(오차함수)는 평균제곱오차, 최적화함수(경사하강법)는 adam, metrics는 모델 컴파일 시 모델 수행 결과를 출력하게끔 설정하는 부분.
# metrics는 테스트 샘플을 학습과정에서 제외시킴으로써 과적합 문제를 방지하는 기능을 담고 있다.(?)
# 평균제곱오차함수는 수렴하기까지 속도가 오래 걸리므로 교차 엔트로피 계열의 함수를 통해서 빠르게 수렴할 수 있도록 할 수 있다.
# 이경우 model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])로 바꾸면 된다.
model.compile(loss='mean_squared_error', optimizer='adam', metrics=['accuracy'])
# 주어진 데이터를 불러 실행
# X가 속성(혹은 feature), Y가 클래스, 100회 반복, 1회 시행시 샘플(혹은 instance) 개수 10개
# batch_size는 너무크면 학습 속도가 느리고 너무 작으면 실행 값의 편차가 크다.
model.fit(X, Y, epochs=100, batch_size=10)


Saving ThoraricSurgery.csv to ThoraricSurgery.csv
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/1

<tensorflow.python.keras.callbacks.History at 0x7f0190643d90>