---
## [비교] 사이킷런 모델과 케라스 모델

#### [ 사이킷런]
    1- 모델    sc = SGDClassifier( loss='log', max_iter=5 )
                                log : 손실함수, 반복횟수 5번
    2- 훈련    sc.fit( train_scaled, train_target )
    3- 평가    sc.score( test_scaled, test_target ) 
    
#### [ 케라스 ]  
               dense = keras.layers.Dense( 10, activation='softmax', input_shape=(784,))
    1- 모델    model = keras.Sequential(dense)
               model.compile( loss='sparse_categorial_crossentropy', metrics='accuracy')
                                 sparse_categorial_crossentropy : 손실함수
    2- 훈련    model.fit( train_scaled, train_target, epochs=5 )
                                                      반복횟수 : 5
    3- 평가    model.evaluate( test_scaled, test_target )



---

##  [  모델 구동  절차 ]

0. 데이타 전처리

1. 모델 생성
   - model = Sequential() 
   - 딥러닝의 구조를 짜고 층을 설정하는 부분입니다. 

2. 모델 컴파일
     - model.compile() 
     - 위에서 정해진 모델을 컴퓨터가 알아들을 수 있게끔 컴파일 하는 부분입니다. 

3. 모델 훈련
    - model.fit()
    - 모델을 실제로 수행하는 부분입니다. 
    
4. 모델 검증

5. 모델 예측



---


## (0) 데이타처리

+ 주어진 폐암 수술 환자의 생존 여부 데이터는 총 470명의 환자에게서 17개의 정보를 정리한 것입니다.
+ 각 정보를 ‘속성’이라고 부릅니다. 그리고 생존 여부를 클래스, 가로 한 줄에 해당하는 각 환자의 정보를 각각 ‘샘플’이라고 합니다. 
+ 주어진 데이터에는 총 470개의 샘플이 각각 17개씩의 속성을 가지고 있는 것입니다.

<img src='./imgs/model3.PNG' width='500'/>



In [None]:
import numpy as np
import tensorflow as tf

np.random.seed(3)
tf.random.set_seed(3)
  
# 준비된 수술 환자 데이터를 불러옴
data_set = np.loadtxt("./dataset/ThoraricSurgery.csv", delimiter=",")
  
# 환자의 기록과 수술 결과를 X와 Y로 구분하여 저장
X = data_set[:,0:17]
Y = data_set[:,17]

print(X[0])   # 17 개 항목
print(Y[0])   # 결과

## (1) 모델 생성

In [None]:

# [1]  모델 생성 - 리스트형



# [2]  모델 생성 - add 함수



# [참고] 모델 요약




<img src='./imgs/model1.PNG' width='400'/>

- 이제 Dense(30, input_dim=17, activation='relu') 부분을 더 살펴보겠습니다. 
- 30이라고 되어 있는 것은 이 층에 30개의 노드를 만들겠다는 것입니다. 
- input_dim이라는 변수가 나옵니다. 이는 입력 데이터에서 몇 개의 값을 가져올지를 정하는 것입니다. 
- keras는 입력층을 따로 만드는 것이 아니라, 첫 번째 은닉층에 input_dim을 적어 줌으로써 첫 번째 Dense가 은닉층 + 입력층의 역할을 겸합니다. 
- 우리가 다루고 있는 폐암 수술 환자의 생존 여부 데이터에는 17개의 입력 값들이 있습니다. 따라서 데이터에서 17개의 값을 받아 은닉층의 30개 노드로 보낸다는 뜻입니다.



    + 17개 입력데이타가 30개의 노드로 들어가니 17 * 30 이고 30 개에서 다시 하나의 출력층으로 가니 30을 더해
        17 * 30 + 30 -> 540
    + 30개의 노드에서 하나의 출력층으로 들어오고 하나의 출력층에서 나오니 30 + 1 -> 31

---

## (2) 모델 컴파일



##### - model.compile 부분은 앞서 지정한 모델이 효과적으로 구현될 수 있게 여러 가지 환경을 설정해 주면서 컴파일하는 부분입니다. 
##### - loss : 한 번 신경망이 실행될 때마다 오차 값을 추적하는 함수
##### - optimizer : 오차를 어떻게 줄여 나갈지 정하는 함수


   - 옵티마이저 : https://www.tensorflow.org/api_docs/python/tf/keras/optimizers
   - 손실함수 :  https://www.tensorflow.org/api_docs/python/tf/keras/losses
   - 평가함수 :  https://www.tensorflow.org/api_docs/python/tf/keras/metrics



- 먼저 어떤 오차 함수를 사용할지를 정해야 합니다. 여기서는 평균 제곱 오차 함수(mean_squared_error)를 사용했습니다.
- 그런데 경우에 따라서는 오차 함수를 바꾸면 더 좋은 효과를 나타내기도 합니다. 오차 함수에는 평균 제곱 오차 계열의 함수 외에도 교차 엔트로피 계열의 함수가 있습니다
- 교차 엔트로피는 주로 분류 문제에서 많이 사용되는데, 특별히 예측 값이 참과 거짓 둘 중 하나인 형식일 때는 binary_crossentropy(이항 교차 엔트로피)를 씁니다. 지금 구하고자 하는 것은 생존(1) 또는 사망(0) 둘 중 하나이므로 binary_crossentropy를 사용할 수 있는 좋은 예라고 할 수 있습니다.

#### 교차엔트로피
<img src='./imgs/model2.PNG' width='500'/>

---

## (3) 모델 학습

In [None]:
# 실행할 때마다 같은 결과를 출력하기 위해 설정하는 부분





+ 주어진 폐암 수술 환자의 생존 여부 데이터는 총 470명의 환자에게서 17개의 정보를 정리한 것입니다.
+ 각 정보를 ‘속성’이라고 부릅니다. 그리고 생존 여부를 클래스, 가로 한 줄에 해당하는 각 환자의 정보를 각각 ‘샘플’이라고 합니다. 
+ 주어진 데이터에는 총 470개의 샘플이 각각 17개씩의 속성을 가지고 있는 것입니다.

<img src='./imgs/model3.PNG' width='500'/>


+ 학습 프로세스가 모든 샘플에 대해 한 번 실행되는 것을 1 epoch(‘에포크’라고 읽습니다)라고 합니다. 
+ 코드에서 epochs=100으로 지정한 것은 각 샘플이 처음부터 끝까지 100번 재사용될 때까지 실행을 반복하라는 뜻입니다.

+ batch_size는 샘플을 한 번에 몇 개씩 처리할지를 정하는 부분으로 batch_size=10은 전체 470개의 샘플을 10개씩 끊어서 집어넣으라는 뜻이 됩니다. 
+ batch_size가 너무 크면 학습 속도가 느려지고, 너무 작으면 각 실행 값의 편차가 생겨서 전체 결괏값이 불안정해질 수 있습니다. 따라서 자신의 컴퓨터 메모리가 감당할 만큼의 batch_size를 찾아 설정해 주는 것이 좋습니다.

---
## (4) 결과

+ 정확도(accuracy) 83%

In [None]:
# 결과를 출력





---
## (5) 예측

+ 마지막 데이타로 확인

447	8	5.2	4.1	0	0	0	0	0	0	12	0	0	0	0	0	49               0 (사망)


In [None]:
pre_x = [[447,8,5.2,4.1,0,0,0,0,0,0,12,0,0,0,0,0,49]]




## 예측결과

0에 가까움