In [28]:
# 딥러닝을 구동하는 데 필요한 케라스 함수 호출
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
# 필요한 라이브러리 불러오기
import numpy as np
import tensorflow as tf

In [29]:
# 실행할 때마다 같은 결과를 출력하기 위해 설정하는 부분
np.random.seed(3)
tf.random.set_seed(3)

`np.loadtxt(경로, delimiter)` : numpy에서 파일을 읽기 위한 함수

 - `delimiter`: delimiter는 구분자

폴란드의 브로츠와프 의과대학에서 2013년 공개한 폐암 수술 환자들의 

수술 전 진단 데이터와 수술 후 생존 결과를 기록한 실제 의료 기록 데이터.


- 하나의 행: 한 명의 환자 (총 470명)
- 앞의 17개 정보는 종양의 유형, 폐활량, 호흡 곤란 여부, 고통 정도, 기침, 흡연, 천식 여부 등 
- 마지막 1개 정보는 수술 후 생존 결과. 1 생존/0 사망


> 이번 학습의 목표: 1번째부터 17번째까지의 항목을 분석하여 18번째 항목, 즉 수술 후 생존 또는 사망을 맞히기

In [30]:
# 준비된 수술 환자 데이터를 불러오기
# 해당 csv 파일을 메모장으로 열어보면 ,로 구분되어 있다
Data_set = np.loadtxt("/content/data/1029-4-ThoraricSurgery.csv", delimiter=",")
Data_set

array([[293.  ,   1.  ,   3.8 , ...,   0.  ,  62.  ,   0.  ],
       [  1.  ,   2.  ,   2.88, ...,   0.  ,  60.  ,   0.  ],
       [  8.  ,   2.  ,   3.19, ...,   0.  ,  66.  ,   1.  ],
       ...,
       [406.  ,   6.  ,   5.36, ...,   0.  ,  62.  ,   0.  ],
       [ 25.  ,   8.  ,   4.32, ...,   0.  ,  58.  ,   1.  ],
       [447.  ,   8.  ,   5.2 , ...,   0.  ,  49.  ,   0.  ]])

- X = Data_set[:,0:17] : 전체 환자에 대하여(:) 0부터 17번까지의 속성 (결과를 도출하기 위한 값)
- Y = Data_set[:,17] : 전체 환자에 대하여(:) 18번째 속성. 즉 생존여부

In [31]:
# 환자의 기록과 수술 결과를 X와 Y로 구분하여 저장
X = Data_set[:,0:17]
Y = Data_set[:,17]
# X
# Y

`Sequential()` 함수: 딥러닝의 구조를 한 층 한 층 쉽게 쌓아올릴 수 있게 해 줌. 

Sequential() 함수를 선언하고 model.add() 함수로 필요한 층을 차례로 추가할 수 있음.

### keras 핵심 메서드

```python
- Sequential()
   입력층, 은닉층, 출력층처럼 순차적인 모델의 집합을 구성하기 위해 사용. Sequential()을 model로 선언한 뒤에 model.add()라는 코드를 통해 층을 단계적으로 추가합니다.

- add()
층을 추가하는 메서드

- Dense()
모든 노드들이 모두 결합된 전결합층(fully-conntected layer)을 추가하는 메서드
  첫번째 인자 = 출력 뉴런의 수.
  input_dim = 입력 뉴런의 수. (입력의 차원)
  activation = 활성화 함수.
      - linear : 디폴트 값으로 별도 활성화 함수 없이 입력 뉴런과 가중치의 계산 결과 그대로 출력. Ex) 선형 회귀
      - sigmoid : 시그모이드 함수. 이진 분류 문제에서 출력층에 주로 사용되는 활성화 함수.
      - softmax : 소프트맥스 함수. 셋 이상을 분류하는 다중 클래스 분류 문제에서 출력층에 주로 사용되는 활성화 함수.
      - relu : 렐루 함수. 은닉층에 주로 사용되는 활성화 함수.

```

In [32]:
# 딥러닝 구조를 결정(모델을 설정하고 실행)
model = Sequential()
model.add(Dense(30, input_dim=17, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

모델을 훈련하기 전에 필요한 몇 가지 설정(어떻게 학습할 것인가)이 모델 *컴파일* 단계에서 추가됩니다:

* *손실 함수*(Loss function)-훈련 하는 동안 모델의 오차를 측정합니다. 모델의 학습이 올바른 방향으로 향하도록 이 함수를 최소화해야 합니다.
* *옵티마이저*(Optimizer)-데이터와 손실 함수를 바탕으로 모델의 업데이트 방법을 결정합니다.
* *지표*(Metrics)-훈련 단계와 테스트 단계를 모니터링하기 위해 사용합니다. 다음 예에서는 올바르게 분류된 이미지의 비율인 *정확도*를 사용합니다.

In [33]:
# 모델 컴파일
model.compile(loss='mean_squared_error', optimizer='adam', metrics=['accuracy'])

model.fit 메서드를 호출하면 모델이 훈련 데이터를 학습

> `model.fit()`에 대한 너무 좋은 글

https://tykimos.github.io/2017/03/25/Fit_Talk/

In [34]:
# 딥러닝 훈련
model.fit(X, Y, epochs=100, batch_size=10)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x7fa90222ec18>

결론: 이 regression model에 새로운 환자의 정보를 입력하면 이 환자의 수술 후 생존율을 86% 이상 맞힌다