## 첫 번째 딥러닝 예제 : 폐암 수술 환자의 생존율 예측

### 폐암 수술 환자의 생존율 예측
(1) 데이터 준비  
- 독립변수(피처) : 환자 수술 진행 시, 검사 데이터
- 종속변수(타겟) : 생존 여부 
(2) 딥러닝 모델 설정
- 인공신경망 모델
(3) 모델 컴파일  
(4) 모델 실행 (학습)  
(5) 평가  

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [2]:
import numpy as np
import pandas as pd

In [3]:
import warnings
warnings.filterwarnings(action='ignore')

In [10]:
# 준비된 수술 환자 데이터를 불러 오기(폐암수술환자 생존여부)
# numpy함수 : loadtxt() >> csv 파일은 txt
data_set = np.loadtxt("./data/ThoraricSurgery.csv", delimiter=",")
data_set.shape
data_set[:3] # 현재 2차원 배열 형태 >> 2D 텐서로 바꿔야함

(470, 18)

array([[293.  ,   1.  ,   3.8 ,   2.8 ,   0.  ,   0.  ,   0.  ,   0.  ,
          0.  ,   0.  ,  12.  ,   0.  ,   0.  ,   0.  ,   1.  ,   0.  ,
         62.  ,   0.  ],
       [  1.  ,   2.  ,   2.88,   2.16,   1.  ,   0.  ,   0.  ,   0.  ,
          1.  ,   1.  ,  14.  ,   0.  ,   0.  ,   0.  ,   1.  ,   0.  ,
         60.  ,   0.  ],
       [  8.  ,   2.  ,   3.19,   2.5 ,   1.  ,   0.  ,   0.  ,   0.  ,
          1.  ,   0.  ,  11.  ,   0.  ,   0.  ,   1.  ,   1.  ,   0.  ,
         66.  ,   1.  ]])

### 1개 층으로 구성된 예측 모델

In [11]:
# (1) 환자 기록 : 수치
# (2) 생존 여부 : 마지막 값 
feature = data_set[:, :-1]
label = data_set[:,-1]

In [12]:
feature.shape
label.shape

(470, 17)

(470,)

In [13]:
# 가상환경에서 pip install scikit-learn

In [14]:
# 데이터 분리 : 학습 / 테스트용 데이터 세트로 분리
# train_test_split() : 0.3

from sklearn.model_selection import train_test_split

X_train , X_test , y_train , y_test = train_test_split(feature,
                                                       label,
                                                       test_size=0.3, 
                                                       random_state=42)

In [15]:
X_train.shape
X_test.shape
y_train.shape
y_test.shape

(329, 17)

(141, 17)

(329,)

(141,)

In [16]:
type(X_train)
type(X_test)

numpy.ndarray

numpy.ndarray

In [17]:
y_test

array([0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 0., 0., 1.,
       0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 1.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 1., 1.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 1.,
       0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 1., 0.,
       0., 1., 0., 0., 1.])

In [19]:
import tensorflow as tf
from tensorflow import keras
from keras.models import Sequential # 신경망 프레임 모듈
from keras.layers import Dense # 신경망 층 정의 모듈

In [30]:
# 실행할 때마다 같은 결과를 출력하기 위해 설정
np.random.seed(3)

model = Sequential()

# 1개 층 구성 : 
# 이진분류 >> 1개 unit, ====== units=1
# 입력정보(피처수 17개), ====== input_shape=(17, ) or input_dim=17
# 확률값 변환 활성화 함수 sigmoid 사용 예정 ====== activation="sigmoid"
model.add(Dense(units=1, input_shape=(17, ), activation="sigmoid"))
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
model.fit(x=X_train, y=y_train, batch_size=10, epochs=200)

Epoch 1/200
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.1869 - loss: 10.0935   
Epoch 2/200
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.3626 - loss: 3.2611 
Epoch 3/200
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6133 - loss: 1.6146 
Epoch 4/200
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.7087 - loss: 1.3647 
Epoch 5/200
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.7270 - loss: 1.4028 
Epoch 6/200
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.6918 - loss: 1.6245 
Epoch 7/200
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.6932 - loss: 1.4131 
Epoch 8/200
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.6972 - loss: 1.3696 
Epoch 9/200
[1m33/33[0m [32m━━━━━━

<keras.src.callbacks.history.History at 0x21285571ca0>

In [31]:
print("score :", model.evaluate(X_test, y_test))

[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.8376 - loss: 0.4272  
score : [0.4573837220668793, 0.8226950168609619]


In [24]:
model.summary()

### 2개 층으로 구성된 예측 모델

In [34]:
# 실행할 때마다 같은 결과를 출력하기 위해 설정
np.random.seed(3)

model2 = Sequential()

# 1개 층 구성 : 
# 이진분류 >> 1개 unit, ====== units=1
# 입력정보(피처수 17개), ====== input_shape=(17, ) or input_dim=17
# 확률값 변환 활성화 함수 sigmoid 사용 예정 ====== activation="sigmoid"
model2.add(Dense(units=30, input_shape=(17, ), activation="relu"))
model2.add(Dense(units=1, activation="sigmoid"))

model2.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])

model2.fit(x=X_train, y=y_train, batch_size=10, epochs=100, verbose=1)

Epoch 1/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.6988 - loss: 2.0776   
Epoch 2/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.8081 - loss: 0.8069 
Epoch 3/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.8343 - loss: 0.6820 
Epoch 4/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.8226 - loss: 0.5272 
Epoch 5/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.8807 - loss: 0.3889 
Epoch 6/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.8252 - loss: 0.5500 
Epoch 7/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.8589 - loss: 0.4078 
Epoch 8/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.8588 - loss: 0.4121 
Epoch 9/100
[1m33/33[0m [32m━━━━━━━

<keras.src.callbacks.history.History at 0x21286fcdf10>

In [36]:
model2.evaluate(X_test, y_test)

[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step - accuracy: 0.7920 - loss: 0.4958  


[0.5416486859321594, 0.7730496525764465]

In [38]:
model2.summary()
# 첫번째 층 : (17feature + 1절편)*30units = 540 개의 학습 파라미터
# 두번째 층 : (30feature + 1절편)*1unit = 31 개의 학습 파라미터
# 총 571개의 파라미터를 사용함
# 샘플이 329인데 반해 너무 많은 파라미터를 발생시켜서 사용함