### 목표
- 폐암환자의 생존을 예측하는 모델을 만들어보자!
- 신경망을 활용하여 2진분류 문제를 해결해보자!

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
data = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/data/ThoraricSurgery.csv", header=None)
# header : 데이터프레임에서 컬럼명을 설정해주는 함수 (None: 인덱스 번호로 출력됨)
data

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17
0,293,1,3.80,2.80,0,0,0,0,0,0,12,0,0,0,1,0,62,0
1,1,2,2.88,2.16,1,0,0,0,1,1,14,0,0,0,1,0,60,0
2,8,2,3.19,2.50,1,0,0,0,1,0,11,0,0,1,1,0,66,1
3,14,2,3.98,3.06,2,0,0,0,1,1,14,0,0,0,1,0,80,1
4,17,2,2.21,1.88,0,0,1,0,0,0,12,0,0,0,1,0,56,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
465,98,6,3.04,2.40,2,0,0,0,1,0,11,0,0,0,1,0,76,0
466,369,6,3.88,2.72,1,0,0,0,1,0,12,0,0,0,1,0,77,0
467,406,6,5.36,3.96,1,0,0,0,1,0,12,0,0,0,0,0,62,0
468,25,8,4.32,3.20,0,0,0,0,0,0,11,0,0,0,0,0,58,1


In [None]:
X = data.drop(17, axis = 1)
y = data[17]

In [None]:
X

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
0,293,1,3.80,2.80,0,0,0,0,0,0,12,0,0,0,1,0,62
1,1,2,2.88,2.16,1,0,0,0,1,1,14,0,0,0,1,0,60
2,8,2,3.19,2.50,1,0,0,0,1,0,11,0,0,1,1,0,66
3,14,2,3.98,3.06,2,0,0,0,1,1,14,0,0,0,1,0,80
4,17,2,2.21,1.88,0,0,1,0,0,0,12,0,0,0,1,0,56
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
465,98,6,3.04,2.40,2,0,0,0,1,0,11,0,0,0,1,0,76
466,369,6,3.88,2.72,1,0,0,0,1,0,12,0,0,0,1,0,77
467,406,6,5.36,3.96,1,0,0,0,1,0,12,0,0,0,0,0,62
468,25,8,4.32,3.20,0,0,0,0,0,0,11,0,0,0,0,0,58


In [None]:
X.shape

(470, 17)

In [None]:
y.shape

(470,)

keras를 활용하여 딥러닝 신경망을 구성해보자
- 1. 신경망 구조 설계
- 2. 학습/평가 방법 설정
- 3. 학습(fit)

In [None]:
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense

In [None]:
# 1. 신경망 구조 설계
model = Sequential()

# 입력층
model.add(Dense(20, input_dim=17, activation="sigmoid"))

# 중간층
model.add(Dense(10, activation="sigmoid"))
model.add(Dense(5, activation="sigmoid"))
model.add(Dense(3, activation="sigmoid"))

# 출력층
model.add(Dense(1, activation="sigmoid"))

# summary() : 신경망의 층별, 전체 정보를 요약해서 표시
model.summary()

# 17->10->5->3->1

### activation(활성화 함수)
1. 회귀 : linear(항등함수, y=x) -> 신경망에서
도출된 수치값을 그대로 예측에 사용한다.
- 제어의 역할은 하지 못함, 활성화 함수의 디폴트 값
- 회귀때는 보통 안씀

2. 분류: 딥러닝은 선형 모델을 기반으로 하기 때문에 여기서 도출된 수치값으로는 분류 문제를 예측하기 힘듬
- 분류 모델은 확률 정보를 가지고 판단하는 것이 더욱 정확
- 이진 분류: sigmoid -> 0또는 1로 분류 (0.5기준으로 판단)
- step function보다 좀 더 정밀하게 판단이 가능

In [None]:
# 2. 학습/평가 방법 설정
# binary_crossentropy: 2진 분류에 사용하는 손실함수(비용함수)
# - 오차의 평균을 구하는 것은 mse와 같지만 0-1사이 값으로 변환 후 평균 오차를 구하는 방식
# optimizer = 최적화 도구: 비용함수를 최소화시키기 위해 w,b값들을 조정해주는 도구 (경사하강법의 방식을 설정)
model.compile(loss="binary_crossentropy",
              optimizer="SGD",
              metrics=["acc"] # 분류 지표: 정확도
              )

#### loss function(손실 함수=비용함수)
- 1. 회귀: mse
- 2. 2진 분류 : binary_crossentropy

#### optimizer(최적화함수, 경사하강법의 방식을 설정)

#### metrics: 평가 방법을 설정 (분류는 acc)

In [None]:
# 3. 학습
model.fit(X, y, epochs =100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x7ff67367c518>

In [None]:
model.predict(X.iloc[:5, :])

array([[0.14771065],
       [0.16054946],
       [0.16054988],
       [0.1605503 ],
       [0.16048825]], dtype=float32)