In [1]:
import numpy as np
import pandas as pd

import tensorflow as tf
from keras.models import Sequential
from keras.layers import Dense

from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

In [2]:
# 랜덤 시드값 설정.
# 텐서플로우에서 최초의 가중치와 바이어스를 랜덤하게 설정해서 시작.
# 랜덤 시드를 고정하면 예제를 실행할 때 마다 같은 패턴의 랜덤으로 설정할 수 있음.
# 앞으로 테스트 해보는 예제에서 모든 조건을 동일하게 맞추고 테스트 해야 정확한 테스트를 할 수 있기 때문에
# 가중치와 바이어스의 최초값을 항상 같은 값을 갖게하도록 설정함.
np.random.seed(3)
tf.random.set_seed(3)

In [3]:
# 데이터 불러오기.
df1 = pd.read_csv('data/ThoraricSurgery.csv')
df1.head()

Unnamed: 0,293,1,3.8,2.8,0,0.1,0.2,0.3,0.4,0.5,12,0.6,0.7,0.8,1.1,0.9,62,0.10
0,1,2,2.88,2.16,1,0,0,0,1,1,14,0,0,0,1,0,60,0
1,8,2,3.19,2.5,1,0,0,0,1,0,11,0,0,1,1,0,66,1
2,14,2,3.98,3.06,2,0,0,0,1,1,14,0,0,0,1,0,80,1
3,17,2,2.21,1.88,0,0,1,0,0,0,12,0,0,0,1,0,56,0
4,18,2,2.96,1.67,0,0,0,0,0,0,12,0,0,0,1,0,61,0


In [5]:
# 입력과 결과로 나눔.
x = df1.drop('0.10', axis=1)
y = df1['0.10']
display(x)
display(y)

Unnamed: 0,293,1,3.8,2.8,0,0.1,0.2,0.3,0.4,0.5,12,0.6,0.7,0.8,1.1,0.9,62
0,1,2,2.88,2.16,1,0,0,0,1,1,14,0,0,0,1,0,60
1,8,2,3.19,2.50,1,0,0,0,1,0,11,0,0,1,1,0,66
2,14,2,3.98,3.06,2,0,0,0,1,1,14,0,0,0,1,0,80
3,17,2,2.21,1.88,0,0,1,0,0,0,12,0,0,0,1,0,56
4,18,2,2.96,1.67,0,0,0,0,0,0,12,0,0,0,1,0,61
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
464,98,6,3.04,2.40,2,0,0,0,1,0,11,0,0,0,1,0,76
465,369,6,3.88,2.72,1,0,0,0,1,0,12,0,0,0,1,0,77
466,406,6,5.36,3.96,1,0,0,0,1,0,12,0,0,0,0,0,62
467,25,8,4.32,3.20,0,0,0,0,0,0,11,0,0,0,0,0,58


0      0
1      1
2      1
3      0
4      0
      ..
464    0
465    0
466    0
467    1
468    0
Name: 0.10, Length: 469, dtype: int64

In [6]:
# < Keras에서의 딥러닝 구조를 설정 >

# keras에서 각 층의 순서를 관리하는 객체를 생성.
model = Sequential()

# keras에서 가장 먼저 추가한 은닉층은 입력층이 같이 생성됨. => input_dim=17 (입력층 내의 수 = 특성 데이터의 수)
# 여기서 30은 은닉층에 존재하는 노드(node)의 개수.
# 기울기 소실 문제를 해결하기 위해 활성화 함수는 activation = 'relu'로 설정.
# 노드와 은닉층이 많아지면 계산이 많아지므로 보다 정확해 질수는 있으나, 과적합의 우려가 있으며, 시간이 오래 걸림.

model.add(Dense(30, input_dim=17, activation='relu'))  

# 마지막에 추가되는 것은 무조건 출력층.
# 최종 활성화 함수는 예측 결과 상태(이진 분류 상태)를 고려하여 sigmoid로 설정.
model.add(Dense(1, activation='sigmoid'))

In [7]:
# 딥러닝 구조를 컴파일.
# loss => 오차 측정 방법. optimzer => 경사하강 방법 설정. metrics => 평가 방법.
model.compile(loss='mean_squared_error', optimizer='adam', metrics=['accuracy'])

In [8]:
# 학습.

# epochs => 학습 <-> 역전파 과정을 100번 수행. batch_size => 메모리 한계 문제로 인해 설정.
model.fit(x, y, epochs=100, batch_size=10)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x2942036ff48>

In [10]:
# [손실률, 정확도]
r1 = model.evaluate(x, y)
print(f'손실률 : {r1[0]}')
print(f'정확도 : {r1[1]}')

손실률 : 0.11902551352977753
정확도 : 0.8614072203636169


In [13]:
# 더이상 사용하지 않는 방식. 
# result = model.predict_classes(x)
# result
result = (model.predict(x) >= 0.5).astype('int32')
result

array([[0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [1],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [1],
       [0],
       [0],
       [0],
       [1],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [1],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [1],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
    

In [14]:
# 정확도 확인.
r1 = accuracy_score(y, result)
r1

0.8614072494669509