# [cf. 머신러닝 vs 딥러닝 모델링 비교]

분류|input|라이브러리|모델|층 추가|컴파일|학습|평가|사용(예측)       
-|-|-|-|-|-|-|-|-     
머신러닝|수동|sklearn|KNN, SVM|X|X|fit|accuracy_score|predict        
딥러닝|자동|keras, tensorflow|Sequential|O(Dense)|O(compile)|fit|evaluate|predict_classes       
     

<hr>

# TensorFlow와 Keras 라이브러리를 이용한 딥러닝
* 딥러닝 작업 환경 만들기 (TF, Keras, 구글 Colab)
* 딥러닝을 통한 예측하기 (폐암 수술 환자의 생존율 예측)

# 딥러닝 작업 환경 만들기
* Keras를 구동하려면 TensorFlow가 먼저 설치되어야 함 (TF 2.0부터는 Keras 내장됨)
* 둘 다 아나콘다 배포판에 포함되지 않아서 별도 설치 필요
* 구글 Colab : 클라우드 기반의 무료 Jupyter 노트북 개발 환경

In [1]:
import tensorflow

In [2]:
import keras

Using TensorFlow backend.


# 폐암 수술 환자의 생존율 예측하기

### 1. 데이터셋 가져오기 (pandas - read)

In [3]:
import tensorflow as tf
import pandas as pd
import numpy as np

df = pd.read_csv('thoracic_surgery.csv') # DataFrame
Data_set = df.values # DataFrame -> 2d array

print(Data_set.shape) # 환자 470명 데이터, 17가지 속성 + 클래스(수술 후 생존 여부)
print(type(Data_set)) # 2d numpy array
Data_set

(470, 18)
<class 'numpy.ndarray'>


array([[293.  ,   1.  ,   3.8 , ...,   0.  ,  62.  ,   0.  ],
       [  1.  ,   2.  ,   2.88, ...,   0.  ,  60.  ,   0.  ],
       [  8.  ,   2.  ,   3.19, ...,   0.  ,  66.  ,   1.  ],
       ...,
       [406.  ,   6.  ,   5.36, ...,   0.  ,  62.  ,   0.  ],
       [ 25.  ,   8.  ,   4.32, ...,   0.  ,  58.  ,   1.  ],
       [447.  ,   8.  ,   5.2 , ...,   0.  ,  49.  ,   0.  ]])

### 2. 데이터셋 분리하기 (sklearn - split, slicing)
1. 학습(train) 데이터 & 테스트(test) 데이터 분리 - split
2. 속성(X) & 클래스(Y) 분리 - slicing

In [4]:
from sklearn.model_selection import train_test_split

# 전체 데이터셋에서 학습데이터와 테스트데이터 분리 (각각 2d np.array!)
train, test = train_test_split(Data_set, test_size = 0.2)

# 속성(17가지 요소) & 클래스(생존 여부) 분리 (2d numpy array slicing)
X_train = train[:, 0:17]
Y_train = train[:, 17] # 18번째 마지막 열 (클래스, 예측 결과, 정답)

X_test = test[:, 0:17]
Y_test = test[:, 17]

In [5]:
X_train

array([[459.  ,   3.  ,   3.6 , ...,   0.  ,   0.  ,  46.  ],
       [401.  ,   3.  ,   2.48, ...,   0.  ,   0.  ,  61.  ],
       [ 21.  ,   3.  ,   4.48, ...,   1.  ,   0.  ,  51.  ],
       ...,
       [  8.  ,   2.  ,   3.19, ...,   1.  ,   0.  ,  66.  ],
       [177.  ,   3.  ,   3.2 , ...,   1.  ,   0.  ,  52.  ],
       [435.  ,   3.  ,   3.08, ...,   1.  ,   0.  ,  57.  ]])

In [6]:
X_train.shape # 470 * 0.8 = 376

(376, 17)

In [7]:
Y_train

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0.,
       0., 1., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 1., 0., 1., 1.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 1.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 0., 0., 0.,
       0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 1., 0.,
       0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0.,
       1., 0., 0., 1., 0., 0., 1., 0., 0., 0., 0., 1., 1., 0., 0., 0., 1.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 1., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 1., 0., 0., 0., 1., 0., 1., 0., 0., 1., 1., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
       0., 0., 0., 0., 0.

In [8]:
Y_train.shape # 클래스(Y, 정답 레이블) : 1d array

(376,)

### 3. 입력층, 은닉층, 출력층 만들기 (keras - Sequential, Dense, add)
각 층의 딥러닝 구조를 짜고 층을 설정하기
* **model = Sequential()** : 딥러닝 구조의 **모델 객체 생성**
  
    
* **model.add(Dense())** : Sequential 모델 객체의 add() 메서드로 **층을 추가**
    * 각 층은 **Dense()객체**를 통해 **구체적 구조 설정**
    * in Keras, **첫번째 Dense : 은닉층 + 입력층!**  
      
        
* **Dense(num, input_dim, activation)**
    * num : 현재 층의 노드 수 (== 출력 노드 수!)
    * input_dim : 현재 층으로 들어오는 입력 값의 개수
    * activation : 사용할 활성화 함수
    
       
![](sequential.png)
> * 층(Dense) 2개
* 입력층 노드 17개 (환자 1명당 속성 x 17가지)
* 은닉층 노드 30개 (x 1개당 w 30개씩)
* 출력층 노드 1개 (Y 즉, 클래스(레이블) : 1(생존) or 0(사망))

In [9]:
from keras.models import Sequential
from keras.layers import Dense

# 딥러닝 구조 모델인 Sequential 객체, model 생성
model = Sequential()

# 2개의 층을 추가 (입력+은닉층 & 출력층)
model.add(Dense(30, input_dim = 17, activation='relu')) # 입력층(+은닉층)
model.add(Dense(1, activation = 'sigmoid')) # 출력층 (노드 1개, input_dim 생략)






### 4. 모델 컴파일하기 (compile)
* **model.compile(loss, optimizer, metrics)** : 모델을 더 효과적으로 구현할 환경 설정
    * loss : 한 번 신경망이 실행될 때마다 **'오차값을 계산'하는 함수** (ex. **mse**)
    * optimizer : **'오차를 어떻게 줄여 나갈지'** 정하는 **'가중치 수정'**함수 (ex. **adam**)
    * metrics : 학습과 테스트 단계에서 **모델을 '평가'하기 위한 성능 기준** 설정 (ex. **accuracy**)
![](compile.png)

In [10]:
# 모델을 더 효과적으로 구현할 환경 설정 (compile)
model.compile(loss='mean_squared_error', optimizer='adam', metrics=['accuracy'])




### 5. 모델 학습하기 (fit)
* **model.fit(X_train, Y_train, epochs, batch_size)** : 학습 데이터로 학습시키기  
    * epochs(에포크) : 각 샘플(한 행)을 **반복하여 실행하는 횟수**
    > epoch = 30 : 전체 데이터(모든 행들)를 30번 반복하여 학습 (376 * 30)
    * batch_size : 샘플을 **한 번에 처리하는 개수** (끊어서 넣는 단위)
    > batch_size = 10 : 전체 데이터를 10개씩 끊어서 집어 넣음 ((10 * 37 + 6) * 30)

In [11]:
# 모델 학습시키기
model.fit(X_train, Y_train, epochs=30, batch_size=10)



Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<keras.callbacks.History at 0x247ba7f33c8>

### 6. 모델 평가하고 사용하기 (evaluate, predict_classes)
* **model.evaluate(X_test, Y_test)** : 학습이 끝난 딥러닝 모델이 얼마나 정확하게 예측하는지 점검 (평가)  
> return : 오차, 정확도(acc)
* **model.predict_classes(X_test)** : 위 딥러닝 모델을 이용하여 생존 여부 예측(테스트)

In [12]:
model.evaluate(X_test, Y_test) # 89% 정확도



[0.10638280656743557, 0.8936170225447797]

In [14]:
# predict_classes만 하면 레이블 값인데 쓸데없이 2차원으로 나옴 => ravel()로 1d array
prediction = model.predict_classes(X_test) # 2d array
prediction.ravel()

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0])

In [16]:
# 위의 예측값(1d array) -> DataFrame 형식으로 보기 
# pd.DataFrame({'열 이름1' : 1d array, '열 이름2' : 1d array, ...}) 
comparision = pd.DataFrame({'prediction' : prediction.ravel(), 'ground_truth' : Y_test.astype(int)})
comparision.head()

Unnamed: 0,prediction,ground_truth
0,0,0
1,0,0
2,0,0
3,0,0
4,0,1


![](process.png)