In [1]:
from tensorflow.keras.models import Sequential 
from tensorflow.keras.layers import Dense 
from tensorflow.keras.callbacks import ModelCheckpoint
import numpy as np 
import pandas as pd 
import tensorflow as tf
import matplotlib.pyplot as plt
import os

In [2]:
seed = 0 
np.random.seed(seed)
tf.random.set_seed(3)

In [3]:
df_pre = pd.read_csv('data/wine.csv')
df = df_pre.sample(frac=1)
#데이터중에 일부 샘플만 사용할 경우 판다스 데이터 프레임에서 
#sample()을 이용해서 50%의 데이터 샘플만 가져올수 있다.
#이렇게 하면 원래 데이터가 무작위로 섞여서 들어오기 떄문에 그에 따른 효과를 얻을 수 있다.


In [4]:
print(df.head())

      7.4   0.7     0   1.9  0.076    11     34   0.9978  3.51  0.56   9.4  5  \
5315  6.3  0.18  0.24   3.4  0.053  20.0  119.0  0.99373  3.11  0.52   9.2  6   
2423  7.0  0.21  0.37   7.2  0.042  36.0  167.0  0.99580  3.26  0.56   9.8  6   
3517  7.3  0.22  0.50  13.7  0.049  56.0  189.0  0.99940  3.24  0.66   9.0  6   
1622  6.6  0.27  0.41   1.3  0.052  16.0  142.0  0.99510  3.42  0.47  10.0  6   
4060  8.3  0.25  0.33   2.5  0.053  12.0   72.0  0.99404  2.89  0.48   9.5  5   

      1  
5315  0  
2423  0  
3517  0  
1622  0  
4060  0  


In [5]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6496 entries, 5315 to 2732
Data columns (total 13 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   7.4     6496 non-null   float64
 1   0.7     6496 non-null   float64
 2   0       6496 non-null   float64
 3   1.9     6496 non-null   float64
 4   0.076   6496 non-null   float64
 5   11      6496 non-null   float64
 6   34      6496 non-null   float64
 7   0.9978  6496 non-null   float64
 8   3.51    6496 non-null   float64
 9   0.56    6496 non-null   float64
 10  9.4     6496 non-null   float64
 11  5       6496 non-null   int64  
 12  1       6496 non-null   int64  
dtypes: float64(11), int64(2)
memory usage: 710.5 KB
None


In [6]:
dataset = df.values
print(dataset.dtype)
#전체를 자동으로 float으로 바꾼것을 알수 있기 떄문에 astype을 안써줘도 된다. 

float64


In [7]:
X = dataset[:,:12]
Y = dataset[:,12]

In [8]:
model = Sequential()
model.add(Dense(30, input_dim=12, activation = 'relu'))
model.add(Dense(12, activation = 'relu'))
model.add(Dense(8, activation = 'relu'))
model.add(Dense(1, activation = 'sigmoid'))
#이진 분류이므로 sigmoid를 쓴다. 

In [9]:
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 30)                390       
_________________________________________________________________
dense_1 (Dense)              (None, 12)                372       
_________________________________________________________________
dense_2 (Dense)              (None, 8)                 104       
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 9         
Total params: 875
Trainable params: 875
Non-trainable params: 0
_________________________________________________________________


In [10]:
model.compile(loss = 'binary_crossentropy', optimizer = 'adam', metrics=['accuracy'])

In [11]:
MODEL_DIR = './model/'
if not os.path.exists(MODEL_DIR):
    os.mkdir(MODEL_DIR)
    #해당 폴더의 존재유무를 체크해준다. 

modelpath = './model/{epoch: 02d}-{val_loss:.4f}.hdf5'
checkpointer = ModelCheckpoint(filepath = modelpath, monitor = 'val_loss', verbose=1,
                              save_best_only=True)
#학습을 진행하면서 말그대로 체크를 하는데, 체크해서 결과를 저장할 파일 패스를 넣어준거고, 저장하면서 
#val_loss값을 체크하고, verbose=1은 중간과정을 출력하도록한다.  
#여기서 val_loss는 하단 셀의 validation_split을 통해 나온 값을 말한다. 
#save_best_only=True는 모델이 향상될 때에만 저장을 하라는 옵션이다. 

In [12]:
model.fit(X,Y, validation_split=0.2 ,epochs = 200, batch_size=200, 
          verbose=0, callbacks=[checkpointer])
#200개의 샘플단위로 백워트프로파게이션을 해서 bias와 가중치 파라메터를 업데이트 한다는 의미임 
#validation_split은 데이터셋80프로로 학습을 하면서 
#에포크가 돌때마다 20프로의 데이터로 검증을 하겠다는것이다.  
# print("Accuracy: %.4f" % (model.evaluate(X,Y)[1]))


Epoch 00001: saving model to ./model\ 1-0.3755.hdf5

Epoch 00002: saving model to ./model\ 2-0.2767.hdf5

Epoch 00003: saving model to ./model\ 3-0.2376.hdf5

Epoch 00004: saving model to ./model\ 4-0.2289.hdf5

Epoch 00005: saving model to ./model\ 5-0.2224.hdf5

Epoch 00006: saving model to ./model\ 6-0.2150.hdf5

Epoch 00007: saving model to ./model\ 7-0.2140.hdf5

Epoch 00008: saving model to ./model\ 8-0.2042.hdf5

Epoch 00009: saving model to ./model\ 9-0.1972.hdf5

Epoch 00010: saving model to ./model\ 10-0.1933.hdf5

Epoch 00011: saving model to ./model\ 11-0.1881.hdf5

Epoch 00012: saving model to ./model\ 12-0.1889.hdf5

Epoch 00013: saving model to ./model\ 13-0.1876.hdf5

Epoch 00014: saving model to ./model\ 14-0.1785.hdf5

Epoch 00015: saving model to ./model\ 15-0.1739.hdf5

Epoch 00016: saving model to ./model\ 16-0.1734.hdf5

Epoch 00017: saving model to ./model\ 17-0.1677.hdf5

Epoch 00018: saving model to ./model\ 18-0.1738.hdf5

Epoch 00019: saving model to ./model

<tensorflow.python.keras.callbacks.History at 0x22b386d7460>