### SVM으로 BMI 판정
1. 키의 최대값은 200cm, 몸무게의 최대값은 100kg으로 정규화
2. 저체중(thin), 정상(normal), 비만(fat) 레이블을 one-hot-encoding [1, 0, 0], [0, 1, 0], [0, 0, 1]로 변환
3. 소프트 맥스 회귀방법 , 오차 함수는 교차 엔트로피 사용
4. 교차 엔트로피  - 2개의 확률 분포 사이에 정의되는 척도로서 교차 엔트로피 값이 작을 수록 정확한 값을 냄
5. 학습 계수 0.01, 경사 하강법(steepest descent method) 사용

In [25]:
import pandas as pd
import numpy as np
import tensorflow as tf

In [22]:
df = pd.read_csv('./data/bmi.csv')
df
#키와 몸무게에 대해 정규화
df['height'] = df['height'] / 200
df['weight'] = df['weight'] / 100
#one-hot encoding , thin[1, 0, 0], normal[0, 1, 0], fat[0, 0, 1]
bclass = {'thin': [1,0,0] , 'normal':[0, 1, 0], 'fat':[0, 0, 1]}
df['label_pat'] = df['label'].apply(lambda x: np.array(bclass[x]))
df.head(3)

#학습 데이터와 테스트 데이터 분류
test_df = df[15000:20000]
test_pat= test_df[["weight", "height"]]
test_ans = list(test_df["label_pat"])

X = tf.placeholder(tf.float32, [None,2]) #키 , 몸무게 데이터 담을 placeholder 선언
Y = tf.placeholder(tf.float32, [None,3]) #정답 레이블 데이터 담을 placeholder 선언

W = tf.Variable(tf.zeros([2,3])) #가중치
b = tf.Variable(tf.zeros([3])) #바이어스
y = tf.nn.softmax(tf.matmul(X,W) + b) #소프트맥스 회귀 정의, 배열X에 가중치 W 곱하고 바이어스 b 더함

#오차함수 - 교차 엔트로피
cross_entropy = -tf.reduce_sum(Y * tf.log(y))  
#경사하강법으로 학습
train= tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)  

#예측값, 정답률 계산
predict = tf.equal(tf.argmax(y, 1), tf.argmax(Y, 1))
accuracy = tf.reduce_mean(tf.cast(predict, tf.float32))

sess = tf.Session()
sess.run(tf.global_variables_initializer()) 
for step in range(3501):
    i = (step*100) % 14000
    rows = df[i+1:i+1+100]
    x_pat = rows[["weight", "height"]]
    y_ans =  list(rows["label_pat"])
    sess.run(train, feed_dict={X: x_pat  , Y: y_ans })
    if step%500  == 0 :
        cre = sess.run(cross_entropy, feed_dict={X: x_pat  , Y: y_ans })
        acc = sess.run(accuracy , feed_dict={X: test_pat  , Y: test_ans })
        print("Epoch=", step, "오차=", cre, "정확률(평균)=", acc)


Epoch= 0 오차= 108.66269 정확률(평균)= 0.3242
Epoch= 500 오차= 57.58866 정확률(평균)= 0.8904
Epoch= 1000 오차= 45.020916 정확률(평균)= 0.898
Epoch= 1500 오차= 41.654335 정확률(평균)= 0.9566
Epoch= 2000 오차= 34.664024 정확률(평균)= 0.943
Epoch= 2500 오차= 34.287025 정확률(평균)= 0.9674
Epoch= 3000 오차= 26.880762 정확률(평균)= 0.9726
Epoch= 3500 오차= 29.590666 정확률(평균)= 0.9728


## Keras 모델로 BMI 판정

In [26]:
import pandas as pd
import numpy as np
import tensorflow as tf
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation
from keras.callbacks import EarlyStopping

In [36]:
df = pd.read_csv("./data/bmi.csv")

#키와 몸무게 정규화
df["height"] /= 200
df["weight"] /= 100

X = df[["weight", "height"]].as_matrix()

#label 컬럼 변환 - thin[1, 0, 0]/normal[0, 1, 0]/fat [0, 0, 1]
bclass = {"thin": [1, 0, 0] , "normal":[0, 1, 0], "fat": [0, 0, 1]}
Y = np.empty((20000, 3))
for i, v in enumerate(df["label"]):
    Y[i] = bclass[v]

    
#학습데이터 , 테스트 데이터 분리
X_train, Y_train = X[1:15001], Y[1:15001]
X_test, Y_test = X[15001:20001], Y[15001:20001]

model = Sequential()  #모델 객체 생성
model.add(Dense(512, input_shape=(2, )))    #Dense(노드 수 , ....) 층을 의미하는 객체
model.add(Activation('relu'))   # 활성화 함수
model.add(Dropout(0.1))
model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dropout(0.1))
model.add(Dense(3))      # 분류하고 싶은 클래스 수 만큼 출력으로 구성
model.add(Activation('softmax'))  #활성화 함수

model.compile(loss="categorical_crossentropy", optimizer="rmsprop", metrics=['accuracy'])
hist = model.fit(X_train, Y_train, batch_size=100, nb_epoch=20, validation_split=0.1, callbacks=[EarlyStopping(monitor='val_loss', patience=2)], verbose=1)
                    
score = model.evaluate(X_test, Y_test)
print("loss=", score[0])
print("accuracy=", score[1])



# weight decay( 가중치 감소) - 학습중 가중치가 큰 것에 대해서 패널티를 부과해 과적합의 위험을 줄이는 방법
# Dropout - 복잡한 신경망에서 가중치 감소만으로 과적합을 피하기 어려운 경우 뉴런의 연결을 임의로 삭제시켜 신호를 전달하지 못하도록 하는 방법
# softmax 회귀 - 입력받은 값을 출력으로 0~1사이의 값으로 모두 정규화하여 출력값들의 총합은 항상 1이 되는 특성의 함수
#분류하고 싶은 클래스 수 만큼 출력으로 구성


Instructions for updating:
If using Keras pass *_constraint arguments to layers.


  import sys





Train on 13500 samples, validate on 1500 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
loss= 0.172187195727529
accuracy= 0.9099820256233215


In [28]:
a = tf.constant([5],dtype=tf.float32)
b = tf.constant([10],dtype=tf.float32)
c = tf.constant([2],dtype=tf.float32)
d = a*b+c
print(d)

tw = tf.summary.FileWriter("log_dir", graph=sess.graph)

Tensor("add_5:0", shape=(1,), dtype=float32)
