# Logistic Regression

<img src="./photo/logistic1.png">

### 0. 이론을 한 번 되짚고 넘어간다.

1. Classification - linear Regression 모델이 부적합<br/>
    -> 특정 데이터에 민감하게 반응하고, 분류에 맞지 않게 H(X) <= 0, H(X) >= 1인 데이터도 발생<br/>
    -> 0 <= H(X) <= 1인 Sigmoid Function(logistic function) 도입<br/><br/>

2. Sigmoid 함수 정의 - g(z) = 1 / 1+e^(-z)<br/>
    -> 새로운 가설 H(X) = g(H(X)(linear regression 가설 함수: Z =  X*W))을 세운다.<br>
    -> 이와 같이 정의할 시에 H(X)는 0 에서 1 사이의 값을 가진다.<br/>
    -> (H(X) = P(y=1 | X,W)로 해석 가능: 질문 - 그냥 그렇게 보겠다고 정의하는 것인가)<br/><br/>

3. Decision Boundary<br/>
    -> H(X) >=0.5 이면 y=1, H(X) <= 0.5이면 y=0 이라는 기준(0.5)을 설정<br/>
    -> H(X) = g(Z) = g(X*W) >= 0.5 <br/>
    -> X*W >= 0 이면 y=1<br/>
    -> X*W = 0 이 Decision Boundary를 구성<br/><br/>    

4. cost 함수<br/>
    -> -1/m * sigma (y*log(H(X)) + (1-y)*log(1-H(X))<br/>
    -> W = W - learning_rate * derivative 로 이동하면서 개선 가능(왜냐하면 convex)<br/>
    
#### 참고) 왜 Cost 함수를 다음과 같이 설정했는가?
    -> Maximum Likelihood Estimator(세미나 시간에 설명 및 첨부)

### 1. 모델 학습

In [2]:
import tensorflow as tf

In [8]:
#1. 데이터 및 변수 설정
x_data = [[1,2],[2,3],[3,1],[4,3],[5,3],[6,2]]
y_data = [[0],[0],[0],[1],[1],[1]]

X = tf.placeholder(tf.float32, shape=[None, 2])
Y = tf.placeholder(tf.float32, shape=[None, 1])

W = tf.Variable(tf.random_normal([2,1]), name='weight') #들어오는 값의 개수 * 나가는 값의 개수
b = tf.Variable(tf.random_normal([1]), name='bias') #나가는 값의 개수

In [9]:
#2. 가설 설정
hypothesis = tf.sigmoid(tf.matmul(X,W) + b)

In [10]:
#3. cost function
cost = - tf.reduce_mean(Y * tf.log(hypothesis) + (1-Y)*tf.log(1-hypothesis))

In [11]:
#4. train
train = tf.train.GradientDescentOptimizer(learning_rate=0.01).minimize(cost)

In [12]:
#Accuracy computation
#True if hypothesis > 0.5 else False
predicted = tf.cast(hypothesis > 0.5, dtype=tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(predicted, Y), dtype=tf.float32))

In [15]:
#5. Launch graph
with tf.Session() as sess:
    
    sess.run(tf.global_variables_initializer())
    
    for step in range(10001):
        cost_val, _ = sess.run([cost, train], feed_dict={X: x_data, Y: y_data})
        if step % 2000 == 0:
            print(step, cost_val)
            
    #Accuracy report
    h,c,a = sess.run([hypothesis, predicted, accuracy], feed_dict={X:x_data, Y:y_data})
    print(""\nHypothesis: ", h, "\nCorrect(Y): ", c, "\nAccuracy: ", a)

0 0.415902
2000 0.302042
4000 0.234014
6000 0.189844
8000 0.159436
10000 0.137404

Hypothesis:  [[ 0.02582283]
 [ 0.15159377]
 [ 0.28039703]
 [ 0.79279542]
 [ 0.94653928]
 [ 0.98253089]] 
Correct(Y):  [[ 0.]
 [ 0.]
 [ 0.]
 [ 1.]
 [ 1.]
 [ 1.]] 
Accuracy:  1.0


### 2. 데이터 csv 파일에서 입력

In [16]:
import numpy as np

In [19]:
xy = np.loadtxt('./data/data-03-diabetes.csv', delimiter=',', dtype=np.float32)
x_data = xy[:, 0:-1]
y_data = xy[:, [-1]]

print(x_data.shape, y_data.shape)

# placeholders for a tensor that will be always fed.
X = tf.placeholder(tf.float32, shape=[None, 8])
Y = tf.placeholder(tf.float32, shape=[None, 1])

W = tf.Variable(tf.random_normal([8, 1]), name='weight')
b = tf.Variable(tf.random_normal([1]), name='bias')

# Hypothesis using sigmoid: tf.div(1., 1. + tf.exp(tf.matmul(X, W)))
hypothesis = tf.sigmoid(tf.matmul(X, W) + b)

# cost/loss function
cost = -tf.reduce_mean(Y * tf.log(hypothesis) + (1 - Y) *
                       tf.log(1 - hypothesis))

train = tf.train.GradientDescentOptimizer(learning_rate=0.01).minimize(cost)

# Accuracy computation
# True if hypothesis>0.5 else False
predicted = tf.cast(hypothesis > 0.5, dtype=tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(predicted, Y), dtype=tf.float32))

# Launch graph
with tf.Session() as sess:
    # Initialize TensorFlow variables
    sess.run(tf.global_variables_initializer())

    for step in range(10001):
        cost_val, _ = sess.run([cost, train], feed_dict={X: x_data, Y: y_data})
        if step % 2000 == 0:
            print(step, cost_val)

    # Accuracy report
    h, c, a = sess.run([hypothesis, predicted, accuracy],
                       feed_dict={X: x_data, Y: y_data})
    print("\nHypothesis: ", h, "\nCorrect (Y): ", c, "\nAccuracy: ", a)

(759, 8) (759, 1)
0 1.38429
2000 0.573764
4000 0.520579
6000 0.498539
8000 0.487827
10000 0.482008

Hypothesis:  [[ 0.3650327 ]
 [ 0.9111678 ]
 [ 0.2110469 ]
 [ 0.93859655]
 [ 0.14029713]
 [ 0.77521229]
 [ 0.94040257]
 [ 0.60686123]
 [ 0.20539263]
 [ 0.5773406 ]
 [ 0.749134  ]
 [ 0.17941317]
 [ 0.25441235]
 [ 0.14936657]
 [ 0.74101573]
 [ 0.52817905]
 [ 0.75215572]
 [ 0.83689308]
 [ 0.82098043]
 [ 0.6343748 ]
 [ 0.69839013]
 [ 0.11439833]
 [ 0.65959138]
 [ 0.68197632]
 [ 0.3736136 ]
 [ 0.92698163]
 [ 0.55526334]
 [ 0.68555635]
 [ 0.64725506]
 [ 0.43832836]
 [ 0.94541889]
 [ 0.89807254]
 [ 0.56120551]
 [ 0.81389993]
 [ 0.39095697]
 [ 0.63457412]
 [ 0.81855196]
 [ 0.55780369]
 [ 0.43772671]
 [ 0.39385763]
 [ 0.81227851]
 [ 0.16819894]
 [ 0.39213842]
 [ 0.04907995]
 [ 0.54739374]
 [ 0.92203695]
 [ 0.68188345]
 [ 0.72167706]
 [ 0.93564278]
 [ 0.91921788]
 [ 0.93398929]
 [ 0.2330763 ]
 [ 0.33663276]
 [ 0.94035345]
 [ 0.19477616]
 [ 0.61076397]
 [ 0.13182893]
 [ 0.7494846 ]
 [ 0.86434668]
 [