# **Solving XOR with MLP**

Single Perceptron only works on Linearly Separable Classification.

One perceptron is one decision boundary, so it only solve linearly separable problem.

<p align="center"><img src="https://sungjk.github.io/images/2017/04/11/inseparable.GIF" height="200"></p>

MLP with two neurons in hidden layer can solve XOR. Two neurons in hidden layer will draw two boundary lines.
<p align="center"><img src="http://cps0715.weebly.com/uploads/7/4/0/3/74035485/9513551_orig.png" height="400"></p>

Because step function is hard to optimize using back propagation due to Non-differentiable, We will use sigmoid as its activation instead of step function.

<p align="center"><img src="https://raw.githubusercontent.com/minsuk-heo/deeplearning/master/img/MLP_XOR.png" height="350"></p>

---

# **Implementation with Tensorflow**

In [1]:
import tensorflow.compat.v1 as tf
tf.disable_v2_behavior()
tf.__version__

Instructions for updating:
non-resource variables are not supported in the long term


'2.4.1'

Tensorflow는 그래프를 만들고 그래프를 training하며 최적의 변수를 만든다.

Train data shape 정의
XOR train data 는 input X와 output Y를 가진다.

X는 다음과 같은 [4,2] shape
[0, 0], [0, 1], [1, 0], [1, 1]

Y는 다음과 같은 [4,1] shape
[[0], [1], [1], [0]]

In [2]:
X = tf.placeholder(tf.float32, shape=[4,2])
Y = tf.placeholder(tf.float32, shape=[4,1])

## **First Layer** (hidden)

In [3]:
# 위 그림의 구조에서, first layer는 두개의 neurons을 가지며, 두 개의 input value를 받는다
W1 = tf.Variable(tf.random_uniform([2,2]))
# 각각의 neuron은 bias를 가진다. bias는 노드의 개수만큼 필요해서 2.
B1 = tf.Variable(tf.zeros([2]))
# First layer의 output은 Z이며, sigmoid함수에 W1*X+B1의 값을 넣은 결과이다.
Z = tf.sigmoid(tf.matmul(X, W1)+B1)

## **Second Layer** (hidden)

In [4]:
# second layer는 두 개의 output을 받아서 하나의 output을 낸다.
W2 = tf.Variable(tf.random_uniform([2,1]))
# 하나의 neuron은 하나의 bias를 가진다. 그래서 1.
B2 = tf.Variable(tf.zeros([1]))
# Second layer의 output은 Y_hat이며, sigmoid함수에 W2*Z+B2의 값을 넣은 결과이다. 이것이 prediction 값
Y_hat = tf.sigmoid(tf.matmul(Z, W2) + B2)

## **Loss Fuction**

In [5]:
# cross entropy 사용. (classification에 주로 사용) 0 또는 1을 출력해야 하니까. (선형회귀는 MSE)
loss = tf.reduce_mean(-1*((Y*tf.log(Y_hat))+((1-Y)*tf.log(1.0-Y_hat))))

## **Optimizer**

In [6]:
# Gradient Descent. (시그모이드는 기울기 있어서 사용 가능) learning rate = 0.05
train_step = tf.train.GradientDescentOptimizer(0.05).minimize(loss)

## **Train**

In [7]:
# train data (XOR Operation)
train_X = [[0,0],[0,1],[1,0],[1,1]]
train_Y = [[0],[1],[1],[0]]

In [8]:
# initialize
init = tf.global_variables_initializer()
# Start training
with tf.Session() as sess:
    # Run the initializer
    sess.run(init)
    print("train data: "+str(train_X))
    for i in range(20000):
        sess.run(train_step, feed_dict={X: train_X, Y: train_Y})
        if i % 5000 == 0:
            print("\nEpoch : ", i)
            print('Output : \n', sess.run(Y_hat, feed_dict={X: train_X, Y: train_Y}))
    
    print("\nFinal Output : \n", sess.run(Y_hat, feed_dict={X: train_X, Y: train_Y}))

train data: [[0, 0], [0, 1], [1, 0], [1, 1]]

Epoch :  0
Output : 
 [[0.5740913 ]
 [0.5955741 ]
 [0.58802474]
 [0.60746115]]

Epoch :  5000
Output : 
 [[0.4134797 ]
 [0.5295733 ]
 [0.53178734]
 [0.55693287]]

Epoch :  10000
Output : 
 [[0.11033994]
 [0.8586353 ]
 [0.8585152 ]
 [0.19625548]]

Epoch :  15000
Output : 
 [[0.03807291]
 [0.96723753]
 [0.9672046 ]
 [0.0381839 ]]

Final Output : 
 [[0.02194998]
 [0.98261505]
 [0.98260194]
 [0.01933551]]
