# CH06. 다층 퍼셉트론과 XOR (MLP & XOR) (실습1)

### [1] 실습 진행 관련 설명
다층 퍼셉트론에 대한 실습을 진행하고자 한다. 실습1은 두가지로 구성되어 있다.

- sklearn 라이브러리를 이용한 방법
- 직접 함수를 구현하는 방법

우선 sklearn 라이브러리를 이용한 방법을 실습하고 그 이후에 직접 함수를 구현하여 실습을 진행한다.

## [2] 코드 구현의 흐름

-(1) (데이터 측면) 데이터 정의하기.


-(2) (모델 측면) 다층 퍼셉트론 모델 불러오기. (가중치, 활성화함수, 손실함수 정의)

-(3) (학습 과정) 학습 과정을 직접 구현 또는 라이브러리를 활용하여 구현학.

-(4) (성능 평가) 테스트 데이터를 이용한 모델의 성능 평가 및 시각화.

## (첫번째 실습) sklearn 라이브러리를 이용한 방법




# XOR 문제의 해결 방법 (MLP XOR Solution)

- XOR 문제 또한 0 또는 1 이진 분류 문제에 해당하며, 하나의 퍼셉트론으로는 해결할 수 없는 특별한 케이스이다.
- 두 입력 값이 서로 같으면 0, 서로 다르면 1로 분류하는 논리회로와 같다.
- 다층 퍼셉트론(Multi-layer Perceptron)
  즉, 두개 이상의 선을 이용하기 위해 은닉층이 1개 이상 필요하다.

In [562]:
'''
(1) (데이터 측면) 데이터 정의하기.
XOR 데이터 정의하기
두 입력값이 서로 같으면 0, 서로 다르면 1로 분류하는 논리 회로 게이트
'''
from sklearn.neural_network import MLPClassifier

X = [[0,0], [0,1], [1,0], [1,1]]
y = [0, 1 , 1, 0]

**다층퍼셉트론 라이브러리**

다층퍼셉트론은 분류와 회귀가 모두 가능한 방법이다. 따라서 sklearn 라이브러리에서는 분류와 회귀에 따른 함수를 모두 제공한다.

아래 예시에서 사용한 MLPClassifier를 활용하면 분류를, MLPRegressor을 활용하면 회귀 태스크를 수행 가능하다.

In [563]:
'''
(2) (모델 측면) 다층퍼셉트론 모델 불러오기
sklearn 라이브러리를 통해 구현되어 있는 다층퍼셉트론 모델을 불러온다.
'''
classifier = MLPClassifier(hidden_layer_sizes=(2,), activation='logistic', learning_rate_init= 0.1, random_state=42)

In [564]:
'''
(3) (학습 과정) 모델 학습 하기
fit을 통해 모델을 학습한다.
fit 함수에는 1) 가중치 초기화 2) 손실함수 계산 3) 가중치 업데이트가 모두 구현되어 있다.
'''
classifier.fit(X, y)
w = classifier.coefs_
w_0 = classifier.intercepts_
print(w)
print(w_0)

[array([[ 7.75369964,  7.79227793],
       [-7.192455  , -7.96359709]]), array([[-9.47106881],
       [ 9.73459615]])]
[array([ 3.6692037 , -4.20860248]), array([4.58113485])]


In [565]:
'''
(4) (성능 평가) 학습된 모델을 대상으로 테스트 데이터로 평가하기
predict를 통해 다층퍼셉트론으로 얻은 예측값을 추출한다.
'''
y_pred = classifier.predict(X)  # 테스트 데이터에 대하여 결과 예측

print(y_pred)

[0 1 1 0]


## (두번째 실습) 직접구현


In [566]:
'''
(1) (데이터 측면) 데이터 정의하기.
XOR 데이터 정의하기
두 입력값이 서로 같으면 0, 서로 다르면 1로 분류하는 논리 회로 게이트
'''
import numpy as np

X = np.array([0, 0, 1, 1, 0, 1, 0 ,1]).reshape(2,4)
y = np.array([0, 1 , 1, 0]).reshape(1,4)
print(X)

[[0 0 1 1]
 [0 1 0 1]]


In [567]:
'''
(2) (모델 측면) 다층퍼셉트론 모델 선언하기
1) 가중치 초기화
2) 가중합 함수
3) 활성화 함수
4) 손실함수
5) 가중치 업데이트
'''
np.random.seed(41)
W_0 = np.random.rand(2,2)
W_1 = np.random.rand(2,1)
B_0 = np.random.random((1,2))
B_1 = np.random.random((1,1))
lr = 0.1

def weighted_sum(X, W, B):
    return np.dot(W.T, X) + B.T

def sigmoid(x):
    return 1 / (1 +np.exp(-x))

def BCE_loss(y, y_hat):
    loss = np.mean(y*(np.log1p(y_hat)) + (1-y)*np.log1p(1-y_hat))
    return -loss

def gradient_update(X, H, y, y_hat):
    global W_0, B_0, W_1, B_1, lr
    dW_1 = np.dot(H, (y_hat - y).T)
    dB_1 = np.sum(y_hat - y, axis = 1, keepdims = True).T
    dH = np.dot(W_1, y_hat - y)

    dZ_1 = dH * (1 - (H*H))
    dW_0 = np.dot(X, dZ_1.T)
    dB_0 = np.sum(dZ_1, axis=1, keepdims=True).T

    W_0 = W_0 - lr * dW_0
    W_1 = W_1 - lr * dW_1
    B_0 = B_0 - lr * dB_0
    B_1 = B_1 - lr * dB_1

In [568]:
'''
(3) (학습 과정) 모델 학습 하기
(2)에서 구현한 함수를 통해 모델을 학습한다.
앞서 구현한 다섯개의 함수를 모두 사용한다.
'''
for epoch in range(1000):
    Z_1 = weighted_sum(X, W_0, B_0)
    H = sigmoid(Z_1)
    Z_2 = weighted_sum(H, W_1, B_1)
    y_hat = sigmoid(Z_2)

    loss = BCE_loss(y, y_hat)
    gradient_update(X, H, y, y_hat)

print(W_0)
print(W_1)
print(B_0)
print(B_1)

[[-14.57112296 -11.45138454]
 [ 14.52879586   5.97018036]]
[[-3.70319833]
 [ 5.90627305]]
[[ 1.66573837 -6.24544571]]
[[1.85810003]]


**분류규칙과 분류결과**

라이브러리를 활용한 구현에서는 자동으로 분류규칙을 통한 분류결과가 반환된다.
그러나 직접구현에서는 분류규칙을 통해 분류결과를 반환하는 코드를 작성해야한다.

In [569]:
'''
(4) (성능 평가) 학습된 모델을 대상으로 테스트 데이터로 평가하기
학습된 가중치와 분류규칙을 바탕으로 분류 결과 확인
'''
def predict(X):
    global W_0, W_1, B_0, B_1
    Z_1 = weighted_sum(X, W_0, B_0)
    H = sigmoid(Z_1)
    Z_2 = weighted_sum(H, W_1, B_1)
    y_hat = sigmoid(Z_2).reshape(4)

    pred_class = []
    pred_class = [1 if i > 0.5 else 0 for i in y_hat]
    return np.array(pred_class)

y_pred = predict(X)
print(y_pred)

[0 1 1 0]
