# Implementation Practice.2-1
## Binary Classification with Linear Regression

이번 practice에서는 기존에 배웠던 linear regression을 이용하여 binary classification을 하는 방법과 이에 대한 단점에 대해 알아본다.

먼저 binary classification을 위하여 학생들의 공부시간에 대한 Pass/No Pass dataset을 만들어보자.

In [23]:
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)

***
## Dataset Generation

In [None]:
# Pass/No Pass 학생을 각각 50명씩 만들도록 세팅
n_P, n_NP = 50, 50
# 학생들의 최소/최대 공부시간을 hour_m, hour_M으로 만들고 decision boundary를 hour_b로 만듦
# 즉, NP학생들은 2~4시간 공부시간을 가지고 P학생들은 4~6시간의 공부시간을 가짐
hour_m, hour_b, hour_M = 2, 4, 6

##### Your Code(Dataset Generation/Start) #####
study_hour_P = np.random.uniform(low = , high = , size = (n_P,))
study_hour_NP = np.random.uniform(low = , high = , size = (n_NP,))

# P, NP학생들의 y값들은 각각 1, 0으로 만들어줌
result_P = np.ones_like()
result_NP = np.zeros_like()
##### Your Code(Dataset Generation/End) #####

print("study_hour_P:", study_hour_P[:5])
print("study_hour_NP:", study_hour_NP[:5])
print("result_P:", result_P[:5])
print("result_NP:", result_NP[:5], '\n')
print("study_hour_P.shape:", study_hour_P.shape)
print("study_hour_NP.shape:", study_hour_NP.shape)
print("result_P.shape:", result_P.shape)
print("result_NP.shape:", result_NP.shape)

**Expected Output:** <br>
study_hour_P: [5.14039354 4.87720303 5.97674768 4.20408962 4.41775351] <br>
study_hour_NP: [3.09762701 3.43037873 3.20552675 3.08976637 2.8473096 ] <br>
result_P: [1. 1. 1. 1. 1.] <br>
result_NP: [0. 0. 0. 0. 0.]  <br>
 <br>
study_hour_P.shape: (50,) <br>
study_hour_NP.shape: (50,) <br>
result_P.shape: (50,) <br>
result_NP.shape: (50,)

위의 data들을 이용하여 실제 learning에 사용할 dataset인 x_data, y_data를 만들어보자.

In [None]:
##### Your Code(Dataset Generation/Start) #####
#x_data = np.hstack()
#y_data = np.hstack()
##### Your Code(Dataset Generation/End) #####

fig, ax = plt.subplots(figsize = (12,5))
ax.plot(x_data[:n_P], y_data[:n_P], 'bo')
ax.plot(x_data[n_P:], y_data[n_P:], 'ro')
ax.grid()

**Expected Output:**

<img src="./images/2_1_image1.png">

***
## Node Implementation

Chapter1 Linear Regression에서 사용된 모든 node들을 불러오자. 이번 practice에서는 Chapter1에서 다뤘던 linear model을 binary classification에 그대로 적용할 것이기 때문에 추가적인 node를 만들어줄 필요는 없다.

In [25]:
##### Your Code(Node Loading/Start) #####
# Required Nodes: mul_node, plus_node, minus_node, square_node, cost_node

class plus_node():
    def __init__(self):
        self.x, self.y, self.z = None, None, None
        
    def forward(self, x, y):
        self.x, self.y, self.z = x, y, x + y
        return self.z
    
    def backward(self, dL):
        return dL, dL
    
class minus_node():
    def __init__(self):
        self.x, self.y, self.z = None, None, None
        
    def forward(self, x, y):
        self.x, self.y, self.z = x, y, x - y
        return self.z
    
    def backward(self, dL):
        return dL, -1*dL
    
class mul_node():
    def __init__(self):
        self.x, self.y, self.z = None, None, None
        
    def forward(self, x, y):
        self.x, self.y, self.z = x, y, x*y
        return self.z
    def backward(self, dL):
        return self.y*dL, self.x*dL

class square_node():
    def __init__(self):
        self.x, self.z = None, None
    
    def forward(self, x):
        self.x, self.z = x, x*x
        return self.z
    
    def backward(self, dL):
        return 2*self.x*dL
        

class cost_node():
    def __init__(self):
        self.x, self.z = None, None
    
    def forward(self, x):
        self.x = x
        self.z = np.mean(self.x)
        return self.z
    def backward(self):
        return 1/len(self.x)*np.ones(shape = (self.x.shape))
##### Your Code(Node Loading/End) #####

***
## Linear Model Implementation

위에서 말했듯이 linear regression model을 그대로 사용할 것이기 때문에 다음과 같은 node들을 implementation해야 한다. 그리고 이번 practice부터는 모든 학생들의 결과를 최대한 비슷하게 맞추기 위해 node의 이름과 backpropagation을 저장하는 variable을 다음과 같이 통일하도록 하자.(forward propagation, backpropagation에 대한 variable 이름을 난해하게 적는 학생들이 있기도하고 visualization을 위해서)

<img src="./images/2_1_image2.png">

In [26]:
##### Your Code(Model Implementation/Start) #####
Z1_node = 
Z2_node =
Z3_node = 
L_node = 
J_node = 
##### Your Code(Model Implementation/Start) #####

***
## Learning Preparation

learning을 시작하기 앞서 learning에 필요한 hyperparameter를 정의하고 결과를 visualization하기 위한 list들을 만들어보자.

In [86]:
theta1, theta0 = 0, 0# theta1, theta0 설정
lr = 0.001# learning rate 설정
epochs = 50000#총 epoch 설정

cost_list = []
theta1_list, theta0_list = [], []

***
## Learning Process

In [89]:
for i in range(epochs):
    ##### Your Code(Learning Process/Start) #####
    Z1 = 
    Z2 = 
    Z3 = 
    L = 
    J = 
    
    dL = 
    dZ3 = 
    dY, dZ2 = 
    dZ1, dTheta0 = 
    dTheta1, dX = 
    #### Your Code(Learning Process/End) #####
    
    theta1 = theta1 - lr*np.sum(dTheta1)
    theta0 = theta0 - lr*np.sum(dTheta0)
    
    cost_list.append(J)
    theta1_list.append(theta1)
    theta0_list.append(theta0)

***
## Result Visualization

In [None]:
fig, ax = plt.subplots(2, 1, figsize = (12, 8))
ax[0].set_title("Cost")
ax[1].set_title(r'$\theta_{1} \quad and \quad \theta_{0}$')
ax[0].plot(cost_list)
ax[1].plot(theta1_list, label = r'$\theta_{1}$')
ax[1].plot(theta0_list, label = r'$\theta_{0}$')
ax[1].legend(loc = 'upper right', fontsize = 20)

x_min, x_max = x_data.min(), x_data.max()
y_min, y_max = x_min*theta1 + theta0, x_max*theta1 + theta0
x_range = np.linspace(x_min, x_max, 1000)
y_range = x_range*theta1 + theta0
y_d_idx = np.where(np.abs(y_range - 0.5) == np.min(np.abs(y_range - 0.5)))
x_d_val = x_range[y_d_idx]

fig, ax = plt.subplots(figsize = (12,5))
ax.plot(x_data[:n_P], y_data[:n_P], 'bo')
ax.plot(x_data[n_P:], y_data[n_P:], 'ro')
ax.plot([x_min, x_max], [y_min, y_max], 'r', linewidth = 2)
ax.plot([x_range[y_d_idx], x_range[y_d_idx]], [0, y_range[y_d_idx]], 'purple', linewidth = 3)
ax.plot(x_range[y_d_idx], y_range[y_d_idx], 'purple', marker = 'o', markersize = 10)
ax.text(x_range[y_d_idx]*1.05, y_range[y_d_idx],
        s = "Decision Boundary:" + str(np.round(x_range[y_d_idx], 2)),
       fontdict = {'color':  'purple', 'fontsize': 20})
ax.grid()

**Expected Output:**

<img src="./images/2_1_image3.png"> <br>
<img src="./images/2_1_image4.png">

**Q1) dataset generation 부분에서 정한 decision boundary와 learning 후 우리의 classfier의 decision boundary가 일치함을 확인하시오.** <br>


***
## Adding Outliers

위의 결과에서는 linear regression model로 binary classification이 잘 되는 것처럼 보인다.

그러면 이 model의 약점을 알아보기 위해 outlier들을 추가해보자.

이 outlier들은 공부시간이 월등히 높고, 합격한 data들이 된다.

* 참고로 결과가 제대로 나오지 않을 경우 practice 맨 위의 dataset generation 부분을 다시 실행시키고 아래의 cell을 실행시켜줘야 결과가 제대로 나온다.

In [None]:
n_out = 20
hour_out_m, hour_out_M = 12, 15
##### Your Code(Adding Outliers/Start) #####
study_hour_outlier = np.random.uniform(low = , high = , size = )
result_outlier = np.ones_like()

study_hour_P = np.append()
result_P = np.append()

x_data = np.hstack()
y_data = np.hstack()
##### Your Code(Adding Outliers/Start) #####

print("study_hour_P.shape:",study_hour_P.shape)
print("result_P.shape:", result_P.shape)

fig, ax = plt.subplots(figsize = (12,5))
ax.plot(x_data[:n_P + n_out], y_data[:n_P + n_out], 'bo')
ax.plot(x_data[n_P + n_out:], y_data[n_P + n_out:], 'ro')
ax.grid()

**Expected Output:** <br>

study_hour_P.shape: (70,)<br>
result_P.shape: (70,)<br>
<img src="./images/2_1_image5.png">

In [112]:
theta1, theta0 = 0, 0 # theta1, theta0 초기화
cost_list = []
theta1_list, theta0_list = [], []

# 위의 Learning Process를 복사하시오
    

In [None]:
fig, ax = plt.subplots(2, 1, figsize = (12, 8))
ax[0].plot(cost_list)
ax[1].plot(theta1_list, label = r'$\theta_{1}$')
ax[1].plot(theta0_list, label = r'$\theta_{0}$')
ax[1].legend(loc = 'upper right', fontsize = 20)

x_min, x_max = x_data.min(), x_data.max()
y_min, y_max = x_min*theta1 + theta0, x_max*theta1 + theta0
x_range = np.linspace(x_min, x_max, 1000)
y_range = x_range*theta1 + theta0
y_d_idx = np.where(np.abs(y_range - 0.5) == np.min(np.abs(y_range - 0.5)))
x_d_val = x_range[y_d_idx]

fig, ax = plt.subplots(figsize = (12,5))
ax.plot(x_data[:n_P + n_out], y_data[:n_P + n_out], 'bo')
ax.plot(x_data[n_P + n_out:], y_data[n_P + n_out:], 'ro')
ax.plot([x_min, x_max], [y_min, y_max], 'r', linewidth = 2)
ax.plot([x_range[y_d_idx], x_range[y_d_idx]], [0, y_range[y_d_idx]], 'purple', linewidth = 3)
ax.plot(x_range[y_d_idx], y_range[y_d_idx], 'purple', marker = 'o', markersize = 10)
ax.text(x_range[y_d_idx]*1.05, y_range[y_d_idx],
        s = "Decision Boundary:" + str(np.round(x_range[y_d_idx], 2)),
       fontdict = {'color':  'purple', 'fontsize': 20})
ax.grid()

**Expected Output:**

<img src="./images/2_1_image6.png"> <br>
<img src="./images/2_1_image7.png">

**Q2) linear regression model을 이용하여 binary classification을 진행했을 때 outlier가 learning에 미치는 결과에 대하여 분석하시오**