# Supervised Learning

## 1) Regression

### 1-1) Linear Regression from scratch

In [None]:
import numpy as np
from matplotlib import pyplot as plt
% matplotlib inline

# Step 1. Synthetic data Creation

In [None]:
# The number of data to be created
m = 100

In [None]:
# 독립변수입력) x => 종속변수(정답) y 
x = np.random.randn(m, 1)
y = 3 * x + np.random.rand(m, 1) * 5

plt.scatter(x,y)
plt.title("The distribution of created dataset ")
plt.xlabel("input x")
plt.ylabel("output y")

In [None]:
# 프로그래밍, 디버깅 과정에서 항상 데이터의 Shape을 보는 습관을 들이자.
# 데이터의 수치는 보는 것은 코스트가 높은 행위이고, 생각보다 적은 정보를 준다.
print (x.shape)
print (y.shape)

# Step 2. Model definition

In [None]:
# initialization of weights and bias
w = 0
b = 0

# Linear model : y = w*x + b
def hypothesis(x, w, b):
    pred = np.multiply(w, x) + b
    return pred

In [None]:
# 비용함수를 정의해봅시다! 학습에는 사용되지 않지만 학습과정에서 loss가 줄어드는지 확인해볼 수 있겠군요.

loss = (1/2)*(hypothesis(x, w, b) - y)**2 # 1/2 * (h(x) - y)^2
print("loss's shape? : ", loss.shape) #중간중간 정상적인 shape인지를 확인해줍시다.

In [None]:
# 모든 데이터에 대한 loss를 위해 총합을 구해봅시다.
total_loss = (1/m)*np.sum(loss)
print("loss's shape? : ", total_loss.shape)
print("value of loss : ", total_loss)

In [None]:
# 위에서 계산한대로 전체 loss의 평균을 리턴합니다.
def cost(x, w, b, y):
    loss = 1/2*(hypothesis(x, w, b) - y)**2 # loss = 1/2(h(x) - y)^2
    total_loss = (1/m)*np.sum(loss)
    return total_loss

In [None]:
cost(x, w, b, y)

In [None]:
# 실제 학습에서는 gradient가 사용되죠?
# 각 파라미터에 대한 gradient를 구해봅시다.
# 자료에 gradient에 대한 수식이 있습니다.
# d(cost)/dw =  (h(x) - y)(h(x))' = (h(x) - y)*x
# d(cost)/db = (h(x) - y)(h(x))' = (h(x) -y)

#shape 변화를 잘 트래킹하는 것이 요령입니다.
print((hypothesis(x, w, b) - y).shape) # shape of (h(x) -y)
print(x.shape) # shape of x
print(((hypothesis(x, w, b) - y)*x).shape) # (h(x)-y)*x

In [None]:
# 마찬가지로 모든 데이터에 대한 평균을 구합니다.
def derivative(x, w, b, y):
    dw = (1/m)*np.sum(((hypothesis(x, w, b) - y)*x))
    db = (1/m)*np.sum(((hypothesis(x, w, b) - y)))
    return dw, db

derivative(x,w,b,y)

In [None]:
# 업데이트 함수(경사하강법) 구현
def update(x, w, b, y, alpha):
    dw, db = derivative(x, w, b, y)
    w = w - alpha*dw # w := w + alpha * dw
    b = b - alpha*db # b := b + alpha * db
    return w, b

# Step 3. Training model

In [None]:
def visualize(w, b):
    plt.scatter(x,y)
    line_x = np.linspace(-4,4,100) # -4~4까지 100개의 값들
    plt.plot(line_x, line_x * w + b) # -4~4까지 100개의 값에 대한 모델 출력값 = 선형모델이 만드는 선분으로 보일 것!
    plt.show()

In [None]:
# initialization of weights and bias
w = 0
b = 0

In [None]:
# 10번만 돌려봅시다.

for i in range(10):
    w, b = update(x,w,b,y, 0.01)
    print(w, b)
    visualize(w, b)

In [None]:
# 100번당 이미지를 출력합니다.

for i in range(1000):
    w, b = update(x,w,b,y, 0.01) #학습률 0.01
    if (i+1)%100 == 0:
        visualize(w, b)

In [None]:
w, b

### 1-2) Linear Regression with scikit-learn

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
reshaped_x = x.reshape((100,1))
reshaped_y = y.reshape((100,1))
model = LinearRegression()
model.fit(reshaped_x,reshaped_y)

In [None]:
print ('w =', model.coef_)
print ('b =', model.intercept_)

In [None]:
from sklearn.metrics import mean_absolute_error as MAE
predicted_x = model.predict(reshaped_x)
mae = MAE(predicted_x, reshaped_y)
print("mae : ", mae)