## 선형회귀(linear regression)
feature와 label은 항상 쌍으로 주어지고, feature가 하나 인것을 simple linear regression이라고 하고 feature가 여러개 있고 label이 하나있는것을 multivariable linear regression이라고 함

데이터가 여러개가 있고 여러개의 데이터를 하나의 점으로 생각하고 벡터로 생각하자
여러개의 점과 가장 오차가 적게되는 직선의 방정식(hypothesis $ \hat{y} $)과의 차이가 적게 $ \hat{y} $이 계속 움직이면서 오차를 적게 하려는 방향으로 학습(갱신,w와 b를 변경)하면서 cost(오차, Mean Square Error)가 0으로 가까워 지도록 학습을 하게 되면 우리가 찾고자 하는 y(정답)과 가까운 $ \hat{y} $을 찾게 되는 것이고 그것이 linear regression의 학습이 완료된것이다.

$$ J = \frac{1}{2m}\sum_{i=1}^{m}(y-\hat{y})^{2} \rightarrow MSE $$

# Optional Lab: Gradient Descent for Linear Regression

<figure>
    <center> <img src="./images/C1_W1_L4_S1_Lecture_GD.png"  style="width:800px;height:200px;" ></center>
</figure>

*경사 하강* gradient descent

$$\begin{align*} \text{repeat}&\text{ until convergence(수렴):} \; \lbrace \newline
\;  w &= w -  \alpha \frac{\partial J(w,b)}{\partial w} \tag{3}  \; \newline 
 b &= b -  \alpha \frac{\partial J(w,b)}{\partial b}  \newline \rbrace
\end{align*}$$
where, parameters $w$, $b$ are updated simultaneously.  
The gradient is defined as:
$$
\begin{align}
\frac{\partial J(w,b)}{\partial w}  &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})x^{(i)} \tag{4}\\
  \frac{\partial J(w,b)}{\partial b}  &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)}) \tag{5}\\
\end{align}
$$

Here *simultaniously* means that you calculate the partial derivatives for all the parameters before updating any of the parameters.

$$ \frac{\partial J(w,b)}{\partial w} = ? $$

$$ J = \frac{1}{2m}\sum_{i=1}^{m}(y-\hat{y})^{2} \rightarrow MSE $$
$$ J = \frac{1}{2m}\sum_{i=1}^{m}(y-(wx+b))^{2} \rightarrow MSE $$
$$ wx+b \rightarrow p $$
$$ y-\hat{y} \rightarrow q $$
$$ y-p \rightarrow q $$
$$ \frac{\partial J}{\partial w} = \frac{\partial J}{\partial q}\frac{\partial q}{\partial p}\frac{\partial p}{\partial w} = $$
$$ J = \frac{1}{2m}\sum_{i=1}^{m}q^{2} $$
$$  \frac{\partial J(w,b)}{\partial q} = \frac{1}{2m}\sum_{i=1}^{m} 2q$$
$$ \frac{\partial p}{\partial w} = x$$
$$ \frac{\partial q}{\partial p} = -1$$

$$ \frac{1}{m}\sum_{i=1}^{m}(y-\hat{y}) \cdot(-1) \cdot x $$
$$ -\frac{1}{m}\sum_{i=1}^{m}(y-\hat{y})\cdot x $$


<img src='images/linear1.gif'/>

<img src='images/linear2.gif'/>

<img src='images/linear3.gif'/>

In [None]:
!pip install basemap

In [None]:
!pip install celluloid

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import celluloid
from celluloid import Camera

In [None]:
class LinearRegression(object):
    def __init__(self,w=1,b=1,lr=0.01):
        self.lr=lr
        self.w = np.array([[w]])
        self.b = np.array([b])
    def cost(self,x,y):
        pred=x@self.w+self.b #예측한 직선의 방정식(y_hat,hypothesis(가설))
        #@ 내적
        e=y-pred #오차
        return np.mean(e**2) #MSE
    def fit(self,x,y): 
        pred=x@self.w+self.b
        e=y-pred
        dJ_dw = (np.mean(e*(-2*x),axis=0)) #J를 W로 편미분 ,0,1에 따라 가로세로 
        dJ_db = (np.mean(e*(-2),axis=0)) #J를 b로 편미분
        self.w = (self.w.T-self.lr*dJ_dw).T # w로 갱신
        self.b = (self.b-self.lr*dJ_db) #b 갱신
    def predict(self,x):
        return (x@self.w.T+self.b) #예측값 반환
    def params(self):
        return (self.w,self.b) #우리가 찾고자 하는 파라미터 반환

In [None]:
# Introduce training data
x_train = np.array([     
    [1],
    [2],
    [4],
    [5],
    [6],
    [7]
])
y_train = np.array([     
    [4],
    [-12],
    [3],
    [-11],
    [-5],
    [-17]
])
w_list=[] # weight(기울기) 저장
b_list=[] # bias(y절편 저장)
c_list=[] #cost 저장
ys_list=[] #xs에 대한 예측값 저장을 위한 리스트
cl_list=[] #x_train을 위한 예측해 y값을 저장하는 리스트
xs=np.array([#regression 직선을 그리기 위한 x_value 설정
    [-3],
    [10]
])
# 모델 학습 (training)
model = LinearRegression(w=3,b=1,lr=0.001)
for i in range(60000): #반복 (epoch) 횟수 지정
    w_list.append(model.params()[0]) # 기울기 저장
    b_list.append(model.params()[1]) # y 절편
    c_list.append(model.cost(x_train,y_train)) #cost를 저장
    ys_list.append(model.predict(xs).T)#xs에 해당하는 y예측값 저장
    cl_list.append(model.predict(x_train).T) #x_train에 해당하는 y 값 저장
    model.fit(x_train,y_train)
print('weight'+str(model.params()[0]))
print('y_절편'+str(model.params()[1]))
print('costs : '+str(model.cost(x_train,y_train)))
    

In [None]:
import sklearn
from sklearn.linear_model import LinearRegression

In [None]:
reg = LinearRegression().fit(x_train,y_train)
print(reg.coef_)
print(reg.intercept_)

## 시각화 코드

In [None]:
# a = np.arange(0, 50, 1).tolist()
# b = np.arange(50, 100, 5).tolist()
# c = np.arange(100, 12000, 200).tolist()
# p = a + b + c

# # 이전에 사용한 변수명과 중복되지 않도록 수정
# w_array = np.array(w_list).flatten()
# b_array = np.array(b_list).flatten()
# c_array = np.array(c_list).flatten()
# ys_array = np.array(ys_list)
# p_array = np.array(p)

# fig = plt.figure(figsize=(10, 10))
# labelsize_ = 14
# camera = Camera(fig)

# for i in p_array:
#     ax1 = fig.add_subplot(3, 2, 2)
#     ax1.plot(w_array[:1], color='blue', linestyle='dashed', alpha=0.5)
#     ax1.set_title("w", fontsize=17)
#     ax1.tick_params(axis='both', which='major', labelsize=labelsize_)

#     ax2 = fig.add_subplot(3, 2, 4)
#     ax2.plot(b_array[:1], color='red', linestyle='dashed', alpha=0.5)
#     ax2.set_title("b", fontsize=17)
#     ax2.tick_params(axis='both', which='major', labelsize=labelsize_)

#     ax3 = fig.add_subplot(3, 2, 6)
#     ax3.plot(c_array[:1], color='black', linestyle='dashed')
#     ax3.set_title("costs", fontsize=17)
#     ax3.tick_params(axis='both', which='major', labelsize=labelsize_)
#     ax3.set_xlabel("epochs", fontsize=14, labelpad=10)

#     ax0 = fig.add_subplot(1, 2, 1)
#     leg = ax0.plot(xs.T.flatten(), ys_array[i].flatten(), color='r', label=str(i))
#     ax0.scatter(x_train, y_train, color='b', marker='x', s=44)
#     ax0.legend(leg, [f'epochs: {i}'], loc='upper right', fontsize=15)
#     ax0.set_title("Linear fit", fontsize=25)
#     ax0.tick_params(axis='both', which='major', labelsize=labelsize_)
#     ax0.set_xlabel("x", fontsize=25, labelpad=10)
#     ax0.set_ylabel("y", fontsize=25, labelpad=10)  # 수정: set_xlabel -> set_ylabel
#     ax0.tick_params(axis='both', which='major', labelsize=labelsize_)
#     ax0.set_ylim([-20, 10])
#     plt.tight_layout()
#     camera.snap()

# animation = camera.animate(interval=5, repeat=False, repeat_delay=500)
# animation.save('images/SimpleLinReg_1.gif', writer='pillow')  # 수정: writer를 'pillow'로 변경


In [None]:
# Import libraries
import numpy as np

x_train = np.array([
    [1],
    [2],
    [4],
    [5],
    [6],
    [7]
])


In [None]:
y_train = np.array([
    [4],
    [-12],
    [3],
    [-11],
    [-5],
    [-17]
])

$$ J = \frac{1}{2m}\sum_{i=1}^{m}(y-\hat{y})^{2} \rightarrow MSE $$
$$ J = \frac{1}{2m}\sum_{i=1}^{m}(y-(wx+b))^{2} \rightarrow MSE $$ <br>
$$\begin{align*} \text{repeat}&\text{ until convergence(수렴):} \; \lbrace \newline
\;  w &= w -  \alpha \frac{\partial J(w,b)}{\partial w} \tag{3}  \; \newline 
 b &= b -  \alpha \frac{\partial J(w,b)}{\partial b}  \newline \rbrace
\end{align*}$$

In [17]:
x_train=np.array([[2,3],[3,2],[1,2],[-1,-2],[2,3],[3,4]])
x_train.shape
y_train = np.array([
    [4],
    [-12],
    [3],
    [-11],
    [-5],
    [-17]
])

In [22]:
w_1=3
w_2=2
b_=-1

for i in range(50000):
    y_hat = w_*x_train+b_
    n=len(x_train)
    Dj_dw1 = -1/(2*n)*sum(np.dot(x_train.T[0],(y_train - y_hat)))  
    Dj_dw2 = -1/(2*n)*sum(np.dot(x_train.T[1],(y_train - y_hat)))  
    D_b = -1/(2*n)*sum(y_train - y_hat)  
    
    w_1 = w_1 - 0.01 * Dj_dw1
    w_2 = w_2 - 0.01 * Dj_dw2
    b_ = b_ - 0.01 * D_b
    
    c_ = (1/n)*sum((y_train - y_hat)**2)
    if i %1000==0:
        print(w_,b_,c_)

3 [-1.05166667 -1.05666667] [196. 213.]
3 [-11.26491945 -12.25829875] [89.22694984 84.56124247]
3 [-11.33287811 -12.33283406] [89.22222243 84.55555581]
3 [-11.3333303  -12.33333001] [89.22222222 84.55555556]
3 [-11.33333331 -12.33333331] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.33333333 -12.33333333] [89.22222222 84.55555556]
3 [-11.3

In [5]:
# Import libraries
import numpy as np

x_train = np.array([
    [1],
    [2],
    [4],
    [5],
    [6],
    [7]
])
y_train = np.array([
    [4],
    [-12],
    [3],
    [-11],
    [-5],
    [-17]
])

w_=3
b_=-1

In [1]:
def grad_w(x,y,w_,b_):
    y_hat=w_*x+b_
    n = len(x)
    result=0
    for x_i,y_i,y_hat_i in zip(x,y,y_hat):
        result+=(y_i-y_hat_i)*x_i
    return -1/(2*n)*result

In [2]:
def grad_b(x,y,w_,b_):
    y_hat=w_*x+b_
    n = len(x)
    result=0
    for y_i,y_hat_i in zip(y,y_hat):
        result+=(y_i-y_hat_i)
    return -1/(2*n)*result

In [3]:
def cost(x,y,w_,b_):
    y_hat=w_*x+b_
    n=len(x)
    result=0
    for y_i,y_hat_i in zip(y,y_hat):
        result+=(y_i - y_hat_i)**2
    return (1/n)*result

In [6]:
for i in range(50000):
    dJ_dw=grad_w(x_train,y_train,w_,b_)
    dJ_db=grad_b(x_train,y_train,w_,b_)
    w_ = w_ - 0.01 * dJ_dw
    b_ = b_ - 0.01 * dJ_db
    c_ = cost(x_train,y_train,w_,b_)
    if i %1000==0:
        print(w_,b_,c_)

[2.51666667] [-1.08916667] [381.34288125]
[-1.72637918] [0.57920136] [43.08029374]
[-1.89816148] [1.4711951] [42.72396406]
[-1.96209688] [1.8031849] [42.67460375]
[-1.98589289] [1.92674768] [42.66776614]
[-1.9947495] [1.97273633] [42.66681897]
[-1.99804582] [1.98985278] [42.66668776]
[-1.99927268] [1.99622332] [42.66666959]
[-1.9997293] [1.99859436] [42.66666707]
[-1.99989925] [1.99947684] [42.66666672]
[-1.9999625] [1.99980529] [42.66666667]
[-1.99998604] [1.99992753] [42.66666667]
[-1.99999481] [1.99997303] [42.66666667]
[-1.99999807] [1.99998996] [42.66666667]
[-1.99999928] [1.99999626] [42.66666667]
[-1.99999973] [1.99999861] [42.66666667]
[-1.9999999] [1.99999948] [42.66666667]
[-1.99999996] [1.99999981] [42.66666667]
[-1.99999999] [1.99999993] [42.66666667]
[-1.99999999] [1.99999997] [42.66666667]
[-2.] [1.99999999] [42.66666667]
[-2.] [2.] [42.66666667]
[-2.] [2.] [42.66666667]
[-2.] [2.] [42.66666667]
[-2.] [2.] [42.66666667]
[-2.] [2.] [42.66666667]
[-2.] [2.] [42.66666667]
[-

In [15]:
x= np.array([
    [1],
    [2],
    [4],
    [5],
    [6],
    [7]
])#feature
y=  np.array([
    [4],
    [-12],
    [3],
    [-11],
    [-5],
    [-17]
])


def cost_fn(y, y_hat, flag,x_=None):
#     if flag:
#         cost = -1/(2*len(y)) *  sum(x_*(y-y_hat))
#     else:
#         cost = -1/(2*len(y)) * sum(y-y_hat)
    if flag:
        cost = -(2/len(y)) *  sum(x_*(y-y_hat))
    else:
        cost = -(2/len(y)) * sum(y-y_hat)
    return cost

w=3
b= -1
lr =0.01
for i in range(8000):
    y_hat = w*x+ b
    w= w - lr*cost_fn(y,y_hat,True,x)
    b= b - lr*cost_fn(y,y_hat,False)
    c_ = (1/len(y))*sum((y - y_hat)**2)
    if i%1000==0:
        print('w:',w, 'b:',b,'cost:',c_)

w: [1.06666667] b: [-1.35666667] cost: [472.5]
w: [-1.98601713] b: [1.92739279] cost: [42.66775545]
w: [-1.99973325] b: [1.9986149] cost: [42.66666706]
w: [-1.99999491] b: [1.99997358] cost: [42.66666667]
w: [-1.9999999] b: [1.9999995] cost: [42.66666667]
w: [-2.] b: [1.99999999] cost: [42.66666667]
w: [-2.] b: [2.] cost: [42.66666667]
w: [-2.] b: [2.] cost: [42.66666667]


In [16]:
x_train=[[2,3],[3,2],[1,2],[-1,-2],[2,3],[3,4]]
y_train=  np.array([
    [4],
    [-12],
    [3],
    [-11],
    [-5],
    [-17]
])