## (1) 데이터 가져오기

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split

In [2]:
diabetes = load_diabetes()

In [3]:
# diabetes

In [4]:
# print(dir(diabetes))

In [5]:
# diabetes.keys()

In [6]:
diabetes_data = diabetes.data
diabetes_label = diabetes.target

In [7]:
# diabetes_data

In [8]:
print(type(diabetes_data))
print(diabetes_data.shape)
print(diabetes_data[0])

<class 'numpy.ndarray'>
(442, 10)
[ 0.03807591  0.05068012  0.06169621  0.02187235 -0.0442235  -0.03482076
 -0.04340085 -0.00259226  0.01990842 -0.01764613]


In [9]:
# diabetes_label

In [10]:
print(type(diabetes_label))
print(diabetes_label.shape)
print(diabetes_label[0])

<class 'numpy.ndarray'>
(442,)
151.0


In [11]:
#print(diabetes.target_names) #error
print(diabetes.feature_names)

['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']


In [12]:
#print(diabetes.DESCR)

In [13]:
np.sum(diabetes_data**2,axis=0)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [14]:
np.mean(diabetes_data,axis=0)

array([-3.63428493e-16,  1.30834257e-16, -8.04534920e-16,  1.28165452e-16,
       -8.83531559e-17,  1.32702421e-16, -4.57464634e-16,  3.77730150e-16,
       -3.83085422e-16, -3.41288202e-16])

In [15]:
np.std(diabetes_data,axis=0)

array([0.04756515, 0.04756515, 0.04756515, 0.04756515, 0.04756515,
       0.04756515, 0.04756515, 0.04756515, 0.04756515, 0.04756515])

In [16]:
print(1/442)
print(np.sqrt(1/442))

0.0022624434389140274
0.04756514941544941


`diabetes_data`의 한 열을 $x_1,\cdots,x_N$이라고 하자.
($N=442$) $x_i$들의 평균은 0이고 표준편차가 1이 되도록 표준화되어 있다고(Each of these 10 feature variables have been mean centered and scaled by the standard deviation) 되어있지만, 다음에 나오는 말(i.e. the sum of squares of each column totals 1)과 일치하지 않아서 계산해보고 코드를 돌려보앗다.

위의 셀에서 확인한 것이지만, $E(X)$는 거의 0과 같다. 이것은 당연하다.
centeral limit theroem에 의하면 N이 커질수록 E(X)가 0으로 수렴하는 것이지, 그 값인 것은 아니다.

한편,

$$\sum_{i=1}^N{x_i}^2=1$$

이 성립한다. 이 식을 더 풀어내면

$$E(X^2)=\frac1N$$

이다.
그러면

$$\frac1N=E(X^2)=V(X)+E(X)^2$$

에서

$$V(X)=\frac1N$$

이다.
즉
$$\sigma(X)=\frac1{\sqrt N}=0.04757$$
이다.
이것은 위의 코드와도 일치하는 값이다.

정리하면, 데이터를 표준화했는데, $X\sim N(0,1)$로 표준화한 것은 아니고, $X\sim N\left(0,\frac1N\right)$으로 표준화했다.

## (2) 모델에 입력할 데이터 X 준비하기

In [17]:
df_X = pd.DataFrame(diabetes_data, columns=diabetes.feature_names)
df_X

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.050680,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019908,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068330,-0.092204
2,0.085299,0.050680,0.044451,-0.005671,-0.045599,-0.034194,-0.032356,-0.002592,0.002864,-0.025930
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022692,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031991,-0.046641
...,...,...,...,...,...,...,...,...,...,...
437,0.041708,0.050680,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207
438,-0.005515,0.050680,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018118,0.044485
439,0.041708,0.050680,-0.015906,0.017282,-0.037344,-0.013840,-0.024993,-0.011080,-0.046879,0.015491
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.026560,0.044528,-0.025930


In [18]:
X = df_X.to_numpy()
X

array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
         0.01990842, -0.01764613],
       [-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
        -0.06832974, -0.09220405],
       [ 0.08529891,  0.05068012,  0.04445121, ..., -0.00259226,
         0.00286377, -0.02593034],
       ...,
       [ 0.04170844,  0.05068012, -0.01590626, ..., -0.01107952,
        -0.04687948,  0.01549073],
       [-0.04547248, -0.04464164,  0.03906215, ...,  0.02655962,
         0.04452837, -0.02593034],
       [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
        -0.00421986,  0.00306441]])

In [19]:
X.shape

(442, 10)

## (3) 모델에 입력할 데이터 y 준비하기

In [20]:
df_y = pd.DataFrame(diabetes_label, columns=['disease progress'])
df_y

Unnamed: 0,disease progress
0,151.0
1,75.0
2,141.0
3,206.0
4,135.0
...,...
437,178.0
438,104.0
439,132.0
440,220.0


In [21]:
y = df_y.to_numpy()
y

array([[151.],
       [ 75.],
       [141.],
       [206.],
       [135.],
       [ 97.],
       [138.],
       [ 63.],
       [110.],
       [310.],
       [101.],
       [ 69.],
       [179.],
       [185.],
       [118.],
       [171.],
       [166.],
       [144.],
       [ 97.],
       [168.],
       [ 68.],
       [ 49.],
       [ 68.],
       [245.],
       [184.],
       [202.],
       [137.],
       [ 85.],
       [131.],
       [283.],
       [129.],
       [ 59.],
       [341.],
       [ 87.],
       [ 65.],
       [102.],
       [265.],
       [276.],
       [252.],
       [ 90.],
       [100.],
       [ 55.],
       [ 61.],
       [ 92.],
       [259.],
       [ 53.],
       [190.],
       [142.],
       [ 75.],
       [142.],
       [155.],
       [225.],
       [ 59.],
       [104.],
       [182.],
       [128.],
       [ 52.],
       [ 37.],
       [170.],
       [170.],
       [ 61.],
       [144.],
       [ 52.],
       [128.],
       [ 71.],
       [163.],
       [15

In [22]:
y.shape

(442, 1)

## (4) train 데이터와 test 데이터로 분리하기

In [23]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

In [24]:
print(type(X_train))
print(X_train.shape)
print(X_train[0])

print(type(X_test))
print(X_test.shape)
print(X_test[0])

print(type(y_train))
print(y_train.shape)
print(y_train[0])

print(type(y_test))
print(y_test.shape)
print(y_test[0])

<class 'numpy.ndarray'>
(353, 10)
[-0.00551455  0.05068012 -0.01590626 -0.06764228  0.0493413   0.07916528
 -0.02867429  0.03430886 -0.01811827  0.04448548]
<class 'numpy.ndarray'>
(89, 10)
[ 0.04170844 -0.04464164 -0.03207344 -0.06190417  0.07961226  0.05098192
  0.05600338 -0.00997249  0.04506617 -0.05906719]
<class 'numpy.ndarray'>
(353, 1)
[104.]
<class 'numpy.ndarray'>
(89, 1)
[78.]


In [25]:
print(442*0.8)
print(np.floor(442*0.8))

353.6
353.0


## (5) 모델 준비하기

In [26]:
W = np.random.rand(10)
b = np.random.rand()

In [27]:
W

array([0.65019915, 0.11594615, 0.73145715, 0.59104434, 0.3607953 ,
       0.55787917, 0.03478656, 0.29241105, 0.4500658 , 0.66860161])

In [28]:
b

0.20022225166746688

In [62]:
def model(X, W, b):
    predictions = 0
    for i in range(12):
        predictions += X[:, i] * W[i]
    predictions += b
    return predictions

In [30]:
prediction = 0
i = 0
prediction += X[:,i]*W[i]
print(prediction.shape)
i += 1
prediction += X[:,i]*W[i]
print(prediction.shape)


(442,)
(442,)


이것은, `W`와 `X`를 행렬곱한 후 `b`를 더한 것이라고 생각할 수 있다.
즉

$$\text{model} = XW+b$$

이다.
이때, $X$는 $442\times10$ 행렬이고, $W$는 10차원의 열벡터($10\times 1$)이다.
위의 식에서 $b$는 442차원의 열벡터인데, 각 entry가 일정한 값을 가지는 벡터이다.
그 결과로 생기는 model은 442차원의 열벡터이다.

In [31]:
X[:,i].shape

(442,)

In [32]:
W[i]

0.11594614609083898

model은 저 수식에서 열벡터의 의미를 갖지만, 코드 상에서 `m`은 rank 1 tensor 즉 벡터이다.
shape이 (442,1)이 나오는 것이 아니라, (442,)로 나오는 것이다.
(아래 코드)

In [33]:
m = model(X,W,b)
m.shape

(442,)

## (6) 손실함수 loss 정의하기

In [34]:
def MSE(a, b):
    mse = ((a - b) ** 2).mean()
    return mse

In [35]:
def loss(X, W, b, y):
    predictions = model(X, W, b)
    L = MSE(predictions, y)
    return L

## (7) 기울기를 구하는 gradient 함수 구현하기

In [36]:
def gradient(X, W, b, y):
    N = len(W)
    y_pred = model(X, W, b)
    dW = 1/N * 2 * X.T.dot(y_pred - y)
    db = 2 * (y_pred - y).mean()
    return dW, db

In [37]:
print(X.shape)
print(y.shape)
print(W.shape)
print(type(b))

(442, 10)
(442, 1)
(10,)
<class 'float'>


위의 코드들에 의하면 `X`는 $442\times10$ 행렬이고, `y`는 442차원의 열벡터이며, `W`는 10차원의 벡터이고 `b`는 하나의 실수값이다.
`y_pred`는 따로 변수로 저장되어 있지 않지만, 바로 위의 `gradient`를 구현하는 코드와 저 위의 `model` 코드에서 보면, `y_pred`는 442차원의 열벡터이다.
따라서, `y_pred - y`도 442차원의 열벡터($442\times1$)이다.
`.dot()`은 행렬곱을 하는 연산이다. 아래 코드에서 확인할 수 있다.

In [38]:
A = np.array([[1,2],[3,4]])
B = np.array([[1,1],[0,0]])
print(A)
print(B)

[[1 2]
 [3 4]]
[[1 1]
 [0 0]]


In [39]:
A@B

array([[1, 1],
       [3, 3]])

In [40]:
A.dot(B)

array([[1, 1],
       [3, 3]])

$L$을 $w_i$에 대하여 편미분하면


\begin{align*}
\frac{\partial L}{\partial w_i}
&=\frac1N\sum_{i=1}^N\frac{\partial}{\partial w_i}\left\{(y_{i,\text{pred}}-y_{i,\text{true}})^2\right\}\\
&=\frac1N\sum_{i=1}^N2(y_{i,\text{pred}}-y_{i,\text{true}})\frac{\partial(y_{i,\text{pred}}-y_{i,\text{true}})}{\partial w_i}\\
&=\frac1N\sum_{i=1}^N2x_i(y_{i,\text{pred}}-y_{i,\text{true}})\\
\end{align*}

이다.
이것은 LMS에 써있는 식을 조금 변형한 것이다.
그런데 정확히 쓰면 i와 j를 구분해야 할 것 같다.
$w$의 인덱스를 $j$로 두고, 기존의 $i$는 여전히 샘플의 번호를 나타내는 것으로 하자.
그러면

\begin{align*}
\frac{\partial L}{\partial w_j}
&=\frac1N\sum_{i=1}^N\frac{\partial}{\partial w_j}\left\{(y_{i,\text{pred}}-y_{i,\text{true}})^2\right\}\\
&=\frac1N\sum_{i=1}^N2(y_{i,\text{pred}}-y_{i,\text{true}})\frac{\partial(y_{i,\text{pred}}-y_{i,\text{true}})}{\partial w_j}\\
&=\frac1N\sum_{i=1}^N2x_{ij}(y_{i,\text{pred}}-y_{i,\text{true}})\\
\end{align*}
이 된다.

위의 식을 이해하기 쉽게 `X`를 $5\times 2$ 행렬로, `y_pred - y`를 5차원의 벡터로 정의해보자.

\begin{align*}
X = \begin{bmatrix}1&2\\3&1\\2&3\\1&2\\3&1\end{bmatrix}\\
y_{\text{pred}} - y = \begin{bmatrix}-2\\-1\\0\\1\\2\end{bmatrix}
\end{align*}

따라서 $i=1,2,3,4,5$, $j=1,2$이다.
위의 식에서 `dW`의 첫번째 성분 $\frac{L}{\partial w_1}$을 계산한다는 것은
$\frac2N$의 값에 다음 값을 곱하는 것인데

$$\sum_{i=1}^Nx_{i1}(y_{i,\text{pred}}-y_{i,\text{true}})$$

이것은 $X$의 첫번째 열과 $y_{\text{pred}} - y$를 내적한 것이다.
마찬가지로 `dW`의 첫번째 성분 $\frac{L}{\partial w_2}$는 $X$의 두번째 열과 $y_{\text{pred}} - y$를 내적한 값에 $\frac2N$을 곱한 것이다.

따라서 `dW`는 두 행렬 $X$와 $y_{\text{pred}} - y$을 행렬곱하고 $\frac 2N$을 곱한 것이다.
그렇기 때문에 `dW = 1/N * 2 * X.T.dot(y_pred - y)`라는 명령어로 `dW`를 계산하였다.

In [None]:
def gradient(X, W, b, y):
    N = len(W)
    y_pred = model(X, W, b)
    dW = 1/N * 2 * X.T.dot(y_pred - y)
    db = 2 * (y_pred - y).mean()
    return dW, db

In [53]:
W = np.array([10, 10])
b = 1
X = np.array([[1,2],[3,1],[2,3],[1,2],[3,1]])
y = np.array([[-2],[-1],[0],[1],[2]])

In [58]:
N = len(W)
N

2

In [61]:
y_pred = model(X,W,b)

IndexError: index 2 is out of bounds for axis 1 with size 2

In [54]:
print(W.shape)
#print(b.shape)
print(X.shape)
print(y.shape)
print(y_pred.shape)

(2,)
(5, 2)
(5, 1)
(5, 1)


In [55]:
dW, db = gradient(X, W, b, y)
print("dW:", dW)
print("db:", db)

IndexError: index 2 is out of bounds for axis 1 with size 2

In [42]:
dW, db = gradient(X_train, W, b, y_train)
print(dW.shape)
print(db.shape)
print(W.shape)

(10, 353)
()
(10,)


In [43]:
WW = W.reshape(-1,1)- dW
WW

array([[ 52.13721262,  52.13775406,  52.13811303, ...,  52.13478306,
         52.13741115,  52.13609378],
       [  0.50618634,   0.50874262,   0.51043743, ...,   0.4947157 ,
          0.50712365,   0.50090398],
       [178.90077448, 178.89363939, 178.88890883, ..., 178.93279128,
        178.89815825, 178.91551859],
       ...,
       [126.77738558, 126.77249432, 126.76925141, ..., 126.7993338 ,
        126.7755921 , 126.78749299],
       [160.84622902, 160.84332452, 160.84139884, ..., 160.85926216,
        160.84516402, 160.85223093],
       [122.29153448, 122.28496469, 122.28060892, ..., 122.32101467,
        122.28912553, 122.30511045]])

## (8) 하이퍼 파라미터인 학습률 설정하기

In [44]:
LEARNING_RATE = 0.0001

In [45]:
W.reshape(-1,1)-LEARNING_RATE*dW

array([[0.65534785, 0.65534791, 0.65534794, ..., 0.65534761, 0.65534787,
        0.65534774],
       [0.11598517, 0.11598543, 0.1159856 , ..., 0.11598402, 0.11598526,
        0.11598464],
       [0.74927408, 0.74927336, 0.74927289, ..., 0.74927728, 0.74927382,
        0.74927555],
       ...,
       [0.30505955, 0.30505906, 0.30505873, ..., 0.30506174, 0.30505937,
        0.30506056],
       [0.46610542, 0.46610513, 0.46610494, ..., 0.46610672, 0.46610531,
        0.46610602],
       [0.6807639 , 0.68076324, 0.68076281, ..., 0.68076685, 0.68076366,
        0.68076526]])

## (9) 모델 학습하기

In [46]:
losses = []

n_epoch = 1001

for i in range(1, n_epoch):
    dW, db = gradient(X_train, W, b, y_train)
    W = W.reshape(-1,1) - LEARNING_RATE * dW
    b -= LEARNING_RATE * db
    L = loss(X_train, W, b, y_train)
    losses.append(L)
    if i % 10 == 0:
        print('Iteration %d : Loss %0.4f' % (i, L))

ValueError: operands could not be broadcast together with shapes (3530,1) (10,353) 

In [None]:
import matplotlib.pyplot as plt
plt.plot(losses)
plt.show()

In [None]:
W, b

## (10) test 데이터에 대한 성능 확인하기

In [None]:
prediction = model(X_test, W, b)
mse = loss(X_test, W, b, y_test)
mse

## (11) 정답 데이터와 예측한 데이터 시각화하기