# 프로젝트 1: 손수 설계하는 선형회귀, 당뇨병 수치를 맞춰보자!

## (1) 데이터 가져오기
---
- sklearn.datasets의 load_diabetes에서 데이터를 가져와주세요.
- diabetes의 data를 df_X에, target을 df_y에 저장해주세요.

In [None]:
# 사이킷런에서 데이터 불러오기
from sklearn.datasets import load_diabetes

diabetes=load_diabetes()

In [None]:
# data와 target 받아오기 및 확인
df_X=diabetes.data
df_y=diabetes.target

In [None]:
# 데이터 확인
print(df_X.shape)

In [None]:
print(df_y.shape)

In [None]:
diabetes["feature_names"]

In [None]:
df_X[0]

In [None]:
df_y[0]

## (2) 모델에 입력할 데이터 X 준비하기
---
- df_X에 있는 값들을 numpy array로 변환해서 저장해주세요.

In [None]:
import numpy as np

X = np.array(df_X)
X.shape

## (3) 모델에 예측할 데이터 y 준비하기
---
- df_y에 있는 값들을 numpy array로 변환해서 저장해주세요.

In [None]:
y = np.array(df_y)
y.shape

## (4) train 데이터와 test 데이터로 분리하기
---
- X와 y 데이터를 각각 train 데이터와 test 데이터로 분리해주세요.

In [None]:
from sklearn.model_selection import train_test_split

# train : test = 8:2
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

len(X), len(X_train), len(X_test)

## (5) 모델 준비하기
---
- 입력 데이터 개수에 맞는 가중치 W와 b를 준비해주세요.
- 모델 함수를 구현해주세요.

In [None]:
W = np.random.rand(10)
b = np.random.rand()

In [None]:
def model(X, W, b):
    return np.dot(X, W) + b

## (6) 손실함수 loss 정의하기
---
- 손실함수를 MSE 함수로 정의해주세요.

In [None]:
def MSE(y, y_pred):
    mse = ((y - y_pred) ** 2).mean()
    return mse

def loss(X, W, b, y):
    y_pred = model(X, W, b)
    L = MSE(y, y_pred)
    return L

## (7) 기울기를 구하는 gradient 함수 구현하기
---
- 기울기를 계산하는 gradient 함수를 구현해주세요.

In [None]:
def gradient(X, W, b, y):
    N = len(y)
    
    y_pred = model(X, W, b)
    
    dW = 1/N * 2 * X.T.dot(y_pred - y)
    db = 2 * (y_pred - y).mean()
    return dW, db

## (8) 하이퍼파라미터인 학습률 설정하기
---
- 학습률, learning rate 를 설정해주세요
- 만약 학습이 잘 되지 않는다면 learning rate 값을 한번 여러 가지로 설정하며 실험해 보세요.

In [None]:
LEARNING_RATE = 0.01

## (9) 모델 학습하기
---
- 정의된 손실함수와 기울기 함수로 모델을 학습해주세요.
- loss값이 충분히 떨어질 때까지 학습을 진행해주세요.
- 입력하는 데이터인 X에 들어가는 특성 컬럼들을 몇 개 빼도 괜찮습니다. 다양한 데이터로 실험해 보세요.

In [None]:
losses = []
epochs = 50000

for i in range(epochs):
    dW, db = gradient(X_train, W, b, y_train)
    W -= LEARNING_RATE * dW
    b -= LEARNING_RATE * db
    L = loss(X_train, W, b, y_train)
    losses.append(L)
    if i % 500 == 0:
        print('Iteration %d : Loss %0.4f' % (i, L))

## (10) test 데이터에 대한 성능 확인하기
---
- test 데이터에 대한 성능을 확인해주세요.

In [None]:
W, b

In [None]:
prediction = model(X_test, W, b)
mse = loss(X_test, W, b, y_test)
mse

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10, 3))
plt.subplot(1, 2, 1)
plt.plot(losses[:200])

plt.subplot(1, 2, 2)
plt.plot(losses[200:])

## (11) 정답 데이터와 예측한 데이터 시각화하기
---
- x축에는 X 데이터의 첫 번째 컬럼을, y축에는 정답인 target 데이터를 넣어서 모델이 예측한 데이터를 시각화해 주세요.

In [None]:
# prediction과 y_test 비교
plt.scatter(X_test[:, 0], y_test)
plt.scatter(X_test[:, 0], prediction)
plt.show()

# 회고, 정리
---
배운 점 : 모델을 만들고 mse, 데이터 시각화하는 법을 배웠다.
아쉬운 점 : 속도가 느리다. 시간을 충분히 들였음에도 오류의 원인을 찾지 못했음은 기초가 부족한 것 때문인 것 같다.
느낀 점 : 공부가 더 필요하다.
어려웠던 점 : 시간 분배, 응용