## 이론 정리
---
> * "선형 회귀"에대한 이론 확립  
> *  데이터의 분포를 확인하여 인자간 상관관계를 파악하고 상관계수를 구함   
> *  1차 함수 모델을 만들며 __가중치__를 배움   
     - y = wx + b  
> *  현재 모델의 출력값과 실제 값의 차이를 나타내는 __손실함수__를 학습함  
     - 평가 지표 4가지 : MAE, MSE, RMSE, R-squared -> RMSE, MSE 사용  
> * 기울기를 사용하여 손실함수 값을 점차 줄이는 __경사하강법__을 통하여 모델을 학습시킴  
     - w' = w - ng  
     -  미분식 이해, 하이퍼 파라미터(컵퓨터 계산입력X, 사용자 직접 입력)  
> * 다양한 형태의 그래프를 그릴 수 있는 __seaborn__패키지를 이용하여 다변수 선형회귀를 그림  
     - One Hot Encodding : 카테고리 데이터 -> 실수형 데이터 변환 => get_dummies() 함수 (in pandas)    
     - 회귀/분류 이해 : 맞추고자하는 값이 카테고리(분류)이냐, 연속된 실수값(회귀)에 따라 다름
> * 직접 gradient 값을 계산 및 학습시키기
> * __sklearn__라이브러리를 통하여 간단하게 해결  
---

## 프로젝트 1 : 당뇨병 수치 계산
---

### 1) 데이터 가져오기
---

In [33]:
from sklearn.datasets import load_diabetes

diabetes = load_diabetes()

df_X = diabetes.data
df_y = diabetes.target

#print(diabetes.DESCR)를 통해 자료 정보학인 
#pritn(df.X)를 통해 잘 입력됐는지 확인

- 본 자료는 당뇨병 환자의 데이터로 (442, 10) 크기를 갖고 있음
- 총 데이터 갯수는 442개, 특성은 10가지(age, sex, bmi등)가 있음

### 2) 모델에 입력할 데이터 X 준비하기
---

In [30]:
import numpy as np

X = np.array(df_X)
X

array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
         0.01990842, -0.01764613],
       [-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
        -0.06832974, -0.09220405],
       [ 0.08529891,  0.05068012,  0.04445121, ..., -0.00259226,
         0.00286377, -0.02593034],
       ...,
       [ 0.04170844,  0.05068012, -0.01590626, ..., -0.01107952,
        -0.04687948,  0.01549073],
       [-0.04547248, -0.04464164,  0.03906215, ...,  0.02655962,
         0.04452837, -0.02593034],
       [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
        -0.00421986,  0.00306441]])

### 3) 모델에 예측할 데이터 y 준비하기
---

In [31]:
y = np.array(df_y)
y

array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
        69., 179., 185., 118., 171., 166., 144.,  97., 168.,  68.,  49.,
        68., 245., 184., 202., 137.,  85., 131., 283., 129.,  59., 341.,
        87.,  65., 102., 265., 276., 252.,  90., 100.,  55.,  61.,  92.,
       259.,  53., 190., 142.,  75., 142., 155., 225.,  59., 104., 182.,
       128.,  52.,  37., 170., 170.,  61., 144.,  52., 128.,  71., 163.,
       150.,  97., 160., 178.,  48., 270., 202., 111.,  85.,  42., 170.,
       200., 252., 113., 143.,  51.,  52., 210.,  65., 141.,  55., 134.,
        42., 111.,  98., 164.,  48.,  96.,  90., 162., 150., 279.,  92.,
        83., 128., 102., 302., 198.,  95.,  53., 134., 144., 232.,  81.,
       104.,  59., 246., 297., 258., 229., 275., 281., 179., 200., 200.,
       173., 180.,  84., 121., 161.,  99., 109., 115., 268., 274., 158.,
       107.,  83., 103., 272.,  85., 280., 336., 281., 118., 317., 235.,
        60., 174., 259., 178., 128.,  96., 126., 28

### 4) train 데이터와 test 데이터로 분리하기
---

In [113]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=50)

#잘 나눠졌는지 확인
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(353, 10) (353,)
(89, 10) (89,)


### 5) 모델 준비하기
---  

In [117]:
# 입력 데이터 갯수에 맞는 가중치 w, b 준비하기
w = np.random.rand(10)
b = np.random.rand()

#모델 함수 구현하기
#for문을 활용하여 y = w1x1 + w2x2 + ~ + w10x10 + b 식 만들기
def model(X, w, b):
    predictions = 0
    for i in range(10):
        predictions += X[:, i] * w[i]
    predictions += b
    return predictions

### 6) 손실함수 loss 정의하기 
---

In [118]:
#손실함수를 MSE 함수로 정의하기 
def MSE(a, b):
    mse = ((a - b) ** 2).mean()
    return mse

def loss(X, w, b, y):
    predictions = model(X, w, b)
    L = MSE(predictions, y)
    return L

### 7) 기울기를 구하는 gradient 함수 구현하기
---

In [119]:
def gradient(X, w, b, y):
    N = len(w)
    
    #y_pred 준비
    y_pred = model(X, w, b)
    
    #w의 gradient 식-> **X.dot(y)는 X와 y의 행렬곱. T는 형태 바꿔줌 
    dw = 1/N * 2 * X.T.dot(y_pred - y)
    
    #b의 gradient 식 
    db = 2 * (y_pred - y).mean()
    
    return dw, db

#시험삼아 계산
dw, db = gradient(X, w, b, y)
print(dw)
print(db)

[ -60.60401889  -13.74495062 -189.52307941 -142.65567638  -68.31156773
  -56.06131976  127.64376368 -139.02866396 -182.82701013 -123.47748536]
-302.89719317467757


### 8) 하이퍼 파라미터인 학습률 설정하기
---

In [122]:
#learning rate 설정하기!
learning_rate = 0.1

#1: 5 넘 높음.  2: 100 Loss nan

### 9) 모델 학습하기
---

In [123]:
#정해진 손실함수와 기울기 함수로 모델 학습시키기
losses = []

for i in range(1,1000):
    dw, db = gradient(X_train, w, b, y_train)
    w -= learning_rate * dw
    b -= learning_rate * db
    L = loss(X_train, w, b, y_train)
    losses.append(L)
    
    if i % 50 == 0:
            print('iteration %d : Loss %0.4f' % (i, L) )


#자꾸 loss nan 뜸...나니....?
#L, dw, db 값이 nan으로 나옴. -> test의 수 바꿔줌. -> lss값 20000~15000 
#-> lr 0.001 -> 0.0.1 => 6000~3000 -> 1로하니까 2000대

iteration 50 : Loss nan
iteration 100 : Loss nan
iteration 150 : Loss nan
iteration 200 : Loss nan
iteration 250 : Loss nan
iteration 300 : Loss nan
iteration 350 : Loss nan
iteration 400 : Loss nan
iteration 450 : Loss nan
iteration 500 : Loss nan
iteration 550 : Loss nan
iteration 600 : Loss nan
iteration 650 : Loss nan
iteration 700 : Loss nan
iteration 750 : Loss nan
iteration 800 : Loss nan
iteration 850 : Loss nan
iteration 900 : Loss nan
iteration 950 : Loss nan


ndarray 구현방식  

ndarray는 일반 파이썬 List의 구현방식(Linked List)와 다르게 C의 배열(array)의 특성인 연속적인 메모리에 배치된다는 점입니다.  

이로 인해 C의 array가 가지는 장점은 살리면서 파이썬의 직관적인 코딩도 가능하게 됩니다.  

인접한 메모리 배치는 다수의 선형대수 연산의 속도를 향상시킬 수 있습니다.  

그래서 전문가들의 python 성능 향상을 위한 코딩 관례중 python에서 ndarray의 벡터화 연산으로 계산할 수 있는 경우의 파이썬 내장 반복문은 사용하지 않는다는 점이라고 합니다.


Numerical Exception
수학적으로 계산이 안되는 것. 0으로 나눈다거나 log(0)과 같은 +-무한대로 발산할 수 있는 것이 생기는 경우

Nan =  NaN은 Not-a-Number 로 숫자가 아니라는 뜻

/tmp/ipykernel_48/2843987338.py:3: RuntimeWarning: overflow encountered in square
  mse = ((a - b) ** 2).mean()
/tmp/ipykernel_48/2118051103.py:7: RuntimeWarning: invalid value encountered in double_scalars
  b -= learning_rate * db

(9) 모델 학습하기
정의된 손실함수와 기울기 함수로 모델을 학습해주세요.
loss값이 충분히 떨어질 때까지 학습을 진행해주세요.
입력하는 데이터인 X에 들어가는 특성 컬럼들을 몇 개 빼도 괜찮습니다. 다양한 데이터로 실험해 보세요.
(10) test 데이터에 대한 성능 확인하기
test 데이터에 대한 성능을 확인해주세요.
(11) 정답 데이터와 예측한 데이터 시각화하기
x축에는 X 데이터의 첫 번째 컬럼을, y축에는 정답인 target 데이터를 넣어서 모델이 예측한 데이터를 시각화해 주세요.