### 머신러닝

머신러닝이란 명시적인 프로그래밍 없이 기계가 알아서 학습하도록 하는 것을 말합니다. 머신러닝 모델을 정의했을 때, 대량의 데이터를 통해 모델이 자동으로 최적화를 진행하는 과정을 거치게 됩니다.
(인공지능의 하위 개념으로)
- 그렇다면 머신러닝의 학습과정은 어떻게 진행될까요?
- 먼저 아래와 같이 Numpy와 Pandas 그리고 시각화 라이브러리인 Matplotlib을 불러옵니다.

<img src="https://user-images.githubusercontent.com/37393115/181447365-ade0b64b-4354-4d46-b9d2-31232be80cae.png" width="700" height="400">

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

머신러닝 학습과정
머신러닝의 학습과정은 크게 5가지로 나눠볼 수 있습니다.
1. 데이터를 수집
2. 학습 모델 설정
3. 훈련 데이터 입력 및 학습
4. 시험 데이터 입력을 통한 성능 검증
5. 활용
- 위의 과정을 실제 코드를 활용해 진행해보도록 하곘습니다.
- 다양한 통계 분석이 가능하게 해주는 statsmodels 라이브러리를 불러온 후 이번 학습 과정에 사용할 당뇨병 관련 데이터셋을 불러옵니다.
- 마지막으로 모형을 평가할 평균 제곱근 오차를 임포트 합니다. 

In [4]:
import statsmodels.api as sm
from sklearn.datasets import load_diabetes
from sklearn.metrics import mean_squared_error

- X축에 데이터 프레임 형태로 훈련 데이터를 불러오고, y축에 타겟 데이터를 각각 변수에 담아줍니다.
- 그리고 모양을 확인하면 아래와 같습니다.

In [5]:
X = pd.DataFrame(load_diabetes().data, columns = load_diabetes().feature_names)
y = load_diabetes().target
X.shape, y.shape

((442, 10), (442,))

- 이제 데이터를 불러왔고 실제 학습을 위한 과정을 진행해보겠습니다.
- 우리가 여기서 세팅해야 되는 값들은 학습 횟수, 조정값, 가중치와 편향 등입니다. 각각 변수에 담아 지정해주고 앞서 평가를 위해 불러온 MSE(평균 제곱근 오차)를 이용해 오차를 구하고 이 오차가 일정수준(여기서는 0.1로 했습니다.)에 도달하면 학습을 마치는 형태로 진행합니다.

In [6]:
# 몇회 학습할 것인지 결정
num_epoch = 100000

# 조정값 셋팅
learning_rate = 0.0003

# 가중치와 편향 변수 셋팅
w = np.random.uniform(low=-1.0, high=1.0, size = 10)
b = np.random.uniform(low=-1.0, high=1.0)

# 학습 시작
for epoch in range(num_epoch):
    
    y_predict = np.matmul(np.array(X),w) + b    
    # 오차 구하기 MSE(Mean Square Error)
    error = np.square(y_predict - y).mean()
    
    # 오차가 0.1보다 작으면 학습 마치기
    if error < 50:
        break
    
    # Cost Function의 조건 1) 정답과 예측값이 일치하면 0이 나와야 함, 2) 차이가 크면 무한대가 나올 것, 3) 미분 가능할것
    w = w - learning_rate * np.matmul((y_predict - y), X) # w는 X과 연관이 있어야 하기 때문에 곱하기로 넣어줌
    b = b - learning_rate * (y_predict - y).mean()

    # 10000회 마다 결과 출력 
    if epoch % 10000 == 0:
        print(f"{epoch:5} w = {w}, b = {b:.6f}, error = {error:.6f}")
    
# 최종 결과를 확인합니다. 
print(f"{epoch:5} w = {w}, b = {b:.6f}, error = {error:.6f}")

    0 w = age   -0.893303
sex    0.366275
bmi   -0.136680
bp     0.201405
s1     1.100045
s2     0.908699
s3     0.317051
s4    -0.124849
s5    -0.479417
s6    -0.435082
dtype: float64, b = -0.349057, error = 29202.674286
10000 w = age     -0.466593
sex   -218.570816
bmi    508.767047
bp     312.424110
s1     -50.511020
s2    -115.474210
s3    -208.467412
s4     123.557744
s5     430.252172
s6     103.126426
dtype: float64, b = 144.545242, error = 2944.469340
20000 w = age     -6.361571
sex   -236.618059
bmi    528.098700
bp     321.679480
s1     -69.779864
s2    -110.687107
s3    -205.020818
s4     115.997108
s5     467.186498
s6      76.552735
dtype: float64, b = 151.755858, error = 2880.455056
30000 w = age     -6.558067
sex   -236.714232
bmi    529.076638
bp     322.182790
s1     -87.118593
s2     -94.887529
s3    -200.128806
s4     111.580612
s5     480.550655
s6      71.075536
dtype: float64, b = 152.114692, error = 2879.079279
40000 w = age     -6.650758
sex   -236.474205
bmi   

In [7]:
mean_squared_error(y, y_predict)

2873.103729389219

결과는 위와 같습니다. 그렇다면 앞서 불러왔던 statsmodels를 이용해 우리가 알고있는 Linear model과 비교해 보겠습니다.

In [8]:
X = sm.add_constant(X)
model = sm.OLS(y,X)
results = model.fit()
results.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.518
Model:,OLS,Adj. R-squared:,0.507
Method:,Least Squares,F-statistic:,46.27
Date:,"Thu, 28 Jul 2022",Prob (F-statistic):,3.8299999999999998e-62
Time:,16:23:04,Log-Likelihood:,-2386.0
No. Observations:,442,AIC:,4794.0
Df Residuals:,431,BIC:,4839.0
Df Model:,10,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,152.1335,2.576,59.061,0.000,147.071,157.196
age,-10.0099,59.749,-0.168,0.867,-127.446,107.426
sex,-239.8156,61.222,-3.917,0.000,-360.147,-119.484
bmi,519.8459,66.533,7.813,0.000,389.076,650.616
bp,324.3846,65.422,4.958,0.000,195.799,452.970
s1,-792.1756,416.680,-1.901,0.058,-1611.153,26.802
s2,476.7390,339.030,1.406,0.160,-189.620,1143.098
s3,101.0433,212.531,0.475,0.635,-316.684,518.770
s4,177.0632,161.476,1.097,0.273,-140.315,494.441

0,1,2,3
Omnibus:,1.506,Durbin-Watson:,2.029
Prob(Omnibus):,0.471,Jarque-Bera (JB):,1.404
Skew:,0.017,Prob(JB):,0.496
Kurtosis:,2.726,Cond. No.,227.0


In [9]:
mean_squared_error(y,results.predict(X))

2859.6963475867506

차이가 느껴지시나요?