In [27]:
# 지도학습
# 회귀(Regression)
# 선형 회귀(Linear Regression)
# 데이터에 가장 잘 맞는 '직선'을 찾는 알고리즘 (독립 변수 X와 종속 변수 y의 선형 관계)
# 기본 모델 : y = Wx + b (W:가중치, b:절편)
# 실제 y_test값과 input을 통해 얻은 y (Wx + b)
# 의 평균 제곱 오차 사용(Mean Squared Error, MSE)
# 해당 함수 -> 비용 함수(Cost Function) : 실제 값과 예측 값의 오차를 측정하는 함수

# 어떤 방식으로 W와 b를 수정해 나갈 것인가..
# 가장 많이 사용하는 방법 : 경사 하강법 (Gradient Descent)

In [6]:
# 실습용 선형 회귀 데이터 생성
from sklearn.datasets import make_regression # 실습용 선형 회귀 만드는 함수

X,y = make_regression(n_samples=1000, n_features=8, noise=8, random_state=42)

# 데이터 분할
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# 학습 모델
from sklearn.linear_model import LinearRegression

linear_regress = LinearRegression()
linear_regress.fit(X_train, y_train)

# 예측 결과
y_pred = linear_regress.predict(X_test)

# Cost Function : MSE
from sklearn.metrics import accuracy_score, mean_squared_error
mse = mean_squared_error(y_test, y_pred)

# rmse : mse에 root를 씌운다
import numpy as np
rmse = np.sqrt(mse)
rmse

np.float64(8.109463342393198)

In [9]:
# 가중치(W)와 y절편(b) 구해보자
print("가중치 W: ",linear_regress.coef_)
print("y정편 b:",linear_regress.intercept_)

가중치 W:  [78.14692263 62.78144546 77.66782721 39.96899843 51.36287689 46.71165384
 91.85979152  3.08268101]
y정편 b: 0.297757718195951


In [17]:
# # 보스턴 주택 가격 예측
# import pandas as pd
# data_url = "http://lib.stat.cmu.edu/datasets/boston"
# raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
# raw_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,0.00632,18.00,2.31,0.0,0.538,6.575,65.2,4.0900,1.0,296.0,15.3
1,396.90000,4.98,24.00,,,,,,,,
2,0.02731,0.00,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8
3,396.90000,9.14,21.60,,,,,,,,
4,0.02729,0.00,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8
...,...,...,...,...,...,...,...,...,...,...,...
1007,396.90000,5.64,23.90,,,,,,,,
1008,0.10959,0.00,11.93,0.0,0.573,6.794,89.3,2.3889,1.0,273.0,21.0
1009,393.45000,6.48,22.00,,,,,,,,
1010,0.04741,0.00,11.93,0.0,0.573,6.030,80.8,2.5050,1.0,273.0,21.0


# 회귀의 평가지표
- 연속적인 데이터이므로 수치의 차이를 통해 평가한다
W, b -> y_pred
y_test값의 차이가 작을수록 좋은 모델이다

- 오차의 차이만 가지고 진행 -> +-가 상쇄된 파트가 생김
절댓값, 제곱 -> 양의 범위에서 처리
 1) MAE(Mean Absolute Error): 절댓값 차이 평균
$$ \frac{1}{n} \sum_{i=1}^{n} (|y_{pred} - y_{test}|) $$

 2) MSE(Mean Squared Error) : 제곱 차이 평균
-> MAE 대비 멀리 떨어질수록 패널티

 3) RMSE(Root Mean Squared Error) : MSE에 루트를 씌워 실제 값 단위를 맞춤

 4) R^2 (결정 계수, Coefficient of Determination)
- 모델이 데이터의 분산에 얼마나 잘 설명하는지에 관해서 나타내는 지표
- 1에 가까울수록 좋은 모델

* 이론:
    * 회귀 모델은 연속적인 값을 예측하므로, 실제 값과 예측 값의 '차이'를 기반으로 평가.
    * MAE (Mean Absolute Error): $MAE = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i|$ (오차 절대값의 평균)
    * MSE (Mean Squared Error): $MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2$ (오차 제곱의 평균, 큰 오차에 패널티 부여)
    * RMSE (Root Mean Squared Error): $RMSE = \sqrt{MSE}$ (MSE에 루트를 씌워 실제 값과 단위를 맞춤)
    * R² (결정 계수, Coefficient of Determination): $R^2 = 1 - \frac{\sum(y_i-\hat{y}_i)^2}{\sum(y_i-\bar{y}_i)^2}$
        * 모델이 데이터의 분산을 얼마나 잘 설명하는지를 나타냄. 1에 가까울수록 좋음.



In [26]:
from sklearn.datasets import make_regression # 실습용 선형회귀 만드는 함수
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_squared_error
import numpy as np

from sklearn.datasets import load_diabetes
X, y = load_diabetes(return_X_y=True)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# 학습 모델
linear_regress = LinearRegression()
linear_regress.fit(X_train, y_train)

# 예측 결과
y_pred = linear_regress.predict(X_test)

# 평가지표
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import root_mean_squared_error
from sklearn.metrics import r2_score

mae = mean_absolute_error(y_pred, y_test) # mae
mse = mean_squared_error(y_pred, y_test) # mse
rmse = root_mean_squared_error(y_pred, y_test) # rmse
r2 = r2_score(y_test, y_pred) # r2

print(f"mae: {mae}")
print(f"mse: {mse}")
print(f"rmse: {rmse}")
print(f"r2: {r2}")
print()
# 가중치(W)와 y절편(b)를 구해보자
print("가중치 W :", linear_regress.coef_)
print("y절편 b :", linear_regress.intercept_)


mae: 41.54850685988059
mse: 2848.3106508475043
rmse: 53.36956671032195
r2: 0.4849058889476757

가중치 W : [  47.74968054 -241.99090728  531.97106288  381.56286182 -918.50290455
  508.25778252  116.95016447  269.4923028   695.80811712   26.32458203]
y절편 b : 151.6651755919933
