In [1]:
import sys

import numpy as np
import seaborn as sb
from pandas import read_excel, DataFrame
from matplotlib import pyplot as plt

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures

# 성능 측정 지표 모듈
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error, mean_squared_log_error

In [2]:
origin = read_excel('cars.xlsx')

In [3]:
poly = PolynomialFeatures(include_bias=False)
fit = poly.fit_transform(origin[['speed']])
x = DataFrame(fit, columns=poly.get_feature_names_out())
x.head()

Unnamed: 0,speed,speed^2
0,4.0,16.0
1,4.0,16.0
2,7.0,49.0
3,7.0,49.0
4,8.0,64.0


In [4]:
y = origin[['dist']]
y.head()


Unnamed: 0,dist
0,2
1,10
2,4
3,22
4,16


In [5]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=123)
x_train.shape, x_test.shape, y_train.shape, y_test.shape


((35, 2), (15, 2), (35, 1), (15, 1))

In [6]:
model = LinearRegression()
fit = model.fit(x_train, y_train)

print("계수: ", fit.coef_)
print("절편: ", fit.intercept_)
print("훈련 데이터 설명력: ", fit.score(x_train, y_train))
print("검증 데이터 설명력: ", fit.score(x_test, y_test))

계수:  [[0.73773403 0.09986278]]
절편:  [4.70067321]
훈련 데이터 설명력:  0.5941347702404498
검증 데이터 설명력:  0.818350403785495


In [7]:
y_train_pred = fit.predict(x_train)
y_train_pred = y_train_pred.reshape(-1)
y_train_pred

array([ 9.24941376, 22.06429118, 42.06928848, 85.55825922, 38.23580838,
       50.33542533, 31.16802484, 54.76808209, 42.06928848, 22.06429118,
       34.60205383, 79.92724915, 14.75808748, 38.23580838, 74.49596463,
       16.99376316, 31.16802484, 54.76808209, 27.9337214 , 69.26440567,
       38.23580838, 54.76808209, 59.40046439, 24.89914351, 50.33542533,
       50.33542533, 34.60205383, 59.40046439, 34.60205383, 31.16802484,
       59.40046439, 50.33542533, 46.10249413, 14.75808748, 79.92724915])

In [8]:
y_test_pred = fit.predict(x_test)
y_test_pred = y_test_pred.reshape(-1)
y_test_pred

array([24.89914351, 27.9337214 , 46.10249413, 79.92724915, 31.16802484,
        9.24941376, 59.40046439, 27.9337214 , 46.10249413, 22.06429118,
       34.60205383, 79.92724915, 27.9337214 , 59.40046439, 19.42916439])

In [9]:

print("훈련 데이터 설명력: ", fit.score(x_train, y_train))
print("검증 데이터 설명력: ", fit.score(x_test, y_test))

훈련 데이터 설명력:  0.5941347702404498
검증 데이터 설명력:  0.818350403785495


In [10]:
print("훈련 데이터 설명력: ", r2_score(y_train, y_train_pred))
print("검증 데이터 설명력: ", r2_score(y_test, y_test_pred))

훈련 데이터 설명력:  0.5941347702404498
검증 데이터 설명력:  0.818350403785495


| 종류   | 이름                             | 한글명            | 잔차계산 | 이상치에 영향 여부 |
|---|---|---|---|---|
| MAE  | Mean Absolute Error            | 평균절대오차         | 절대값  | Yes        |
| MSE  | Mean Squared Error             | 평균제곱오차         | 제곱값  | No         |
| RMSE | Root Mean Squared Error        | 평균오차           | 제곱값  | No         |
| MAPE | Mean Absolute Percentage Error | 평균 절대 백분 오차 비율 | 절대값  | Yes        |
| MPE  | Mean Percentage Error          | 평균 비율 오차       | N/A  | Yes        |

MAE는 절대값을 취하는 지표이기에 실제보다 낮은 값(underperformance)인지 큰 (overperformance)값인지 알 수 없다.



In [11]:
print("훈련 데이터 MAE: ", mean_absolute_error(y_train, y_train_pred))
print("검증 데이터 MAE: ", mean_absolute_error(y_test, y_test_pred))

훈련 데이터 MAE:  11.606654218318873
검증 데이터 MAE:  9.579510632066908


MSE .( = 특이치에 민감함)

In [12]:
print("훈련 데이터 MSE: ", mean_squared_error(y_train, y_train_pred))
print("검증 데이터 MSE: ", mean_squared_error(y_test, y_test_pred))

훈련 데이터 MSE:  257.54915338176914
검증 데이터 MSE:  124.43723939078457


RMSE

MSE를 구한 값에 루트를 씌운다.

오류 지표를 실제 값과 유사한 단위로 변환하여 해석을 쉽게 한다.



In [13]:
print("훈련 데이터 RMSE: ", np.sqrt(mean_squared_error(y_train, y_train_pred)))
print("검증 데이터 RMSE: ", np.sqrt(mean_squared_error(y_test, y_test_pred)))

훈련 데이터 RMSE:  16.048338025533024
검증 데이터 RMSE:  11.155144077544879



MAPE  (Mean Absolute Percentage Error) : 평균 절대 백분오차 비율

MAE를 퍼센트로 변환한 것이다.

MAE와 동일하게 MSE보다 이상치에 민감하며 실제값보다 낮은 값인지 높은 값인지 알 수 없다.

모델에 대한 편향이 있다.(이를 대응하기 위해 MPE도 추가로 확인하는 것을 추천)



In [14]:
# API로 제공되는 기능이 아니고, 직접 계산해야 하기 때문에 관측치와 예측치의 데이터 타입이 일치해야 한다.
# -> numpy 배열 혹은 Series 타입으로 통일해야 한다.
print("훈련 데이터 MAPE: ", np.mean(np.abs((y_train.values - y_train_pred) / y_train.values) * 100))
print("검증 데이터 MAPE: ", np.mean(np.abs((y_test.values - y_test_pred) / y_test.values) * 100))

훈련 데이터 MAPE:  98.62187448277137
검증 데이터 MAPE:  202.18312156089837


MPE  (Mean Percentage Error) : 평균 비율 오차

MAPE와 비슷하지만 MAPE에서 절대값을 제외한 지표다.

장점은 모델이 실제값보다 낮은 값인지 큰 값인지 판단 할 수 있다.



In [15]:
# API로 제공되는 기능이 아니고, 직접 계산해야 하기 때문에 관측치와 예측치의 데이터 타입이 일치해야 한다.
# -> numpy 배열 혹은 Series 타입으로 통일해야 한다.
print("훈련 데이터 MPE: ", np.mean((y_train.values - y_train_pred) / y_train.values * 100))
print("검증 데이터 MPE: ", np.mean((y_test.values - y_test_pred) / y_test.values * 100))


훈련 데이터 MPE:  -60.12543532614601
검증 데이터 MPE:  -157.06332774885405
