In [2]:
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_log_error

def evaluate_reg_all(y_test, y_predict):
    MSE = mean_squared_error(y_test,y_predict,squared=True)
    RMSE = mean_squared_error(y_test,y_predict,squared=False)
    MAE = mean_absolute_error(y_test,y_predict)
    R2 = r2_score(y_test,y_predict)
    
    print(f'MSE: {MSE:.3f}, RMSE: {RMSE:.3F}, MAE: {MAE:.3F}, R^2: {R2:.3F}')

In [4]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor

# 경고메세지 끄기
import warnings
warnings.filterwarnings(action='ignore')

##########데이터 로드
fish_df = pd.read_csv('./data/fish.csv')

##########데이터 분석

##########데이터 전처리

x_data = fish_df.drop(['무게'], axis=1)
y_data = fish_df['무게']

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.3, random_state=42)


##########모델 생성

model = KNeighborsRegressor(n_neighbors=5) #hyperparameter : n_neighbor=3, 5, 7

##########모델 학습

model.fit(x_train, y_train)

##########모델 검증

print(model.score(x_train, y_train)) #0.9680392257494445
print(model.score(x_test, y_test)) #0.9929281790592219

y_predict = model.predict(x_test)
evaluate_reg_all(y_test, y_predict) 


##########모델 예측

x_real = np.array([
    [50]
])

y_real_predict = model.predict(x_real)

print(f'실제 예측값 : {y_real_predict[0]}') #1245.423930742852

0.9679991207970295
0.9929750969802436
MSE: 634.140, RMSE: 25.182, MAE: 17.976, R^2: 0.993
실제 예측값 : 1010.0


```
[참고]
기계 학습에서 훈련 데이터보다 테스트 데이터에서 R-제곱(R2) 값이 더 높은 것은 드문 일입니다.
이 비정상적인 시나리오에는 몇 가지 이유가 있을 수 있습니다.
1. 데이터 유출
2. 작은 테스트 세트
```