In [1]:
# Import pandas, numpy
import pandas as pd
import numpy as np

# 회귀 문제를 위한 모델 import
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

# 분류모델 평가를 위한 accuracy_score import
from sklearn.metrics import mean_absolute_error
# 분류모델 평가를 위한 train/test set 분리를 위한 train_test_split import
from sklearn.model_selection import train_test_split
# 정규화를 위한 StandardScaler import
from sklearn.preprocessing import StandardScaler

# Seed 고정
import random
import os
seed = 42
random.seed(seed)
np.random.seed(seed)
os.environ["PYTHONHASHSEED"] = str(seed)

In [2]:
# 회귀 모델 평가를 위해 default값을 넣은 회귀 모델을 각각 학습
# train 과 test으로 분리한 데이터로 각 회귀모델별 mean_absolute_error 계산 후 result 배열에 넣기
def _regression(x, y, result:list):
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1)
    
    for model in [KNeighborsRegressor(), KNeighborsRegressor(weights='distance'), LinearRegression(), DecisionTreeRegressor(), RandomForestRegressor()]:
        model.fit(x_train, y_train)
        res = model.predict(x_test)
        result.append({'model': str(model), 'score': mean_absolute_error(res, y_test)})

In [3]:
# 데이터 불러오기 밑 index열 제거
data = pd.read_csv('../input/2022-ml-midterm-p3/train.csv').drop('index', axis=1)
test = pd.read_csv('../input/2022-ml-midterm-p3/test.csv').drop('index', axis=1)

# 라벨 분리
x = data.drop('price', axis=1)
y = data['price']

# 데이터 정규화
sc = StandardScaler()
x = sc.fit_transform(x, y)
test = sc.transform(test)

In [4]:
# 학습진행 후 결과 확인
result = []
_regression(x, y, result)
print(pd.DataFrame(result))

                                     model     score
0                    KNeighborsRegressor()  3.087654
1  KNeighborsRegressor(weights='distance')  2.869685
2                       LinearRegression()  3.514998
3                  DecisionTreeRegressor()  3.232099
4                  RandomForestRegressor()  2.457580


In [5]:
# 최적 모델 학습 후 결과 도출
submit = pd.read_csv('../input/2022-ml-midterm-p3/submit.csv')
model = RandomForestRegressor()
model.fit(x, y)
res = model.predict(test)
submit['price'] = res
submit.to_csv('submission.csv', index=False)

베스트모델 : RandomForestRegressor - 2.22447

비교한 모델: KNN Classifier, n_neighbors=7, weights=distance - 2.7788

각 train/test로 분리해서 모델 성능 비교결과, RandomForest가 점수가 가장 높고, KNN의 점수가 다음으로 높아서 RandomForest가 베스트 모델일 것으로 추론했다.