In [1]:
# 실습에 필요한 라이브러리를 불러옵니다.
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsRegressor
import matplotlib.pyplot as plt

# 사이킷런에서 보스턴 주택 가격 데이터 세트를 가져옵니다.
dataset = datasets.load_boston()

# 입력 데이터와 타깃을 준비합니다.
X, y = dataset['data'], dataset['target']

# 데이터 세트를 학습 세트와 테스트 세트로 분할합니다.
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

# 데이터 범위 조정을 위해 표준화를 적용합니다.
scaler = StandardScaler()
X_train_std = scaler.fit_transform(X_train)
X_test_std = scaler.transform(X_test)

# 주성분 분석(PCA) 특성 추출 기법을 적용합니다.
pca = PCA(n_components=0.99)
X_train_pca = pca.fit_transform(X_train_std)
X_test_pca = pca.transform(X_test_std)
print('원본 입력 데이터의 특성 개수: {}'.format(len(X_train[0])))
print('주성분 분석이 적용된 입력 데이터의 특성 개수: {}'.format(len(X_train_pca[0])))

# K-최근접 이웃 모델 객체를 만듭니다.
model = KNeighborsRegressor(n_neighbors=10)

# K-최근접 이웃 모델에 학습 세트의 입력 데이터와 타깃을 넣고 학습시킵니다.
model.fit(X_train_pca, y_train)

# 학습 세트에서의 R^2 점수와 테스트 세트에서의 R^2 점수를 계산합니다.
train_score = model.score(X_train_pca, y_train)
test_score = model.score(X_test_pca, y_test)

# 학습 세트에서의 R^2 점수와 테스트 세트에서의 R^2 점수를 출력합니다.
print('학습 세트 R^2 점수: {score:.3f}'.format(score=train_score))
print('테스트 세트 R^2 점수: {score:.3f}'.format(score=test_score))

원본 입력 데이터의 특성 개수: 13
주성분 분석이 적용된 입력 데이터의 특성 개수: 12
학습 세트 R^2 점수: 0.758
테스트 세트 R^2 점수: 0.801
