## K-최근접 이웃

### (1) 이항 분류 예측 실습

- 변수 지정 및 전처리

In [1]:
#1. 모듈 및 함수 불러오기
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE

#2. 데이터 불러오기
df = pd.read_csv('Ashopping.csv', encoding = 'cp949')

#3. 변수 지정(종속변수/독립변수)
X = df[['총매출액', '방문빈도', '1회 평균매출액', '거래기간', '평균 구매주기']]
Y = df['이탈여부']

#4. 데이터 분할(학습용/평가용 데이터 세트)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)

#5. 표준화
scaler = StandardScaler().fit(X_train)
X_test = scaler.transform(X_test)
X_train = scaler.transform(X_train)

#6. 오버 샘플링
X_train, Y_train = SMOTE(random_state=0).fit_sample(X_train, Y_train)

Using TensorFlow backend.


- 모형 학습 및 예측

In [2]:
#1. 모듈 및 함수 불러오기
from sklearn.neighbors import KNeighborsClassifier

#2. 모형 생성
model= KNeighborsClassifier(n_neighbors=7, metric='euclidean')

#3. 모형 학습 및 예측
model.fit(X_train, Y_train) 
Y_pred = model.predict(X_test) 

print('평가용 데이터 세트에 대한 예측 값:\n', Y_pred)


평가용 데이터 세트에 대한 예측 값:
 [1 1 1 0 0 0 1 1 1 0 1 0 0 1 0 1 0 1 1 1 1 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0
 1 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0 0 1 0 0 1 1 0 1 1 0 1 1 0 1 1 0 1 0 1
 0 0 0 0 1 0 1 1 1 0 0 0 1 0 0 1 0 0 0 0 1 0 0 1 0 1 0 0 1 0 1 0 0 0 0 1 1
 0 0 1 1 0 1 1 0 0 0 0 0 0 1 0 1 1 0 0 1 0 0 0 0 0 1 1 1 0 0 1 1 1 1 0 1 0
 0 0 0 1 0 0 0 0 0 1 0 1 0 0 1 1 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 1 1 0 0 0 0
 1 0 1 0 1 0 0 0 1 0 0 1 1 0 0 1 0 1 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 0 0 0
 0 1 1 1 0 0 1 1 0 0 0 1 1 1 1 1 1 1 0 0 1 1 0 0 0 1 1 0 0 0 1 1 0 0 0 0 1
 1 0 0 0 1 0 0 0 1 1 1 0 0 1 1 0 0 1 0 0 1 0 0 1 1 0 1 0 1 1 0 0 1 0 0 0 1
 0 0 0 1]


- 모형 평가

In [3]:
print('학습용 데이터 세트 정확도: {:.3f}'.format(model.score(X_train, Y_train)))
print('평가용 데이터 세트 정확도: {:.3f}'.format(model.score(X_test, Y_test)))

학습용 데이터 세트 정확도: 0.849
평가용 데이터 세트 정확도: 0.753


In [4]:
#1. 모듈 및 함수 불러오기
from sklearn.metrics import classification_report

#2. 정밀도, 재현율, F1 스코어 평가
print(classification_report(Y_test, Y_pred))

              precision    recall  f1-score   support

           0       0.91      0.73      0.81       219
           1       0.53      0.81      0.64        81

    accuracy                           0.75       300
   macro avg       0.72      0.77      0.73       300
weighted avg       0.81      0.75      0.77       300



### (2) 수치 예측 실습

- 변수 지정 및 전처리

In [5]:
#1. 모듈 및 함수 불러오기
import numpy as np

#2. 변수 지정 및 종속변수 로그 변환
X = df[df.이탈여부==0][['총매출액', '1회 평균매출액', '총 할인 금액', '구매카테고리수', 'Frequency']]
Y =np.log1p(df[df.이탈여부==0]['평균 구매주기'])

#3. 데이터 분할(학습용/평가용 데이터 세트)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)

#4. 표준화
scaler = StandardScaler().fit(X_train)
X_test = scaler.transform(X_test)
X_train = scaler.transform(X_train)

- 모형 학습 및 예측

In [6]:
#1. 모듈 및 함수 불러오기
from sklearn.neighbors import KNeighborsRegressor

#2. 모형 생성
model= KNeighborsRegressor(n_neighbors=5, p=2)

#3. 모형 학습 및 예측
model.fit(X_train, Y_train) 
Y_pred = model.predict(X_test) 

print('평가용 데이터 세트에 대한 예측값\n', Y_pred)

평가용 데이터 세트에 대한 예측값
 [5.34717143 5.38708243 5.52304376 6.0318755  4.76818504 5.34608139
 4.67046114 3.31576348 5.06297391 5.46145837 5.54168431 3.97073032
 4.47711497 5.34332192 6.01209494 5.01648967 5.19457146 5.6723539
 5.11807642 5.33000444 5.61617141 4.55477082 5.92718907 5.08661969
 4.7222249  5.39431823 5.46145837 4.13475272 4.31834868 5.31152424
 5.45809584 5.83092588 5.00853266 5.55964654 5.38142736 5.02000598
 5.15197673 5.49188917 5.16578072 6.33201815 5.33496517 4.41114555
 4.74620605 4.59240314 4.53102866 5.46485119 4.50609478 5.36443026
 5.14143481 5.45809584 5.08569272 5.55134422 3.56248567 4.58572333
 5.10205043 5.5323207  5.25343958 5.87950994 5.06213385 5.13703175
 5.46297207 4.91128427 4.59078379 5.63374381 4.62345007 5.08334026
 5.13926445 4.66892204 6.15321556 3.83091885 5.60857658 5.11807642
 5.17354576 5.00613421 4.13504136 5.89528373 5.83477469 5.6019415
 4.62001851 5.36443026 4.94546855 4.62972634 5.04345397 4.51349639
 5.51457156 5.27452383 5.06062262 5.4596653 

- 모형 평가

In [7]:
print('학습용 데이터 세트 결정계수: {:.3f}'.format(model.score(X_train, Y_train)))
print('평가용 데이터 세트 결정계수: {:.3f}'.format(model.score(X_test, Y_test)))


학습용 데이터 세트 결정계수: 0.806
평가용 데이터 세트 결정계수: 0.709


In [8]:
#1. 모듈 및 함수 불러오기
from sklearn.metrics import mean_squared_error
from math import sqrt

#2. RMSE 계산
rmse= sqrt(mean_squared_error(Y_test, Y_pred))

print('RMSE:{:.3f}'.format(rmse))

RMSE:0.395
