## 서포트 벡터 머신

### (1) 분류 예측 실습

- 변수 지정 및 전처리

In [1]:
#1. 모듈 및 함수 불러오기
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder
from imblearn.over_sampling import SMOTE


#2. 데이터 불러오기
df = pd.read_csv('Ashopping.csv', encoding = 'cp949') 

#3. 변수 선택
X=df[['총매출액', '구매금액대', '거래기간']]
Y=df['할인민감여부']

#4. 데이터 분할(학습용/평가용 데이터 세트)
X_train, X_test, Y_train, Y_test=train_test_split(X, Y, test_size=0.3, random_state=0)

#5. 전처리 (표준화, 원핫인코딩)
ct=ColumnTransformer([('scaling', StandardScaler(), ['총매출액', '거래기간']), \
                        ('onehot', OneHotEncoder(sparse = False),['구매금액대'])])
ct.fit(X_train)
X_train=ct.transform(X_train)
X_test=ct.transform(X_test)

#6. 오버샘플링
X_train, Y_train=SMOTE(random_state=0).fit_sample(X_train, Y_train)


Using TensorFlow backend.


- 모형 학습 및 예측

In [2]:
#1. 모듈 및 함수 불러오기
from sklearn.svm import SVC

#2. 모형 생성 
model=SVC(C=1000, gamma=10, random_state=0)

#3.  모형 학습 및 예측
model.fit(X_train, Y_train)
Y_pred=model.predict(X_test)
print('평가용 데이터 세트에 대한 예측값\n', Y_pred)

평가용 데이터 세트에 대한 예측값
 [0 0 0 0 1 1 1 0 0 1 1 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 1 1 1 0 0 1 1
 0 1 0 0 1 1 1 0 0 1 0 0 0 1 0 0 0 1 1 0 0 1 1 0 1 1 1 0 0 1 0 0 0 1 0 0 0
 1 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 0 1 0 1 1 1 0 0 1 1 1 1 0 1 0 1 0 0 0 0 0 1 0 0
 1 1 0 0 0 0 0 1 0 1 0 0 1 1 0 0 1 0 0 1 0 0 0 1 0 1 0 0 0 0 1 1 0 0 0 0 1
 0 0 1 1 0 0 1 0 1 1 1 1 1 1 0 0 0 0 1 1 0 1 0 0 1 0 0 0 0 0 1 1 0 0 1 1 1
 1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 1 0 1
 0 1 1 0 0 0 0 0 1 1 0 1 0 0 1 1 1 0 0 0 0 1 1 0 1 0 1 1 0 0 0 1 0 1 1 0 1
 0 0 0 1]


- 모형 평가

In [3]:
print('학습용 데이터 세트 정확도: {:.3f}'.format(model.score(X_train, Y_train)))
print('평가용 데이터 세트 정확도: {:.3f}'.format(model.score(X_test, Y_test)))

학습용 데이터 세트 정확도: 0.955
평가용 데이터 세트 정확도: 0.863


In [4]:
#1. 모듈 및 함수 불러오기
from sklearn.metrics import classification_report

#2. 정밀도, 재현율, F1 스코어 출력
print(classification_report(Y_test, Y_pred))

              precision    recall  f1-score   support

           0       0.87      0.90      0.89       177
           1       0.85      0.81      0.83       123

    accuracy                           0.86       300
   macro avg       0.86      0.86      0.86       300
weighted avg       0.86      0.86      0.86       300



### (2) 수치 예측 실습

- 변수 지정 및 전처리

In [5]:
#1. 모듈 및 함수 불러오기
import numpy as np

#2. 변수 지정 및 종속변수 로그 변환
X=df[['방문빈도', '총 할인 금액', '고객등급', '거래기간', '할인민감여부', '평균 구매주기']]
Y=np.log1p(df['1회 평균매출액'])

#3. 데이터 분할(학습용/평가용 데이터 세트)
X_train, X_test, Y_train, Y_test=train_test_split(X, Y, test_size=0.3, random_state=0)

#4. 표준화 및 원핫인코딩
ct=ColumnTransformer([('scaling', StandardScaler(), ['방문빈도', '총 할인 금액', '거래기간', '평균 구매주기']),\
                        ('onehot', OneHotEncoder(sparse = False),['고객등급', '할인민감여부'])])
ct.fit(X_train)
X_train=ct.transform(X_train)
X_test=ct.transform(X_test)

- 모형 학습 및 예측

In [6]:
#1. 모듈 및 함수 불러오기
from sklearn.svm import SVR

#2. 모형 생성
model=SVR(C=10, epsilon=0.1 , gamma=0.01)

#3. 모형 학습 및 예측 
model.fit(X_train, Y_train)
Y_pred=model.predict(X_test)
print('평가용 데이터 세트에 대한 예측값\n', Y_pred)


평가용 데이터 세트에 대한 예측값
 [13.14462348 12.85273706 13.5140571  11.32437201 12.36842708 12.41205055
 11.39325856 13.37983113 11.78169297 12.73894365 12.23455199 13.46663502
 12.52862461 13.53057479 12.15981194 12.76868541 12.70030135 13.59914482
 13.94101366 13.74581627 12.81943613 12.71294961 11.7630653  11.94170141
 12.31114852 12.33076761 13.29454366 12.49913934 12.84986257 11.38931545
 12.62270734 11.81695953 12.08026676 12.24162428 12.79882456 12.73308902
 12.74094378 12.91619299 12.32256839 12.31583507 11.89364698 13.02135447
 12.88512397 12.75224684 13.40321742 11.36580306 12.77393516 13.22981131
 12.3663727  12.07904869 12.21853916 12.00905902 12.81033959 12.25448007
 12.70481709 12.68616241 13.22593447 12.58895604 12.35695479 12.5643251
 12.49405138 12.26456402 13.16833115 13.09914983 12.73185232 13.15090868
 13.19268197 11.82929348 13.22215417 11.00344155 12.43836421 14.05324068
 12.2785248  11.93650018 12.85391267 12.44346166 12.93574044 12.29844493
 12.15805986 12.36696324 12.5355

- 모형 평가

In [7]:
print('학습용 데이터 세트 결정계수: {:.3f}'.format(model.score(X_train, Y_train)))
print('평가용 데이터 세트 결정계수: {:.3f}'.format(model.score(X_test, Y_test)))

학습용 데이터 세트 결정계수: 0.719
평가용 데이터 세트 결정계수: 0.707


In [8]:
#1. 모듈 및 함수 불러오기
from sklearn.metrics import mean_squared_error
from math import sqrt

#2. RMSE 계산
rmse=sqrt(mean_squared_error(Y_test, Y_pred))
print('RMSE: {:.3f}'.format(rmse))


RMSE: 0.399
